Tan Phat Media

Robots.txt là gì? Cách tạo file Robots.txt chuẩn SEO cho website

14 tháng 9, 2025
4.313
Seo Marketing
Robots.txt là gì? Cách tạo file Robots.txt chuẩn SEO cho website - Tấn Phát Digital

Robots.txt là gì?

Robots.txt là một tệp văn bản đơn giản đặt tại thư mục gốc của website (ví dụ: https://example.com/robots.txt). Tệp này dùng để hướng dẫn các công cụ tìm kiếm như Googlebot cách thu thập dữ liệu (crawl) và lập chỉ mục (index) nội dung trên trang web.

Hiểu đơn giản, robots.txt giống như một bảng chỉ dẫn cho bot: được vào đâu, không được vào đâu. Nhờ đó, bạn có thể kiểm soát hoạt động thu thập dữ liệu, tránh lãng phí tài nguyên và tối ưu hiệu quả SEO.

Ví dụ:

  • Bạn muốn Google không thu thập các trang giỏ hàng, kết quả tìm kiếm nội bộ hoặc file PDF nặng → có thể dùng robots.txt để chặn.

  • Ngược lại, bạn muốn bot tập trung crawl các trang dịch vụ, sản phẩm, bài viết chính → thì để mở quyền truy cập.

Vai trò của Robots.txt trong SEO

Một website có thể có hàng nghìn URL, nhưng không phải URL nào cũng quan trọng với SEO. Lúc này, robots.txt đóng vai trò như một công cụ lọc dữ liệu, giúp Google tập trung crawl vào những nội dung có giá trị nhất.

1. Tiết kiệm ngân sách crawl (Crawl Budget)

Googlebot có giới hạn nhất định về tần suất và số lượng trang mà bot có thể crawl trên mỗi website. Nếu bạn để bot lãng phí crawl vào những URL kém giá trị (ví dụ: /search/, /cart/, /tag/), những trang quan trọng hơn có thể bị chậm index.

2. Tránh trùng lặp nội dung (Duplicate Content)

Các URL có tham số (parameter), filter, session ID… dễ tạo ra nội dung trùng lặp. Robots.txt có thể chặn bot truy cập vào những URL này, giúp website sạch sẽ và tập trung hơn.

3. Hỗ trợ Technical SEO

Trong technical SEO (tối ưu kỹ thuật cho website), robots.txt là một trong những file cốt lõi cùng với sitemap.xml, .htaccess, canonical tag… Nếu thiếu robots.txt hoặc cấu hình sai, website có thể bị index nhầm trang không mong muốn hoặc bỏ sót trang quan trọng.

👉 Nếu bạn muốn tìm hiểu thêm về cách tối ưu kỹ thuật, hãy tham khảo bài viết: Technical SEO là gì? Checklist Technical SEO Website.

4. Không phải công cụ bảo mật

Cần lưu ý: robots.txt không bảo mật website. Các trang bị chặn vẫn có thể truy cập nếu ai đó biết URL trực tiếp, và đôi khi vẫn xuất hiện trên Google nếu có link từ website khác. Để ngăn hoàn toàn index, bạn phải dùng thẻ meta noindex hoặc X-Robots-Tag trong header HTTP.

Cấu trúc cơ bản của tệp Robots.txt

Một file robots.txt thường gồm 4 thành phần chính:

User-agent: [tên bot]
Disallow: [đường dẫn bị chặn]
Allow: [đường dẫn được phép]
Sitemap: [URL sitemap XML]

Ví dụ file chuẩn:

User-agent: Googlebot
Disallow: /private/

User-agent: *
Allow: /

Sitemap: https://www.example.com/sitemap.xml

Giải thích:

  • User-agent: Bot tìm kiếm áp dụng (ví dụ: Googlebot, Bingbot).

  • Disallow: Chặn bot truy cập vào đường dẫn cụ thể.

  • Allow: Cho phép bot truy cập, kể cả trong thư mục bị chặn.

  • Sitemap: Khai báo URL sơ đồ website để hỗ trợ lập chỉ mục.

Nguyên tắc tạo Robots.txt chuẩn SEO

  1. Đặt đúng vị trí: file robots.txt phải nằm ở thư mục gốc (https://domain.com/robots.txt).

  2. Dùng đúng tên: phải là robots.txt (có chữ s). Nhiều người nhầm thành robot.txt là sai.

  3. Viết chính xác cú pháp: sai chính tả hoặc khoảng trắng dư có thể làm bot bỏ qua file.

  4. Không lạm dụng Disallow: nếu chặn nhầm thư mục quan trọng (như /blog/, /services/) → website mất index.

  5. Khai báo Sitemap: giúp bot hiểu rõ cấu trúc và ưu tiên crawl nội dung quan trọng.

  6. Kiểm tra định kỳ: dùng công cụ Robots.txt Tester trong Google Search Console để test.

Những lưu ý quan trọng khi sử dụng Robots.txt

  • Không thay thế Noindex: Robots.txt chỉ kiểm soát crawl, không đảm bảo chặn index. Nếu trang đã được crawl từ nguồn khác, nó vẫn có thể xuất hiện trên Google.

  • Cẩn thận với các plugin SEO: Nếu dùng Yoast SEO, RankMath hoặc All in One SEO, bạn có thể tạo robots.txt ảo. Lúc này, không cần upload file vào server.

  • Kiểm tra khi gặp sự cố index: Nếu website có tình trạng không index bài viết mới, hãy xem robots.txt có đang chặn nhầm không. Bạn có thể tham khảo thêm bài viết: Tại sao Google không index bài viết? Cách khắc phục nhanh nhất.

Ví dụ thực tế Robots.txt cho website

1. Website tin tức/blog

User-agent: *
Disallow: /wp-admin/
Disallow: /search/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.example.com/sitemap.xml

2. Website thương mại điện tử

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /search/
Allow: /
Sitemap: https://www.example.com/sitemap.xml

3. Website doanh nghiệp dịch vụ

User-agent: *
Disallow:
Allow: /
Sitemap: https://www.example.com/sitemap.xml

Robots.txt và chiến lược SEO tại Việt Nam

Thị trường SEO tại Việt Nam có một số đặc thù:

  • Website thương mại điện tử thường có nhiều URL động (lọc giá, màu sắc, kích thước). Nếu không chặn hợp lý → duplicate content.

  • Website dịch vụ thường ít trang, nhưng lại dễ bị mất index nếu chặn sai.

  • Website tin tức/blog dễ sinh ra nhiều URL tìm kiếm, thẻ tag, chuyên mục → cần tối ưu robots.txt để tiết kiệm crawl budget.

Điều quan trọng: robots.txt không chỉ để “ngăn bot”, mà cần kết hợp với nội dung, cấu trúc website, sitemap và internal link. Nếu bạn đang triển khai SEO, hãy xem bài viết: SEO website cơ bản – Checklist thực chiến 6 tháng để lên kế hoạch đồng bộ.

Tấn Phát Digital – đồng hành chuẩn hóa SEO kỹ thuật

Bài viết này được phát triển bởi Tấn Phát Digital (https://tanphatdigital.com/), nơi chúng tôi tập trung vào giải pháp SEO toàn diện, bao gồm technical SEO, content strategy, và thiết kế website chuẩn để doanh nghiệp nhỏ – trung có thể triển khai hiệu quả và bền vững. Nếu bạn muốn tư vấn robots.txt chuẩn cho website của mình, đừng ngần ngại liên hệ với chúng tôi để được hỗ trợ chi tiết.

Robots.txt là tệp cơ bản nhưng cực kỳ quan trọng trong SEO kỹ thuật. Nó giúp bạn kiểm soát crawl budget, ngăn duplicate content, hỗ trợ sitemap và technical SEO. Nhưng nó không phải công cụ bảo mật, cũng không thay thế thẻ noindex hay canonical. Để SEO hiệu quả, bạn cần kết hợp robots.txt với các yếu tố khác như sitemap.xml, canonical tags, nội dung chất lượng và cấu trúc website sạch.

Bài viết liên quan

Hình ảnh đại diện của bài viết: 05 Công Cụ Nắm Bắt Xu Hướng Chuyên Sâu: Chìa Khóa Tối Ưu Chiến Dịch Quảng Cáo Mạng Xã Hội

05 Công Cụ Nắm Bắt Xu Hướng Chuyên Sâu: Chìa Khóa Tối Ưu Chiến Dịch Quảng Cáo Mạng Xã Hội

Khám phá 5 công cụ phân tích xu hướng chuyên sâu, từ TikTok Trends đến AI nhắm mục tiêu, cùng 10 lời khuyên chiến lược và các Case Study thực tế giúp thương hiệu tối ưu chiến dịch quảng cáo, tăng ROI và bứt phá doanh số trong mùa lễ hội sắp tới. Được cung cấp bởi Tấn Phát Digital.

Hình ảnh đại diện của bài viết: 10 Chiến Dịch Social Media Truyền Cảm Hứng: Phân Tích Chiến Lược & Bài Học Đắt Giá

10 Chiến Dịch Social Media Truyền Cảm Hứng: Phân Tích Chiến Lược & Bài Học Đắt Giá

Social Media là công cụ định hình nhận thức thương hiệu. Bài viết này phân tích 10 case study thành công nhất để rút ra các bài học đắt giá về chiến lược, tính xác thực và khả năng tạo ra tương tác toàn cầu.

Hình ảnh đại diện của bài viết: 10 Chiến Lược Tăng Traffic Website Hiệu Quả & Bền Vững

10 Chiến Lược Tăng Traffic Website Hiệu Quả & Bền Vững

Bạn muốn tăng traffic website nhưng vẫn đảm bảo chất lượng và bền vững? Bài viết chia sẻ 10 chiến lược SEO & marketing hiệu quả, phân tích rủi ro traffic ảo, và gợi ý giải pháp cùng Tấn Phát Digital.

Hình ảnh đại diện của bài viết: 10 Sai lầm Từ khóa Volume Search & Chiến lược SEO

10 Sai lầm Từ khóa Volume Search & Chiến lược SEO

Đừng để con số Volume đánh lừa. Tấn Phát Digital phân tích sâu về Search Intent, độ khó và giá trị thương mại để xây dựng bộ từ khóa mang lại doanh thu bền vững thay vì chỉ là traffic ảo.

Hình ảnh đại diện của bài viết: 10 Xu hướng AI Marketing Cần Nắm Bắt Để Bứt Phá Trong Năm 2026

10 Xu hướng AI Marketing Cần Nắm Bắt Để Bứt Phá Trong Năm 2026

Năm 2026, AI không chỉ là công cụ mà là năng lực cạnh tranh cốt lõi. Khám phá 10 xu hướng đột phá: APM, Hyper-Orchestration, và Content Hybrid để làm chủ cuộc chơi Digital Marketing.

Hình ảnh đại diện của bài viết: 11 Bài Học Marketing Triệu View Từ Kênh Nông Sản | Ứng Dụng Mọi Lĩnh Vực

11 Bài Học Marketing Triệu View Từ Kênh Nông Sản | Ứng Dụng Mọi Lĩnh Vực

Khám phá 11 bài học marketing cảm xúc từ các kênh nông sản triệu view và cách ứng dụng vào mọi doanh nghiệp. Tấn Phát Digital giúp bạn xây dựng chiến lược nội dung doanh nghiệp có sức lan tỏa.

Hình ảnh đại diện của bài viết: 13 Tuyệt Chiêu Hook Video Triệu View Chạm Cảm Xúc 2026

13 Tuyệt Chiêu Hook Video Triệu View Chạm Cảm Xúc 2026

Chỉ cần 3 giây để thay đổi số phận một video. Tấn Phát Digital chia sẻ 13 công thức hook "thần thánh" giúp nội dung của bạn không thể bị lướt qua trong kỷ nguyên AI Search.

Hình ảnh đại diện của bài viết: 14 Chiến Lược Giữ Chân Khách Hàng Cho Nửa Cuối 2025

14 Chiến Lược Giữ Chân Khách Hàng Cho Nửa Cuối 2025

Giữ chân khách hàng tiết kiệm chi phí gấp 5 lần so với tìm mới. Cùng Tấn Phát Digital khám phá 14 chiến lược retention hiệu quả, áp dụng ngay cho nửa cuối năm 2025.

Zalo
Facebook
Tấn Phát Digital
Zalo
Facebook