Robots.txt là gì? Cách tạo file Robots.txt chuẩn SEO cho website

Robots.txt là gì?
Robots.txt là một tệp văn bản đơn giản đặt tại thư mục gốc của website (ví dụ: https://example.com/robots.txt
). Tệp này dùng để hướng dẫn các công cụ tìm kiếm như Googlebot cách thu thập dữ liệu (crawl) và lập chỉ mục (index) nội dung trên trang web.
Hiểu đơn giản, robots.txt giống như một bảng chỉ dẫn cho bot: được vào đâu, không được vào đâu. Nhờ đó, bạn có thể kiểm soát hoạt động thu thập dữ liệu, tránh lãng phí tài nguyên và tối ưu hiệu quả SEO.
Ví dụ:
Bạn muốn Google không thu thập các trang giỏ hàng, kết quả tìm kiếm nội bộ hoặc file PDF nặng → có thể dùng robots.txt để chặn.
Ngược lại, bạn muốn bot tập trung crawl các trang dịch vụ, sản phẩm, bài viết chính → thì để mở quyền truy cập.
Vai trò của Robots.txt trong SEO
Một website có thể có hàng nghìn URL, nhưng không phải URL nào cũng quan trọng với SEO. Lúc này, robots.txt đóng vai trò như một công cụ lọc dữ liệu, giúp Google tập trung crawl vào những nội dung có giá trị nhất.
1. Tiết kiệm ngân sách crawl (Crawl Budget)
Googlebot có giới hạn nhất định về tần suất và số lượng trang mà bot có thể crawl trên mỗi website. Nếu bạn để bot lãng phí crawl vào những URL kém giá trị (ví dụ: /search/
, /cart/
, /tag/
), những trang quan trọng hơn có thể bị chậm index.
2. Tránh trùng lặp nội dung (Duplicate Content)
Các URL có tham số (parameter), filter, session ID… dễ tạo ra nội dung trùng lặp. Robots.txt có thể chặn bot truy cập vào những URL này, giúp website sạch sẽ và tập trung hơn.
3. Hỗ trợ Technical SEO
Trong technical SEO (tối ưu kỹ thuật cho website), robots.txt là một trong những file cốt lõi cùng với sitemap.xml, .htaccess, canonical tag… Nếu thiếu robots.txt hoặc cấu hình sai, website có thể bị index nhầm trang không mong muốn hoặc bỏ sót trang quan trọng.
👉 Nếu bạn muốn tìm hiểu thêm về cách tối ưu kỹ thuật, hãy tham khảo bài viết: Technical SEO là gì? Checklist Technical SEO Website.
4. Không phải công cụ bảo mật
Cần lưu ý: robots.txt không bảo mật website. Các trang bị chặn vẫn có thể truy cập nếu ai đó biết URL trực tiếp, và đôi khi vẫn xuất hiện trên Google nếu có link từ website khác. Để ngăn hoàn toàn index, bạn phải dùng thẻ meta noindex hoặc X-Robots-Tag trong header HTTP.
Cấu trúc cơ bản của tệp Robots.txt
Một file robots.txt thường gồm 4 thành phần chính:
User-agent: [tên bot]
Disallow: [đường dẫn bị chặn]
Allow: [đường dẫn được phép]
Sitemap: [URL sitemap XML]
Ví dụ file chuẩn:
User-agent: Googlebot
Disallow: /private/
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
Giải thích:
User-agent
: Bot tìm kiếm áp dụng (ví dụ: Googlebot, Bingbot).Disallow
: Chặn bot truy cập vào đường dẫn cụ thể.Allow
: Cho phép bot truy cập, kể cả trong thư mục bị chặn.Sitemap
: Khai báo URL sơ đồ website để hỗ trợ lập chỉ mục.
Nguyên tắc tạo Robots.txt chuẩn SEO
Đặt đúng vị trí: file robots.txt phải nằm ở thư mục gốc (
https://domain.com/robots.txt
).Dùng đúng tên: phải là
robots.txt
(có chữ s). Nhiều người nhầm thànhrobot.txt
là sai.Viết chính xác cú pháp: sai chính tả hoặc khoảng trắng dư có thể làm bot bỏ qua file.
Không lạm dụng Disallow: nếu chặn nhầm thư mục quan trọng (như
/blog/
,/services/
) → website mất index.Khai báo Sitemap: giúp bot hiểu rõ cấu trúc và ưu tiên crawl nội dung quan trọng.
Kiểm tra định kỳ: dùng công cụ Robots.txt Tester trong Google Search Console để test.
Những lưu ý quan trọng khi sử dụng Robots.txt
Không thay thế Noindex: Robots.txt chỉ kiểm soát crawl, không đảm bảo chặn index. Nếu trang đã được crawl từ nguồn khác, nó vẫn có thể xuất hiện trên Google.
Cẩn thận với các plugin SEO: Nếu dùng Yoast SEO, RankMath hoặc All in One SEO, bạn có thể tạo robots.txt ảo. Lúc này, không cần upload file vào server.
Kiểm tra khi gặp sự cố index: Nếu website có tình trạng không index bài viết mới, hãy xem robots.txt có đang chặn nhầm không. Bạn có thể tham khảo thêm bài viết: Tại sao Google không index bài viết? Cách khắc phục nhanh nhất.
Ví dụ thực tế Robots.txt cho website
1. Website tin tức/blog
User-agent: *
Disallow: /wp-admin/
Disallow: /search/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.example.com/sitemap.xml
2. Website thương mại điện tử
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /search/
Allow: /
Sitemap: https://www.example.com/sitemap.xml
3. Website doanh nghiệp dịch vụ
User-agent: *
Disallow:
Allow: /
Sitemap: https://www.example.com/sitemap.xml
Robots.txt và chiến lược SEO tại Việt Nam
Thị trường SEO tại Việt Nam có một số đặc thù:
Website thương mại điện tử thường có nhiều URL động (lọc giá, màu sắc, kích thước). Nếu không chặn hợp lý → duplicate content.
Website dịch vụ thường ít trang, nhưng lại dễ bị mất index nếu chặn sai.
Website tin tức/blog dễ sinh ra nhiều URL tìm kiếm, thẻ tag, chuyên mục → cần tối ưu robots.txt để tiết kiệm crawl budget.
Điều quan trọng: robots.txt không chỉ để “ngăn bot”, mà cần kết hợp với nội dung, cấu trúc website, sitemap và internal link. Nếu bạn đang triển khai SEO, hãy xem bài viết: SEO website cơ bản – Checklist thực chiến 6 tháng để lên kế hoạch đồng bộ.
Tấn Phát Digital – đồng hành chuẩn hóa SEO kỹ thuật
Bài viết này được phát triển bởi Tấn Phát Digital (https://tanphatdigital.com/), nơi chúng tôi tập trung vào giải pháp SEO toàn diện, bao gồm technical SEO, content strategy, và thiết kế website chuẩn để doanh nghiệp nhỏ – trung có thể triển khai hiệu quả và bền vững. Nếu bạn muốn tư vấn robots.txt chuẩn cho website của mình, đừng ngần ngại liên hệ với chúng tôi để được hỗ trợ chi tiết.
Robots.txt là tệp cơ bản nhưng cực kỳ quan trọng trong SEO kỹ thuật. Nó giúp bạn kiểm soát crawl budget, ngăn duplicate content, hỗ trợ sitemap và technical SEO. Nhưng nó không phải công cụ bảo mật, cũng không thay thế thẻ noindex hay canonical. Để SEO hiệu quả, bạn cần kết hợp robots.txt với các yếu tố khác như sitemap.xml, canonical tags, nội dung chất lượng và cấu trúc website sạch.
Bài viết liên quan

11 Bài Học Marketing Triệu View Từ Kênh Nông Sản | Ứng Dụng Mọi Lĩnh Vực

[2025] Làm Sao Để Chọn Từ Khóa SEO Phù Hợp Cho Website Của Bạn? – Hướng Dẫn Dành Cho Doanh Nghiệp Nhỏ

[2025] SEO Địa Phương: Làm Thế Nào Để Tối Ưu Website Cho Tìm Kiếm Địa Phương? – Chiến Lược Dành Riêng Cho Doanh Nghiệp Nhỏ

[2025] Tại Sao Bài Viết Không Lên Google? Cách Index Chuẩn Nhất Cho Website Doanh Nghiệp Nhỏ

Backlink là gì? Tại sao cần xây dựng liên kết chất lượng?

Bí Quyết Viết Nội Dung Website Chuẩn SEO Giúp Tăng Thứ Hạng & Giữ Chân Khách Hàng

Các Công Cụ SEO Tốt Nhất Cho Doanh Nghiệp Nhỏ Tại Hồ Chí Minh
