Kiểm tra file robots.txt của website
Công cụ kiểm tra và validate file robots.txt của website online miễn phí. Phát hiện lỗi cú pháp, thiếu User-agent directive, Sitemap URL không hợp lệ, Crawl-delay sai format. Tự động fetch robots.txt từ URL hoặc paste nội dung để kiểm tra offline. Hiển thị kết quả chi tiết với success/warning/error cho từng dòng.
Robots.txt là file text đặt ở root của website (example.com/robots.txt) để hướng dẫn search engine bots (Googlebot, Bingbot...) nên crawl những trang nào và không nên crawl những trang nào. File robots.txt sai cú pháp có thể gây ra hậu quả nghiêm trọng: Google không crawl được website (nếu Disallow: / sai), Google crawl những trang không nên crawl (admin, private pages), Sitemap không được tìm thấy. Công cụ Robots.txt Validator giúp bạn kiểm tra syntax và logic của file robots.txt TRƯỚC khi deploy, đảm bảo không có lỗi ảnh hưởng đến SEO và crawling.
Robots.txt là file text đặt ở root của website (example.com/robots.txt) theo Robots Exclusion Protocol. Nó hướng dẫn search engine bots (crawlers) nên crawl những URLs nào và không nên crawl những URLs nào. Đây là 'gentleman agreement' - bots có thể ignore nhưng major search engines đều tuân theo.
KHÔNG hoàn toàn. Disallow chỉ ngăn bot CRAWL trang (không đọc content), nhưng nếu có links từ trang khác trỏ đến, Google vẫn có thể INDEX URL đó (hiển thị trong search results với 'No information available'). Để chặn index hoàn toàn, dùng noindex meta tag hoặc X-Robots-Tag header.
Không bắt buộc nhưng KHUYẾN NGHỊ. Thêm 'Sitemap: https://example.com/sitemap.xml' giúp search engines tìm thấy sitemap nhanh hơn, đặc biệt với new websites. Tuy nhiên, bạn cũng NÊN submit sitemap qua Google Search Console để đảm bảo.
KHÔNG. Google KHÔNG tuân theo Crawl-delay trong robots.txt. Để điều chỉnh tốc độ crawl của Google, sử dụng Google Search Console > Settings > Crawl rate. Crawl-delay chỉ có tác dụng với một số bots khác như Bing, Yandex. Giá trị là số giây giữa các requests.
User-agent: * áp dụng rules cho TẤT CẢ bots. Bạn có thể specific rules cho từng bot: User-agent: Googlebot (chỉ Google), User-agent: Bingbot (chỉ Bing). Rules specific sẽ override rules chung. Nếu không có User-agent, file robots.txt invalid.
Disallow: /path/ ngăn bot crawl URLs bắt đầu bằng /path/. Allow: /path/exception/ cho phép crawl exception trong disallowed path. Allow useful khi bạn muốn block folder nhưng allow một số files. Ví dụ: Disallow: /admin/ + Allow: /admin/public/ = block /admin/ nhưng allow /admin/public/.
* match bất kỳ sequence of characters. $ match end of URL. Ví dụ: Disallow: /*.pdf$ block tất cả URLs kết thúc bằng .pdf. Disallow: /*/private/ block /a/private/, /b/private/... Lưu ý: không phải tất cả bots đều support wildcards, nhưng Google và Bing có.
Directives (User-agent, Disallow, Allow) là case-insensitive. Nhưng URL paths là case-sensitive trên hầu hết servers. /Admin/ và /admin/ là khác nhau. Best practice: match exact case của URLs trên website.
Chúng tôi không chỉ thiết kế website, mà còn giúp doanh nghiệp xây dựng thương hiệu số mạnh mẽ. Cung cấp dịch vụ thiết kế website trọn gói từ thiết kế đến tối ưu SEO. Hãy liên hệ ngay với Tấn Phát Digital để cùng tạo nên những giải pháp công nghệ đột phá, hiệu quả và bền vững cho doanh nghiệp của bạn tại Hồ Chí Minh.
Kiểm tra backlinks của website.
Kiểm tra thẻ canonical URL.
Phân tích cấu trúc H1-H6.
Crawl hình ảnh từ website.
Phân tích mật độ từ khóa.
Kiểm tra độ dài Title & Description.
Kiểm tra meta redirect.
Tạo meta tags chuẩn SEO.
Tạo ảnh OpenGraph từ URL.
Xem trước meta tags khi share.
Kiểm tra chuỗi redirect URL.
Kiểm tra noindex/nofollow.