Tấn Phát Digital — Bài viết được biên dịch và Việt hóa từ tài liệu chính thức "Optimize your crawl budget" của Google Search Central. Đây là bài advanced dành cho ecommerce lớn, news publishers và large sites tại Việt Nam.
Crawl Budget — Khái niệm "vô hình" nhưng cực kỳ quan trọng
Tưởng tượng Googlebot như "khách hàng VIP" đến shop của bạn:
⏰ Họ chỉ có giới hạn thời gian mỗi ngày
📋 Họ có danh sách cụ thể muốn xem
🏃 Họ nhanh chóng rời đi nếu shop chậm
🚫 Họ không quay lại nếu shop quá lớn và rối
Crawl Budget = "Thời gian" Googlebot dành cho site của bạn.
Tại Việt Nam:
90% ecommerce lớn (>100k URLs) có vấn đề crawl budget
70% news sites WASTE crawl budget vào duplicate URLs
Site có hàng triệu URLs chỉ index được 30-50%
Bài viết này, Tấn Phát Digital sẽ hướng dẫn optimization chuyên sâu cho large sites.
Bài viết này dành cho:
⚠️ Bài advanced. Không cần thiết cho:
Site nhỏ (<5,000 pages)
Pages được crawl ngay sau publish
Sitemap up-to-date đầy đủ
✅ Cần thiết cho:
Large sites (1M+ unique pages) update weekly
Medium+ sites (10k+ pages) update daily
Sites có nhiều "Discovered - currently not indexed" trong Search Console
Phần 1: Crawl Budget là gì?
1.1. Định nghĩa từ Google
Google nói:
"The amount of TIME AND RESOURCES that Google devotes to crawling a site is commonly called the site's CRAWL BUDGET."
Crawl Budget = Crawl Capacity Limit + Crawl Demand
1.2. 2 yếu tố cấu thành
Yếu tố 1: Crawl Capacity Limit
"Crawl Capacity Limit là MAXIMUM số simultaneous parallel connections Google có thể dùng để crawl site, cũng như time delay giữa các fetches."
Tăng/giảm dựa trên:
📈 Tăng nếu:
├── Site response nhanh
├── Server stable
└── Không có errors
📉 Giảm nếu:
├── Site chậm
├── Server errors (5xx)
└── Timeouts
Yếu tố 2: Crawl Demand
"Crawl Demand depends on size, update frequency, page quality, và relevance compared to other sites."
3 factors:
🎯 Perceived Inventory:
"Bạn có content gì?"
└── Càng nhiều unique URLs → demand cao
Càng nhiều duplicates → waste budget
🌟 Popularity:
"URL có nổi tiếng không?"
└── URL có nhiều backlinks/traffic
→ crawl thường xuyên hơn
🕐 Staleness:
"Content có cần update không?"
└── News/ecommerce → crawl thường
Static pages → crawl ít hơn
1.3. Tóm tắt
"Even if the crawl capacity limit isn't reached, IF CRAWL DEMAND IS LOW, Google will crawl your site LESS."
→ Cần optimize CẢ HAI factors.
Phần 2: Crawl ≠ Index
⚠️ Quan trọng:
"For Google Search, NOT EVERY PAGE that is crawled will necessarily be INDEXED."
📊 Process flow:
URL được Google biết
↓
[Crawl Queue]
↓ (limited by crawl budget)
Crawled
↓
[Processing]
↓
Evaluated for quality
↓
[Index Decision]
↓
├── Indexed ✅
├── Not indexed (low quality) ❌
└── Duplicate (consolidated) 🔄
→ Crawl budget chỉ là bước đầu. Quality content vẫn cần thiết.
Phần 3: 6 Best Practices
Google list 6 best practices chính:
Practice 1: Manage URL inventory
Sub-practice 1a: Consolidate duplicate content
❌ Sai: Nhiều URLs cho cùng content.
example.com/product?id=123
example.com/product/aotrang-id-123
example.com/aotrang?color=white
example.com/products/ao-thun-trang
→ TẤT CẢ cùng 1 sản phẩm
✅ Đúng: Canonicalize.
<!-- Tất cả non-canonical URLs có: -->
<link rel="canonical" href="https://example.com/products/ao-thun-trang">
Sub-practice 1b: Block crawling không quan trọng
robots.txt block:
# robots.txt
User-agent: *
# Block search results pages
Disallow: /search?
Disallow: /*?q=
# Block sorted versions
Disallow: /*?sort=
Disallow: /*?orderBy=
# Block filtered versions
Disallow: /*?filter=
Disallow: /*?color=&size=
# Block paginated content vô tận
Disallow: /infinite-scroll/
# Block tracking parameters
Disallow: /*?utm_*
Disallow: /*?fbclid=
Disallow: /*?gclid=
Sitemap: https://example.com/sitemap.xml
Sub-practice 1c: KHÔNG dùng noindex để save budget!
⚠️ Google warning quan trọng:
"Don't use
noindex, as Google will STILL REQUEST, but then drop the page when it sees anoindexmeta tag or header, WASTING CRAWLING TIME."
robots.txt Disallow vs noindex meta:
robots.txt Disallow:
└── Google KHÔNG fetch
└── SAVE crawl budget ✅
noindex meta:
└── Google FETCH rồi mới biết noindex
└── WASTE crawl budget ❌
→ Cho large sites: dùng robots.txt, không phải noindex.
Sub-practice 1d: 404/410 cho pages permanently removed
404 Not Found:
└── Strong signal: "don't crawl again"
410 Gone:
└── Stronger signal: "permanently removed"
Blocked URLs (robots.txt):
└── Stay in crawl queue LONGER
Will be re-crawled when block removed
Sub-practice 1e: Eliminate Soft 404
Soft 404 = HTTP 200 status code nhưng content giống error page.
❌ Sai:
URL: /product/non-existent-id
Status: 200 OK
Content: "Sản phẩm không tồn tại"
✅ Đúng:
URL: /product/non-existent-id
Status: 404 Not Found
Content: "Sản phẩm không tồn tại"
Sub-practice 1f: Keep sitemap up to date
<url>
<loc>https://example.com/page</loc>
<lastmod>2026-05-21</lastmod>
</url>
→ Include <lastmod> cho URLs có content thay đổi.
Sub-practice 1g: Avoid long redirect chains
❌ Sai:
A → B (301) → C (301) → D (301) → E
4 redirects → waste budget
✅ Đúng:
A → E (301)
1 redirect → efficient
Practice 2: Make pages efficient to load
🚀 Optimization techniques:
├── Reduce server response time (TTFB)
├── Compress assets (gzip/Brotli)
├── Use CDN
├── Optimize database queries
├── Cache static content
└── Minify HTML/CSS/JS
→ Xem Bài 22 — Core Web Vitals.
Practice 3: Debug crawl issues
Tools:
🔍 Search Console:
├── Coverage report
├── Crawl stats
├── URL Inspection
└── Sitemaps report
🔍 Server logs:
├── Identify Googlebot requests
├── Find 404/500 errors
├── Detect crawl patterns
└── Spot waste
🔍 Log file analyzers:
├── Screaming Frog Log Analyzer
├── JetOctopus
└── Botify
Phần 4: Faceted Navigation — Vấn đề kinh điển
4.1. Vấn đề
Ecommerce thường có filters/facets:
Filters:
├── Color (10 options)
├── Size (5 options)
├── Brand (20 options)
├── Price range (8 options)
└── Material (15 options)
Combinations:
10 × 5 × 20 × 8 × 15 = 120,000 unique URLs!
→ Crawl budget bomb!
4.2. Strategy
Strategy 1: Allow important combinations
✅ /products?color=red (popular)
✅ /products?brand=apple (popular)
❌ /products?color=red&size=L&brand=nike&price=200-300 (too specific)
Strategy 2: Use canonical
<!-- /products?color=red&size=L -->
<link rel="canonical" href="https://example.com/products">
→ Filter results consolidate về main category page.
Strategy 3: robots.txt selective
# Allow color filters
# Block other filters
User-agent: *
Allow: /products?color=
Disallow: /products?*size=
Disallow: /products?*brand=
Disallow: /products?*price=
Strategy 4: AJAX filters
// Instead of changing URL với filter
// Use AJAX để update content
button.onclick = async () => {
const filtered = await fetch('/api/filter?color=red');
updateUI(filtered);
// URL stays same
};
→ Không tạo URLs mới khi filter.
Phần 5: Site Architecture cho Large Sites
5.1. Flat vs Deep architecture
❌ Deep (BAD):
home
└── category
└── subcategory
└── sub-subcategory
└── sub-sub-subcategory
└── product
(5+ clicks deep)
✅ Flat (GOOD):
home
├── category
│ └── product (3 clicks)
├── popular-products
└── new-arrivals
(2 clicks max)
→ Pages càng gần home = càng được crawl thường.
5.2. Hub pages strategy
Hub pages = Trang tổng hợp links đến nhiều sub-pages.
🏠 Home
↓
🎯 Hub: "Best Sellers"
├── Product 1
├── Product 2
├── Product 3
└── ... (50 products)
→ Boost crawl frequency cho linked products.
5.3. Internal linking optimization
🔗 Internal linking principles:
1. Homepage → Category (1 click)
2. Category → Sub-category (2 clicks)
3. Sub-category → Product (3 clicks)
❌ Avoid orphan pages (no internal links)
❌ Avoid deep burying (5+ clicks)
✅ Cross-link related content
✅ Breadcrumb navigation
5.4. Pagination strategy
❌ Sai (vô tận):
/products?page=1
/products?page=2
...
/products?page=1000
✅ Đúng:
/products?page=1 → indexed
/products?page=2-5 → noindex, follow
/products?page=6+ → blocked
HOẶC dùng "View All" page:
<link rel="canonical"
href="https://example.com/products?view=all">
Phần 6: Crawl Stats trong Search Console
6.1. Truy cập
Search Console → Settings → Crawl Stats
6.2. Metrics quan trọng
Total crawl requests
→ Số requests Google đã làm.
Total download size
→ Bytes Google đã fetch.
Average response time
→ Tốc độ response của server.
Host status
→ Health của server.
6.3. Phân tích patterns
📊 Trends to watch:
📈 Crawl requests tăng đột ngột:
├── Could be: Site update lớn
└── Or: Crawl loop (waste!)
📉 Crawl requests giảm:
├── Could be: Server issues
└── Or: Google's lost interest
⚡ Response time tăng:
└── Server overload → crawl giảm
6.4. Breakdown by file type
📊 By type:
├── HTML pages
├── CSS files
├── JavaScript files
├── Images
└── PDFs / other
📊 By purpose:
├── Discovery (new URLs)
├── Refresh (existing URLs)
📊 By response code:
├── 200 OK
├── 301 redirects
├── 404 errors
└── 5xx errors
→ Identify problems quickly.
Phần 7: Cách tăng Crawl Budget
Google nói:
"There are TWO WAYS to increase crawl budget."
Way 1: Add server resources
Nếu server overloaded:
Signs you need more resources:
├── "Hostload exceeded" trong URL Inspection
├── Frequent 5xx errors
├── Slow response time consistently
└── Site bị crawl ít hơn dù có content mới
Solutions:
🚀 Server upgrades:
├── Better hosting plan
├── More RAM/CPU
├── CDN implementation
├── Load balancing
├── Database optimization
└── Caching layers
Way 2: Optimize content quality
"Google determines crawling resources allocated to each site by factoring elements relevant to specific Google product."
For Google Search:
📈 Quality factors:
├── Popularity (backlinks, traffic)
├── Overall user value
├── Content uniqueness
└── Serving capacity
→ Content quality = crawl budget bigger.
Phần 8: 10 Mistakes làm waste crawl budget
❌ Mistake 1: Quá nhiều URL parameters
❌ /products?sort=price&order=asc&utm_source=fb&t=12345
→ Tạo vô số combinations.
❌ Mistake 2: Faceted navigation không control
→ Hàng triệu URL filter combinations.
❌ Mistake 3: Session IDs trong URLs
❌ /page;jsessionid=ABC123
❌ Mistake 4: Infinite scroll không limit
❌ /products?page=1...10000
❌ Mistake 5: Duplicate content khắp nơi
❌ Same product, 5+ different URLs
❌ Mistake 6: Long redirect chains
❌ A → B → C → D → E
❌ Mistake 7: Slow server response
❌ TTFB > 1.5s
❌ Mistake 8: Soft 404 errors
❌ 200 status cho error pages
❌ Mistake 9: Dùng noindex thay vì robots.txt
❌ Million noindex pages
❌ Mistake 10: Sitemap outdated
❌ Sitemap có URLs cũ, redirects, 404s
Phần 9: Roadmap optimization
Phase 1: Audit (Week 1-2)
✅ Day 1-3: Export crawl stats
✅ Day 4-7: Identify waste patterns
✅ Day 8-14: Server log analysis
Phase 2: Quick wins (Week 3-4)
✅ Update robots.txt
✅ Fix soft 404s
✅ Eliminate duplicate URLs (canonical)
✅ Shorten redirect chains
Phase 3: Structural (Month 2)
✅ Faceted navigation strategy
✅ Pagination optimization
✅ Internal linking review
✅ Site architecture flatten
Phase 4: Server (Month 3)
✅ Server performance optimization
✅ CDN implementation
✅ Database tuning
✅ Caching strategy
Phase 5: Monitor (Ongoing)
✅ Weekly crawl stats check
✅ Monthly comprehensive audit
✅ Continuous improvement
Phần 10: Case Study
Tình huống
Ecommerce VN, 500k SKUs:
Before:
📊 Stats:
├── Total URLs: 5.2 million
├── Indexed: 380k (7.3%)
├── Crawl rate: 50k/day
├── 80% crawl budget waste
└── New products take 14 days to index
Problems identified:
❌ 4.2M URLs from faceted navigation
❌ 200k duplicate product URLs
❌ 50k soft 404s
❌ 10k redirect chains 3-5 hops
Actions taken:
✅ Updated robots.txt block bad filters
✅ Implemented canonical site-wide
✅ Fixed 404s properly
✅ Shortened redirects
✅ CDN setup
After (3 months):
📊 Stats:
├── Total URLs in queue: 600k (-88%)
├── Indexed: 450k (75%)
├── Crawl rate: 200k/day (+300%)
├── 90% efficient
└── New products indexed in 24-48h
📈 Business impact:
├── Organic traffic +47%
├── Conversions +32%
└── Revenue +52%
Kết luận
Crawl Budget là invisible factor ảnh hưởng lớn đến SEO của large sites. Optimization đúng cách = lợi ích to lớn.
5 thông điệp cuối
1. Crawl budget chỉ matter cho large sites (>10k pages, frequent updates).
2. robots.txt > noindex cho saving budget.
3. Canonical tags consolidate duplicate content.
4. Server performance ảnh hưởng trực tiếp.
5. Content quality = larger budget.
Tài liệu tham khảo
Về Tấn Phát Digital
Tấn Phát Digital chuyên Large Site SEO:
Crawl Budget Audit
Site Architecture Optimization
Faceted Navigation Strategy
Server Performance Tuning
Continuous Monitoring
Liên hệ Tấn Phát Digital nếu site bạn > 10,000 pages.
Biên soạn từ Google Search Central, 19/12/2025. Phần phân tích và case studies thuộc về Tấn Phát Digital.
Crawl Budget và Site Architecture là nền tảng quan trọng để xây dựng website có khả năng mở rộng và phát triển SEO dài hạn.
Nếu doanh nghiệp của bạn đang vận hành website lớn hoặc ecommerce nhiều sản phẩm, hãy liên hệ Tấn Phát Digital để được tư vấn chiến lược Technical SEO phù hợp.









