KHUYẾN MÃI MÙA HÈ: GIẢM 20% TẤT CẢ DỊCH VỤ - HẠN CHÓT 30/6GIỚI THIỆU KHÁCH HÀNG MỚI: NHẬN 15% HOA HỒNG TRÊN HÓA ĐƠN ĐẦU TIÊNKHUYẾN MÃI MÙA HÈ: GIẢM 20% TẤT CẢ DỊCH VỤ - HẠN CHÓT 30/6GIỚI THIỆU KHÁCH HÀNG MỚI: NHẬN 15% HOA HỒNG TRÊN HÓA ĐƠN ĐẦU TIÊN
Tan Phat Media

Crawl Budget Là Gì? Cách Tối Ưu Cho Website Hàng Nghìn Trang

9 tháng 6, 2026
500
Seo Marketing
Crawl Budget Là Gì? Cách Tối Ưu Cho Website Hàng Nghìn Trang - Tấn Phát Digital

Tấn Phát Digital — Bài viết được biên dịch và Việt hóa từ tài liệu chính thức "Optimize your crawl budget" của Google Search Central. Đây là bài advanced dành cho ecommerce lớn, news publishers và large sites tại Việt Nam.

Crawl Budget — Khái niệm "vô hình" nhưng cực kỳ quan trọng

Tưởng tượng Googlebot như "khách hàng VIP" đến shop của bạn:

  • ⏰ Họ chỉ có giới hạn thời gian mỗi ngày

  • 📋 Họ có danh sách cụ thể muốn xem

  • 🏃 Họ nhanh chóng rời đi nếu shop chậm

  • 🚫 Họ không quay lại nếu shop quá lớn và rối

Crawl Budget = "Thời gian" Googlebot dành cho site của bạn.

Tại Việt Nam:

  • 90% ecommerce lớn (>100k URLs) có vấn đề crawl budget

  • 70% news sites WASTE crawl budget vào duplicate URLs

  • Site có hàng triệu URLs chỉ index được 30-50%

Bài viết này, Tấn Phát Digital sẽ hướng dẫn optimization chuyên sâu cho large sites.

Bài viết này dành cho:

⚠️ Bài advanced. Không cần thiết cho:

  • Site nhỏ (<5,000 pages)

  • Pages được crawl ngay sau publish

  • Sitemap up-to-date đầy đủ

Cần thiết cho:

  • Large sites (1M+ unique pages) update weekly

  • Medium+ sites (10k+ pages) update daily

  • Sites có nhiều "Discovered - currently not indexed" trong Search Console


Phần 1: Crawl Budget là gì?

1.1. Định nghĩa từ Google

Google nói:

"The amount of TIME AND RESOURCES that Google devotes to crawling a site is commonly called the site's CRAWL BUDGET."

Crawl Budget = Crawl Capacity Limit + Crawl Demand

1.2. 2 yếu tố cấu thành

Yếu tố 1: Crawl Capacity Limit

"Crawl Capacity Limit là MAXIMUM số simultaneous parallel connections Google có thể dùng để crawl site, cũng như time delay giữa các fetches."

Tăng/giảm dựa trên:

📈 Tăng nếu:
├── Site response nhanh
├── Server stable
└── Không có errors

📉 Giảm nếu:
├── Site chậm
├── Server errors (5xx)
└── Timeouts

Yếu tố 2: Crawl Demand

"Crawl Demand depends on size, update frequency, page quality, và relevance compared to other sites."

3 factors:

🎯 Perceived Inventory:
"Bạn có content gì?"
└── Càng nhiều unique URLs → demand cao
    Càng nhiều duplicates → waste budget

🌟 Popularity:
"URL có nổi tiếng không?"
└── URL có nhiều backlinks/traffic
    → crawl thường xuyên hơn

🕐 Staleness:
"Content có cần update không?"
└── News/ecommerce → crawl thường
    Static pages → crawl ít hơn

1.3. Tóm tắt

"Even if the crawl capacity limit isn't reached, IF CRAWL DEMAND IS LOW, Google will crawl your site LESS."

→ Cần optimize CẢ HAI factors.


Phần 2: Crawl ≠ Index

⚠️ Quan trọng:

"For Google Search, NOT EVERY PAGE that is crawled will necessarily be INDEXED."

📊 Process flow:

URL được Google biết
        ↓
[Crawl Queue]
        ↓ (limited by crawl budget)
Crawled
        ↓
[Processing]
        ↓
Evaluated for quality
        ↓
[Index Decision]
        ↓
├── Indexed ✅
├── Not indexed (low quality) ❌
└── Duplicate (consolidated) 🔄

→ Crawl budget chỉ là bước đầu. Quality content vẫn cần thiết.


Phần 3: 6 Best Practices

Google list 6 best practices chính:

Practice 1: Manage URL inventory

Sub-practice 1a: Consolidate duplicate content

Sai: Nhiều URLs cho cùng content.

example.com/product?id=123
example.com/product/aotrang-id-123
example.com/aotrang?color=white
example.com/products/ao-thun-trang
→ TẤT CẢ cùng 1 sản phẩm

Đúng: Canonicalize.

<!-- Tất cả non-canonical URLs có: -->
<link rel="canonical" href="https://example.com/products/ao-thun-trang">

Sub-practice 1b: Block crawling không quan trọng

robots.txt block:

# robots.txt
User-agent: *

# Block search results pages
Disallow: /search?
Disallow: /*?q=

# Block sorted versions
Disallow: /*?sort=
Disallow: /*?orderBy=

# Block filtered versions
Disallow: /*?filter=
Disallow: /*?color=&size=

# Block paginated content vô tận
Disallow: /infinite-scroll/

# Block tracking parameters
Disallow: /*?utm_*
Disallow: /*?fbclid=
Disallow: /*?gclid=

Sitemap: https://example.com/sitemap.xml

Sub-practice 1c: KHÔNG dùng noindex để save budget!

⚠️ Google warning quan trọng:

"Don't use noindex, as Google will STILL REQUEST, but then drop the page when it sees a noindex meta tag or header, WASTING CRAWLING TIME."

robots.txt Disallow vs noindex meta:

robots.txt Disallow:
└── Google KHÔNG fetch
    └── SAVE crawl budget ✅

noindex meta:
└── Google FETCH rồi mới biết noindex
    └── WASTE crawl budget ❌

→ Cho large sites: dùng robots.txt, không phải noindex.

Sub-practice 1d: 404/410 cho pages permanently removed

404 Not Found:
└── Strong signal: "don't crawl again"

410 Gone:
└── Stronger signal: "permanently removed"

Blocked URLs (robots.txt):
└── Stay in crawl queue LONGER
    Will be re-crawled when block removed

Sub-practice 1e: Eliminate Soft 404

Soft 404 = HTTP 200 status code nhưng content giống error page.

Sai:

URL: /product/non-existent-id
Status: 200 OK
Content: "Sản phẩm không tồn tại"

Đúng:

URL: /product/non-existent-id
Status: 404 Not Found
Content: "Sản phẩm không tồn tại"

Sub-practice 1f: Keep sitemap up to date

<url>
  <loc>https://example.com/page</loc>
  <lastmod>2026-05-21</lastmod>
</url>

→ Include <lastmod> cho URLs có content thay đổi.

Sub-practice 1g: Avoid long redirect chains

Sai:

A → B (301) → C (301) → D (301) → E
4 redirects → waste budget

Đúng:

A → E (301)
1 redirect → efficient

Practice 2: Make pages efficient to load

🚀 Optimization techniques:
├── Reduce server response time (TTFB)
├── Compress assets (gzip/Brotli)
├── Use CDN
├── Optimize database queries
├── Cache static content
└── Minify HTML/CSS/JS

→ Xem Bài 22 — Core Web Vitals.

Practice 3: Debug crawl issues

Tools:

🔍 Search Console:
├── Coverage report
├── Crawl stats
├── URL Inspection
└── Sitemaps report

🔍 Server logs:
├── Identify Googlebot requests
├── Find 404/500 errors
├── Detect crawl patterns
└── Spot waste

🔍 Log file analyzers:
├── Screaming Frog Log Analyzer
├── JetOctopus
└── Botify

Phần 4: Faceted Navigation — Vấn đề kinh điển

4.1. Vấn đề

Ecommerce thường có filters/facets:

Filters:
├── Color (10 options)
├── Size (5 options)
├── Brand (20 options)
├── Price range (8 options)
└── Material (15 options)

Combinations:
10 × 5 × 20 × 8 × 15 = 120,000 unique URLs!

Crawl budget bomb!

4.2. Strategy

Strategy 1: Allow important combinations

✅ /products?color=red (popular)
✅ /products?brand=apple (popular)
❌ /products?color=red&size=L&brand=nike&price=200-300 (too specific)

Strategy 2: Use canonical

<!-- /products?color=red&size=L -->
<link rel="canonical" href="https://example.com/products">

→ Filter results consolidate về main category page.

Strategy 3: robots.txt selective

# Allow color filters
# Block other filters

User-agent: *
Allow: /products?color=
Disallow: /products?*size=
Disallow: /products?*brand=
Disallow: /products?*price=

Strategy 4: AJAX filters

// Instead of changing URL với filter
// Use AJAX để update content

button.onclick = async () => {
  const filtered = await fetch('/api/filter?color=red');
  updateUI(filtered);
  // URL stays same
};

→ Không tạo URLs mới khi filter.


Phần 5: Site Architecture cho Large Sites

5.1. Flat vs Deep architecture

Deep (BAD):

home
└── category
    └── subcategory
        └── sub-subcategory
            └── sub-sub-subcategory
                └── product
                    (5+ clicks deep)

Flat (GOOD):

home
├── category
│   └── product (3 clicks)
├── popular-products
└── new-arrivals
    (2 clicks max)

→ Pages càng gần home = càng được crawl thường.

5.2. Hub pages strategy

Hub pages = Trang tổng hợp links đến nhiều sub-pages.

🏠 Home
   ↓
🎯 Hub: "Best Sellers"
   ├── Product 1
   ├── Product 2
   ├── Product 3
   └── ... (50 products)

→ Boost crawl frequency cho linked products.

5.3. Internal linking optimization

🔗 Internal linking principles:

1. Homepage → Category (1 click)
2. Category → Sub-category (2 clicks)
3. Sub-category → Product (3 clicks)

❌ Avoid orphan pages (no internal links)
❌ Avoid deep burying (5+ clicks)
✅ Cross-link related content
✅ Breadcrumb navigation

5.4. Pagination strategy

Sai (vô tận):

/products?page=1
/products?page=2
...
/products?page=1000

Đúng:

/products?page=1 → indexed
/products?page=2-5 → noindex, follow
/products?page=6+ → blocked

HOẶC dùng "View All" page:

<link rel="canonical" 
      href="https://example.com/products?view=all">

Phần 6: Crawl Stats trong Search Console

6.1. Truy cập

Search Console → Settings → Crawl Stats

6.2. Metrics quan trọng

Total crawl requests

→ Số requests Google đã làm.

Total download size

→ Bytes Google đã fetch.

Average response time

→ Tốc độ response của server.

Host status

→ Health của server.

6.3. Phân tích patterns

📊 Trends to watch:

📈 Crawl requests tăng đột ngột:
├── Could be: Site update lớn
└── Or: Crawl loop (waste!)

📉 Crawl requests giảm:
├── Could be: Server issues
└── Or: Google's lost interest

⚡ Response time tăng:
└── Server overload → crawl giảm

6.4. Breakdown by file type

📊 By type:
├── HTML pages
├── CSS files
├── JavaScript files
├── Images
└── PDFs / other

📊 By purpose:
├── Discovery (new URLs)
├── Refresh (existing URLs)

📊 By response code:
├── 200 OK
├── 301 redirects
├── 404 errors
└── 5xx errors

→ Identify problems quickly.


Phần 7: Cách tăng Crawl Budget

Google nói:

"There are TWO WAYS to increase crawl budget."

Way 1: Add server resources

Nếu server overloaded:

Signs you need more resources:
├── "Hostload exceeded" trong URL Inspection
├── Frequent 5xx errors
├── Slow response time consistently
└── Site bị crawl ít hơn dù có content mới

Solutions:

🚀 Server upgrades:
├── Better hosting plan
├── More RAM/CPU
├── CDN implementation
├── Load balancing
├── Database optimization
└── Caching layers

Way 2: Optimize content quality

"Google determines crawling resources allocated to each site by factoring elements relevant to specific Google product."

For Google Search:

📈 Quality factors:
├── Popularity (backlinks, traffic)
├── Overall user value
├── Content uniqueness
└── Serving capacity

→ Content quality = crawl budget bigger.


Phần 8: 10 Mistakes làm waste crawl budget

❌ Mistake 1: Quá nhiều URL parameters

❌ /products?sort=price&order=asc&utm_source=fb&t=12345

→ Tạo vô số combinations.

❌ Mistake 2: Faceted navigation không control

→ Hàng triệu URL filter combinations.

❌ Mistake 3: Session IDs trong URLs

❌ /page;jsessionid=ABC123

❌ Mistake 4: Infinite scroll không limit

❌ /products?page=1...10000

❌ Mistake 5: Duplicate content khắp nơi

❌ Same product, 5+ different URLs

❌ Mistake 6: Long redirect chains

❌ A → B → C → D → E

❌ Mistake 7: Slow server response

❌ TTFB > 1.5s

❌ Mistake 8: Soft 404 errors

❌ 200 status cho error pages

❌ Mistake 9: Dùng noindex thay vì robots.txt

❌ Million noindex pages

❌ Mistake 10: Sitemap outdated

❌ Sitemap có URLs cũ, redirects, 404s

Phần 9: Roadmap optimization

Phase 1: Audit (Week 1-2)

✅ Day 1-3: Export crawl stats
✅ Day 4-7: Identify waste patterns
✅ Day 8-14: Server log analysis

Phase 2: Quick wins (Week 3-4)

✅ Update robots.txt
✅ Fix soft 404s
✅ Eliminate duplicate URLs (canonical)
✅ Shorten redirect chains

Phase 3: Structural (Month 2)

✅ Faceted navigation strategy
✅ Pagination optimization
✅ Internal linking review
✅ Site architecture flatten

Phase 4: Server (Month 3)

✅ Server performance optimization
✅ CDN implementation
✅ Database tuning
✅ Caching strategy

Phase 5: Monitor (Ongoing)

✅ Weekly crawl stats check
✅ Monthly comprehensive audit
✅ Continuous improvement

Phần 10: Case Study

Tình huống

Ecommerce VN, 500k SKUs:

Before:

📊 Stats:
├── Total URLs: 5.2 million
├── Indexed: 380k (7.3%)
├── Crawl rate: 50k/day
├── 80% crawl budget waste
└── New products take 14 days to index

Problems identified:

❌ 4.2M URLs from faceted navigation
❌ 200k duplicate product URLs
❌ 50k soft 404s
❌ 10k redirect chains 3-5 hops

Actions taken:

✅ Updated robots.txt block bad filters
✅ Implemented canonical site-wide
✅ Fixed 404s properly
✅ Shortened redirects
✅ CDN setup

After (3 months):

📊 Stats:
├── Total URLs in queue: 600k (-88%)
├── Indexed: 450k (75%)
├── Crawl rate: 200k/day (+300%)
├── 90% efficient
└── New products indexed in 24-48h

📈 Business impact:
├── Organic traffic +47%
├── Conversions +32%
└── Revenue +52%

Kết luận

Crawl Budget là invisible factor ảnh hưởng lớn đến SEO của large sites. Optimization đúng cách = lợi ích to lớn.

5 thông điệp cuối

1. Crawl budget chỉ matter cho large sites (>10k pages, frequent updates).

2. robots.txt > noindex cho saving budget.

3. Canonical tags consolidate duplicate content.

4. Server performance ảnh hưởng trực tiếp.

5. Content quality = larger budget.


Tài liệu tham khảo


Về Tấn Phát Digital

Tấn Phát Digital chuyên Large Site SEO:

  • Crawl Budget Audit

  • Site Architecture Optimization

  • Faceted Navigation Strategy

  • Server Performance Tuning

  • Continuous Monitoring

Liên hệ Tấn Phát Digital nếu site bạn > 10,000 pages.


Biên soạn từ Google Search Central, 19/12/2025. Phần phân tích và case studies thuộc về Tấn Phát Digital.

Crawl Budget và Site Architecture là nền tảng quan trọng để xây dựng website có khả năng mở rộng và phát triển SEO dài hạn.

Nếu doanh nghiệp của bạn đang vận hành website lớn hoặc ecommerce nhiều sản phẩm, hãy liên hệ Tấn Phát Digital để được tư vấn chiến lược Technical SEO phù hợp.

Mục lục

Câu hỏi thường gặp

Crawl Budget là gì?

Crawl Budget là lượng tài nguyên mà Googlebot phân bổ để thu thập dữ liệu một website trong một khoảng thời gian. Nó quyết định bot sẽ crawl bao nhiêu URL, với tần suất ra sao và ảnh hưởng trực tiếp đến tốc độ phát hiện nội dung mới hoặc cập nhật.

Crawl Budget có quan trọng với mọi website không?

Không phải website nào cũng bị ảnh hưởng rõ rệt. Với site nhỏ, số trang ít và cấu trúc tốt, Crawl Budget thường không phải vấn đề lớn. Nó quan trọng hơn với website hàng nghìn trang, nhiều filter, phân trang, sản phẩm hết hàng hoặc nội dung cập nhật liên tục.

Điều gì ảnh hưởng đến Crawl Budget của website?

Các yếu tố chính gồm tốc độ phản hồi máy chủ, số lượng URL có thể crawl, chất lượng cấu trúc liên kết nội bộ, lỗi 404 hoặc redirect, trang trùng lặp, tham số URL và mức độ cập nhật nội dung. Website càng sạch và dễ điều hướng thì bot càng crawl hiệu quả.

Làm sao biết website đang gặp vấn đề về Crawl Budget?

Dấu hiệu thường thấy là nhiều trang quan trọng chậm được index, bot crawl quá nhiều URL vô ích, log server có tần suất crawl bất thường hoặc Search Console báo nhiều trang Discovered - currently not indexed. Với site lớn, đây là tín hiệu cần rà soát ngay.

Search Console có giúp kiểm tra Crawl Budget không?

Có. Bạn có thể theo dõi mục Crawl stats để xem tổng số request, dung lượng tải xuống và thời gian phản hồi. Ngoài ra, báo cáo Indexing giúp phát hiện trang bị chặn, trùng lặp hoặc chưa index, từ đó xác định nơi đang lãng phí ngân sách crawl.

Website hàng nghìn trang nên tối ưu internal link như thế nào để hỗ trợ crawl?

Hãy ưu tiên liên kết đến các trang quan trọng từ menu, category, breadcrumb và bài viết liên quan. Giảm độ sâu click, tránh orphan pages và tạo cấu trúc phân cấp rõ ràng. Internal link tốt giúp bot tìm trang nhanh hơn và phân bổ crawl hợp lý hơn.

Có nên chặn các trang không quan trọng để tiết kiệm Crawl Budget không?

Có, nếu đó là các URL ít giá trị như trang lọc, kết quả tìm kiếm nội bộ, tham số session hoặc trang test. Bạn có thể dùng robots.txt, noindex hoặc canonical tùy trường hợp. Mục tiêu là hướng bot tập trung vào các trang có khả năng mang traffic.

Nội dung trùng lặp ảnh hưởng đến Crawl Budget như thế nào?

Nội dung trùng lặp khiến bot phải crawl nhiều URL nhưng không thu được thêm giá trị mới, làm lãng phí tài nguyên. Điều này thường xuất hiện ở trang lọc, tag, biến thể sản phẩm hoặc URL có tham số. Canonical và cấu trúc URL nhất quán là cách xử lý phổ biến.

Sitemap XML có giúp tối ưu Crawl Budget không?

Có, nếu sitemap chỉ chứa URL quan trọng, trả về mã 200 và có thể index. Sitemap không làm tăng Crawl Budget trực tiếp nhưng giúp công cụ tìm kiếm ưu tiên phát hiện đúng trang cần crawl, đặc biệt hữu ích với website lớn và nội dung mới cập nhật thường xuyên.

Cách tối ưu Crawl Budget hiệu quả nhất cho website lớn là gì?

Hãy bắt đầu từ việc dọn URL rác, sửa lỗi redirect và 404, cải thiện tốc độ server, tối ưu internal link, kiểm soát tham số URL và cập nhật sitemap sạch. Nếu có thể, phân tích thêm log server để hiểu bot đang crawl gì và loại bỏ các điểm gây lãng phí.

Bài viết liên quan

Hình ảnh đại diện của bài viết: 05 Công Cụ Nắm Bắt Xu Hướng Chuyên Sâu: Chìa Khóa Tối Ưu Chiến Dịch Quảng Cáo Mạng Xã Hội

05 Công Cụ Nắm Bắt Xu Hướng Chuyên Sâu: Chìa Khóa Tối Ưu Chiến Dịch Quảng Cáo Mạng Xã Hội

Khám phá 5 công cụ phân tích xu hướng chuyên sâu, từ TikTok Trends đến AI nhắm mục tiêu, cùng 10 lời khuyên chiến lược và các Case Study thực tế giúp thương hiệu tối ưu chiến dịch quảng cáo, tăng ROI và bứt phá doanh số trong mùa lễ hội sắp tới. Được cung cấp bởi Tấn Phát Digital.

Hình ảnh đại diện của bài viết: 10 Chiến Dịch Social Media Thành Công

10 Chiến Dịch Social Media Thành Công

Các chiến dịch social media thành công không chỉ giúp thương hiệu tăng độ nhận diện mà còn tạo ra sự kết nối mạnh mẽ với khách hàng. Bài viết này phân tích 10 chiến dịch social media truyền cảm hứng cùng những bài học chiến lược đáng giá.

Hình ảnh đại diện của bài viết: Chiến Lược Tăng Traffic Website Hiệu Quả & Bền Vững 2026 | Tấn Phát Digital

Chiến Lược Tăng Traffic Website Hiệu Quả & Bền Vững 2026 | Tấn Phát Digital

Báo cáo chuyên sâu về lộ trình tăng trưởng lưu lượng truy cập website tại thị trường Việt Nam, tập trung vào hiệu suất kỹ thuật, chiều sâu nội dung và xây dựng uy tín thực thể trong kỷ nguyên AI.

Hình ảnh đại diện của bài viết: 10 Sai lầm Từ khóa Volume Search & Chiến lược SEO

10 Sai lầm Từ khóa Volume Search & Chiến lược SEO

Đừng để con số Volume đánh lừa. Tấn Phát Digital phân tích sâu về Search Intent, độ khó và giá trị thương mại để xây dựng bộ từ khóa mang lại doanh thu bền vững thay vì chỉ là traffic ảo.

Hình ảnh đại diện của bài viết: 10 Xu hướng AI Marketing Cần Nắm Bắt Để Bứt Phá Trong Năm 2026

10 Xu hướng AI Marketing Cần Nắm Bắt Để Bứt Phá Trong Năm 2026

Năm 2026, AI không chỉ là công cụ mà là năng lực cạnh tranh cốt lõi. Khám phá 10 xu hướng đột phá: APM, Hyper-Orchestration, và Content Hybrid để làm chủ cuộc chơi Digital Marketing.

Hình ảnh đại diện của bài viết: 11 Bài Học Marketing Triệu View Từ Kênh Nông Sản | Ứng Dụng Mọi Lĩnh Vực

11 Bài Học Marketing Triệu View Từ Kênh Nông Sản | Ứng Dụng Mọi Lĩnh Vực

Khám phá 11 bài học marketing cảm xúc từ các kênh nông sản triệu view và cách ứng dụng vào mọi doanh nghiệp. Tấn Phát Digital giúp bạn xây dựng chiến lược nội dung doanh nghiệp có sức lan tỏa.

Hình ảnh đại diện của bài viết: 11 Dấu Hiệu Bạn Đang Thuê Nhầm Dịch Vụ SEO Năm 2026 | Tấn Phát Digital

11 Dấu Hiệu Bạn Đang Thuê Nhầm Dịch Vụ SEO Năm 2026 | Tấn Phát Digital

Nhận diện ngay 11 sai lầm chết người khi thuê SEO năm 2026 để bảo vệ doanh nghiệp trước các đợt cập nhật thuật toán AI khắt khe của Google thông qua phân tích chuyên sâu từ Tấn Phát Digital.

Hình ảnh đại diện của bài viết: 13 Tuyệt Chiêu Hook Video Triệu View Chạm Cảm Xúc 2026

13 Tuyệt Chiêu Hook Video Triệu View Chạm Cảm Xúc 2026

Chỉ cần 3 giây để thay đổi số phận một video. Tấn Phát Digital chia sẻ 13 công thức hook "thần thánh" giúp nội dung của bạn không thể bị lướt qua trong kỷ nguyên AI Search.

Zalo
Facebook
Tấn Phát Digital
Zalo
Facebook