30 Câu Hỏi Phỏng Vấn DevOps Thực Chiến 2026
Hãy thiết kế chiến lược deployment đảm bảo zero downtime và có thể rollback trong vài phút khi xảy ra sự cố.
Khi nào nên dùng Blue-Green, Rolling, hoặc Canary deployment? Trade-off của từng loại?
Làm sao xử lý database migration mà không làm downtime hệ thống?
Nếu deploy xong CPU tăng đột biến và response time gấp 5 lần, bạn debug theo thứ tự nào?
Bạn làm gì để đảm bảo build deploy hôm nay giống hệt production? (reproducible builds)
Pipeline CI/CD chuẩn cho hệ thống traffic lớn nên có những stage nào?
Làm sao giảm thời gian build từ 20 phút xuống còn 5 phút?
Bạn thiết kế pipeline thế nào để fail fast?
Secrets trong CI/CD nên được quản lý ra sao để tránh leak?
Khi nào nên tách nhiều pipeline thay vì một monolithic pipeline?
Khi nào nên chọn containers thay vì VM?
Một hệ thống bắt đầu với 1 server, bạn scale lên hàng triệu user như thế nào?
Vertical vs Horizontal scaling — chọn theo tiêu chí gì?
Làm sao thiết kế hệ thống high availability (99.9%+)?
Multi-region deployment có đáng không? Khi nào nên dùng?
Pod liên tục restart — bạn kiểm tra gì trước?
Khi nào nên dùng HPA (Horizontal Pod Autoscaler) vs VPA?
Làm sao deploy mà không làm rớt connection của user đang active?
Bạn tối ưu resource request/limit thế nào để tránh lãng phí?
Nếu cluster đầy tài nguyên, bạn xử lý ra sao trong lúc production đang chạy?
Bạn cần monitor những metric nào để biết hệ thống “đang chết dần”?
Logging sai cách có thể làm sập hệ thống — tại sao?
Alert kiểu nào là “alert vô nghĩa”?
Làm sao tìm root cause trong hệ thống microservices?
Bạn phân biệt metrics vs logs vs traces trong tình huống thực tế thế nào?
Bạn bảo vệ infrastructure khỏi DDoS như thế nào?
Nguyên tắc least privilege áp dụng trong cloud ra sao?
Làm sao rotate secrets mà không cần downtime?
Production sập lúc 3 giờ sáng — bạn xử lý theo quy trình nào?
Nếu toàn bộ region của cloud provider bị outage, hệ thống của bạn sống sót thế nào?









