CTO Cloudflare xin lỗi sau lỗi nghiêm trọng khiến phần lớn Internet gián đoạn: “Chúng tôi đã phụ lòng khách hàng và toàn bộ Internet”
CTO Cloudflare thừa nhận sự cố bắt nguồn từ một lỗi trong hệ thống bot mitigation, được kích hoạt sau thay đổi cấu hình định kỳ.
Cloudflare vừa xác nhận một lỗi nghiêm trọng trong dịch vụ lõi đã gây ra tình trạng gián đoạn lớn trên Internet vào ngày 18/11, ảnh hưởng tới lưu lượng truy cập của nhiều nền tảng như X (Twitter), ChatGPT và Downdetector. CTO Dane Knecht đã đăng lời xin lỗi công khai ngay sau khi dịch vụ được khôi phục, gọi đây là “sự cố không thể chấp nhận” và nêu rằng nguyên nhân xuất phát từ một thay đổi cấu hình định kỳ dẫn đến sự cố crash tại tầng bảo vệ bot tự động.

Sự cố bắt đầu vào lúc 11:48 UTC ngày 18/11, với trang trạng thái chính thức của Cloudflare ghi nhận tình trạng “giảm chất lượng dịch vụ nội bộ”. Người dùng trên nhiều khu vực không thể truy cập các website sử dụng Cloudflare, cũng như gặp lỗi khi sử dụng các dịch vụ Access và WARP. Ngay sau đó, Cloudflare xác định nguyên nhân là do một thành phần phụ thuộc trong hệ thống chống bot.
CTO Dane Knecht chia sẻ: “Chúng tôi đã phụ lòng khách hàng và toàn bộ Internet. Một bug tiềm ẩn trong dịch vụ bot mitigation đã bắt đầu crash sau một thay đổi cấu hình định kỳ, dẫn tới sự suy giảm diện rộng cho hệ thống mạng và các dịch vụ khác. Đây không phải là một cuộc tấn công.”
Đến 14:42 UTC, Cloudflare đã triển khai bản vá và bắt đầu khôi phục các thành phần bị ảnh hưởng. Tính năng dashboard (bảng điều khiển), bao gồm phân tích và ghi nhận lỗi, vẫn bị suy giảm một phần trong buổi chiều khi đội ngũ kỹ sư tiếp tục giám sát các lỗi tồn dư. Một số khu vực, như London, cũng tạm thời bị ngừng dịch vụ WARP nhằm đảm bảo quá trình khắc phục diễn ra suôn sẻ.
Stack chống bot của Cloudflare, bao gồm các luồng thử thách như Turnstile và xác thực JavaScript, vận hành song song với luồng truy cập của nhiều website, API có lưu lượng lớn. Những hệ thống này không chỉ dùng để chặn tác nhân xấu mà còn đồng thời kiểm soát truy cập của người dùng hợp lệ; do đó, sự cố tại lớp này dẫn đến gián đoạn rộng rãi ngay cả khi hạ tầng CDN hoặc DNS vẫn hoạt động bình thường.
Đây là sự cố lớn thứ ba trong vòng một tháng qua đối với các nền tảng lớn. Tháng 10, vùng US-East-1 của AWS đã bị offline hơn hai giờ do lỗi cấu hình DNS, và ngay sau đó Microsoft Azure cũng gặp sự cố diện rộng.
Những chuỗi sự kiện này đặt ra dấu hỏi về cách các nền tảng dịch vụ lớn vận hành, cô lập sự cố nội bộ và quản lý phụ thuộc với quy mô rộng – hiện nay, Cloudflare chiếm tới 19% lưu lượng Internet, còn Azure và AWS lần lượt nắm giữ khoảng 24% và 30% thị trường điện toán đám mây quốc tế
