Cloudflare wyjaśnił największą awarię: nie, to nie był haker — to był… plik

Autor: Russell Thompson | 19.11.2025, 12:47

Globalna awaria Cloudflare, która 18 listopada zablokowała dostęp do ChatGPT, X, Downdetector i wielu innych dużych stron, nie była wcale ogromnym cyberatakiem. Choć firma początkowo podejrzewała hiperdDDoS, później CEO Cloudflare Matthew Prince przyznał: źródłem problemu był wewnętrzny błąd w systemie zarządzania botami.

W szczegółowym raporcie Prince zauważył, że awaria została spowodowana zmianą w mechanizmie aktualizacji pliku konfiguracyjnego, który jest używany przez uczenie maszynowe Cloudflare do oceny „botopodobności” każdego żądania. Plik ten aktualizuje się co kilka minut, a zmiana w pracy bazy danych ClickHouse doprowadziła do pojawienia się ogromnej liczby zduplikowanych „stron cech”. Plik szybko się rozrósł, przekroczył dopuszczalne limity pamięci i zaczął niszczyć główną warstwę proxy firmy.

Prince publicznie przeprosił i podkreślił: awaria nie była związana ani z hakerami, ani z atakami DDoS, ani z generatywną sztuczną inteligencją.

Jak błąd wpłynął na internet

Problem dotknął zwłaszcza tych stron, które polegają na zasadach blokowania botów Cloudflare. Z powodu błędnych ocen botów, zaczęły one odrzucać normalne żądania użytkowników. W efekcie duże usługi wyglądały na "upadłe", podczas gdy te, które nie korzystały z modułu zarządzania botami, działały bez problemów.

Według Cloudflare, to najpoważniejszy incydent od 2019 roku, kiedy to błąd w jednym z modułów również zniszczył główną sieć. Dzisiejsza sytuacja okazała się podobna: nieudana aktualizacja — i 20% internetu zaczyna zwracać błędy 5xx.

Dlaczego Cloudflare w ogóle zajmował się zarządzaniem botami

System zarządzania botami stał się szczególnie istotny w erze sztucznej inteligencji. Strony coraz częściej blokują agresywne AI-boty, które bez pozwolenia pobierają ich treści do treningu modeli. Cloudflare testuje nawet program „płacić za przeszukiwanie”, umożliwiając stronom zarabianie na dostępie dla usług AI.

Irónia polega na tym, że to właśnie moduł odpowiedzialny za walkę z botami, tymczasowo "obniżył" połowę prawdziwych użytkowników.

Co Cloudflare obiecuje zrobić

Firma ogłosiła cztery kroki zapobiegające podobnym katastrofom:

  • zaostrzanie przetwarzania wewnętrznych konfiguracji
  • globalne wyłączniki funkcji (feature kill-switches)
  • ochronę systemów przed przeciążeniem raportami o błędach
  • przegląd zachowania wszystkich modułów proxy przy krytycznych błędach

Źródło: Cloudflare