Метью Принс (CEO на Cloudflare) публикува постмортем (https://blog.cloudflare.com/cloudflare-incident-november-18-2025/) за вчерашния срив.
На 18 ноември 2025 г. Cloudflare преживя сериозен инцидент заради погрешно увеличаване на feature файла за Bot Management, предизвикано от промяна на права в ClickHouse. Това доведе до 5xx грешки и проблеми с автентикацията. Основното възстановяване беше до 14:30 UTC, пълното — до 17:06 UTC. Това не беше атака.
- Причина: промяна на права в ClickHouse доведе до дублирани колони в заявка; feature файлът за ML модела за ботове внезапно нарасна и надхвърли лимита (200). Това караше FL2 проксито да пада с 5xx, а старото FL прокси да задава bot score 0 на всички заявки.
- Не е кибератака: статус страницата беше недостъпна, което първоначално подвеждаше.
Хронология (UTC):
- 11:05: приложена е промяна на достъпа до БД.
- 11:28: започва сривът; първите 5xx.
- 11:32–13:05: разследване; опити за стабилизиране на Workers KV.
- 13:05: обходни решения за Workers KV и Access (връщане към предишното прокси); ефектът намаля.
- 14:24: спряха генерирането/разпространението на лошия файл; валидираха старата версия.
- 14:30: разположиха коректния файл глобално; основно възстановяване.
- 17:06: всички услуги са възстановени.
Какво ще направят нататък:
- По-строга валидация на вътрешните конфигурационни файлове като потребителски вход.
- Глобални kill switch-ове за функции.
- Защита на ресурсите от претоварване от дъмпове/репорти за грешки.
- Преглед на отказоустойчивостта във всички core proxy модули.
Най-важното в този инцидент е колко дълго го оправяха. Самият фикс отне 6 минути, но им трябваха 3 часа, за да разберат, че не е DDoS, а грешка в конфигурацията. А процесите — точно там липсват подобрения в постмортема.
Имаше ли възможност да се потвърди/отхвърли атака чрез партньори? Генерираха ли всички хипотези за причината? Работиха ли други хора паралелно по тях, докато основният екип разследваше?