Cloudflare Incident
Метью Принс (CEO CF) выпустил постмортем(https://blog.cloudflare.com/cloudflare-incident-november-18-2025/) о вчерашнем падении.
## TL;DR
18 ноября 2025 года Cloudflare пережил крупный сбой из-за ошибочного увеличения файла фич для Bot Management, вызванного изменением прав в ClickHouse. Это привело к 5xx ошибкам и проблемам с аутентификацией. Основное восстановление произошло к 14:30 UTC, полное — к 17:06 UTC. Это не была атака.
- Причина: изменение прав в ClickHouse вызвало дубликаты колонок в запросе, файл фич для ML-модели ботов внезапно вырос и превысил лимит (200), из-за чего прокси FL2 падал с 5xx, а старый FL присваивал бот-оценку 0 всем запросам.
- Не кибератака: статус-страница была недоступна, что сначала ввело в заблуждение.
## Ход событий (UTC)
- 11:05: внесено изменение доступа в БД.
- 11:28: начался сбой; первые 5xx.
- 11:32–13:05: расследование; попытки стабилизации Workers KV.
- 13:05: обходы для Workers KV и Access (возврат к прежнему прокси), влияние снизилось.
- 14:24: остановили генерацию/распространение плохого файла; проверили старую версию.
- 14:30: развернули корректный файл глобально; основное восстановление.
- 17:06: все сервисы восстановлены.
## Что сделают дальше
- Усилят проверку внутренних конфигурационных файлов как пользовательского ввода.
- Добавят глобальные килл-свитчи для фич.
- Защитят ресурсы от перегрузки дампами/репортами ошибок.
- Пересмотрят отказоустойчивость во всех модулях core-прокси.
Самое важное в это аварии то, как долго ее чинили. На сам фикс ушло 6 минут, а до того как они поняли что это не DDoS, а ошибка в конфигурации, прошло 3 часа. И процессы это то, улучшения чего нет в постмортеме.
Была ли возможность подтвердить/опровергнуть атаку у партнеров? Были ли сгенерированы все гипотезы о причине? Прорабатывались ли они другими людьми параллельно с основной?