Метью Прінс (CEO CF) випустив постмортем (https://blog.cloudflare.com/cloudflare-incident-november-18-2025/) про вчорашній збій.
## TL;DR
18 листопада 2025 року Cloudflare пережив великий збій через помилкове збільшення файлу фіч для Bot Management, викликане зміною прав у ClickHouse. Це призвело до 5xx помилок та проблем з автентифікацією. Основне відновлення відбулося до 14:30 UTC, повне — до 17:06 UTC. Це не була атака.
- Причина: зміна прав у ClickHouse викликала дублікати колонок у запиті, файл фіч для ML-моделі ботів раптово виріс і перевищив ліміт (200), через що проксі FL2 падав з 5xx, а старий FL присвоював бот-оцінку 0 усім запитам.
- Не кібератака: статус-сторінка була недоступна, що спочатку ввело в оману.
## Хід подій (UTC)
- 11:05: внесено зміну доступу в БД.
- 11:28: почався збій; перші 5xx.
- 11:32–13:05: розслідування; спроби стабілізації Workers KV.
- 13:05: обходи для Workers KV та Access (повернення до попереднього проксі), вплив знизився.
- 14:24: зупинили генерацію/розповсюдження поганого файлу; перевірили стару версію.
- 14:30: розгорнули коректний файл глобально; основне відновлення.
- 17:06: усі сервіси відновлено.
## Що зроблять далі
- Посилять перевірку внутрішніх конфігураційних файлів як користувацького введення.
- Додадуть глобальні кіл-світчі для фіч.
- Захистять ресурси від перевантаження дампами/репортами помилок.
- Переглянуть відмовостійкість у всіх модулях core-проксі.
Найважливіше в цій аварії те, як довго її лагодили. На сам фікс пішло 6 хвилин, а до того, як вони зрозуміли, що це не DDoS, а помилка в конфігурації, минуло 3 години. І процеси — це те, покращення чого немає в постмортемі.
Чи була можливість підтвердити/спростувати атаку у партнерів? Чи були згенеровані всі гіпотези про причину? Чи опрацьовувалися вони іншими людьми паралельно з основною?