Метью Принс (CEO Cloudflare) випустив постмортем (https://blog.cloudflare.com/cloudflare-incident-november-18-2025/) про вчорашнє падіння.
18 листопада 2025 року Cloudflare пережив великий збій через помилкове збільшення feature‑файлу для Bot Management, спричинене зміною прав у ClickHouse. Це призвело до 5xx і проблем з аутентифікацією. Основне відновлення — до 14:30 UTC, повне — до 17:06 UTC. Це не була атака.
- Причина: зміна прав у ClickHouse викликала дублікати колонок у запиті; feature‑файл для ML‑моделі ботів раптово виріс і перевищив ліміт (200). Через це проксі FL2 падав з 5xx, а старий FL призначав бот‑скор 0 всім запитам.
- Не кібератака: статус‑сторінка була недоступна, що спочатку збило з пантелику.
Хронологія (UTC):
- 11:05: внесено зміну доступу до БД.
- 11:28: почався збій; перші 5xx.
- 11:32–13:05: розслідування; спроби стабілізації Workers KV.
- 13:05: обхідні рішення для Workers KV і Access (відкат на попередній проксі); вплив зменшився.
- 14:24: зупинили генерацію/розповсюдження поганого файлу; перевірили стару версію.
- 14:30: розгорнули коректний файл глобально; основне відновлення.
- 17:06: усі сервіси відновлено.
Що зроблять далі:
- Посилять валідацію внутрішніх конфігураційних файлів, трактуючи їх як user input.
- Додадуть глобальні kill‑switch’і для фіч.
- Захистять ресурси від перевантаження дампами/репортами помилок.
- Переглянуть відмовостійкість у всіх модулях core‑проксі.
Найважливіше в цій аварії — як довго її лагодили. На сам фікс пішло 6 хвилин, а до того, як вони зрозуміли, що це не DDoS, а конфіг‑помилка, минуло 3 години. І процеси — це те, покращень чого немає в постмортемі.
Чи була можливість підтвердити/спростувати атаку у партнерів? Чи були згенеровані всі гіпотези щодо причини? Чи пропрацьовували їх інші люди паралельно з основним розслідуванням?