| korchasa@*ops

---

title:

date: 2025-02-04

draft: false

---

Пил від хайп-трейна DeepSeek трохи вщух, і про DeepSeek стало зрозуміло більше.

Навчання могло коштувати $6M, але, можливо, це не всі витрати. Плюс у них уже було 2000 Nvidia H800.
OpenAI звинувачує розробників DeepSeek у тому, що вони використовували їхні моделі на якомусь етапі навчання.
Якість порівнювана з найкращими моделями, і це найкраща open-source модель.
Ціна в 2 рази нижча за свіжу o3-mini і в 25 разів нижча, ніж у o1.
На етапі інференсу низька вартість досягається використанням дешевих карт (8/12-бітні ваги + специфічні для H800 оптимізації) і Sparse Mixture-of-Experts (не всі шари й експерти активні на кожному токені).

Навіть якщо вони використовували OpenAI на якомусь етапі, це можна буде провернути і в майбутньому. Незрозуміло, наскільки цей фактор збережеться. Чи вдасться повторювати цей фокус до нескінченності?
Тепер навіть середні за розміром компанії зможуть частину процесів перенести на цю модель, скоротивши витрати. Або навіть підняти модель у себе, скоротивши витрати ще більше. Плюс її можна використовувати тим, хто зараз сидить на власній Llama через якісь обмеження.
Оскільки модель відкрита, то випиляти з неї обмеження буде неважко. Чекаємо появи ще більш розумних спам-ботів, шахраїв та інших покидьків.
Через якийсь час MoE та інші прийоми повторять і інші, що ще сильніше скоротить ціни на інференс.