Пил від хайп-трейна DeepSeek трохи вщух, і про DeepSeek стало зрозуміло більше.
- Навчання могло коштувати $6M, але, можливо, це не всі витрати. Плюс у них уже було 2000 Nvidia H800.
- OpenAI звинувачує розробників DeepSeek у тому, що вони використовували їхні моделі на якомусь етапі навчання.
- Якість порівнювана з найкращими моделями, і це найкраща open-source модель.
- Ціна в 2 рази нижча за свіжу o3-mini і в 25 разів нижча, ніж у o1.
- На етапі інференсу низька вартість досягається використанням дешевих карт (8/12-бітні ваги + специфічні для H800 оптимізації) і Sparse Mixture-of-Experts (не всі шари й експерти активні на кожному токені).
- Навіть якщо вони використовували OpenAI на якомусь етапі, це можна буде провернути і в майбутньому. Незрозуміло, наскільки цей фактор збережеться. Чи вдасться повторювати цей фокус до нескінченності?
- Тепер навіть середні за розміром компанії зможуть частину процесів перенести на цю модель, скоротивши витрати. Або навіть підняти модель у себе, скоротивши витрати ще більше. Плюс її можна використовувати тим, хто зараз сидить на власній Llama через якісь обмеження.
- Оскільки модель відкрита, то випиляти з неї обмеження буде неважко. Чекаємо появи ще більш розумних спам-ботів, шахраїв та інших покидьків.
- Через якийсь час MoE та інші прийоми повторять і інші, що ще сильніше скоротить ціни на інференс.