Пил від хайп-трейна DeepSeek трохи вщух, і про DeepSeek стало зрозуміло більше.

  • Навчання могло коштувати $6M, але, можливо, це не всі витрати. Плюс у них уже було 2000 Nvidia H800.
  • OpenAI звинувачує розробників DeepSeek у тому, що вони використовували їхні моделі на якомусь етапі навчання.
  • Якість порівнювана з найкращими моделями, і це найкраща open-source модель.
  • Ціна в 2 рази нижча за свіжу o3-mini і в 25 разів нижча, ніж у o1.
  • На етапі інференсу низька вартість досягається використанням дешевих карт (8/12-бітні ваги + специфічні для H800 оптимізації) і Sparse Mixture-of-Experts (не всі шари й експерти активні на кожному токені).

  • Навіть якщо вони використовували OpenAI на якомусь етапі, це можна буде провернути і в майбутньому. Незрозуміло, наскільки цей фактор збережеться. Чи вдасться повторювати цей фокус до нескінченності?
  • Тепер навіть середні за розміром компанії зможуть частину процесів перенести на цю модель, скоротивши витрати. Або навіть підняти модель у себе, скоротивши витрати ще більше. Плюс її можна використовувати тим, хто зараз сидить на власній Llama через якісь обмеження.
  • Оскільки модель відкрита, то випиляти з неї обмеження буде неважко. Чекаємо появи ще більш розумних спам-ботів, шахраїв та інших покидьків.
  • Через якийсь час MoE та інші прийоми повторять і інші, що ще сильніше скоротить ціни на інференс.