Пыль от хайп-трейна DeepSeek немного улеглась, и про DeepSeek стало понятно больше.

  • Обучение могло стоить $6M, но, возможно, это не все затраты. Плюс у них уже было 2000 Nvidia H800.
  • OpenAI обвиняет разработчиков DeepSeek в том, что они использовали их модели на каком-то этапе обучения.
  • Качество сравнимо с лучшими моделями, и это лучшая open-source модель.
  • Цена в 2 раза ниже свежей o3-mini и в 25 раз ниже, чем у o1.
  • На этапе инференса низкая стоимость достигается использованием дешевых карт (8/12-битные веса + специфичные для H800 оптимизации) и Sparse Mixture-of-Experts (не все слои и эксперты активны на каждом токене).

  • Даже если они использовали OpenAI на каком-то этапе, то это можно будет провернуть и в будущем. Непонятно, насколько этот фактор сохранится. Удастся ли повторять этот фокус до бесконечности?
  • Теперь даже средние по размерам компании смогут часть процессов перенести на эту модель, сократив затраты. Или даже поднять модель у себя, сократив затраты еще больше. Плюс ее можно использовать тем, кто сейчас сидит на собственной Llama из-за каких-то ограничений.
  • Т.к. модель открытая, то выпилить из нее ограничения будет несложно. Ждем появления еще более умных спам-ботов, мошенников и прочих гадов.
  • Через какое-то время MoE и остальные приемы повторят и остальные, что еще сильнее сократит цены на инференс.