Пыль от хайп-трейна DeepSeek немного улеглась, и про DeepSeek стало понятно больше.
- Обучение могло стоить $6M, но, возможно, это не все затраты. Плюс у них уже было 2000 Nvidia H800.
- OpenAI обвиняет разработчиков DeepSeek в том, что они использовали их модели на каком-то этапе обучения.
- Качество сравнимо с лучшими моделями, и это лучшая open-source модель.
- Цена в 2 раза ниже свежей o3-mini и в 25 раз ниже, чем у o1.
- На этапе инференса низкая стоимость достигается использованием дешевых карт (8/12-битные веса + специфичные для H800 оптимизации) и Sparse Mixture-of-Experts (не все слои и эксперты активны на каждом токене).
- Даже если они использовали OpenAI на каком-то этапе, то это можно будет провернуть и в будущем. Непонятно, насколько этот фактор сохранится. Удастся ли повторять этот фокус до бесконечности?
- Теперь даже средние по размерам компании смогут часть процессов перенести на эту модель, сократив затраты. Или даже поднять модель у себя, сократив затраты еще больше. Плюс ее можно использовать тем, кто сейчас сидит на собственной Llama из-за каких-то ограничений.
- Т.к. модель открытая, то выпилить из нее ограничения будет несложно. Ждем появления еще более умных спам-ботов, мошенников и прочих гадов.
- Через какое-то время MoE и остальные приемы повторят и остальные, что еще сильнее сократит цены на инференс.