Прахът от хайп-влака DeepSeek малко се слегна и стана по-ясно какво е DeepSeek.

  • Обучението може да е струвало $6M, но вероятно това не са всички разходи. Плюс те вече са имали 2000 Nvidia H800.
  • OpenAI обвинява разработчиците на DeepSeek, че са използвали техни модели на някакъв етап от обучението.
  • Качеството е сравнимо с най-добрите модели и това е най-добрата open-source модель.
  • Цената е 2 пъти по-ниска от свежия o3-mini и 25 пъти по-ниска от o1.
  • На етапа на инференс ниската цена се постига чрез използване на евтини карти (8/12-битови тегла + специфични оптимизации за H800) и Sparse Mixture-of-Experts (не всички слоеве и експерти са активни на всеки токен).

  • Дори да са използвали OpenAI на някакъв етап, това може да се повтори и в бъдеще. Не е ясно колко дълго ще се запази този фактор. Ще успяват ли да повтарят този фокус безкрайно?
  • Сега дори средно големи компании ще могат да прехвърлят част от процесите си към този модел, намалявайки разходите. Или дори да вдигнат модела при себе си, намалявайки разходите още повече. Плюс той може да се използва от тези, които сега са на собствена Llama поради някакви ограничения.
  • Тъй като моделът е отворен, да се махнат ограниченията му няма да е трудно. Чакаме още по-умни спам-ботове, измамници и други гадове.
  • След известно време MoE и останалите прийоми ще бъдат повторени и от други, което още повече ще намали цените на инференса.