LLM Аналітика
Навіяно стрічкою новин. Зараз неможливо визначити, яка модель краща, не провівши безліч складних експериментів. І якщо хтось говорить вам про переваги однієї LLM над іншою або про їхню можливість чи неможливість вирішувати якісь завдання, і робить це на одному прикладі, то або помиляється він сам, або він намагається вами маніпулювати. Вся існуюча різниця між моделями або моделями та людьми оцінюється тільки на вибірках і тільки імовірно. Причому дати це навіть у форматі «в середньому на N% краще» можна лише для дуже вузького завдання. Тому що для різних завдань важливі різні чинники, на кшталт галюцинацій, стислості/розгорнутості, тону, точності дотримання інструкцій, «знання» певних мов тощо. Наприклад, за всіх своїх плюсів GPT-4o програє Claude-3.5 за ймовірністю галюцинацій та вмінням писати «людською» російською та українською мовами.