Llm Analytics
Лентой новостей навеяло.
Сейчас невозможно определить, какая модель лучше, не проведя множество сложных экспериментов. И если кто-то говорит вам о преимуществах одной LLM над другой или о их возможности или невозможности решать какие-то задачи, и делает это на одном примере, то либо ошибается он сам, либо он пытается вами манипулировать. Вся существующая разница между моделями или моделями и людьми оценивается только на выборках и только вероятностно. Причем дать это даже в формате “в среднем на N% лучше” можно только для очень узкой задачи. Потому что для разных задач важны разные факторы, типа галлюцинаций, краткости/развернутости, тона, точности следования инструкциям, “знания” определенных языков и так далее. Например, при всех своих плюсах GPT-4o проигрывает Claude-3.5 по вероятности галлюцинаций и умению писать на “человеческом” русском и украинском.