LLM Аналитика

date: 2024-11-01

tags: [#ai, #llm, #analytics, #metrics ]

draft: false

---

Вдъхновено от новинарския поток. В момента е невъзможно да се определи коя модел е по-добра, без да се проведат множество сложни експерименти. И ако някой ви говори за предимствата на една LLM пред друга или за тяхната възможност или невъзможност да решават някакви задачи, и го прави на базата на един пример, то или той самият греши, или се опитва да ви манипулира. Всяка съществуваща разлика между моделите или между моделите и хората се оценява само на базата на извадки и само вероятностно. При това такова сравнение дори във формат „средно с N% по-добре“ може да се даде само за много тясно дефинирана задача. Тъй като за различните задачи са важни различни фактори, като халюцинации, краткост/изчерпателност, тон, точност при следване на инструкции, „познаване“ на определени езици и т.н. Например, въпреки всичките си плюсове, GPT-4o губи от Claude-3.5 по вероятност за халюцинации и умение да пише на „човешки“ руски и украински език.