Единственный график, который имеет значение при выборе модели: сколько измеренного интеллекта вы получаете за каждый доллар. Мы сопоставляем цену смешанного токена с реальным Elo LMArena и прослеживаем эффективную границу — модели, которые не могут сравниться по качеству с более низкой ценой.
Каждая точка представляет собой модель с реальной оценкой человеческих предпочтений LMArena. Вверх = умнее; слева = дешевле. Пунктирная линия — это граница эффективности (наилучшее качество в каждой ценовой категории).
Модели 12 с настоящим человеческим предпочтением LMArena Эло. Модели без оценки Эло не отображаются.
Эти модели находятся на переднем крае эффективности: ни одна другая гусеничная модель не предлагает более высокого качества LMArena по более низкой смешанной цене.
Качество — это настоящее LMArena Elo — рейтинг человеческих предпочтений, основанный на слепом личном голосовании, а не на нашей собственной оценке. Цена — это смешанное среднее значение входных и выходных токенов $/1 млн из отслеживаемых цен каждой модели.
Модель находится на границе эффективности, когда ни одна другая модель не имеет одновременно более высокого Эло и более низкой или равной цены. Граница пересчитывается по мере обновления цен и рейтингов.
Мы намеренно не публикуем соотношение «Эло к доллару»: Эло представляет собой интервальную шкалу, поэтому деление его на цену не имеет статистического смысла. Frontier – это честный способ сравнить качество и стоимость.