모델을 선택할 때 중요한 단일 차트: 1달러당 측정된 지능의 양입니다. 우리는 실제 LMArena Elo에 대해 혼합 토큰 가격을 계획하고 효율적인 경계를 추적합니다. 즉, 저렴한 가격으로 품질을 능가하는 모델은 없습니다.
각 점은 실제 LMArena 인간 선호도 점수가 포함된 모델입니다. 위 = 더 똑똑하다; 왼쪽 = 더 저렴합니다. 점선은 효율적인 경계(각 가격대에서 최고의 품질)입니다.
실제 LMArena 인간이 선호하는 Elo를 갖춘 12 모델입니다. Elo 점수가 없는 모델은 플롯되지 않습니다.
이러한 모델은 효율적인 최전선에 위치합니다. 각각에 대해 더 낮은 혼합 가격으로 더 높은 LMArena 품질을 제공하는 다른 추적 모델은 없습니다.
품질은 실제 LMArena Elo입니다. 우리 자체 추정이 아닌 블라인드 직접 투표를 통해 얻은 인간 선호도 순위입니다. 가격은 각 모델의 추적 가격에서 입력 및 출력 $/1M 토큰의 혼합 평균입니다.
더 높은 Elo와 더 낮거나 같은 가격을 모두 갖춘 모델이 없을 때 해당 모델은 효율적인 최전선에 있습니다. 가격과 순위가 업데이트되면 프런티어가 다시 계산됩니다.
우리는 의도적으로 '달러당 Elo' 비율을 게시하지 않습니다. Elo는 간격 척도이므로 이를 가격으로 나누는 것은 통계적으로 의미가 없습니다. 프런티어는 품질과 비용을 비교하는 정직한 방법입니다.