O único gráfico que importa na escolha de um modelo: quanta inteligência medida você obtém por cada dólar. Traçamos o preço do token combinado em relação ao LMArena Elo real e traçamos a fronteira eficiente – os modelos nada superam em qualidade a um preço mais baixo.
Cada ponto é um modelo com uma pontuação real de preferência humana LMArena. Acima = mais inteligente; esquerda = mais barato. A linha tracejada é a fronteira eficiente (melhor qualidade em cada faixa de preço).
Modelos 12 com um Elo de preferência humana LMArena real. Modelos sem pontuação Elo não são plotados.
Esses modelos situam-se na fronteira eficiente: para cada um, nenhum outro modelo sobre esteiras oferece maior qualidade LMArena a um preço combinado mais baixo.
A qualidade é real LMArena Elo - classificações de preferência humana a partir de votos diretos cegos, não nossa própria estimativa. O preço é a média combinada de tokens de entrada e saída de US$/1 milhão dos preços rastreados de cada modelo.
Um modelo está na fronteira eficiente quando nenhum outro modelo tem um Elo maior e um preço menor ou igual. A fronteira é recalculada à medida que os preços e as classificações são atualizados.
Deliberadamente, não publicamos uma relação 'Elo por dólar': Elo é uma escala de intervalo, portanto dividi-la por preço não é estatisticamente significativa. A fronteira é a maneira honesta de comparar qualidade e custo.