El único gráfico que importa a la hora de elegir un modelo: cuánta inteligencia medida se obtiene por cada dólar. Trazamos el precio simbólico combinado frente al LMArena Elo real y trazamos la frontera eficiente: ningún otro modelo supera en calidad a un precio más bajo.
Cada punto es un modelo con una puntuación real de preferencia humana LMArena. Arriba = más inteligente; izquierda = más barato. La línea discontinua es la frontera eficiente (la mejor calidad en cada nivel de precio).
Modelos 12 con un Elo real de preferencia humana LMArena. Los modelos sin puntuación Elo no se trazan.
Estos modelos se encuentran en la frontera de la eficiencia: para cada uno, ningún otro modelo con orugas ofrece mayor calidad LMArena a un precio combinado más bajo.
La calidad es real LMArena Elo: clasificaciones de preferencia humana a partir de votos ciegos cara a cara, no nuestra propia estimación. El precio es el promedio combinado de tokens de entrada y salida de $/1 millón del precio rastreado de cada modelo.
Un modelo está en la frontera eficiente cuando ningún otro modelo tiene un Elo más alto y un precio menor o igual. La frontera se vuelve a calcular a medida que se actualizan los precios y las clasificaciones.
Deliberadamente no publicamos una relación 'Elo por dólar': Elo es una escala de intervalo, por lo que dividirla por el precio no tiene significado estadístico. La frontera es la forma honesta de comparar la calidad con el costo.