Le tableau unique qui compte lors du choix d’un modèle : la quantité d’intelligence mesurée que vous obtenez pour chaque dollar. Nous traçons le prix symbolique mélangé par rapport au vrai LMArena Elo et traçons la frontière efficace - les modèles rien d'autre ne vaut la qualité à un prix inférieur.
Chaque point est un modèle avec un véritable score de préférence humaine LMArena. Haut = plus intelligent ; gauche = moins cher. La ligne pointillée est la frontière efficace (meilleure qualité à chaque niveau de prix).
Modèles 12 avec un véritable Elo de préférence humaine LMArena. Les modèles sans score Elo ne sont pas tracés.
Ces modèles se situent à la frontière de l'efficacité : pour chacun d'eux, aucun autre modèle à chenilles n'offre une qualité LMArena supérieure à un prix global inférieur.
La qualité est réelle LMArena Elo — classement des préférences humaines à partir de votes aveugles en face-à-face, et non de notre propre estimation. Le prix est la moyenne combinée des jetons d'entrée et de sortie de 1 million de dollars de la tarification suivie de chaque modèle.
Un modèle se trouve à la frontière de l'efficacité lorsqu'aucun autre modèle n'a à la fois un Elo plus élevé et un prix inférieur ou égal. La frontière est recalculée au fur et à mesure de la mise à jour des prix et des classements.
Nous ne publions délibérément pas de ratio « Elo par dollar » : Elo est une échelle d'intervalle, donc le diviser par le prix n'est pas statistiquement significatif. La frontière est le moyen honnête de comparer la qualité au coût.