Das einzige Diagramm, das bei der Auswahl eines Modells zählt: Wie viel gemessene Intelligenz Sie für jeden Dollar erhalten. Wir zeichnen den gemischten Token-Preis im Vergleich zum echten LMArena Elo auf und verfolgen die Effizienzgrenze – die Modelle sind qualitativ unschlagbar und zu einem niedrigeren Preis erhältlich.
Jeder Punkt ist ein Modell mit einem echten LMArena-Wert für die menschliche Präferenz. Oben = schlauer; links = günstiger. Die gestrichelte Linie stellt die Effizienzgrenze dar (beste Qualität in jedem Preissegment).
12-Modelle mit einem echten, von Menschen bevorzugten LMArena-Elo. Modelle ohne Elo-Score werden nicht dargestellt.
Diese Modelle liegen an der Effizienzgrenze: Kein anderes Raupenmodell bietet eine höhere LMArena-Qualität zu einem niedrigeren Gesamtpreis.
Qualität ist real. LMArena Elo – Rangliste menschlicher Präferenzen aus blinden direkten Abstimmungen, nicht unsere eigene Schätzung. Der Preis ist der gemischte Durchschnitt der Input- und Output-Token im Wert von 1 Mio. USD aus der verfolgten Preisgestaltung jedes Modells.
Ein Modell liegt an der Effizienzgrenze, wenn kein anderes Modell sowohl einen höheren Elo als auch einen niedrigeren oder gleichen Preis aufweist. Die Grenze wird neu berechnet, wenn Preise und Rankings aktualisiert werden.
Wir veröffentlichen bewusst kein „Elo pro Dollar“-Verhältnis: Elo ist eine Intervallskala, daher ist eine Division durch den Preis statistisch nicht aussagekräftig. Die Grenze ist der ehrliche Weg, Qualität mit Kosten zu vergleichen.