モデルを選択する際に重要となる単一のグラフ: 1 ドルあたりどれだけの測定されたインテリジェンスが得られるか。実際の LMArena Elo に対して混合トークン価格をプロットし、効率的なフロンティアを追跡します。低価格で品質において他に勝るものはないモデルです。
各ドットは、実際の LMArena 人間の好みのスコアを持つモデルです。向上 = より賢くなります。左=安い。破線は効率的なフロンティア (各価格帯で最高の品質) です。
12 は、実際の LMArena 人間好みのエロを備えたモデルです。 Elo スコアのないモデルはプロットされません。
これらのモデルは効率の最前線に位置しており、それぞれのモデルにおいて、より低い混合価格でより高い LMArena 品質を提供する追跡モデルは他にありません。
品質は本物です LMArena Elo — 私たちの独自の推定ではなく、盲目的な直接投票による人間の好みのランキングです。価格は、各モデルの追跡価格からの入力および出力の $/100 万トークンの混合平均です。
より高い Elo とそれ以下または同等の価格の両方を備えたモデルが他にない場合、そのモデルは効率的なフロンティアにあります。価格とランキングが更新されるとフロンティアが再計算されます。
私たちは意図的に「1 ドルあたりの Elo」比率を公表しません。Elo は間隔スケールであるため、それを価格で割ることは統計的に意味がありません。フロンティアは、品質とコストを比較する正直な方法です。