Bagan tunggal yang penting saat memilih model: seberapa besar kecerdasan terukur yang Anda peroleh untuk setiap dolar. Kami memplot harga token campuran terhadap LMArena Elo asli dan menelusuri batas efisien — model yang kualitasnya tidak ada duanya dengan harga lebih rendah.
Setiap titik adalah model dengan skor preferensi manusia LMArena yang sebenarnya. Naik = lebih pintar; kiri = lebih murah. Garis putus-putus adalah batas efisien (kualitas terbaik pada setiap titik harga).
Model 12 dengan Elo preferensi manusia LMArena yang sebenarnya. Model tanpa skor Elo tidak akan diplot.
Model-model ini berada di garis depan yang efisien: untuk masing-masing model, tidak ada model terlacak lainnya yang menawarkan kualitas LMArena lebih tinggi dengan harga campuran yang lebih rendah.
Kualitas adalah LMArena Elo yang nyata - peringkat preferensi manusia dari pemungutan suara secara langsung, bukan perkiraan kami sendiri. Harga adalah rata-rata campuran token input dan output $/1 juta dari harga yang dilacak setiap model.
Suatu model berada pada batas efisien ketika tidak ada model lain yang mempunyai Elo lebih tinggi dan harga lebih rendah atau sama. Perbatasan dihitung ulang seiring dengan pembaruan harga dan peringkat.
Kami sengaja tidak mempublikasikan rasio 'Elo per dolar': Elo adalah skala interval, jadi membaginya dengan harga tidak berarti secara statistik. Perbatasan adalah cara jujur untuk membandingkan kualitas dengan biaya.