Bir model seçerken önemli olan tek grafik: Her bir dolar için ne kadar ölçülen zeka elde edersiniz. Gerçek LMArena Elo'ya karşı karma token fiyatını çiziyoruz ve verimlilik sınırını izliyoruz - daha düşük fiyata kalite açısından başka hiçbir şeyin geçemeyeceği modeller.
Her nokta, gerçek bir LMArena insan tercihi puanına sahip bir modeldir. Yukarı = daha akıllı; sol = daha ucuz. Kesikli çizgi etkin sınırdır (her fiyat noktasında en iyi kalite).
Gerçek bir LMArena insan tercihi Elo'ya sahip 12 modelleri. Elo puanı olmayan modeller çizilmez.
Bu modeller verimlilik sınırında yer alıyor: Her biri için başka hiçbir paletli model, daha düşük bir karma fiyata daha yüksek LMArena kalitesi sunmuyor.
Kalite gerçek LMArena Elo'dur - kendi tahminimiz değil, kör kafa kafaya oylamalardan elde edilen insan tercihi sıralaması. Fiyat, her modelin takip edilen fiyatlandırmasından elde edilen girdi ve çıktı $/1 milyon tokenlerin karma ortalamasıdır.
Başka hiçbir modelin hem daha yüksek Elo'ya hem de daha düşük veya eşit fiyata sahip olmadığı bir model, verimlilik sınırındadır. Sınır, fiyatlar ve sıralamalar güncellendikçe yeniden hesaplanır.
Kasıtlı olarak bir 'Dolar başına Elo' oranı yayınlamıyoruz: Elo bir aralık ölçeği olduğundan bunu fiyata bölmek istatistiksel olarak anlamlı değildir. Sınır, kaliteyi maliyetle karşılaştırmanın dürüst yoludur.