الرسم البياني الوحيد المهم عند اختيار النموذج: مقدار الذكاء المقاس الذي تحصل عليه مقابل كل دولار. نحن نرسم سعر الرمز المميز المختلط مقابل LMArena Elo الحقيقي ونتتبع الحدود الفعالة - لا شيء آخر يتفوق على النماذج من حيث الجودة بسعر أقل.
كل نقطة هي نموذج ذو درجة تفضيل بشري حقيقية لـ LMArena. لأعلى = أكثر ذكاءً؛ اليسار = أرخص. الخط المتقطع هو الحدود الفعالة (أفضل جودة عند كل نقطة سعر).
نماذج 12 مع Elo الحقيقي الذي يفضله الإنسان LMArena. لا يتم رسم النماذج التي لا تحتوي على درجة Elo.
تقع هذه الطرازات على الحدود الفعالة: لكل منها، لا يوجد طراز مجنزرة آخر يقدم جودة LMArena أعلى بسعر مختلط أقل.
الجودة حقيقية LMArena Elo — تصنيفات التفضيلات البشرية من خلال التصويت المباشر الأعمى، وليس تقديرنا الخاص. السعر هو المتوسط المختلط للمدخلات والمخرجات الرمزية $/1M من التسعير المتتبع لكل نموذج.
يكون النموذج على حدود الكفاءة عندما لا يكون هناك نموذج آخر يتمتع بـ Elo أعلى وسعر أقل أو مساوٍ. تتم إعادة حساب الحدود مع تحديث الأسعار والتصنيفات.
نحن لا ننشر عمدًا نسبة "إيلو لكل دولار": إن إيلو هو مقياس فاصل، لذا فإن تقسيمه على السعر ليس له معنى إحصائيًا. الحدود هي الطريقة الصادقة لمقارنة الجودة بالتكلفة.