एकल चार्ट जो मॉडल चुनते समय मायने रखता है: प्रत्येक डॉलर के लिए आपको कितनी मापी गई बुद्धिमत्ता मिलती है। हम वास्तविक LMArena एलो के मुकाबले मिश्रित टोकन मूल्य की योजना बनाते हैं और कुशल सीमा का पता लगाते हैं - मॉडल कम कीमत पर गुणवत्ता से बेहतर कुछ नहीं है।
प्रत्येक बिंदु वास्तविक LMArena मानव-वरीयता स्कोर वाला एक मॉडल है। ऊपर = होशियार; बाएँ = सस्ता. धराशायी रेखा कुशल सीमा (प्रत्येक मूल्य बिंदु पर सर्वोत्तम गुणवत्ता) है।
वास्तविक LMArena मानव-वरीयता एलो के साथ 12 मॉडल। एलो स्कोर के बिना मॉडल प्लॉट नहीं किए जाते हैं।
ये मॉडल कुशल सीमा पर बैठते हैं: प्रत्येक के लिए, कोई भी अन्य ट्रैक किया गया मॉडल कम मिश्रित कीमत पर उच्च LMArena गुणवत्ता प्रदान नहीं करता है।
गुणवत्ता वास्तविक है LMArena एलो - आमने-सामने के वोटों से मानव-वरीयता रैंकिंग, हमारा अपना अनुमान नहीं। मूल्य प्रत्येक मॉडल के ट्रैक किए गए मूल्य निर्धारण से इनपुट और आउटपुट $/1M टोकन का मिश्रित औसत है।
एक मॉडल कुशल सीमा पर तब होता है जब किसी अन्य मॉडल में उच्च एलो और कम-या-बराबर कीमत दोनों नहीं होती हैं। कीमतों और रैंकिंग अपडेट के रूप में सीमांत की पुनर्गणना की जाती है।
हम जानबूझकर 'एलो प्रति डॉलर' अनुपात प्रकाशित नहीं करते हैं: एलो एक अंतराल पैमाना है, इसलिए इसे कीमत से विभाजित करना सांख्यिकीय रूप से सार्थक नहीं है। सीमांत लागत के विरुद्ध गुणवत्ता की तुलना करने का ईमानदार तरीका है।