Biểu đồ duy nhất quan trọng khi chọn mô hình: bạn nhận được bao nhiêu trí thông minh tính được cho mỗi đô la. Chúng tôi vẽ biểu đồ giá mã thông báo kết hợp với LMArena Elo thực và theo dõi biên giới hiệu quả - mô hình không có gì khác có thể đánh bại về chất lượng ở mức giá thấp hơn.
Mỗi dấu chấm là một mô hình có điểm LMArena thực sự được con người ưa thích. Lên = thông minh hơn; trái = rẻ hơn. Đường đứt nét là đường biên hiệu quả (chất lượng tốt nhất ở mỗi mức giá).
Các mô hình 12 có Elo ưa thích của con người LMArena thực sự. Các mô hình không có điểm Elo sẽ không được vẽ.
Những mô hình này nằm ở ranh giới hiệu quả: đối với mỗi mô hình, không có mô hình được theo dõi nào khác cung cấp chất lượng LMArena cao hơn với mức giá kết hợp thấp hơn.
Chất lượng là LMArena Elo thực sự - thứ hạng ưa thích của con người từ các cuộc bỏ phiếu trực tiếp mù quáng, không phải ước tính của chúng tôi. Giá là mức trung bình tổng hợp của các token đầu vào và đầu ra trị giá 1 triệu USD từ mức giá được theo dõi của mỗi mô hình.
Một mô hình nằm trên đường biên hiệu quả khi không có mô hình nào khác có Elo cao hơn và giá thấp hơn hoặc bằng. Biên giới được tính toán lại khi cập nhật giá và thứ hạng.
Chúng tôi cố tình không công bố tỷ lệ 'Elo trên mỗi đô la': Elo là thang đo khoảng thời gian, do đó việc chia nó theo giá không có ý nghĩa thống kê. Biên giới là cách trung thực nhất để so sánh chất lượng với chi phí.