选模型时最该看的一张图:每花一美元,能换到多少被实测出来的智能。我们用混合 token 价格对真实 LMArena Elo 作图,并勾出效率前沿——在更低价格上没有谁能在质量上胜过它们。
每个点是一个有真实 LMArena 人类偏好分的模型。越往上越聪明,越往左越便宜。虚线是效率前沿(每个价位上的最优质量)。
12 个拥有真实 LMArena 人类偏好 Elo 的模型;无 Elo 分的模型不作图。
这些模型位于效率前沿:对每一个而言,没有其他被追踪的模型能以更低的混合价格提供更高的 LMArena 质量。
质量采用真实 LMArena Elo——盲测两两对战的人类偏好排名,而非我们的估算。价格为各模型输入/输出 $/100万 tokens 的混合均值。
当没有其他模型同时拥有更高 Elo 与更低或相等价格时,该模型即处于效率前沿。价格与排名更新时前沿会重新计算。
我们刻意不发布「每美元 Elo」比值:Elo 是区间尺度,除以价格在统计上没有意义。前沿才是衡量质量与成本的诚实方式。