Il grafico unico che conta quando si sceglie un modello: quanta intelligenza misurata ottieni per ogni dollaro. Tracciamo il prezzo token misto rispetto al LMArena Elo reale e tracciamo la frontiera efficiente: i modelli non superano nient'altro in termini di qualità a un prezzo inferiore.
Ogni punto è un modello con un reale punteggio LMArena di preferenza umana. Su = più intelligente; sinistra = più economico. La linea tratteggiata è la frontiera efficiente (migliore qualità per ogni fascia di prezzo).
Modelli 12 con un vero Elo LMArena a preferenza umana. I modelli senza punteggio Elo non vengono tracciati.
Questi modelli si collocano sulla frontiera dell'efficienza: per ciascuno di essi, nessun altro modello monitorato offre una qualità LMArena più elevata a un prezzo misto inferiore.
La qualità è reale LMArena Elo: classifiche sulle preferenze umane basate su voti ciechi testa a testa, non una nostra stima. Il prezzo è la media combinata dei token di input e output da $/1 milione dai prezzi tracciati di ciascun modello.
Un modello si trova sulla frontiera efficiente quando nessun altro modello ha sia un Elo più alto che un prezzo inferiore o uguale. La frontiera viene ricalcolata man mano che i prezzi e le classifiche si aggiornano.
Non pubblichiamo deliberatamente un rapporto "Elo per dollaro": Elo è una scala a intervalli, quindi dividerlo per prezzo non è statisticamente significativo. La frontiera è il modo onesto per confrontare la qualità con il costo.