A cache KV agora ultrapassa os pesos dos modelos em contextos longos. Veja como TurboQuant, OSCAR e EpiCache cada um ataca essa gargalo de memória e por que eles são mais complementares do que competitivos. O post A Corrida de Compressão de Cache KV...
Novos modelos redefinem a fronteira de capacidade e preço-desempenho. As equipes reavaliam o que desenvolver sempre que um lançamento muda o que é possível por dólar.
Os resumos são agregados apenas para fins informativos – siga o link da fonte para ver a história completa. As entradas de demonstração são ilustrativas.