Agentes de codificação de IA como Claude Code ou Codex encontram o arquivo certo de maneira confiável, mas perdem a maioria das linhas críticas dentro dele. O novo benchmark SWE-Explore é o primeiro a testar a busca de código separadamente da reparação real...
Novos modelos redefinem a fronteira de capacidade e preço-desempenho. As equipes reavaliam o que desenvolver sempre que um lançamento muda o que é possível por dólar.
Os resumos são agregados apenas para fins informativos – siga o link da fonte para ver a história completa. As entradas de demonstração são ilustrativas.