Les agents de codage IA tels que Claude Code ou Codex trouvent le bon fichier en toute confiance mais ratent la plupart des lignes critiques à l'intérieur. Le nouveau benchmark SWE-Explore est le premier à tester la recherche de code séparément de la réparation réelle...
Les nouveaux modèles repoussent les limites des capacités et du rapport qualité-prix. Les équipes réévaluent les éléments sur lesquels s'appuyer chaque fois qu'un lancement modifie ce qui est possible par dollar.
Les résumés sont regroupés à titre d’information uniquement – suivez le lien source pour l’histoire complète. Les entrées de démonstration sont illustratives.