Agentes de codificación de IA como Claude Code o Codex encuentran el archivo correcto de manera confiable pero omiten la mayoría de las líneas críticas dentro de él. El nuevo benchmark SWE-Explore es el primero en probar la búsqueda de código por separado de la reparación real...
Los nuevos modelos restablecen la frontera entre capacidad y precio-rendimiento. Los equipos reevalúan sobre qué construir cada vez que un lanzamiento cambia lo que es posible por dólar.
Los resúmenes se agregan únicamente con fines informativos; siga el enlace fuente para ver la historia completa. Las entradas de demostración son ilustrativas.