AI-агенты кодирования, такие как Claude Code или Codex, надежно находят правильный файл, но пропускают большинство критических строк в нем. Новый бенчмарк SWE-Explore первый, кто тестирует поиск кода отдельно от фактического ремонта...
Новые модели сбрасывают границы возможностей и цены-качества. Команды пересматривают, на чем основываться, всякий раз, когда запуск меняет возможный размер за доллар.
Краткое изложение собрано только для информации — перейдите по ссылке на источник, чтобы получить полную информацию. Демонстрационные записи носят иллюстративный характер.