Claude Code나 Codex와 같은 AI 코딩 에이전트는 신뢰할 수 있게 올바른 파일을 찾지만 그 안에 중요한 대부분의 줄을 놓칩니다. 새로운 SWE-Explore 기준은 실제 수정과 구분하여 코드 검색을 테스트한 최초의 기준입니다.
새로운 모델은 기능과 가격 대비 성능의 경계를 재설정합니다. 팀은 출시로 인해 달러당 가능한 것이 바뀔 때마다 무엇을 구축할지 재평가합니다.
요약은 정보 제공 목적으로만 집계되었습니다. 전체 내용을 보려면 소스 링크를 따르세요. 데모 항목은 예시입니다.