Claude CodeやCodexなどのAIコーディングエージェントは正しいファイルを見つけるが、その中の重要な行のほとんどを見逃す。新しいSWE-Exploreベンチマークは、実際の修復からコード検索を分離して初めてテストを行う。
新しいモデルは、機能と価格パフォーマンスの最前線をリセットします。チームは、ローンチによって 1 ドルあたりの可能性が変わるたびに、何を構築するかを再評価します。
概要は情報提供のみを目的としてまとめられています。全文についてはソース リンクを参照してください。デモのエントリは一例です。