Claude Code veya Codex gibi AI kodlama ajansları doğru dosyayı güvenilir bir şekilde bulsa da içindeki çoğu kritik satırı kaçırmaktadır. Yeni SWE-Explore ölçütü, kod aramasını gerçek onarımından ayrı olarak test eden ilk ölçüttür.
Yeni modeller kapasite ve fiyat-performans sınırını sıfırlıyor. Ekipler, bir lansman dolar başına mümkün olanı değiştirdiğinde neyin üzerine inşa edileceklerini yeniden değerlendiriyor.
Özetler yalnızca bilgi amaçlı olarak toplanmıştır; hikayenin tamamı için kaynak bağlantısını takip edin. Demo girişleri örnek niteliğindedir.