Agent pemrograman AI seperti Claude Code atau Codex dapat menemukan berkas yang benar tetapi kehilangan sebagian besar baris penting didalamnya. Benchmark SWE-Explore yang baru adalah yang pertama untuk menguji pencarian kode secara terpisah dari perbaikan nyata...
Model-model baru mengatur ulang batas kemampuan dan harga-kinerja. Tim mengevaluasi kembali apa yang harus dikembangkan setiap kali peluncuran mengubah apa yang mungkin dilakukan per dolar.
Ringkasan dikumpulkan untuk informasi saja — ikuti tautan sumber untuk cerita selengkapnya. Entri demo bersifat ilustratif.