Peluncuran Model· The Decoder· 14 Jun 2026· 12 jam yang lalu· 1 min dibaca

Agent pemrograman AI menemukan berkas yang benar tetapi kehilangan baris yang penting, menurut studi

Agent pemrograman AI seperti Claude Code atau Codex dapat menemukan berkas yang benar tetapi kehilangan sebagian besar baris penting didalamnya. Benchmark SWE-Explore yang baru adalah yang pertama untuk menguji pencarian kode secara terpisah dari perbaikan nyata...

Mengapa itu penting

Model-model baru mengatur ulang batas kemampuan dan harga-kinerja. Tim mengevaluasi kembali apa yang harus dikembangkan setiap kali peluncuran mengubah apa yang mungkin dilakukan per dolar.

Jelajahi data di balik ini

Halaman HotON.ai terkait

Model →Membandingkan →

Baca asli (The Decoder) →

Ringkasan dikumpulkan untuk informasi saja — ikuti tautan sumber untuk cerita selengkapnya. Entri demo bersifat ilustratif.

Lebih banyak berita

Peluncuran Model2 jam yang lalu

Cina Mungkin Memasuki Mythos

Pendanaan & M&A4 jam yang lalu

Saat Perusahaan AI Bersaing untuk Membuka Publik, Siapa Lainnya yang Berada di Perjalanan?

Infrastruktur7 jam yang lalu

Microsoft Research's Mirage memberikan memori ruang tetap bagi generasi video yang tak lupa apa di sekeliling

Peluncuran Model7 jam yang lalu

Format Pengetahuan Terbuka Google Cloud mengubah dokumen terpisah menjadi berkas Markdown untuk agen AI