تجد روبوتات البرمجة الاصطناعية مثل Claude Code أو Codex الملف الصحيح بشكل موثوق، لكنها تفوته معظم الأسطر المهمة فيه. هو أول معيار SWE-Explore يختبر البحث عن الكود بشكل منفصل عن الصيانة الفعلية، وهو…
تعمل النماذج الجديدة على إعادة ضبط حدود القدرة والأداء والسعر. تقوم الفرق بإعادة تقييم ما يجب البناء عليه عندما يؤدي الإطلاق إلى تغيير ما هو ممكن لكل دولار.
يتم تجميع الملخصات للحصول على معلومات فقط - اتبع رابط المصدر للحصول على القصة الكاملة. الإدخالات التجريبية توضيحية.