AI-Coding-Agenten wie Claude Code oder Codex finden das richtige Datei zuverlässig, aber verpassen die meisten kritischen Zeilen darin. Der neue SWE-Explore-Benchmark ist der erste, der Code-Suche getrennt vom tatsächlichen Reparaturprozess testet…
Neue Modelle setzen die Leistungs- und Preis-Leistungs-Grenze neu. Die Teams bewerten neu, worauf sie aufbauen können, wenn eine Markteinführung das Mögliche pro Dollar verändert.
Zusammenfassungen werden nur zu Informationszwecken aggregiert – folgen Sie dem Quelllink für die vollständige Geschichte. Demo-Einträge dienen der Veranschaulichung.