Trotz zunehmender Nutzung von Knstlicher Intelligenz in der Softwareentwicklung zeigen aktuelle Studien, dass moderne KI-Modelle beim Debugging an klare Grenzen stoen. Vor allem schneiden sie hierbei im Vergleich zum Menschen deutlich schlechter ab.
Hufiges Scheitern
So zeigt eine neue Untersuchung von Microsoft Research auf, dass selbst fortschrittliche Systeme wie OpenAIs o3-mini oder Claude 3.7 Sonnet von Anthropic oft an Aufgaben scheitern, die fr erfahrene Entwickler problemlos lsbar wren. Im Rahmen der Studie wurden neun verschiedene Sprachmodelle getestet, die als Grundlage fr einen Debugging-Agenten dienten.
Dieser Agent erhielt Zugriff auf verschiedene Werkzeuge – darunter einen Python-Debugger – und sollte 300 Aufgaben aus dem Benchmark-Set SWE-bench Lite lsen, das typische Fehler in realer Softwareentwicklung simuliert. Die Ergebnisse sind ernchternd: Kein Modell konnte mehr als die Hlfte der Aufgaben erfolgreich bewltigen. Claude 3.7 Sonnet schnitt mit einer Erfolgsquote von 48,4 Prozent am besten ab. OpenAIs Modelle erreichten deutlich niedrigere Werte – o1 kam auf 30,2 Prozent, o3-mini nur auf 22,1 Prozent.
Die Forschenden sehen die Hauptursache in einem Mangel an geeigneten Trainingsdaten. Insbesondere fehle es den Modellen an Einblicken in reale, sequenzielle Entscheidungsprozesse – also an Daten, die zeigen, wie Entwickler Schritt fr Schritt Informationen sammeln und Fehler beheben. Auch die Fhigkeit der Modelle, Debugging-Werkzeuge effektiv zu nutzen, sei bislang unzureichend.
Investiert wird trotzdem
Trotz dieser Schwchen investieren viele Tech-Konzerne weiterhin massiv in KI-gesttzte Programmierhilfen. Google-Chef Sundar Pichai erklrte im Oktober, dass bereits ein Viertel des neuen Codes bei Google von KI generiert werde. Auch Meta plant eine weitreichende Integration solcher Systeme.
Fhrende Kpfe der Branche warnen jedoch vor berzogenen Erwartungen. Microsoft-Mitgrnder Bill Gates, Replit-Chef Amjad Masad und andere sehen in der KI ein untersttzendes Werkzeug – nicht aber den Ersatz fr menschliche Entwickler. Die Microsoft-Studie liefert nun ein weiteres Argument dafr, den Hype um generative KI im Coding-Alltag mit Vorsicht zu betrachten.
- Microsoft-Studie: KI-Modelle scheitern oft beim Code-Debugging
- Neun getestete Sprachmodelle lsten maximal 48,4 % der Aufgaben
- Mangel an Trainingsdaten fr reale Entscheidungsprozesse als Ursache
- Tech-Konzerne investieren trotz Schwchen weiter in KI-Programmierhilfen
- Experten warnen vor berzogenen Erwartungen an KI in der Entwicklung
- KI wird als untersttzendes Werkzeug, nicht als Entwicklerersatz gesehen
- Die Studie mahnt zur Vorsicht beim Einsatz generativer KI im Coding-Alltag
Siehe auch: