Microsoft: KI kann Code-Debugging einfach nicht so gut wie ein Mensch

Trotz zunehmender Nutzung von Knstlicher Intelligenz in der Softwareentwicklung zeigen aktuelle Studien, dass moderne KI-Modelle beim Debugging an klare Grenzen stoen. Vor allem schneiden sie hierbei im Vergleich zum Menschen deutlich schlechter ab.

Hacker, Security, Hack, Entwickler, Entwicklung, Cybersecurity, Exploit, Hacking, Code, Programmierung, Quellcode, Programmierer, Developer, Sdk, Programmieren, Sourcecode, Cyber, Dev, Coder, Development, Coding, Bin

Hufiges Scheitern

So zeigt eine neue Untersuchung von Microsoft Research auf, dass selbst fortschrittliche Systeme wie OpenAIs o3-mini oder Claude 3.7 Sonnet von Anthropic oft an Aufgaben scheitern, die fr erfahrene Entwickler problemlos lsbar wren. Im Rahmen der Studie wurden neun verschiedene Sprachmodelle getestet, die als Grundlage fr einen Debugging-Agenten dienten.

Dieser Agent erhielt Zugriff auf verschiedene Werkzeuge – darunter einen Python-Debugger – und sollte 300 Aufgaben aus dem Benchmark-Set SWE-bench Lite lsen, das typische Fehler in realer Softwareentwicklung simuliert. Die Ergebnisse sind ernchternd: Kein Modell konnte mehr als die Hlfte der Aufgaben erfolgreich bewltigen. Claude 3.7 Sonnet schnitt mit einer Erfolgsquote von 48,4 Prozent am besten ab. OpenAIs Modelle erreichten deutlich niedrigere Werte – o1 kam auf 30,2 Prozent, o3-mini nur auf 22,1 Prozent.

Die Forschenden sehen die Hauptursache in einem Mangel an geeigneten Trainingsdaten. Insbesondere fehle es den Modellen an Einblicken in reale, sequenzielle Entscheidungsprozesse – also an Daten, die zeigen, wie Entwickler Schritt fr Schritt Informationen sammeln und Fehler beheben. Auch die Fhigkeit der Modelle, Debugging-Werkzeuge effektiv zu nutzen, sei bislang unzureichend.

Investiert wird trotzdem

Trotz dieser Schwchen investieren viele Tech-Konzerne weiterhin massiv in KI-gesttzte Programmierhilfen. Google-Chef Sundar Pichai erklrte im Oktober, dass bereits ein Viertel des neuen Codes bei Google von KI generiert werde. Auch Meta plant eine weitreichende Integration solcher Systeme.

Fhrende Kpfe der Branche warnen jedoch vor berzogenen Erwartungen. Microsoft-Mitgrnder Bill Gates, Replit-Chef Amjad Masad und andere sehen in der KI ein untersttzendes Werkzeug – nicht aber den Ersatz fr menschliche Entwickler. Die Microsoft-Studie liefert nun ein weiteres Argument dafr, den Hype um generative KI im Coding-Alltag mit Vorsicht zu betrachten.

Zusammenfassung

Microsoft-Studie: KI-Modelle scheitern oft beim Code-Debugging
Neun getestete Sprachmodelle lsten maximal 48,4 % der Aufgaben
Mangel an Trainingsdaten fr reale Entscheidungsprozesse als Ursache
Tech-Konzerne investieren trotz Schwchen weiter in KI-Programmierhilfen
Experten warnen vor berzogenen Erwartungen an KI in der Entwicklung
KI wird als untersttzendes Werkzeug, nicht als Entwicklerersatz gesehen
Die Studie mahnt zur Vorsicht beim Einsatz generativer KI im Coding-Alltag

Siehe auch:

source

PC-WELT Oster-Verlosung: Gewinnen Sie Gaming-Gear von Turtle Beach (Anzeige)

13. April 2025 20:37:57

Letztes Windows 11-Update legt einen mysteriösen Ordner an

13. April 2025 20:37:56

Microsoft: KI kann Code-Debugging einfach nicht so gut wie ein Mensch

PC-WELT Oster-Verlosung: Gewinnen Sie Gaming-Gear von Turtle Beach (Anzeige)

Letztes Windows 11-Update legt einen mysteriösen Ordner an

Globale Lieferprobleme: Weitere Infos zur Crucial P510 SSD statt des geplanten Tests (Update)

Die 5 besten Tipps für Holafly: So sparen Sie mit der eSIM

Die 5 besten Tipps für Holafly: So sparen Sie mit der eSIM

Schreibe einen Kommentar Antworten abbrechen

RECOMMENDED NEWS

Datenleak im Darknet: Hunderte Politiker von Sicherheitsvorfall betroffen

Trump als unfreiwilliger Innovationsmotor? : Europa will unabhängiger von US-Tech werden

Nützliches Apple-Feature in Windows 11: So aktiviert ihr die Spotlight-Suche mit wenigen Klicks

Windows-Update macht Microsoft Office unbenutzbar: Das können Sie tun

FOLLOW US

BROWSE BY CATEGORIES

POPULAR NEWS

Reaktion auf Trump-Zölle: Asus, Dell, Framework, Lenovo, Razer setzen US-Verkauf aus

Volla Phone Quintus – Google-freies Smartphone aus Deutschland im Test

Patch Day: Microsoft schließt kritische Windows-Lücken

Sicher spielen im Netz: Spielerschutz beim Online-Glücksspiel 2025

Deepcool CH690 Digital: Glaskasten-Gehäuse zeigt die Seite und ein Display

Recent News

Category

Recent News

PC-WELT Oster-Verlosung: Gewinnen Sie Gaming-Gear von Turtle Beach (Anzeige)

Letztes Windows 11-Update legt einen mysteriösen Ordner an

Welcome Back!

Retrieve your password

Microsoft: KI kann Code-Debugging einfach nicht so gut wie ein Mensch

Hufiges Scheitern

Investiert wird trotzdem

Related posts

Globale Lieferprobleme: Weitere Infos zur Crucial P510 SSD statt des geplanten Tests (Update)

Die 5 besten Tipps für Holafly: So sparen Sie mit der eSIM

Schreibe einen Kommentar Antworten abbrechen

RECOMMENDED NEWS

FOLLOW US

BROWSE BY CATEGORIES

POPULAR NEWS

Recent News

Category

Recent News

Welcome Back!

Retrieve your password