Meta verteidigt sein neues KI-Modell Llama 4 gegen Kritik aus der Community. Whrend Anwender ber schlechte Performance berichten und Manipulationsvorwrfe laut werden, dementiert das Unternehmen und spricht von Implementierungsproblemen.
Llama 4 unter Beschuss: Meta wehrt sich gegen Kritik
Metas am Wochenende berraschend verffentlichte KI-Modelle Llama 4 Scout und Llama 4 Maverick stehen massiv in der Kritik. Nutzer und Experten berichten von deutlich schlechterer Performance als von Meta beworben. Das fhrte einige Nutzer dazu, von Benchmark-Manipulation zu sprechen. Die Diskrepanz zwischen den versprochenen und tatschlichen Leistungen sorgt aber ohnehin fr Unmut in der KI-Community.
Die neuen Modelle, die mit der «Mixture-of-Experts»-Architektur und einer als MetaP bekannten Trainingsmethode mit festen Hyperparametern arbeiten, sollten laut Meta Konkurrenzprodukte wie GPT-4o und Gemini 2.0 Flash bertreffen. Besonders hervorgehoben wurde dabei das groe Kontextfenster von angeblich zehn Millionen Token fr das Scout-Modell, was eine deutliche Verbesserung gegenber frheren Versionen darstellen wrde.
Schummeln oder Bugs?
Ein besonders kritischer Punkt: Meta nutzte fr die Benchmark-Tests auf der Plattform LMArena eine spezielle «experimentelle» Version von Maverick, die auf Konversationsfhigkeit optimiert wurde – nicht die ffentlich verfgbare Standardversion. Diese Praxis fhrte laut TechCrunch dazu, dass LMArena nach der Verffentlichung seine Richtlinien berarbeiten musste. Ein Meta-Sprecher rechtfertigte das mit der Aussage, dass das Unternehmen «mit allen Arten von benutzerdefinierten Varianten experimentiert».
Simon Willison, unabhngiger KI-Forscher, kritisierte indes gegenber The Verge: «Als Llama 4 herauskam, hat mich die Tatsache, dass es in der Arena den zweiten Platz nach Gemini 2.5 Pro belegte, wirklich beeindruckt, und ich rgere mich, dass ich das Kleingedruckte nicht gelesen habe.» Diese Aussage verdeutlicht die Enttuschung vieler Experten, die zunchst von den vermeintlichen Fortschritten begeistert waren.
Meta dementiert
Zustzlich zu den Benchmark-Problemen kursieren unbesttigte Gerchte, dass Meta seine Modelle gezielt auf Testdatenstze trainiert habe, um bessere Ergebnisse vorzutuschen. Ahmad Al-Dahle, Vice President fr generative KI bei Meta, wies diese Vorwrfe entschieden zurck: «Wir haben auch Behauptungen gehrt, dass wir auf Testdatenstzen trainiert haben – das ist schlichtweg nicht wahr und wir wrden das niemals tun.»
Die ungewhnliche Verffentlichung am Samstag sorgte fr zustzliche Spekulationen. Meta-CEO Mark Zuckerberg erklrte dazu lediglich auf Threads: «Das war der Zeitpunkt, zu dem es fertig war.» Diese knappe Antwort trug wenig zur Beruhigung der Situation bei und lie Raum fr weitere Interpretationen. Meta fhrt die von Nutzern gemeldeten Leistungsprobleme auf «Implementierungsschwierigkeiten» zurck. Al-Dahle erklrte, es werde «einige Tage dauern, bis alle ffentlichen Implementierungen eingestellt sind» und versprach, an Fehlerbehebungen zu arbeiten.
Experten weisen wohlgemerkt darauf hin, dass Benchmark-Ergebnisse generell mit Vorsicht zu betrachten sind, da sie oft nicht die reale Nutzungserfahrung widerspiegeln. Die Praxis, speziell «optimierte» Versionen fr Benchmarks zu verwenden, ist auch nicht ungewhnlich – sollte aber entsprechend klar und transparent kommuniziert werden.
Was haltet ihr von Metas Erklrung zu den Llama 4-Problemen? Glaubt ihr an technische Schwierigkeiten oder seht ihr bewusste Manipulation? Teilt eure Meinung in den Kommentaren!
- Metas neue KI-Modelle Llama 4 Scout und Maverick unter Kritik
- Nutzer berichten von schlechterer Leistung als von Meta beworben
- Vorwrfe der Benchmark-Manipulation durch spezielle Testversionen
- Meta dementiert Anschuldigungen und spricht von Implementierungsproblemen
- Ungewhnliche Verffentlichung am Wochenende sorgt fr Spekulationen
- Experten mahnen zur Vorsicht bei der Interpretation von Benchmark-Ergebnissen
- Meta verspricht Fehlerbehebungen in den kommenden Tagen
Siehe auch: