Llama 4: Meta wehrt sich gegen Vorwürfe der Benchmark-Manipulation

Meta verteidigt sein neues KI-Modell Llama 4 gegen Kritik aus der Community. Whrend Anwender ber schlechte Performance berichten und Manipulationsvorwrfe laut werden, dementiert das Unternehmen und spricht von Implementierungsproblemen.

Llama 4 unter Beschuss: Meta wehrt sich gegen Kritik

Metas am Wochenende berraschend verffentlichte KI-Modelle Llama 4 Scout und Llama 4 Maverick stehen massiv in der Kritik. Nutzer und Experten berichten von deutlich schlechterer Performance als von Meta beworben. Das fhrte einige Nutzer dazu, von Benchmark-Manipulation zu sprechen. Die Diskrepanz zwischen den versprochenen und tatschlichen Leistungen sorgt aber ohnehin fr Unmut in der KI-Community.

Die neuen Modelle, die mit der «Mixture-of-Experts»-Architektur und einer als MetaP bekannten Trainingsmethode mit festen Hyperparametern arbeiten, sollten laut Meta Konkurrenzprodukte wie GPT-4o und Gemini 2.0 Flash bertreffen. Besonders hervorgehoben wurde dabei das groe Kontextfenster von angeblich zehn Millionen Token fr das Scout-Modell, was eine deutliche Verbesserung gegenber frheren Versionen darstellen wrde.

Schummeln oder Bugs?

Ein besonders kritischer Punkt: Meta nutzte fr die Benchmark-Tests auf der Plattform LMArena eine spezielle «experimentelle» Version von Maverick, die auf Konversationsfhigkeit optimiert wurde – nicht die ffentlich verfgbare Standardversion. Diese Praxis fhrte laut TechCrunch dazu, dass LMArena nach der Verffentlichung seine Richtlinien berarbeiten musste. Ein Meta-Sprecher rechtfertigte das mit der Aussage, dass das Unternehmen «mit allen Arten von benutzerdefinierten Varianten experimentiert».

Simon Willison, unabhngiger KI-Forscher, kritisierte indes gegenber The Verge: «Als Llama 4 herauskam, hat mich die Tatsache, dass es in der Arena den zweiten Platz nach Gemini 2.5 Pro belegte, wirklich beeindruckt, und ich rgere mich, dass ich das Kleingedruckte nicht gelesen habe.» Diese Aussage verdeutlicht die Enttuschung vieler Experten, die zunchst von den vermeintlichen Fortschritten begeistert waren.

Meta dementiert

Zustzlich zu den Benchmark-Problemen kursieren unbesttigte Gerchte, dass Meta seine Modelle gezielt auf Testdatenstze trainiert habe, um bessere Ergebnisse vorzutuschen. Ahmad Al-Dahle, Vice President fr generative KI bei Meta, wies diese Vorwrfe entschieden zurck: «Wir haben auch Behauptungen gehrt, dass wir auf Testdatenstzen trainiert haben – das ist schlichtweg nicht wahr und wir wrden das niemals tun.»

Die ungewhnliche Verffentlichung am Samstag sorgte fr zustzliche Spekulationen. Meta-CEO Mark Zuckerberg erklrte dazu lediglich auf Threads: «Das war der Zeitpunkt, zu dem es fertig war.» Diese knappe Antwort trug wenig zur Beruhigung der Situation bei und lie Raum fr weitere Interpretationen. Meta fhrt die von Nutzern gemeldeten Leistungsprobleme auf «Implementierungsschwierigkeiten» zurck. Al-Dahle erklrte, es werde «einige Tage dauern, bis alle ffentlichen Implementierungen eingestellt sind» und versprach, an Fehlerbehebungen zu arbeiten.

Experten weisen wohlgemerkt darauf hin, dass Benchmark-Ergebnisse generell mit Vorsicht zu betrachten sind, da sie oft nicht die reale Nutzungserfahrung widerspiegeln. Die Praxis, speziell «optimierte» Versionen fr Benchmarks zu verwenden, ist auch nicht ungewhnlich – sollte aber entsprechend klar und transparent kommuniziert werden.

Was haltet ihr von Metas Erklrung zu den Llama 4-Problemen? Glaubt ihr an technische Schwierigkeiten oder seht ihr bewusste Manipulation? Teilt eure Meinung in den Kommentaren!

Zusammenfassung

Metas neue KI-Modelle Llama 4 Scout und Maverick unter Kritik
Nutzer berichten von schlechterer Leistung als von Meta beworben
Vorwrfe der Benchmark-Manipulation durch spezielle Testversionen
Meta dementiert Anschuldigungen und spricht von Implementierungsproblemen
Ungewhnliche Verffentlichung am Wochenende sorgt fr Spekulationen
Experten mahnen zur Vorsicht bei der Interpretation von Benchmark-Ergebnissen
Meta verspricht Fehlerbehebungen in den kommenden Tagen

Siehe auch:

source

PC-WELT Oster-Verlosung: Gewinnen Sie Gaming-Gear von Turtle Beach (Anzeige)

13. April 2025 20:37:57

Letztes Windows 11-Update legt einen mysteriösen Ordner an

13. April 2025 20:37:56

Llama 4: Meta wehrt sich gegen Vorwürfe der Benchmark-Manipulation

PC-WELT Oster-Verlosung: Gewinnen Sie Gaming-Gear von Turtle Beach (Anzeige)

Letztes Windows 11-Update legt einen mysteriösen Ordner an

Frankenstein lässt grüßen: Nach BIOS-Flash ist die RX 9070 fast so schnell wie eine XT

Nvidia: Grafiktreiber machen Probleme

Nvidia: Grafiktreiber machen Probleme

Schreibe einen Kommentar Antworten abbrechen

RECOMMENDED NEWS

Devil May Cry auf Netflix: Warum Sie diese neue Serie nicht verpassen sollten

Donald Trump, Elon Musk und Co.: Zehn einfache Schritte zu mehr Unabhängigkeit von US-Technik

Google April Pixel Drop: Nur eine neue, aber sehr nützliche Funktion für Handys

Find X8 Ultra: Oppos neues Handy mit vier 50-MP-Hasselblad-Kameras

FOLLOW US

BROWSE BY CATEGORIES

POPULAR NEWS

Reaktion auf Trump-Zölle: Asus, Dell, Framework, Lenovo, Razer setzen US-Verkauf aus

Volla Phone Quintus – Google-freies Smartphone aus Deutschland im Test

Patch Day: Microsoft schließt kritische Windows-Lücken

Sicher spielen im Netz: Spielerschutz beim Online-Glücksspiel 2025

Deepcool CH690 Digital: Glaskasten-Gehäuse zeigt die Seite und ein Display

Recent News

Category

Recent News

PC-WELT Oster-Verlosung: Gewinnen Sie Gaming-Gear von Turtle Beach (Anzeige)

Letztes Windows 11-Update legt einen mysteriösen Ordner an

Welcome Back!

Retrieve your password

Llama 4: Meta wehrt sich gegen Vorwürfe der Benchmark-Manipulation

Llama 4 unter Beschuss: Meta wehrt sich gegen Kritik

Schummeln oder Bugs?

Meta dementiert

Related posts

Frankenstein lässt grüßen: Nach BIOS-Flash ist die RX 9070 fast so schnell wie eine XT

Nvidia: Grafiktreiber machen Probleme

Schreibe einen Kommentar Antworten abbrechen

RECOMMENDED NEWS

FOLLOW US

BROWSE BY CATEGORIES

POPULAR NEWS

Recent News

Category

Recent News

Welcome Back!

Retrieve your password