Maverick ist ein anderes Tier. Die 400 Milliarden Parameter klingen nach viel, doch die Mixture-of-Experts-Architektur bedeutet, dass nur ein Bruchteil der Parameter bei einem bestimmten Inferenzschritt aktiv ist — etwa 17 Milliarden, ungefähr die volle Größe von Scout. Das praktische Ergebnis ist, dass Maverick pro Anfrage weniger Rechenleistung benötigt als ein dichtes 400-Milliarden-Modell, während es die Wissenstiefe und Reasoning-Fähigkeit eines deutlich größeren Netzwerks beibehält. Beim MMLU-Benchmark erzielte Maverick 87,4 Punkte, verglichen mit 86,1 für GPT-5.4 und 85,8 für Claude 3.7 Sonnet. Beim mathematischen Reasoning (MATH-Benchmark) erreichte Maverick 79,6 — das liegt deutlich über jedem zuvor veröffentlichten Open-Source-Modell.
“Beim MMLU-Benchmark erzielte Maverick 87,4 Punkte, verglichen mit 86,1 für GPT-5.4 und 85,8 für Claude 3.7 Sonnet.”
Die Resonanz der Entwickler war laut und überwiegend positiv, wenn auch mit einigen Vorbehalten. Das Kontextfenster von Llama 4 beträgt 256.000 Token bei Scout und 1 Million bei Maverick — konkurrenzfähig mit den Frontier-Modellen, aber die Community wird die nächste Woche damit verbringen, zu testen, ob die Leistung bei Long-Context-Aufgaben nachlässt, wie es bei früheren Llama-Versionen der Fall war. Mehrere KI-Forscher auf X wiesen darauf hin, dass die Maverick-Benchmark-Ergebnisse mit einer „chat-optimierten" Variante erzielt wurden, die sich vom Basismodell unterscheidet, was die Reproduzierbarkeit beeinflussen könnte.
Wichtige Erkenntnisse
- →meta: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
- →llama 4: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
- →open source ai: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
- →large language models: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
Meta-CEO Mark Zuckerberg beschrieb die Veröffentlichung als Teil einer langfristigen Wette. „Wir glauben, dass Open-Source-KI der Weg ist, ein gesünderes Ökosystem aufzubauen", schrieb er in einer Erklärung zur Veröffentlichung. „Nicht weil es altruistisch ist — sondern weil die besten KI-Produkte auf Grundlagen aufgebaut werden, die jeder sehen, prüfen und verbessern kann." Das ist ein vertrautes Argument, aber es klingt heute anders als beim Launch von Llama 1 im Februar 2023 vor einem deutlich kleineren Publikum. Die Open-Source-KI-Landschaft hat sich seitdem erheblich weiterentwickelt, und Metas Bereitschaft, Modelle in diesem Umfang zu veröffentlichen, hat jedes andere große Labor dazu gezwungen, sich mit den Kosten- und Zugänglichkeitsargumenten auseinanderzusetzen.
Die praktischen Auswirkungen sind real. Ein Entwickler, der ein Tool zur Überprüfung von Rechtsdokumenten erstellt, ein Gesundheitsunternehmen, das Patientenakten verarbeitet, oder eine Behörde mit Anforderungen an die Datensouveränität — sie alle haben jetzt Zugang zu einem Modell, das mit der aktuellen Frontier mithalten kann und vollständig innerhalb der eigenen Infrastruktur betrieben werden kann. Das ist eine nicht unerhebliche Entwicklung. Sie beseitigt nicht das Argument für cloudbasierte Frontier-Modelle von OpenAI, Anthropic oder Google, aber sie engt es ein.
Der einzige Bereich, in dem die Resonanz verhaltener war, ist die Sicherheit. Metas Ansatz zur Modellsicherheit in Llama 4 umfasst ein mehrschichtiges System: ein dediziertes Llama Guard 4 Klassifikatormodell zum Filtern von Eingaben und Ausgaben sowie ein aktualisiertes Prompt Guard System zur Erkennung von Jailbreaks. Forscher, die das Wochenende bereits damit verbracht haben, die öffentlichen Gewichte zu testen, haben festgestellt, dass — wie bei früheren Llama-Veröffentlichungen — die Basisgewichte dazu gebracht werden können, Inhalte zu erzeugen, die die Sicherheitsebenen eigentlich blockieren sollen. Meta hat dies in den Release-Notes eingeräumt und es als „inhärente Eigenschaft offen veröffentlichter Gewichte" beschrieben, wobei darauf hingewiesen wurde, dass die Llama Guard 4 Gewichte gezielt geteilt wurden, damit Betreiber eine eigene Filterebene einrichten können.
Das ist eine vernünftige Position. Es ist auch eine Position, die die politische Debatte über Open-Source-KI auf absehbare Zeit in vollem Gange halten wird.