Was ist Llama 4 Scout und welche Hardware wird benötigt?

Llama 4 Scout ist Metas Modell mit 17 Milliarden Parametern, das für den lokalen Einsatz konzipiert wurde. Es läuft auf einer einzigen Consumer-GPU mit 24 GB VRAM, wie der Nvidia RTX 4090, und ist damit für einzelne Entwickler und kleine Teams ohne Cloud-Infrastruktur zugänglich.

Wie schneidet Llama 4 Maverick im Vergleich zu GPT-5.4 und Claude ab?

In Benchmark-Tests erzielte Llama 4 Maverick 87,4 Punkte auf dem MMLU (gegenüber 86,1 für GPT-5.4 und 85,8 für Claude 3.7 Sonnet) und 79,6 auf dem MATH-Benchmark, womit es bei mehreren Reasoning-Aufgaben mit Closed-Source-Frontier-Modellen mithalten oder diese übertreffen kann.

Ist Llama 4 für den kommerziellen Einsatz kostenlos?

Ja. Llama 4 ist unter Metas Open-Use-Lizenz kostenlos herunterzuladen und kommerziell nutzbar. Die einzige wesentliche Einschränkung gilt für Organisationen mit mehr als 700 Millionen monatlich aktiven Nutzern, was in der Praxis nur die größten Technologieunternehmen betrifft.

Meta veröffentlicht Llama 4 — und das Rennen …

Llama 4 Scout und Llama 4 Maverick sind ab sofort verfügbar. Scout läuft auf einer einzigen Consumer-GPU. Maverick übertrifft GPT-5.4 mini bei Reasoning-Aufgaben. Beide sind kostenlos zum Download.

Meta hat am Sonntag Llama 4 veröffentlicht, und die KI-Community hat das Modell mit jener forensischen Intensität analysiert, die man sonst geleakten Gerichtsdokumenten vorbehält. Zwei Modellvarianten wurden gleichzeitig veröffentlicht: Llama 4 Scout, ein Modell mit 17 Milliarden Parametern, das für den lokalen Einsatz optimiert ist, und Llama 4 Maverick, ein Mixture-of-Experts-Modell mit 400 Milliarden Parametern, das für Enterprise-Workloads konzipiert wurde. Beide sind unter Metas Open-Use-Lizenz kostenlos erhältlich, die den kommerziellen Einsatz für Organisationen mit weniger als 700 Millionen monatlich aktiven Nutzern erlaubt — eine Schwelle, die praktisch jeden außer Meta selbst und einer Handvoll anderer Tech-Giganten ausschließt.

Das Besondere an Scout ist, dass es auf einer einzigen Nvidia RTX 4090 oder einer vergleichbaren Consumer-GPU mit 24 GB VRAM läuft. Das war ein Schwellenwert, auf den Entwickler gewartet haben: ein wirklich leistungsfähiges Modell, das ein einzelner Entwickler oder ein kleines Team vollständig auf eigener Hardware betreiben kann — ohne Cloud-Inferenzkosten, ohne Daten an fremde Server zu senden. In ersten Benchmarks, die in Entwicklerforen kursieren, erzielt Scout vergleichbare Ergebnisse wie GPT-5.4 mini und Gemini 2.0 Flash bei Standard-Coding- und Reasoning-Aufgaben und übertrifft beide leicht bei der Extraktion strukturierter Daten.

Maverick ist ein anderes Tier. Die 400 Milliarden Parameter klingen nach viel, doch die Mixture-of-Experts-Architektur bedeutet, dass nur ein Bruchteil der Parameter bei einem bestimmten Inferenzschritt aktiv ist — etwa 17 Milliarden, ungefähr die volle Größe von Scout. Das praktische Ergebnis ist, dass Maverick pro Anfrage weniger Rechenleistung benötigt als ein dichtes 400-Milliarden-Modell, während es die Wissenstiefe und Reasoning-Fähigkeit eines deutlich größeren Netzwerks beibehält. Beim MMLU-Benchmark erzielte Maverick 87,4 Punkte, verglichen mit 86,1 für GPT-5.4 und 85,8 für Claude 3.7 Sonnet. Beim mathematischen Reasoning (MATH-Benchmark) erreichte Maverick 79,6 — das liegt deutlich über jedem zuvor veröffentlichten Open-Source-Modell.

“Beim MMLU-Benchmark erzielte Maverick 87,4 Punkte, verglichen mit 86,1 für GPT-5.4 und 85,8 für Claude 3.7 Sonnet.”

Die Resonanz der Entwickler war laut und überwiegend positiv, wenn auch mit einigen Vorbehalten. Das Kontextfenster von Llama 4 beträgt 256.000 Token bei Scout und 1 Million bei Maverick — konkurrenzfähig mit den Frontier-Modellen, aber die Community wird die nächste Woche damit verbringen, zu testen, ob die Leistung bei Long-Context-Aufgaben nachlässt, wie es bei früheren Llama-Versionen der Fall war. Mehrere KI-Forscher auf X wiesen darauf hin, dass die Maverick-Benchmark-Ergebnisse mit einer „chat-optimierten" Variante erzielt wurden, die sich vom Basismodell unterscheidet, was die Reproduzierbarkeit beeinflussen könnte.

Wichtige Erkenntnisse

meta: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
llama 4: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
open source ai: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
large language models: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.

Meta-CEO Mark Zuckerberg beschrieb die Veröffentlichung als Teil einer langfristigen Wette. „Wir glauben, dass Open-Source-KI der Weg ist, ein gesünderes Ökosystem aufzubauen", schrieb er in einer Erklärung zur Veröffentlichung. „Nicht weil es altruistisch ist — sondern weil die besten KI-Produkte auf Grundlagen aufgebaut werden, die jeder sehen, prüfen und verbessern kann." Das ist ein vertrautes Argument, aber es klingt heute anders als beim Launch von Llama 1 im Februar 2023 vor einem deutlich kleineren Publikum. Die Open-Source-KI-Landschaft hat sich seitdem erheblich weiterentwickelt, und Metas Bereitschaft, Modelle in diesem Umfang zu veröffentlichen, hat jedes andere große Labor dazu gezwungen, sich mit den Kosten- und Zugänglichkeitsargumenten auseinanderzusetzen.

Die praktischen Auswirkungen sind real. Ein Entwickler, der ein Tool zur Überprüfung von Rechtsdokumenten erstellt, ein Gesundheitsunternehmen, das Patientenakten verarbeitet, oder eine Behörde mit Anforderungen an die Datensouveränität — sie alle haben jetzt Zugang zu einem Modell, das mit der aktuellen Frontier mithalten kann und vollständig innerhalb der eigenen Infrastruktur betrieben werden kann. Das ist eine nicht unerhebliche Entwicklung. Sie beseitigt nicht das Argument für cloudbasierte Frontier-Modelle von OpenAI, Anthropic oder Google, aber sie engt es ein.

Der einzige Bereich, in dem die Resonanz verhaltener war, ist die Sicherheit. Metas Ansatz zur Modellsicherheit in Llama 4 umfasst ein mehrschichtiges System: ein dediziertes Llama Guard 4 Klassifikatormodell zum Filtern von Eingaben und Ausgaben sowie ein aktualisiertes Prompt Guard System zur Erkennung von Jailbreaks. Forscher, die das Wochenende bereits damit verbracht haben, die öffentlichen Gewichte zu testen, haben festgestellt, dass — wie bei früheren Llama-Veröffentlichungen — die Basisgewichte dazu gebracht werden können, Inhalte zu erzeugen, die die Sicherheitsebenen eigentlich blockieren sollen. Meta hat dies in den Release-Notes eingeräumt und es als „inhärente Eigenschaft offen veröffentlichter Gewichte" beschrieben, wobei darauf hingewiesen wurde, dass die Llama Guard 4 Gewichte gezielt geteilt wurden, damit Betreiber eine eigene Filterebene einrichten können.

Das ist eine vernünftige Position. Es ist auch eine Position, die die politische Debatte über Open-Source-KI auf absehbare Zeit in vollem Gange halten wird.

Continue reading to see the full article

Meta veröffentlicht Llama 4 — und das Rennen um Open-Source-KI beginnt von Neuem

Wichtige Erkenntnisse

Häufig gestellte Fragen

Meta veröffentlicht Llama 4 — und das Rennen um Open-Source-KI beginnt von Neuem

Häufig gestellte Fragen

Mehr in Tech & AI