Maverick es una bestia diferente. El recuento de 400 mil millones de parámetros suena grande, pero la arquitectura de mezcla de expertos significa que solo una fracción de los parámetros está activa durante cualquier pasada de inferencia — unos 17 mil millones, aproximadamente equivalentes al tamaño completo de Scout. El resultado práctico es que Maverick requiere menos cómputo por consulta de lo que requeriría un modelo denso de 400B, al tiempo que conserva la profundidad de conocimiento y razonamiento de una red mucho más grande. En el benchmark MMLU, Maverick obtuvo 87,4, frente a 86,1 de GPT-5.4 y 85,8 de Claude 3.7 Sonnet. En razonamiento matemático (benchmark MATH), Maverick alcanzó 79,6, lo que está significativamente por encima de cualquier modelo de código abierto lanzado antes que él.
“En el benchmark MMLU, Maverick obtuvo 87,4, frente a 86,1 de GPT-5.4 y 85,8 de Claude 3.7 Sonnet.”
La recepción por parte de los desarrolladores ha sido contundente y en gran medida positiva, aunque con algunas reservas. La ventana de contexto de Llama 4 es de 256.000 tokens en Scout y 1 millón en Maverick — competitiva con la frontera del sector, pero la comunidad pasará la próxima semana probando a fondo si el rendimiento se degrada en tareas de contexto largo, como ha ocurrido con versiones anteriores de Llama. Varios investigadores de IA en X señalaron que los resultados del benchmark de Maverick se produjeron con una variante "ajustada para chat" diferente del modelo base, lo que podría afectar a la reproducibilidad.
Puntos Clave
- →meta: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
- →llama 4: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
- →open source ai: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
- →large language models: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
El CEO de Meta, Mark Zuckerberg, enmarcó el lanzamiento como parte de una apuesta a largo plazo. "Creemos que la IA de código abierto es la forma de construir un ecosistema más saludable", escribió en un comunicado que acompañó al lanzamiento. "No porque sea altruista — sino porque los mejores productos de IA se construirán sobre bases que todos puedan ver, auditar y mejorar." Es un discurso familiar, pero resuena de manera diferente ahora que cuando Llama 1 se lanzó en febrero de 2023 ante una audiencia mucho más pequeña. El panorama de la IA de código abierto ha madurado significativamente desde entonces, y la disposición de Meta a publicar modelos a esta escala ha obligado a todos los demás grandes laboratorios a tener en cuenta los argumentos sobre costes y accesibilidad.
Las implicaciones prácticas son reales. Un desarrollador que crea una herramienta de revisión de documentos legales, una empresa sanitaria que procesa registros de pacientes o una agencia gubernamental con requisitos de soberanía de datos — todos ellos tienen ahora acceso a un modelo competitivo con la frontera actual, desplegable completamente dentro de su propia infraestructura. Eso es un avance nada trivial. No elimina el caso de los modelos frontales basados en la nube de OpenAI, Anthropic o Google, pero lo acota.
El único ámbito donde la recepción ha sido más cautelosa es el de la seguridad. El enfoque de Meta respecto a la seguridad del modelo en Llama 4 implica un sistema por capas: un modelo clasificador Llama Guard 4 dedicado para filtrar entradas y salidas, además de un sistema Prompt Guard actualizado para detectar intentos de evasión. Los investigadores que ya han pasado el fin de semana probando los pesos públicos han descubierto que, como ocurrió con versiones anteriores de Llama, los pesos base pueden ser manipulados para producir contenido que las capas de seguridad están diseñadas para bloquear. Meta reconoció esto en las notas de la versión, describiéndolo como "una propiedad inherente de los pesos publicados abiertamente" y señalando que ha compartido los pesos de Llama Guard 4 específicamente para que los implementadores puedan ejecutar su propia capa de filtrado.
Es una postura razonable. También es una postura que mantendrá el debate político sobre la IA de código abierto funcionando a pleno rendimiento en un futuro previsible.