¿Qué es Llama 4 Scout y qué hardware necesita?

Llama 4 Scout es el modelo de 17 mil millones de parámetros de Meta diseñado para implementación local. Funciona en una sola GPU de consumo con 24 GB de VRAM, como la Nvidia RTX 4090, lo que lo hace accesible para desarrolladores individuales y equipos pequeños sin infraestructura en la nube.

¿Cómo se compara Llama 4 Maverick con GPT-5.4 y Claude?

En pruebas de referencia, Llama 4 Maverick obtuvo 87,4 en MMLU (frente a 86,1 de GPT-5.4 y 85,8 de Claude 3.7 Sonnet) y 79,6 en el benchmark MATH, lo que lo sitúa en un nivel competitivo o superior al de los modelos frontales de código cerrado en varias tareas de razonamiento.

¿Es Llama 4 gratuito para uso comercial?

Sí. Llama 4 es gratuito para descargar y usar comercialmente bajo la licencia de uso abierto de Meta. La principal restricción es para organizaciones con más de 700 millones de usuarios activos mensuales, lo que en la práctica solo limita a las mayores empresas tecnológicas.

Meta acaba de lanzar Llama 4 — y la carrera p…

Llama 4 Scout y Llama 4 Maverick ya están disponibles. Scout funciona en una sola GPU de consumo. Maverick supera a GPT-5.4 mini en tareas de razonamiento. Ambos son gratuitos para descargar.

Meta lanzó Llama 4 el domingo, y la comunidad de IA lo ha estado analizando con la intensidad forense que normalmente se reserva para documentos judiciales filtrados. Dos variantes del modelo se publicaron simultáneamente: Llama 4 Scout, un modelo de 17 mil millones de parámetros optimizado para implementación local, y Llama 4 Maverick, un modelo de mezcla de expertos de 400 mil millones de parámetros diseñado para cargas de trabajo empresariales. Ambos son gratuitos para descargar bajo la licencia de uso abierto de Meta, que permite la implementación comercial para organizaciones con menos de 700 millones de usuarios activos mensuales — un umbral que exime prácticamente a todos excepto a la propia Meta y a un puñado de otros gigantes tecnológicos.

El titular de Scout es que funciona en una sola Nvidia RTX 4090 o una GPU de consumo equivalente con 24 GB de VRAM. Ese ha sido un punto umbral que los desarrolladores estaban esperando: un modelo genuinamente capaz que un desarrollador en solitario o un equipo pequeño puede ejecutar completamente en su propio hardware, sin pagar costes de inferencia en la nube, sin enviar sus datos al servidor de nadie. En los primeros benchmarks que circulan por los foros de desarrolladores, Scout está obteniendo resultados similares a GPT-5.4 mini y Gemini 2.0 Flash en tareas estándar de programación y razonamiento, y ligeramente por encima de ambos en extracción de datos estructurados.

Maverick es una bestia diferente. El recuento de 400 mil millones de parámetros suena grande, pero la arquitectura de mezcla de expertos significa que solo una fracción de los parámetros está activa durante cualquier pasada de inferencia — unos 17 mil millones, aproximadamente equivalentes al tamaño completo de Scout. El resultado práctico es que Maverick requiere menos cómputo por consulta de lo que requeriría un modelo denso de 400B, al tiempo que conserva la profundidad de conocimiento y razonamiento de una red mucho más grande. En el benchmark MMLU, Maverick obtuvo 87,4, frente a 86,1 de GPT-5.4 y 85,8 de Claude 3.7 Sonnet. En razonamiento matemático (benchmark MATH), Maverick alcanzó 79,6, lo que está significativamente por encima de cualquier modelo de código abierto lanzado antes que él.

“En el benchmark MMLU, Maverick obtuvo 87,4, frente a 86,1 de GPT-5.4 y 85,8 de Claude 3.7 Sonnet.”

La recepción por parte de los desarrolladores ha sido contundente y en gran medida positiva, aunque con algunas reservas. La ventana de contexto de Llama 4 es de 256.000 tokens en Scout y 1 millón en Maverick — competitiva con la frontera del sector, pero la comunidad pasará la próxima semana probando a fondo si el rendimiento se degrada en tareas de contexto largo, como ha ocurrido con versiones anteriores de Llama. Varios investigadores de IA en X señalaron que los resultados del benchmark de Maverick se produjeron con una variante "ajustada para chat" diferente del modelo base, lo que podría afectar a la reproducibilidad.

Puntos Clave

meta: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
llama 4: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
open source ai: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
large language models: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.

El CEO de Meta, Mark Zuckerberg, enmarcó el lanzamiento como parte de una apuesta a largo plazo. "Creemos que la IA de código abierto es la forma de construir un ecosistema más saludable", escribió en un comunicado que acompañó al lanzamiento. "No porque sea altruista — sino porque los mejores productos de IA se construirán sobre bases que todos puedan ver, auditar y mejorar." Es un discurso familiar, pero resuena de manera diferente ahora que cuando Llama 1 se lanzó en febrero de 2023 ante una audiencia mucho más pequeña. El panorama de la IA de código abierto ha madurado significativamente desde entonces, y la disposición de Meta a publicar modelos a esta escala ha obligado a todos los demás grandes laboratorios a tener en cuenta los argumentos sobre costes y accesibilidad.

Las implicaciones prácticas son reales. Un desarrollador que crea una herramienta de revisión de documentos legales, una empresa sanitaria que procesa registros de pacientes o una agencia gubernamental con requisitos de soberanía de datos — todos ellos tienen ahora acceso a un modelo competitivo con la frontera actual, desplegable completamente dentro de su propia infraestructura. Eso es un avance nada trivial. No elimina el caso de los modelos frontales basados en la nube de OpenAI, Anthropic o Google, pero lo acota.

El único ámbito donde la recepción ha sido más cautelosa es el de la seguridad. El enfoque de Meta respecto a la seguridad del modelo en Llama 4 implica un sistema por capas: un modelo clasificador Llama Guard 4 dedicado para filtrar entradas y salidas, además de un sistema Prompt Guard actualizado para detectar intentos de evasión. Los investigadores que ya han pasado el fin de semana probando los pesos públicos han descubierto que, como ocurrió con versiones anteriores de Llama, los pesos base pueden ser manipulados para producir contenido que las capas de seguridad están diseñadas para bloquear. Meta reconoció esto en las notas de la versión, describiéndolo como "una propiedad inherente de los pesos publicados abiertamente" y señalando que ha compartido los pesos de Llama Guard 4 específicamente para que los implementadores puedan ejecutar su propia capa de filtrado.

Es una postura razonable. También es una postura que mantendrá el debate político sobre la IA de código abierto funcionando a pleno rendimiento en un futuro previsible.

Continue reading to see the full article

Meta acaba de lanzar Llama 4 — y la carrera por la IA de código abierto ha vuelto a comenzar

Puntos Clave

Preguntas Frecuentes

Meta acaba de lanzar Llama 4 — y la carrera por la IA de código abierto ha vuelto a comenzar

Preguntas Frecuentes

Más en Tech & AI