O que é o Llama 4 Scout e qual hardware ele exige?

O Llama 4 Scout é o modelo de 17 bilhões de parâmetros da Meta, projetado para implantação local. Ele roda em uma única GPU de consumidor com 24 GB de VRAM, como a Nvidia RTX 4090, tornando-o acessível a desenvolvedores individuais e pequenas equipes sem infraestrutura em nuvem.

Como o Llama 4 Maverick se compara ao GPT-5.4 e ao Claude?

Em testes de benchmark, o Llama 4 Maverick obteve 87,4 no MMLU (contra 86,1 do GPT-5.4 e 85,8 do Claude 3.7 Sonnet) e 79,6 no benchmark MATH, tornando-o competitivo ou superior aos modelos de fronteira de código fechado em diversas tarefas de raciocínio.

O Llama 4 é gratuito para uso comercial?

Sim. O Llama 4 é gratuito para download e uso comercial sob a licença de uso aberto da Meta. A principal restrição é para organizações com mais de 700 milhões de usuários ativos mensais, o que na prática limita apenas as maiores empresas de tecnologia.

A Meta Acaba de Lançar o Llama 4 — e a Corrid…

Llama 4 Scout e Llama 4 Maverick já estão disponíveis. O Scout roda em uma única GPU de consumidor. O Maverick supera o GPT-5.4 mini em tarefas de raciocínio. Ambos são gratuitos para download.

A Meta lançou o Llama 4 no domingo, e a comunidade de IA tem se debruçado sobre ele com a intensidade forense normalmente reservada para documentos judiciais vazados. Duas variantes do modelo foram lançadas simultaneamente: o Llama 4 Scout, um modelo de 17 bilhões de parâmetros otimizado para implantação local, e o Llama 4 Maverick, um modelo de mistura de especialistas com 400 bilhões de parâmetros, projetado para cargas de trabalho empresariais. Ambos são gratuitos para download sob a licença de uso aberto da Meta, que permite implantação comercial para organizações com menos de 700 milhões de usuários ativos mensais — um limiar que isenta praticamente todos, exceto a própria Meta e um punhado de outras gigantes de tecnologia.

O destaque do Scout é que ele roda em uma única Nvidia RTX 4090 ou GPU de consumidor equivalente com 24 GB de VRAM. Esse tem sido um ponto de virada que os desenvolvedores aguardavam: um modelo genuinamente capaz que um desenvolvedor solo ou uma pequena equipe pode rodar inteiramente em seu próprio hardware, sem pagar custos de inferência em nuvem, sem enviar seus dados para o servidor de ninguém. Nos primeiros benchmarks circulando nos fóruns de desenvolvedores, o Scout está pontuando no mesmo nível do GPT-5.4 mini e do Gemini 2.0 Flash em tarefas padrão de codificação e raciocínio, e ligeiramente acima de ambos em extração de dados estruturados.

O Maverick é um animal diferente. A contagem de 400 bilhões de parâmetros parece grande, mas a arquitetura de mistura de especialistas significa que apenas uma fração dos parâmetros fica ativa durante qualquer passagem de inferência — cerca de 17 bilhões, aproximadamente equivalente ao tamanho total do Scout. O resultado prático é que o Maverick exige menos capacidade computacional por consulta do que um modelo denso de 400 bilhões exigiria, mantendo a profundidade de conhecimento e raciocínio de uma rede muito maior. No benchmark MMLU, o Maverick obteve 87,4, em comparação com 86,1 do GPT-5.4 e 85,8 do Claude 3.7 Sonnet. Em raciocínio matemático (benchmark MATH), o Maverick atingiu 79,6, valor significativamente acima de qualquer modelo de código aberto lançado antes dele.

“No benchmark MMLU, o Maverick obteve 87,4, em comparação com 86,1 do GPT-5.4 e 85,8 do Claude 3.7 Sonnet.”

A recepção dos desenvolvedores foi barulhenta e amplamente positiva, embora com algumas ressalvas. A janela de contexto do Llama 4 é de 256.000 tokens no Scout e 1 milhão no Maverick — competitiva com a fronteira, mas a comunidade passará a próxima semana testando sob pressão se o desempenho degrada em tarefas de contexto longo da forma como ocorreu com versões anteriores do Llama. Vários pesquisadores de IA no X observaram que os resultados de benchmark do Maverick foram produzidos com uma variante "ajustada para chat" diferente do modelo base, o que pode afetar a reprodutibilidade.

Pontos Principais

meta: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
llama 4: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
open source ai: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
large language models: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.

O CEO da Meta, Mark Zuckerberg, enquadrou o lançamento como parte de uma aposta de longo prazo. "Acreditamos que a IA de código aberto é a forma de construir um ecossistema mais saudável", escreveu ele em uma declaração que acompanhou o lançamento. "Não porque é altruísta — mas porque os melhores produtos de IA serão construídos sobre fundações que todos possam ver, auditar e melhorar." É um discurso familiar, mas ressoa de forma diferente agora do que quando o Llama 1 foi lançado em fevereiro de 2023 para um público muito menor. O cenário de IA de código aberto amadureceu significativamente desde então, e a disposição da Meta de lançar modelos nessa escala forçou todos os outros grandes laboratórios a lidar com os argumentos de custo e acesso.

As implicações práticas são reais. Um desenvolvedor construindo uma ferramenta de revisão de documentos jurídicos, uma empresa de saúde processando prontuários de pacientes ou uma agência governamental com requisitos de soberania de dados — todos eles agora têm acesso a um modelo competitivo com a fronteira atual, implantável inteiramente dentro de sua própria infraestrutura. Isso é um desenvolvimento não trivial. Não elimina o argumento para modelos de fronteira baseados em nuvem da OpenAI, Anthropic ou Google, mas o enfraquece.

A única área em que a recepção foi mais cautelosa é a segurança. A abordagem da Meta para a segurança do modelo no Llama 4 envolve um sistema em camadas: um modelo classificador Llama Guard 4 dedicado para filtrar entradas e saídas, além de um sistema Prompt Guard atualizado para detectar jailbreaks. Pesquisadores que já passaram o fim de semana testando os pesos públicos descobriram que, assim como em versões anteriores do Llama, os pesos base podem ser induzidos a produzir conteúdo que as camadas de segurança foram projetadas para bloquear. A Meta reconheceu isso nas notas de lançamento, descrevendo-o como "uma propriedade inerente dos pesos lançados abertamente" e observando que compartilhou os pesos do Llama Guard 4 especificamente para que os implantadores possam executar sua própria camada de filtragem.

Essa é uma posição razoável. É também uma posição que manterá o debate político sobre IA de código aberto funcionando em plena velocidade pelo futuro previsível.

Continue reading to see the full article

A Meta Acaba de Lançar o Llama 4 — e a Corrida da IA de Código Aberto Recomeçou

Pontos Principais

Perguntas Frequentes

A Meta Acaba de Lançar o Llama 4 — e a Corrida da IA de Código Aberto Recomeçou

Perguntas Frequentes

Mais em Tech & AI