O Maverick é um animal diferente. A contagem de 400 bilhões de parâmetros parece grande, mas a arquitetura de mistura de especialistas significa que apenas uma fração dos parâmetros fica ativa durante qualquer passagem de inferência — cerca de 17 bilhões, aproximadamente equivalente ao tamanho total do Scout. O resultado prático é que o Maverick exige menos capacidade computacional por consulta do que um modelo denso de 400 bilhões exigiria, mantendo a profundidade de conhecimento e raciocínio de uma rede muito maior. No benchmark MMLU, o Maverick obteve 87,4, em comparação com 86,1 do GPT-5.4 e 85,8 do Claude 3.7 Sonnet. Em raciocínio matemático (benchmark MATH), o Maverick atingiu 79,6, valor significativamente acima de qualquer modelo de código aberto lançado antes dele.
“No benchmark MMLU, o Maverick obteve 87,4, em comparação com 86,1 do GPT-5.4 e 85,8 do Claude 3.7 Sonnet.”
A recepção dos desenvolvedores foi barulhenta e amplamente positiva, embora com algumas ressalvas. A janela de contexto do Llama 4 é de 256.000 tokens no Scout e 1 milhão no Maverick — competitiva com a fronteira, mas a comunidade passará a próxima semana testando sob pressão se o desempenho degrada em tarefas de contexto longo da forma como ocorreu com versões anteriores do Llama. Vários pesquisadores de IA no X observaram que os resultados de benchmark do Maverick foram produzidos com uma variante "ajustada para chat" diferente do modelo base, o que pode afetar a reprodutibilidade.
Pontos Principais
- →meta: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
- →llama 4: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
- →open source ai: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
- →large language models: Llama 4 Scout is Meta's 17-billion-parameter model designed for local deployment.
O CEO da Meta, Mark Zuckerberg, enquadrou o lançamento como parte de uma aposta de longo prazo. "Acreditamos que a IA de código aberto é a forma de construir um ecossistema mais saudável", escreveu ele em uma declaração que acompanhou o lançamento. "Não porque é altruísta — mas porque os melhores produtos de IA serão construídos sobre fundações que todos possam ver, auditar e melhorar." É um discurso familiar, mas ressoa de forma diferente agora do que quando o Llama 1 foi lançado em fevereiro de 2023 para um público muito menor. O cenário de IA de código aberto amadureceu significativamente desde então, e a disposição da Meta de lançar modelos nessa escala forçou todos os outros grandes laboratórios a lidar com os argumentos de custo e acesso.
As implicações práticas são reais. Um desenvolvedor construindo uma ferramenta de revisão de documentos jurídicos, uma empresa de saúde processando prontuários de pacientes ou uma agência governamental com requisitos de soberania de dados — todos eles agora têm acesso a um modelo competitivo com a fronteira atual, implantável inteiramente dentro de sua própria infraestrutura. Isso é um desenvolvimento não trivial. Não elimina o argumento para modelos de fronteira baseados em nuvem da OpenAI, Anthropic ou Google, mas o enfraquece.
A única área em que a recepção foi mais cautelosa é a segurança. A abordagem da Meta para a segurança do modelo no Llama 4 envolve um sistema em camadas: um modelo classificador Llama Guard 4 dedicado para filtrar entradas e saídas, além de um sistema Prompt Guard atualizado para detectar jailbreaks. Pesquisadores que já passaram o fim de semana testando os pesos públicos descobriram que, assim como em versões anteriores do Llama, os pesos base podem ser induzidos a produzir conteúdo que as camadas de segurança foram projetadas para bloquear. A Meta reconheceu isso nas notas de lançamento, descrevendo-o como "uma propriedade inerente dos pesos lançados abertamente" e observando que compartilhou os pesos do Llama Guard 4 especificamente para que os implantadores possam executar sua própria camada de filtragem.
Essa é uma posição razoável. É também uma posição que manterá o debate político sobre IA de código aberto funcionando em plena velocidade pelo futuro previsível.