A Meta lançou o Llama 4 no domingo, e a comunidade de IA tem se debruçado sobre ele com a intensidade forense normalmente reservada para documentos judiciais vazados. Duas variantes do modelo foram lançadas simultaneamente: o Llama 4 Scout, um modelo de 17 bilhões de parâmetros otimizado para implantação local, e o Llama 4 Maverick, um modelo de mistura de especialistas com 400 bilhões de parâmetros, projetado para cargas de trabalho empresariais. Ambos são gratuitos para download sob a licença de uso aberto da Meta, que permite implantação comercial para organizações com menos de 700 milhões de usuários ativos mensais — um limiar que isenta praticamente todos, exceto a própria Meta e um punhado de outras gigantes de tecnologia.
O destaque do Scout é que ele roda em uma única Nvidia RTX 4090 ou GPU de consumidor equivalente com 24 GB de VRAM. Esse tem sido um ponto de virada que os desenvolvedores aguardavam: um modelo genuinamente capaz que um desenvolvedor solo ou uma pequena equipe pode rodar inteiramente em seu próprio hardware, sem pagar custos de inferência em nuvem, sem enviar seus dados para o servidor de ninguém. Nos primeiros benchmarks circulando nos fóruns de desenvolvedores, o Scout está pontuando no mesmo nível do GPT-5.4 mini e do Gemini 2.0 Flash em tarefas padrão de codificação e raciocínio, e ligeiramente acima de ambos em extração de dados estruturados.
Continue reading to see the full article