Meta a publié Llama 4 dimanche, et la communauté de l'IA s'y est plongée avec une intensité médico-légale habituellement réservée aux documents judiciaires divulgués. Deux variantes du modèle ont été publiées simultanément : Llama 4 Scout, un modèle de 17 milliards de paramètres optimisé pour le déploiement local, et Llama 4 Maverick, un modèle mixture-of-experts de 400 milliards de paramètres conçu pour les charges de travail en entreprise. Les deux sont gratuits au téléchargement sous la licence d'utilisation ouverte de Meta, qui autorise le déploiement commercial pour les organisations comptant moins de 700 millions d'utilisateurs actifs mensuels — un seuil qui exempte à peu près tout le monde sauf Meta elle-même et une poignée d'autres géants technologiques.
Le fait marquant concernant Scout, c'est qu'il fonctionne sur un seul Nvidia RTX 4090 ou GPU grand public équivalent doté de 24 Go de VRAM. C'est un seuil que les développeurs attendaient : un modèle véritablement capable qu'un développeur solo ou une petite équipe peut faire tourner entièrement sur son propre matériel, sans payer des coûts d'inférence cloud, sans envoyer ses données vers le serveur de qui que ce soit. Dans les premiers benchmarks qui circulent sur les forums de développeurs, Scout obtient des scores comparables à GPT-5.4 mini et Gemini 2.0 Flash sur les tâches standard de codage et de raisonnement, et légèrement supérieurs sur l'extraction de données structurées.
Continue reading to see the full article