Meta випустила Llama 4 у неділю, і ШІ-спільнота досліджує її з криміналістичною інтенсивністю, яку зазвичай приберігають для витоків судових документів. Одночасно вийшли два варіанти моделі: Llama 4 Scout — модель з 17 мільярдами параметрів, оптимізована для локального розгортання, і Llama 4 Maverick — модель з 400 мільярдами параметрів типу «суміш експертів», розрахована на корпоративне навантаження. Обидві доступні для безкоштовного завантаження за ліцензією відкритого використання Meta, що дозволяє комерційне розгортання для організацій із менш ніж 700 мільйонами щомісячних активних користувачів — порогом, що звільняє від обмежень практично всіх, крім самої Meta та жменьки інших технологічних гігантів.
Головна новина про Scout: вона працює на одному споживацькому GPU Nvidia RTX 4090 або аналогу з 24 ГБ VRAM. Це був порогом, якого розробники чекали: по-справжньому здатна модель, яку соло-розробник або невелика команда може запускати повністю на власному обладнанні — без оплати хмарних інференс-сервісів, без передачі своїх даних чужим серверам. У ранніх бенчмарках, що циркулюють на форумах розробників, Scout показує результати на рівні GPT-5.4 mini і Gemini 2.0 Flash на стандартних задачах кодування та логічного мислення, і дещо вище за обох на структурованому вилученні даних.
Maverick — це інша тварина. Кількість параметрів у 400 млрд звучить величезно, але архітектура «суміш експертів» означає, що під час кожного проходу інференсу активна лише частина параметрів — близько 17 мільярдів, що приблизно відповідає повному розміру Scout. Практичний результат: Maverick потребує менше обчислень на запит, ніж щільна модель у 400 млрд, зберігаючи при цьому глибину знань і міркування набагато більшої мережі. На бенчмарку MMLU Maverick набрав 87,4 порівняно з 86,1 для GPT-5.4 і 85,8 для Claude 3.7 Sonnet. На математичному мисленні (бенчмарк MATH) Maverick отримав 79,6 — це значно вище будь-якої відкритої моделі, випущеної до неї.
Реакція розробників гучна і здебільшого позитивна, хоча з певними застереженнями. Контекстне вікно Llama 4 — 256 000 токенів у Scout і 1 мільйон у Maverick — конкурентоспроможне на рівні передових рішень, але спільнота витратить наступний тиждень на перевірку того, чи деградує продуктивність на задачах із довгим контекстом, як це було з попередніми версіями Llama. Кілька дослідників ШІ в X зазначили, що результати бенчмарку Maverick були отримані з варіантом, «налаштованим для розмови», що відрізняється від базової моделі, — це може вплинути на відтворюваність результатів.
Генеральний директор Meta Марк Цукерберг сформулював випуск як частину довгострокової ставки. «Ми вважаємо, що відкритий ШІ — це спосіб побудувати здоровішу екосистему», — написав він у заяві, що супроводжувала випуск. «Не тому що це альтруїзм — а тому що найкращі ШІ-продукти будуть побудовані на основах, які кожен може побачити, перевірити й покращити». Це звичне твердження, але воно звучить інакше зараз, ніж коли Llama 1 вийшла у лютому 2023 року для набагато меншої аудиторії. Ландшафт відкритого ШІ з тих пір суттєво дозрів, і готовність Meta випускати моделі такого масштабу змусила кожну іншу велику лабораторію переосмислити аргументи щодо вартості та доступу.
Практичні наслідки реальні. Розробник, що будує інструмент для перевірки юридичних документів, медична компанія, що обробляє записи пацієнтів, чи державна установа з вимогами до суверенності даних — усі вони тепер мають доступ до моделі, конкурентоспроможної з поточним передовим рівнем, яку можна розгортати повністю у власній інфраструктурі. Це не дрібний розвиток подій. Він не усуває аргументів на користь хмарних передових моделей від OpenAI, Anthropic чи Google, але звужує їх.
Одна сфера, де реакція була більш стриманою, — безпека. Підхід Meta до безпеки моделей у Llama 4 передбачає багаторівневу систему: окрема модель-класифікатор Llama Guard 4 для фільтрації вхідних і вихідних даних, плюс оновлена система Prompt Guard для виявлення джейлбрейків. Дослідники, що вже провели вихідні за тестуванням публічних ваг, виявили, що, як і з попередніми випусками Llama, базові ваги можна спонукати до генерації контенту, який рівні безпеки покликані блокувати. Meta визнала це в примітках до випуску, описавши як «невід’ємну властивість відкрито випущених ваг» і зазначивши, що поділилася вагами Llama Guard 4 саме для того, щоб ті, хто розгортає модель, могли запустити власний рівень фільтрації.
Це розумна позиція. Це також позиція, яка утримуватиме дебати щодо відкритого ШІ у повному розпалі ще довго.