Une fenêtre de contexte de 2 millions de tokens — suffisamment grande pour ingérer simultanément huit romans complets — a été livrée comme fonctionnalité standard du Gemini 3.1 Ultra de Google lors du lancement du modèle en avril 2026, doublant ainsi le précédent référentiel de production et établissant un nouveau standard opérationnel pour les déploiements d'IA en entreprise. Aucun modèle concurrent en disponibilité générale ne l'égale.
Les fenêtres de contexte constituent la mémoire de travail d'un modèle de langage au cours d'une session : chaque token supplémentaire permet au système de maintenir davantage d'informations actives simultanément. Gemini 2.0 Ultra, lancé fin 2025, offrait une fenêtre de contexte d'un million de tokens. Le GPT-5 d'OpenAI, lancé en mars 2026, propose 256 000 tokens comme niveau grand public standard. Le doublement à 2 millions n'est pas principalement une fonctionnalité grand public — la plupart des individus n'écriront jamais une invite de 2 millions de tokens — mais pour les cas d'usage en entreprise incluant la découverte juridique, la synthèse de dossiers médicaux, les audits de code logiciel et l'analyse financière longue durée, la capacité étendue est pratiquement significative et change ce qui peut être accompli en une seule session sans troncature.
Gemini 3.1 Ultra traite le texte, les images, l'audio et la vidéo nativement dans toutes les modalités simultanément — un choix de conception qui diffère des versions précédentes, lesquelles traitaient les entrées multimodales comme des flux de traitement séparés. Google a cité des benchmarks internes montrant que le modèle obtient un score de 89,3 au test MMLU Pro pour le raisonnement en connaissances professionnelles, contre 87,1 pour GPT-5 et 88,5 pour Claude 4.6 d'Anthropic ; ces trois chiffres proviennent des évaluations propres des entreprises respectives, publiées entre mars et avril 2026, et doivent être interprétés en conséquence.