Gemini rationné pour Meta : la pénurie de compute devient le vrai goulot d’étranglement de l’IA

Ce qui s’est passé

Google aurait imposé des limites à l’usage de ses modèles Gemini par Meta, non pas pour une raison de prix ou de rivalité frontale, mais parce que la capacité de calcul disponible ne suffisait pas à répondre à la demande du groupe de Mark Zuckerberg. L’information provient d’un reportage du Financial Times, repris notamment par Reuters via Investing.com, Dawn, Bloomberg, O Globo, Der Standard et Handelsblatt. Selon ces comptes rendus, Alphabet aurait indiqué à Meta vers mars 2026 qu’il ne pouvait pas fournir toute la capacité Gemini que l’entreprise souhaitait acheter.

Le point important n’est pas seulement que Meta ait été plafonnée. C’est que Meta, l’un des plus grands investisseurs mondiaux en intelligence artificielle, cherchait suffisamment de capacité chez Google pour que celui-ci doive rationner son propre modèle phare. D’après Reuters, qui précise ne pas avoir pu vérifier de manière indépendante le reportage du Financial Times, Google et Meta n’avaient pas immédiatement commenté. Les limites auraient perturbé ou retardé certains projets internes de Meta, et l’entreprise aurait encouragé ses employés à mieux gérer leur consommation de tokens, l’unité qui mesure l’usage des modèles génératifs.

O Globo, citant également le Financial Times, ajoute un élément révélateur : Meta aurait initialement compté sur Gemini pour automatiser des processus de sécurité, comme le retrait de contenus nocifs ou la lutte contre les arnaques, parce que le modèle de Google se serait montré meilleur que ses propres modèles Llama dans certains cas. Si cette interprétation est exacte, le dossier devient plus qu’un incident d’approvisionnement : il montre que même un géant qui développe ses propres modèles peut dépendre, ponctuellement, d’un rival mieux placé sur certaines tâches.

Le paradoxe Meta : riche en modèles, pauvre en capacité disponible

Meta n’est pas un client ordinaire. L’entreprise a popularisé les modèles à poids ouverts avec Llama et a investi massivement dans les centres de données, les serveurs, les réseaux et les accélérateurs. Ses résultats du premier trimestre 2026 indiquent des dépenses d’investissement prévues entre 125 et 145 milliards de dollars pour l’année, afin de soutenir ses efforts en IA et son cœur d’activité. Son formulaire 10-Q mentionne aussi des engagements liés à des capacités de cloud tiers, aux serveurs, aux infrastructures réseau, aux centres de données et au matériel de Reality Labs.

Autrement dit, Meta construit, achète et loue du compute partout où elle peut. Pourtant, elle aurait tout de même cherché une capacité Gemini supplémentaire chez Google. Ce détail illustre une nouvelle réalité : dans l’IA générative, la souveraineté logicielle ne suffit plus. Posséder un modèle, même performant, ne garantit pas d’avoir la capacité d’inférence nécessaire pour l’exécuter à très grande échelle, ni d’avoir le meilleur modèle pour chaque tâche opérationnelle.

La dynamique est particulièrement sensible dans les projets de sécurité et de modération. Ces systèmes doivent traiter d’immenses volumes de contenu, avec des contraintes de latence, de coût et de fiabilité. Si Meta a utilisé Gemini pour certaines automatisations, cela signifie que la qualité d’un modèle externe pouvait justifier une dépendance opérationnelle, même entre concurrents directs. Mais cette dépendance devient fragile lorsque la capacité est rationnée.

Google Cloud est lui-même sous tension

Du côté de Google, l’affaire s’inscrit dans une tendance déjà visible dans les chiffres. Alphabet a déclaré dans son dépôt 10-Q du premier trimestre 2026 que ses obligations de performance restantes atteignaient 467,6 milliards de dollars, dont 462,3 milliards liés à Google Cloud. Son communiqué de résultats indique que les revenus de Google Cloud ont progressé fortement, à 20 milliards de dollars au trimestre. Dans la transcription de l’appel aux investisseurs, la direction a aussi souligné que le carnet de commandes cloud avait presque doublé séquentiellement.

Le message implicite est simple : Google vend plus de capacité qu’il ne peut en activer immédiatement. Cette tension ne concerne pas seulement Gemini. Google Cloud commercialise des GPU, des TPU, Vertex AI, Gemini Enterprise et une infrastructure IA complète. Les documents officiels de Google rappellent d’ailleurs que les TPU alimentent Gemini et de nombreuses applications Google. Les pages de quotas de Gemini API et de Vertex AI montrent que l’usage des modèles est encadré par des limites de débit, de tokens ou de capacité, même lorsque la facturation est activée.

La situation est d’autant plus délicate que Google a aussi ses propres besoins internes : recherche, publicité, YouTube, Android, Google Workspace, Google Home, Gemini dans l’application grand public et les agents intégrés. Les articles de 9to5Google, Wired, Gizmodo, Engadget et 01net sur les nouveaux usages de Google Home montrent que Gemini ne reste plus cantonné aux développeurs : il se diffuse dans les objets domestiques, les assistants vocaux et les fonctions de surveillance intelligente. Chaque intégration ajoute de la demande d’inférence.

Le compute devient une ressource stratégique, pas une commodité

Jusqu’à récemment, l’avantage concurrentiel en IA se racontait surtout autour des modèles : taille, benchmarks, multimodalité, raisonnement, contexte long. L’épisode Google-Meta suggère que la prochaine ligne de fracture sera plus matérielle : qui a accès aux accélérateurs, à la mémoire haute bande passante, aux réseaux optiques, à l’électricité, au refroidissement et aux terrains raccordables au réseau ?

Les données de l’Agence internationale de l’énergie vont dans le même sens. Dans son rapport Energy and AI, l’AIE estime que les centres de données représentaient déjà une part significative de la croissance de la demande électrique, et que leur consommation mondiale pourrait plus que doubler d’ici 2030, tirée par l’IA et les services numériques. Aux États-Unis, selon l’AIE, les centres de données compteraient pour près de la moitié de la croissance de la demande d’électricité d’ici 2030.

Epoch AI documente de son côté une croissance du compute d’entraînement des modèles de frontière de l’ordre de 4 à 5 fois par an sur la période 2010-2024. Même si l’inférence devient plus efficace, l’effet volume annule une partie des gains : plus les modèles deviennent utiles, plus ils sont appelés, plus les agents exécutent de longues chaînes de raisonnement, et plus la demande de tokens explose.

Le rapport 2026 AI Index de Stanford HAI souligne aussi que les revenus de l’IA augmentent rapidement, mais que les coûts de compute et les dépenses d’infrastructure atteignent des niveaux records. Dans ce contexte, l’article arXiv sur Paper Assistant Tool, un outil agentique de revue scientifique automatisée par Google, est un indice supplémentaire : si les agents commencent à prendre en charge des tâches de vérification longues et complexes, la demande d’inférence ne sera pas seulement conversationnelle, elle deviendra industrielle.

Partenaires le jour, concurrents la nuit

Le cas Meta-Google illustre une tension propre à l’économie actuelle de l’IA. Les grands groupes technologiques sont à la fois concurrents, fournisseurs, clients et partenaires. Google concurrence Meta dans la publicité, les assistants IA, les lunettes, la vidéo, les agents et les modèles. Mais Google Cloud peut aussi vendre de la capacité à Meta. De même, Google fournit des TPU à Anthropic, alors qu’Anthropic concurrence Gemini avec Claude. Anthropic a annoncé vouloir utiliser jusqu’à un million de TPU Google, avec plus d’un gigawatt de capacité attendue en 2026, dans une expansion évaluée à des dizaines de milliards de dollars.

Cette logique transforme le cloud en outil géopolitique d’entreprise. Un fournisseur peut prioriser ses propres produits, ses engagements existants, ses clients stratégiques ou les contrats les plus rentables. Un client peut diversifier entre Google, Amazon, Microsoft, CoreWeave, Nebius, ses propres centres de données et des puces sur mesure. Mais à court terme, le marché ne ressemble pas à un supermarché infini : il ressemble à une file d’attente.

Pour Meta, le signal est inconfortable. Si Gemini est réellement plus performant que Llama pour certaines tâches internes, l’entreprise doit choisir entre attendre davantage de capacité, optimiser ses tokens, adapter ses workflows à ses propres modèles, ou payer plus cher ailleurs. Pour Google, le signal est tout aussi stratégique : la demande est si forte qu’elle valide la valeur de Gemini et de Google Cloud, mais elle expose aussi l’entreprise à la frustration des clients.

Ce que cela annonce pour la suite

La pénurie de compute ne signifie pas que l’IA ralentira brutalement. Elle signifie plutôt que l’accès à l’IA de pointe sera hiérarchisé. Les grandes entreprises obtiendront des capacités réservées, les développeurs verront davantage de quotas dynamiques, les abonnés grand public feront face à des limites plus visibles, et les modèles moins coûteux deviendront essentiels pour les tâches ordinaires.

On devrait donc voir trois tendances s’accélérer. Premièrement, la verticalisation : les géants construiront davantage leurs propres puces, réseaux et centres de données. Deuxièmement, la spécialisation : un modèle ultra-puissant pour tout n’est pas viable économiquement, d’où l’intérêt de modèles plus petits, de routage intelligent et d’architectures mixture-of-experts. Troisièmement, la contractualisation du compute : les accords pluriannuels, les préachats de capacité et les partenariats énergie-cloud deviendront aussi importants que les lancements de modèles.

L’affaire Gemini-Meta est donc un avertissement. Dans la course à l’IA, le facteur rare n’est plus seulement le talent, les données ou les algorithmes. C’est la capacité physique de transformer de l’électricité, du silicium et de la fibre optique en réponses de modèles. Et lorsque Google doit dire non, même partiellement, à Meta, cela montre que la frontière de l’IA passe désormais par les salles machines autant que par les laboratoires.