Avec Jalapeño, OpenAI veut devenir l’Apple des puces IA

Un premier processeur maison pour l’ère de l’inférence

OpenAI et Broadcom ont dévoilé Jalapeño, présenté comme le premier « processeur d’intelligence » conçu par OpenAI et industrialisé avec Broadcom. Contrairement aux GPU généralistes qui ont porté l’explosion de l’IA générative depuis 2022, Jalapeño est un ASIC : une puce spécialisée, optimisée pour un usage précis, ici l’inférence des grands modèles de langage. Autrement dit, il ne s’agit pas d’abord d’entraîner le prochain modèle géant, mais de faire tourner ChatGPT, Codex, l’API d’OpenAI et de futurs agents IA à grande échelle, avec moins d’énergie, moins de latence et, surtout, moins de coûts.

Selon l’annonce d’OpenAI et de Broadcom, les premiers échantillons d’ingénierie fonctionnent déjà en laboratoire à la fréquence et à la puissance visées, notamment avec des charges liées à GPT-5.3-Codex-Spark. OpenAI affirme que Jalapeño offrira un meilleur rendement performance par watt que l’état de l’art actuel, mais la société reconnaît que les mesures finales ne sont pas terminées et qu’un rapport technique détaillé doit suivre. Cette précision est importante : l’annonce reste une source primaire, donc intéressée. Elle confirme l’existence de la puce et la stratégie, mais pas encore les performances vérifiées de manière indépendante.

The Verge, TechCrunch, Engadget et The Register ont tous relevé le même point central : Jalapeño arrive à un moment où l’inférence devient le vrai goulet d’étranglement économique de l’IA. L’entraînement d’un modèle est spectaculaire et coûteux, mais il est ponctuel. L’inférence, elle, se répète à chaque requête, chaque génération de code, chaque résumé, chaque interaction vocale et chaque appel d’agent. Plus les usages explosent, plus la facture de calcul récurrente devient stratégique.

La promesse : jusqu’à 50 % d’économie, mais pas encore un verdict

Le chiffre le plus frappant vient de Hock Tan, le PDG de Broadcom, cité notamment par Bloomberg et repris par O Globo : Jalapeño afficherait environ 50 % d’économies de coûts par rapport à des GPU IA typiques pour certaines charges d’inférence. C’est une promesse majeure. Si elle se confirme à grande échelle, elle pourrait changer l’économie des produits d’OpenAI : baisse du coût par jeton, amélioration des marges, possibilité d’offrir des modèles plus puissants à prix constant, ou de réduire les prix pour gagner des parts de marché.

Mais il faut lire ce chiffre avec prudence. D’abord, il provient d’un dirigeant de Broadcom, qui a un intérêt direct à valoriser le partenariat. Ensuite, les comparaisons entre accélérateurs sont rarement simples : tout dépend du modèle, du niveau de précision numérique, de la taille du contexte, de la bande passante mémoire, de l’interconnexion, du taux d’utilisation réel et du logiciel de production. Une puce peut être excellente sur un profil de requêtes et moins flexible sur un autre. C’est précisément le compromis des ASIC : moins de polyvalence qu’un GPU, mais potentiellement une meilleure efficacité quand le workload est stable et massif.

Cette logique explique pourquoi OpenAI commence par l’inférence. Les GPU Nvidia restent très difficiles à battre pour l’entraînement de modèles frontières, grâce à CUDA, à l’écosystème logiciel, aux bibliothèques optimisées et à la capacité d’orchestrer d’immenses grappes de calcul. En revanche, une fois qu’un modèle est figé ou semi-stabilisé, une architecture spécialisée peut éliminer des inefficacités : moins de mouvements inutiles de données, meilleur équilibre entre calcul et mémoire, interconnexion adaptée aux schémas de service, et optimisation des noyaux utilisés tous les jours par OpenAI.

Le virage full stack : OpenAI veut contrôler la couche silicon

Le message stratégique est plus important que la fiche technique. OpenAI ne veut plus être seulement un laboratoire de modèles ou un fournisseur de chatbot. Avec Jalapeño, la société affirme une ambition full stack : produit, modèle, compilateurs, kernels, ordonnanceurs, centres de données, réseau et maintenant silicium. TechRadar compare explicitement cette orientation à l’approche d’Apple : contrôler suffisamment de couches pour optimiser l’expérience de bout en bout et réduire la dépendance aux fournisseurs externes.

Cette comparaison avec Apple a ses limites, mais elle est utile. Apple conçoit ses puces parce qu’elle connaît intimement iOS, macOS, ses usages, ses contraintes thermiques et ses priorités produit. OpenAI veut appliquer cette logique à l’IA : si l’entreprise connaît mieux que quiconque ses modèles, ses formats de requêtes, ses flux de mémoire, ses contraintes de latence et ses futurs agents, elle peut concevoir un accélérateur taillé pour ses propres besoins.

L’annonce d’octobre 2025 entre OpenAI et Broadcom donnait déjà l’échelle de cette ambition : 10 gigawatts d’accélérateurs IA conçus par OpenAI, avec des déploiements prévus à partir du second semestre 2026 et jusqu’à la fin de 2029. Jalapeño est donc moins un prototype isolé qu’une première brique d’une plateforme multigénérationnelle. Broadcom apporte l’expertise de mise en œuvre du silicium, du réseau Ethernet à grande échelle et de l’intégration système; Celestica est mentionnée pour l’industrialisation au niveau cartes, racks et systèmes.

Pourquoi Nvidia n’est pas encore renversée

Il serait toutefois prématuré d’y voir la fin de Nvidia. Les résultats financiers de Nvidia montrent à quel point l’entreprise reste centrale : au premier trimestre de son exercice 2027, Nvidia a annoncé 81,6 milliards de dollars de revenus, dont 75,2 milliards pour les centres de données. Ce n’est pas seulement une domination commerciale; c’est aussi une domination logicielle. CUDA, TensorRT, NCCL, les bibliothèques d’inférence, les outils de profilage et l’habitude des équipes d’ingénierie constituent une barrière à l’entrée immense.

Jalapeño ne remplace donc pas immédiatement Nvidia. Il diversifie le portefeuille de calcul d’OpenAI. C’est un levier de négociation, une assurance contre les pénuries, et une manière de réserver les GPU les plus coûteux aux charges où ils restent imbattables : entraînement, expérimentation rapide, workloads variables ou modèles non optimisés pour l’ASIC maison. Axios souligne d’ailleurs qu’OpenAI a longtemps dépendu quasi exclusivement de Nvidia, même si l’entreprise a commencé à diversifier certains déploiements, notamment avec Cerebras pour des usages d’inférence spécialisés.

La vraie menace pour Nvidia n’est pas Jalapeño seul. C’est l’accumulation. Google a ses TPU, dont Ironwood est présenté comme une génération pensée pour l’âge de l’inférence. Microsoft a Maia 200, un accélérateur maison pour améliorer l’économie de génération de jetons dans Azure. Amazon pousse Trainium et Inferentia. Meta développe MTIA. Si chaque hyperscaler déplace une partie croissante de ses charges internes vers du silicium personnalisé, Nvidia conserve un immense marché, mais perd une fraction de son pouvoir de prix sur les workloads les plus prévisibles.

Broadcom, le nouveau faiseur de rois des ASIC IA

Pour Broadcom, Jalapeño est aussi un signal fort. L’entreprise ne cherche pas nécessairement à vendre une puce standard qui concurrence Nvidia frontalement. Elle se positionne comme l’atelier stratégique des géants qui veulent leur propre silicium. Ses résultats récents montrent déjà la dynamique : Broadcom a annoncé 10,8 milliards de dollars de revenus semiconducteurs liés à l’IA au deuxième trimestre de son exercice 2026, en hausse de 143 % sur un an, portés par les accélérateurs personnalisés et les réseaux IA.

C’est un déplacement subtil de la chaîne de valeur. Nvidia vend une plateforme intégrée, puce et logiciel. Broadcom vend la capacité de construire une plateforme sur mesure pour des clients qui ont assez d’échelle pour justifier l’investissement. OpenAI, Google, Meta, Microsoft ou Amazon ne veulent pas seulement acheter du calcul; ils veulent transformer leur connaissance interne des workloads en avantage matériel.

Ce que Jalapeño annonce pour la suite

À court terme, Jalapeño servira surtout de test industriel : OpenAI peut-elle passer d’échantillons fonctionnels à des racks fiables, maintenables et massivement déployés? Les enjeux ne sont pas seulement la puce. Il faut sécuriser la mémoire HBM, le packaging avancé, le refroidissement, le réseau, les rendements de fabrication, les compilateurs, la compatibilité logicielle et l’observabilité en production.

À moyen terme, si les économies annoncées se matérialisent, OpenAI pourra ajuster son modèle d’affaires. Une baisse du coût d’inférence peut financer des agents plus longs, des contextes plus vastes, plus de raisonnement, ou des prix API plus agressifs. Elle peut aussi réduire la dépendance à Microsoft Azure et aux achats de GPU Nvidia, même si ces partenaires resteront essentiels.

À long terme, Jalapeño marque une étape dans la verticalisation de l’IA. Les grands laboratoires ne se battent plus seulement sur les modèles, mais sur la capacité à convertir l’énergie, les puces et les centres de données en intelligence utilisable. Dans cette course, le pouvoir se déplace vers ceux qui contrôlent le plus de couches critiques. OpenAI veut devenir l’un d’eux. Jalapeño n’est pas encore une preuve définitive; c’est un pari silicon. Mais c’est probablement l’un des paris les plus importants d’OpenAI depuis ChatGPT.