Copilot face à son talon d’Achille : l’étude Microsoft qui refroidit la promesse des agents IA

Une étude qui tombe au pire moment pour Microsoft

Microsoft veut vendre aux entreprises une vision simple : demain, le travail de bureau sera confié à des agents IA capables de chercher, rédiger, corriger, organiser et exécuter des tâches complexes dans Microsoft 365 Copilot. Or une nouvelle étude de Microsoft Research vient précisément fissurer cette promesse. Dans un préprint publié sur arXiv sous le titre LLMs Corrupt Your Documents When You Delegate, Philippe Laban, Tobias Schnabel et Jennifer Neville montrent que les grands modèles de langage se comportent mal lorsqu’on leur délègue des tâches professionnelles longues de modification documentaire.

Le constat est brutal : sur le benchmark DELEGATE-52, qui simule des flux de travail prolongés dans 52 domaines professionnels, les modèles testés introduisent des erreurs substantielles et parfois silencieuses. Même les modèles de pointe cités par l’étude, comme Gemini 3.1 Pro, Claude 4.6 Opus et GPT 5.4, corrompent en moyenne environ un quart du contenu après de longues séquences d’interactions. TechRadar résume l’enjeu en rappelant que plus les échanges s’accumulent, moins le modèle reste fiable. Clubic, de son côté, insiste sur l’ironie : c’est Microsoft, champion commercial de Copilot, qui démontre que confier un document de travail à une IA sur vingt échanges peut en dégrader fortement l’intégrité.

Ce que DELEGATE-52 mesure vraiment

DELEGATE-52 n’est pas un test de conversation ou de génération courte. Il vise une question beaucoup plus concrète : que se passe-t-il quand un utilisateur confie à un modèle un document de travail et lui demande de le transformer, puis de poursuivre les modifications sur plusieurs tours ? Les domaines couverts incluent le code Python, les fichiers de configuration, la comptabilité, la cristallographie, la notation musicale, les calendriers, les recettes, les diagrammes et d’autres formats structurés ou semi-structurés.

La méthode repose notamment sur des tâches dites de va-et-vient : le modèle applique une transformation, puis doit revenir à un état équivalent au document de départ. Cette approche permet de mesurer la perte d’information réelle, au-delà de l’apparence linguistique. Selon la fiche publiée sur Hugging Face, la version publique du jeu de données contient 234 environnements de travail répartis sur 48 domaines, tandis que l’étude complète en décrit 310 sur 52 domaines. Les chercheurs évaluent donc la capacité du modèle à préserver la structure, les relations et les détails d’un document, pas seulement à produire un texte plausible.

C’est ici que le problème devient inquiétant. Les erreurs ne sont pas toujours visibles. Le document peut sembler propre, cohérent et bien formaté, tout en ayant perdu une ligne critique, mélangé des catégories comptables, altéré une notation technique ou modifié une relation entre éléments. La fiabilité perçue dépasse alors la fiabilité réelle.

Le chiffre qui fait mal : 80,9 % au mieux

La synthèse technique publiée par Notes by Lex relève que le meilleur score après 20 interactions atteint 80,9 %, tandis que le pire modèle tombe à 10,0 %. Dit autrement, même le meilleur système testé ne préserve pas suffisamment le contenu pour qu’une organisation puisse lui déléguer sans contrôle des documents sensibles ou complexes. Le seuil de maturité retenu par les chercheurs est beaucoup plus exigeant : 98 % de reconstruction après 20 interactions. À cette aune, Python ressort comme le seul domaine où la majorité des modèles semblent réellement prêts à la délégation.

Ce résultat est révélateur. Les LLMs peuvent exceller dans des environnements où la structure est fortement vérifiable, comme le code, surtout lorsqu’un interpréteur, des tests ou un linter peuvent signaler rapidement une erreur. Mais dès que le document mêle langage naturel, conventions métiers, formats semi-structurés et éléments implicites, le modèle devient un éditeur probabiliste plutôt qu’un gestionnaire fiable d’état.

L’étude note aussi que l’ajout d’outils agentiques ne règle pas le problème. Donner au modèle accès à des fichiers, à des opérations de lecture-écriture ou à du code d’exécution n’améliore pas automatiquement la fidélité documentaire. C’est une leçon importante pour les entreprises qui pensent que l’orchestration, les connecteurs et les agents spécialisés suffiront à transformer un LLM en assistant autonome fiable.

Microsoft se tire dans le pied, mais rend service au marché

L’ironie stratégique est évidente. Microsoft a construit une grande partie de son récit commercial récent autour de Copilot, Copilot Studio, des agents d’entreprise et de l’idée de “Frontier Firm”, cette organisation réinventée autour d’équipes hybrides humains-agents. Le blog officiel de Microsoft sur le Work Trend Index 2025 présente précisément les agents comme l’un des piliers de la transformation du travail. À Build 2025, Microsoft affirmait déjà que des centaines de milliers de clients utilisaient Microsoft 365 Copilot et que plus de 230 000 organisations avaient utilisé Copilot Studio pour créer des agents et automatisations.

Dans ce contexte, une étude interne qui montre que les LLMs restent des “délégués peu fiables” est embarrassante. Mais elle est aussi précieuse. Elle indique que Microsoft Research conserve une capacité de publication critique, même lorsque les résultats compliquent le discours marketing. Il faut toutefois rappeler la nature de la source : il s’agit d’un préprint arXiv, non évalué par les pairs au moment de sa diffusion. C’est une source primaire crédible, mais pas une validation scientifique définitive. Elle vient d’une équipe affiliée à Microsoft, entreprise qui a un intérêt direct dans le marché des agents IA. Ce biais peut jouer dans plusieurs directions : minimiser les implications commerciales, ou au contraire cadrer le problème comme un obstacle technique que les futures générations de produits sauront résoudre.

Un signal cohérent avec d’autres alertes sur les LLMs

Cette étude ne surgit pas dans le vide. D’autres travaux récents montrent que les LLMs peuvent paraître compétents tout en échouant sur des critères plus fins. Une prépublication sur l’élagage de modèles, Weight Pruning Amplifies Bias, indique que des méthodes de compression peuvent préserver certains indicateurs techniques tout en amplifiant les biais. Un autre papier, The Homogenization Problem in LLMs, défend l’idée que les modèles génératifs peuvent reproduire et amplifier des biais de normalisation. Dans Seeing Like an AI, des chercheurs observent que les LLMs appliquent les règles de neutralité de Wikipédia avec une précision imparfaite et des modifications parfois excessives. Enfin, Can AI Debias the News? montre que les modèles peuvent surestimer l’efficacité de leurs propres interventions sur des lecteurs humains.

Le fil rouge est clair : les métriques simples donnent souvent une fausse assurance. Un modèle peut sembler fluide, utile, rapide et convaincant, mais échouer sur la fidélité, la neutralité, la robustesse ou l’adéquation au contexte humain.

Ce que les entreprises doivent changer maintenant

Pour les organisations, la conséquence n’est pas “n’utilisez pas l’IA”. Elle est plutôt : ne confondez pas assistance et délégation. Un agent capable de produire une première ébauche, de résumer un dossier ou de proposer une transformation n’est pas nécessairement capable de conserver l’intégrité d’un document pendant vingt opérations successives.

Les cadres de référence existants vont dans ce sens. Le NIST AI Risk Management Framework recommande d’aborder l’IA sous l’angle de la validité, de la fiabilité, de la sécurité, de la résilience et de la gouvernance. L’OWASP Top 10 for LLM Applications 2025 signale de son côté le risque d’“excessive agency”, c’est-à-dire des systèmes à qui l’on donne trop d’autonomie, trop de permissions ou trop de fonctions sans contrôle suffisant.

Concrètement, les entreprises devraient traiter les agents IA comme des employés juniors très rapides, mais non fiables par défaut. Cela implique des journaux d’action complets, des comparaisons de versions, des tests automatisés, des approbations humaines pour les documents critiques, des limites de permissions, des environnements de bac à sable et des mécanismes de retour arrière. Dans les domaines réglementés — finance, santé, droit, ressources humaines, cybersécurité — la règle devrait être simple : aucune sortie agentique ne devient source de vérité sans validation indépendante.

Prospective : les agents IA devront apprendre à gérer l’état

Le vrai enseignement de l’étude Microsoft est architectural. Les LLMs sont bons pour générer, reformuler et raisonner approximativement dans un contexte donné. Ils sont moins bons pour maintenir un état documentaire exact sur la durée. Les futurs agents devront donc probablement séparer davantage le raisonnement du stockage d’état. Autrement dit, le modèle ne devrait pas “réécrire” librement un document à chaque tour ; il devrait proposer des opérations explicites, vérifiables et réversibles, appliquées par des systèmes déterministes.

C’est peut-être là que se jouera la prochaine génération de Copilot et d’agents d’entreprise : non pas dans des modèles plus bavards, mais dans des chaînes de contrôle plus strictes. Les gagnants seront ceux qui sauront combiner LLMs, moteurs de règles, tests, provenance, signatures de contenu, gestion de versions et supervision humaine. Les perdants seront ceux qui vendront l’autonomie avant la vérifiabilité.

Microsoft ne signe donc pas l’arrêt de mort des agents IA. Mais son propre laboratoire rappelle que la maturité réelle de ces outils reste inférieure à leur mise en marché. Pour les entreprises pressées de déployer Copilot et ses équivalents, c’est un avertissement salutaire : la productivité promise ne vaut rien si elle s’accompagne d’une corruption silencieuse des documents de travail.