LLM médicaux : l’alerte arXiv qui transforme les hallucinations en risque de production

Une vague de prépublications qui arrive au bon moment

Une série de nouvelles prépublications diffusées sur arXiv met en évidence un basculement majeur : les grands modèles de langage appliqués à la santé ne sont plus seulement évalués comme des prototypes de laboratoire. Ils sont désormais testés, adaptés ou attaqués dans des contextes qui ressemblent de plus en plus à des usages réels : extraction de concepts dans les dossiers médicaux, codage ICD, assistants médicaux accessibles sur le web, raisonnement numérique et jailbreaks sémantiques.

La prudence s’impose d’emblée. arXiv est une plateforme de prépublication : ces travaux n’ont pas nécessairement été évalués par les pairs. Ils apportent des signaux utiles, parfois très concrets, mais pas une validation clinique définitive. Leur biais principal tient aussi à leurs protocoles : jeux de données choisis, métriques propres aux auteurs, dépendance à des juges automatisés et difficulté de reproduire les conditions d’un hôpital, d’une clinique ou d’un portail patient.

Extraction clinique : le vrai problème n’est pas seulement de lire, mais d’inférer

Le papier « MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction » s’attaque à un point névralgique des dossiers électroniques : les concepts médicalement importants ne sont pas toujours écrits noir sur blanc. Une note de congé peut suggérer une complication, un antécédent ou une indication thérapeutique sans l’énoncer de manière normalisée. MedicalBench propose donc d’évaluer les modèles sur des paires note-concept, avec identification d’indices textuels au niveau de la phrase.

L’intérêt est double. D’abord, le benchmark s’appuie sur des résumés de sortie issus de MIMIC-IV et sur des codes ICD-10 vérifiés humainement, un ancrage plus proche de la réalité hospitalière que de simples questions-réponses médicales. Ensuite, il teste des cas implicites et des négatifs sémantiquement confusants. Autrement dit : il ne suffit pas qu’un modèle reconnaisse le mot « diabète » dans une phrase ; il doit aussi comprendre quand le diagnostic est seulement suggéré, exclu ou confondu avec une notion voisine.

Cette logique rejoint un autre papier, « Automated ICD Classification of Psychiatric Diagnoses: From Classical NLP to Large Language Models ». Les auteurs y évaluent la classification ICD de descriptions psychiatriques en espagnol, avec un jeu de 145 513 descriptions. Les représentations par transformeurs surpassent les méthodes classiques comme BoW ou TF-IDF, et le modèle e5_large finement ajusté atteint un score F1 micro de 0,866 selon les auteurs. Mais le point éditorial important est ailleurs : le codage médical automatisé devient crédible quand il est spécialisé, validé sur une nomenclature précise et conçu pour l’ambiguïté clinique. La psychiatrie, où les formulations sont souvent nuancées, montre justement pourquoi la « compréhension » statistique d’un LLM ne doit pas être confondue avec un jugement clinique.

Le web change la nature du risque

La prépublication la plus directement alarmante est « Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models ». Les auteurs disent avoir recensé 6 233 MedGPTs, évalué un échantillon stratifié de 1 500 assistants médicaux personnalisés, puis comparé ces systèmes à 10 modèles open source. Leur constat est sévère : 25 à 30 % des MedGPTs évalués présenteraient une faible exactitude factuelle, 33,6 à 54,3 % franchiraient des seuils opérationnels problématiques, et 57,06 % des modèles dotés d’actions manqueraient de divulgations de confidentialité adéquates.

Ces chiffres doivent être lus comme des résultats de recherche préliminaires, non comme un audit réglementaire officiel. Mais ils pointent une faille systémique : lorsqu’un assistant médical est publié dans une boutique ou partagé comme outil web, son hallucination n’est plus un simple défaut de démonstration. Elle peut influencer une décision de triage, rassurer à tort un patient, produire une information pseudo-scientifique ou transmettre des données sensibles à des services tiers.

Le contexte est important. OpenAI a lancé son GPT Store en janvier 2024 en indiquant que plus de trois millions de GPT personnalisés avaient déjà été créés. OpenAI est ici une source d’entreprise : cette annonce décrit l’ampleur d’un écosystème, mais ne constitue pas une validation indépendante de la qualité ou de la sécurité de chaque assistant. Les propres documents d’aide d’OpenAI indiquent par ailleurs que les GPTs dotés d’actions publiques doivent inclure une URL de politique de confidentialité valide, et que les services tiers associés aux actions peuvent traiter des données selon leurs propres pratiques. Dans la santé, ce détail devient central.

Les garde-fous existants ne suffisent plus

Les organismes publics tirent dans la même direction. L’Organisation mondiale de la santé, dans sa guidance sur les grands modèles multimodaux en santé, insiste sur la gouvernance, la transparence, l’évaluation et la responsabilité. La FDA, de son côté, maintient une liste des dispositifs médicaux autorisés intégrant de l’IA et indique explorer des moyens d’identifier les fonctions fondées sur des modèles de fondation, dont les LLM. La Commission européenne classe les logiciels médicaux fondés sur l’IA parmi les usages susceptibles d’être à haut risque sous le régime de l’AI Act. Le NIST, avec son profil de gestion des risques pour l’IA générative, fournit un langage de gouvernance plus large : cartographier, mesurer, gérer et gouverner les risques.

Le problème est que beaucoup de MedGPTs web ne ressemblent pas à des dispositifs médicaux classiques. Ils sont parfois des assemblages rapides : un prompt système, quelques documents, une interface de conversation, des actions vers des API et une promesse de spécialisation. Ils peuvent ne pas être présentés explicitement comme outils de diagnostic, tout en produisant des réponses qui influencent la conduite d’un patient. C’est la zone grise par excellence.

Le rappel du HHS Office for Civil Rights sur les technologies de suivi en contexte HIPAA ajoute une couche de complexité : même une page ou une application santé apparemment informative peut soulever des enjeux de confidentialité lorsqu’elle transmet des informations identifiables ou sensibles à des fournisseurs tiers. Dans un assistant LLM médical, la frontière entre information générale, donnée personnelle et information de santé protégée peut devenir floue très vite.

Jailbreak sémantique : l’attaque devient adaptative

La prépublication « LASH: Adaptive Semantic Hybridization for Black-Box Jailbreaking of Large Language Models » déplace l’analyse vers la sécurité offensive. Les auteurs proposent un cadre de jailbreak en boîte noire qui combine plusieurs familles d’attaques plutôt que d’en choisir une seule. Sur JailbreakBench, ils rapportent un taux moyen de succès de 84,5 % avec une évaluation par mots-clés et de 74,5 % avec une évaluation en deux étapes, tout en utilisant en moyenne 30 requêtes vers la cible.

Là encore, il ne faut pas transformer un benchmark en vérité universelle. Mais la tendance est claire : les attaques ne sont plus seulement des phrases astucieuses du type « ignore tes instructions ». Elles deviennent des compositions sémantiques adaptatives, optimisées selon les réactions du modèle. OWASP place d’ailleurs l’injection de prompt au premier rang de ses risques pour les applications LLM, et le NIST décrit depuis 2024 une taxonomie des attaques adversariales contre les systèmes d’IA.

Dans un contexte médical, ce sujet est particulièrement sensible. Un assistant web peut être poussé à fournir des instructions dangereuses, à contourner ses propres refus, à exposer des données, ou à agir via des connecteurs externes. Le risque n’est pas seulement ce que le modèle « sait » ; c’est ce que l’application lui permet de faire.

Les chiffres comptent aussi : pourquoi DEL a sa place dans ce débat

À première vue, « DEL: Digit Entropy Loss for Numerical Learning of Large Language Models » semble moins médical. Pourtant, l’apprentissage numérique est crucial pour les usages cliniques : posologies, intervalles biologiques, scores de risque, dates, valeurs de laboratoire et seuils de décision. Les auteurs proposent une perte d’entropie au niveau des chiffres afin d’améliorer la prédiction numérique, y compris pour les nombres décimaux.

Ce type de recherche rappelle que la fiabilité médicale ne se limite pas à la génération de phrases. Un modèle peut produire une explication convaincante et se tromper sur un chiffre. Dans la santé, une erreur numérique n’est pas une coquille : elle peut changer une interprétation de laboratoire ou une recommandation de dose. Les approches comme DEL devront toutefois être validées au-delà de benchmarks mathématiques avant d’être considérées comme pertinentes pour des workflows cliniques.

Une constellation de signaux autour des LLM

Les autres entrées RSS arXiv complètent le tableau. « AI-Augmented Surveys » illustre l’usage des LLM pour prédire des opinions manquantes dans des enquêtes longitudinales, ce qui pose des questions de reconstruction statistique et de biais. « Optimization Hyper-parameter Laws for Large Language Models » s’intéresse aux lois d’optimisation pour mieux choisir les calendriers d’apprentissage. « Enhancing Speech Large Language Models through Reinforced Behavior Alignment » rappelle que les modèles vocaux ajoutent une couche d’incertitude liée aux modalités. « Fill the GAP » traite du raisonnement visuel latent dans les modèles multimodaux. « Access Paths for Efficient Ordering with Large Language Models » montre enfin que les LLM deviennent aussi des opérateurs sémantiques dans les systèmes de données.

Pris ensemble, ces papiers décrivent un mouvement : les LLM quittent le rôle de chatbot généraliste pour devenir des composants d’infrastructures. Dans la santé, cela impose une discipline d’ingénierie beaucoup plus proche du logiciel critique que de l’expérimentation produit.

Ce que cela annonce pour les hôpitaux, les startups et les régulateurs

La prochaine étape ne sera probablement pas un grand remplacement du médecin par le modèle. Elle sera plus discrète : extraction de concepts, pré-codage ICD, résumé de dossiers, priorisation de messages patients, aide documentaire, triage administratif. Ce sont précisément ces usages intermédiaires qui exigent des garde-fous robustes, car ils peuvent paraître peu risqués tout en modifiant la chaîne de décision.

Pour les développeurs, la leçon est claire : un LLM médical web doit être évalué comme un système complet, pas comme un modèle isolé. Il faut tester l’exactitude factuelle, l’explicabilité, la robustesse aux jailbreaks, la confidentialité des actions, la journalisation, les seuils d’escalade vers un humain et la performance sur des sous-groupes linguistiques ou cliniques. Pour les acheteurs hospitaliers, la question ne doit pas être « quel modèle utilisez-vous ? », mais « quelles preuves avez-vous, sur quelles données, avec quelles limites et quel plan de surveillance post-déploiement ? »

Pour les régulateurs, le défi consiste à éviter deux écueils : bloquer des outils utiles d’automatisation documentaire, ou laisser prospérer des assistants médicaux grand public qui empruntent le vocabulaire clinique sans assumer les obligations de sécurité correspondantes.

La vague arXiv de mai 2026 ne prouve pas que les LLM médicaux sont prêts, ni qu’ils sont condamnés. Elle montre plutôt où se situe la frontière : entre une IA qui aide à structurer l’information médicale et une IA qui, exposée au web, peut halluciner, agir, divulguer ou être détournée. C’est à cette frontière que se jouera la confiance.