Des réseaux de neurones sommés de prouver leur fiabilité

Une sécurité IA qui passe du test au certificat

Quatre prépublications récentes sur arXiv illustrent un déplacement important dans la sécurité de l’intelligence artificielle : il ne suffit plus de mesurer la précision moyenne d’un réseau de neurones, ni même de le soumettre à quelques attaques adversariales. Les chercheurs veulent désormais produire des preuves, des bornes, des signaux internes et des cartes géométriques permettant de dire où un modèle est fiable, où il ne l’est pas, et sous quelles hypothèses.

Le fil conducteur est clair. Dans les systèmes critiques — transport, santé, finance, infrastructures, cybersécurité — une erreur rare mais prévisible peut devenir inacceptable. Or les réseaux de neurones restent vulnérables à des perturbations adversariales, à l’empoisonnement de données, au surapprentissage discret et à des comportements de généralisation mal compris. Les travaux repérés par arXiv proposent quatre pièces d’un même puzzle : certifier la robustesse à l’empoisonnement, détecter le surapprentissage sans accès aux données, accélérer la vérification formelle, et analyser la géométrie interne des fonctions apprises.

Il faut toutefois poser une limite essentielle : ces textes sont des prépublications. arXiv permet une diffusion rapide, mais ne constitue pas une évaluation indépendante par les pairs. Les résultats doivent donc être lus comme des signaux de recherche, non comme des garanties déjà validées pour l’industrie.

Certifier la robustesse contre l’empoisonnement

Dans “Robustness Certificates for Neural Networks against Adversarial Attacks”, les auteurs s’attaquent à un angle souvent plus difficile que l’attaque au moment de l’inférence : l’empoisonnement des données d’entraînement. L’idée est de modéliser l’entraînement par descente de gradient comme un système dynamique discret. À partir de là, le problème devient une question de sûreté formelle : le modèle final reste-t-il dans une zone sûre si les données d’entraînement ont été perturbées dans une certaine limite ?

Le papier adapte la notion de certificat barrière, issue de la théorie du contrôle. Dans ce cadre, un certificat ne dit pas seulement “le modèle a résisté à nos attaques de test”, mais “sous ces hypothèses et dans ce rayon de perturbation, le système ne devrait pas franchir une frontière dangereuse”. C’est une différence majeure. Les défenses adversariales classiques sont souvent empiriques : elles résistent jusqu’à ce qu’une attaque plus adaptée les contourne. Un certificat formel vise plutôt à encadrer mathématiquement ce qu’un attaquant peut ou ne peut pas provoquer.

La promesse est ambitieuse, surtout parce que le résumé du préprint revendique une portée unifiée sur les attaques d’entraînement et de test. Mais c’est aussi là que se situent les risques d’interprétation. Un certificat n’est jamais absolu : il dépend d’un modèle d’attaque, d’une norme mathématique, d’un périmètre de perturbation, d’hypothèses sur l’entraînement et parfois d’approximations numériques. En pratique, la question cruciale sera de savoir si ces certificats restent utiles sur de grands modèles, avec des données réelles et des pipelines d’entraînement hétérogènes.

Le surapprentissage comme signal spectral

Le deuxième préprint, “Detecting overfitting in Neural Networks during long-horizon grokking using Random Matrix Theory”, traite d’un problème plus silencieux : savoir qu’un réseau commence à surapprendre, même sans accès aux données d’entraînement ou de test. Les auteurs proposent d’observer les matrices de poids couche par couche, de les randomiser élément par élément, puis de comparer leurs distributions spectrales à une loi de Marchenko-Pastur. Les grands écarts sont baptisés “Correlation Traps”.

Selon les auteurs, ces pièges apparaissent et se développent pendant une phase qu’ils appellent “anti-grokking” : l’exactitude d’entraînement reste élevée, tandis que la performance de test se détériore. Le terme fait écho au “grokking”, popularisé au début des années 2020, où un réseau semble d’abord surapprendre avant de généraliser tardivement. Ici, la dynamique est plus inquiétante : l’entraînement prolongé pourrait produire une structure interne corrélée qui nuit à la généralisation.

L’intérêt opérationnel est évident. Dans de nombreux environnements industriels, les équipes qui auditent un modèle n’ont pas toujours accès aux données originales, pour des raisons de confidentialité, de propriété intellectuelle ou de conformité. Un signal calculé à partir des poids seuls pourrait devenir un outil de diagnostic. Mais la prudence s’impose : la théorie des matrices aléatoires fournit des outils puissants, pas une baguette magique. Il faudra déterminer sur quels types d’architectures, de tailles de modèles et de tâches ces “Correlation Traps” distinguent réellement un surapprentissage dangereux d’une spécialisation utile.

Luna, CROWN et la bataille de l’industrialisation

Le troisième texte, “The Luna Bound Propagator for Formal Analysis of Neural Networks”, s’inscrit dans une trajectoire plus mature : la vérification formelle des réseaux neuronaux par propagation de bornes. Les méthodes CROWN, alpha-CROWN et beta-CROWN ont déjà une place centrale dans la communauté, notamment dans les compétitions VNN-COMP, qui comparent des outils de vérification sur des benchmarks standardisés.

Luna se distingue par son objectif d’ingénierie. Là où des implémentations de référence sont souvent écrites en Python, Luna est présentée comme un propagateur de bornes en C++, compatible avec l’Interval Bound Propagation, DeepPoly/CROWN et alpha-CROWN sur des graphes de calcul généraux. Les auteurs affirment qu’il améliore l’efficacité et parfois la précision des bornes sur des benchmarks liés à VNN-COMP 2025.

Ce point est moins spectaculaire qu’une nouvelle théorie, mais potentiellement plus décisif pour l’adoption. Une méthode de vérification qui reste confinée à des notebooks de recherche ne suffit pas pour des chaînes de validation industrielles. Les systèmes critiques exigent des outils maintenables, intégrables, auditables, capables de tourner dans des environnements de production et de produire des résultats reproductibles. Luna signale que la vérification neuronale quitte progressivement le laboratoire pour devenir une infrastructure logicielle.

AffineLens et la géométrie du comportement appris

Le quatrième préprint, “AffineLens: Capturing the Continuous Piecewise Affine Functions of Neural Networks”, aborde le réseau de neurones sous un angle géométrique. De nombreux réseaux utilisant ReLU, normalisation, pooling ou connexions résiduelles peuvent être interprétés comme des fonctions affines par morceaux. Autrement dit, l’espace d’entrée est découpé en régions, et dans chacune, le réseau agit comme une transformation affine.

AffineLens cherche à énumérer et visualiser ces régions sur un domaine d’entrée borné. Plutôt que de s’appuyer seulement sur des statistiques d’activation ou des bornes théoriques, le cadre vise à produire des régions polyédriques concrètes et non vides. Pour l’interprétabilité, c’est précieux : la frontière de décision d’un réseau n’est plus seulement une abstraction, elle devient un objet géométrique inspectable.

Cette approche ne remplace pas les certificats de robustesse, mais elle peut les compléter. Les certificats répondent à une question de sûreté : la sortie peut-elle changer dans un voisinage donné ? L’analyse géométrique aide à comprendre pourquoi certaines zones sont stables, fragmentées ou proches d’une frontière. Pour les régulateurs, les auditeurs et les équipes de sécurité, ce type d’outil pourrait contribuer à documenter les comportements limites d’un modèle.

Un mouvement porté par la réglementation et les standards

Ces recherches ne surgissent pas dans le vide. Le NIST, dans son rapport sur l’apprentissage automatique adversarial, classe les attaques par évasion, empoisonnement, portes dérobées et atteintes à la confidentialité. Le NIST AI Risk Management Framework insiste aussi sur la mesure, la gouvernance et la gestion continue des risques. De son côté, l’OWASP Top 10 for LLM Applications 2025 place l’empoisonnement des données et des modèles parmi les risques majeurs des applications d’IA générative.

En Europe, l’article 15 de l’AI Act impose aux systèmes d’IA à haut risque un niveau approprié d’exactitude, de robustesse et de cybersécurité tout au long de leur cycle de vie. Le texte mentionne explicitement des vulnérabilités propres à l’IA, dont l’empoisonnement des données, l’empoisonnement de modèles et les exemples adversariaux. En parallèle, la norme ISO/IEC 24029-2:2023 encadre l’usage de méthodes formelles pour évaluer la robustesse des réseaux neuronaux.

Cette convergence est importante : la vérification formelle n’est plus seulement une curiosité académique. Elle devient une réponse possible à une demande de preuves, de traçabilité et de diligence raisonnable.

Ce que cela annonce pour la sécurité IA

La discipline qui se dessine ressemble à une “assurance qualité mathématique” pour l’IA. Elle ne remplacera ni les tests adversariaux, ni le red teaming, ni la surveillance post-déploiement. Mais elle ajoute une couche différente : des garanties conditionnelles, des diagnostics internes et des représentations géométriques qui peuvent être archivés, comparés et audités.

À court terme, les limites resteront fortes. Les certificats formels passent difficilement à l’échelle des très grands modèles. Les normes de perturbation ne capturent pas toujours les attaques sémantiques réelles. La détection du surapprentissage par matrices de poids devra être reproduite indépendamment. Et la géométrie affine, bien que séduisante, peut devenir combinatoirement coûteuse.

À moyen terme, l’enjeu sera probablement l’hybridation : combiner vérification formelle locale, tests adversariaux adaptatifs, surveillance statistique, audits de données et documentation réglementaire. Les modèles ne “prouveront” pas leur fiabilité au sens absolu. Ils devront plutôt accumuler des preuves partielles, explicites et falsifiables.

C’est peut-être cela, la nouvelle maturité de la sécurité IA : accepter que la confiance ne vienne plus d’un score unique, mais d’un dossier technique complet. Les quatre prépublications signalées par arXiv ne ferment pas le débat. Elles montrent plutôt où il se déplace : de la performance vers la preuve, de la démonstration vers l’assurance, et de la boîte noire vers une mécanique que l’on tente enfin de vérifier.