Bug bounty contre « AI slop » : quand l’IA noie la chasse aux vulnérabilités

Le problème : trop de rapports, pas assez de preuves

Le bug bounty reposait sur un contrat implicite : des chercheuses et chercheurs externes signalent des vulnérabilités réelles, les entreprises les corrigent et récompensent le travail utile. L’arrivée massive de l’IA générative bouleverse cet équilibre. Selon le Financial Times, les programmes de récompense aux vulnérabilités sont désormais confrontés à une vague de soumissions artificielles, plausibles en apparence, mais souvent non vérifiées, spéculatives ou simplement fausses. Le terme qui s’impose dans l’écosystème est brutal : « AI slop », le contenu généré par IA qui ressemble à du travail sérieux sans en avoir la substance.

Ce n’est pas seulement un problème d’irritation pour les équipes de sécurité. C’est un problème économique. Un rapport de vulnérabilité, même faux, doit être lu, reproduit, contextualisé, parfois discuté avec son auteur, puis classé. Le coût de production d’un rapport généré par IA tend vers zéro; le coût de vérification, lui, reste humain, expert et lent. C’est cette asymétrie qui transforme les plateformes de bug bounty en machines à filtrer le bruit.

Bugcrowd a mis un mot sur le phénomène : « sloptimism ». Dans un billet publié en mars 2026, l’entreprise décrit des soumissions optimistes, générées ou amplifiées par IA, avec peu de validation préalable, des preuves minces et des impacts exagérés. Elle affirme avoir vu ses files de triage augmenter de plus de 334 % sur trois semaines, même en excluant les rapports légitimes issus de méthodes traditionnelles. La précision du chiffre doit être lue avec prudence : Bugcrowd est juge et partie, puisqu’elle vend précisément des services de triage et de gestion de programmes. Mais le signal est corroboré par d’autres acteurs, dont HackerOne, Google, curl et la Linux Foundation.

Le triage devient le goulot d’étranglement

Le bug bounty n’a jamais été exempt de bruit. Les scanners automatisés, les rapports dupliqués et les chasseurs opportunistes existaient bien avant ChatGPT. Ce qui change, c’est l’échelle et la présentation. Un mauvais rapport d’hier était souvent reconnaissable : copier-coller d’un outil, captures d’écran confuses, absence de preuve de concept. Un mauvais rapport d’aujourd’hui peut être parfaitement rédigé, structuré, poli, accompagné d’un raisonnement technique qui s’effondre seulement après une vérification coûteuse.

HackerOne a adapté son code de conduite en conséquence : l’usage d’outils d’IA est permis, voire encouragé, mais les rapports doivent rester exacts, reproductibles et démontrer un impact réel. La plateforme interdit explicitement les grands volumes de rapports à faible signal, les vulnérabilités fabriquées ou non vérifiées, et les détails techniques hallucinés. Autrement dit, le problème n’est pas l’IA comme outil d’assistance; c’est l’IA comme substitut à l’expertise.

Bugcrowd a choisi une réponse plus coercitive : bannissements pour « submission farming », suspensions de 30 jours après une série de rapports invalides, vérification d’identité et limites de soumissions simultanées pour les comptes à faible historique. Ces mesures dessinent une tendance plus large : le bug bounty ouvert devient moins ouvert. La réputation, l’identité, l’historique de qualité et les quotas remplacent progressivement l’idéal d’un guichet accessible à tout chercheur de bonne foi.

Curl, le canari dans la mine open source

Le cas curl est devenu emblématique. Daniel Stenberg, mainteneur du projet, a annoncé la fin du programme de bug bounty de curl au 31 janvier 2026. Son bilan est nuancé : depuis 2019, le programme avait permis de confirmer 87 vulnérabilités et de verser plus de 100 000 dollars en récompenses. Mais à partir de 2024, puis surtout en 2025, le taux de rapports confirmés aurait chuté sous les 5 %. Dans les mots de Stenberg, le projet faisait face à une « explosion » de rapports IA et à une qualité globale en baisse, au point que le coût mental et opérationnel dépassait les bénéfices.

Cette décision a une portée symbolique. Curl est une brique d’infrastructure utilisée partout, souvent maintenue par une petite équipe. Si un projet aussi central conclut que les incitatifs financiers encouragent désormais trop de rapports de mauvaise foi ou mal vérifiés, le modèle doit être réexaminé. Le paradoxe est cruel : les bug bounties ont été conçus pour canaliser l’énergie externe vers l’amélioration de la sécurité. L’IA générative transforme une partie de cette énergie en dette de triage.

Google, Linux Foundation et la défense qui court derrière

Google a aussi resserré les règles de son programme Open Source Software Vulnerability Reward Program. L’entreprise demande des preuves plus solides pour certains niveaux de récompense, comme une reproduction via OSS-Fuzz ou un correctif fusionné, afin de filtrer les rapports de faible qualité. Là encore, Google a ses propres intérêts : réduire le bruit, protéger ses équipes et orienter les chercheurs vers des formats plus facilement vérifiables. Mais l’évolution est révélatrice : la simple narration d’une faille ne suffit plus; il faut une preuve opérationnelle.

La Linux Foundation, via Alpha-Omega et l’Open Source Security Foundation, a annoncé en mars 2026 un financement de 12,5 millions de dollars provenant notamment d’Anthropic, AWS, GitHub, Google, Microsoft et OpenAI. Le communiqué explique que l’IA accélère la découverte de vulnérabilités, mais que les mainteneurs n’ont pas les ressources pour trier et corriger efficacement l’afflux de signalements, dont beaucoup proviennent de systèmes automatisés. Là encore, il faut lire le contexte : les grands fournisseurs d’IA financent en partie la réparation d’un déséquilibre que leurs propres technologies contribuent à amplifier.

HackerOne, de son côté, parle d’une « crise de remédiation ». La plateforme affirme que les soumissions ont atteint un sommet en mars 2026, avec 46 947 rapports et une hausse annuelle de 76 %, tandis que le rythme de correction n’a progressé que d’environ 19 %. Même si une partie des rapports reste valide, la conclusion est la même : découvrir va plus vite que corriger. Et si l’IA augmente simultanément les vrais positifs et les faux positifs, elle déplace le risque vers les équipes chargées de décider quoi traiter en premier.

Le paradoxe de l’IA sécuritaire

Le débat ne se résume pas à « l’IA produit du mauvais travail ». Google Threat Intelligence Group a récemment documenté des usages offensifs de l’IA dans la recherche de vulnérabilités, y compris un cas de zero-day que Google estime développé avec l’aide d’un modèle. Les mêmes capacités qui aident les défenseurs à trouver des bogues peuvent aussi aider des cybercriminels à automatiser la découverte, l’exploitation, l’obfuscation et la reconnaissance.

C’est le paradoxe central : l’IA est vendue comme un multiplicateur de cybersécurité, mais elle multiplie aussi les intrants que la cybersécurité doit absorber. Elle peut trouver des failles, mais elle peut aussi halluciner des failles. Elle peut rédiger de meilleurs rapports, mais elle peut aussi maquiller des hypothèses faibles en analyses crédibles. Elle peut accélérer la correction, mais elle peut aussi générer des correctifs risqués si des systèmes automatisés prennent des rapports adversariaux pour argent comptant.

Des travaux académiques récents, dont des prépublications sur arXiv, décrivent justement cette « tragédie des communs » : les gains individuels de productivité sont captés par ceux qui génèrent du contenu, tandis que les coûts de validation sont externalisés vers les mainteneurs, les réviseurs et les équipes de sécurité. Comme il s’agit de prépublications, il ne faut pas les traiter comme des preuves définitives évaluées par les pairs. Elles offrent néanmoins un cadre utile pour comprendre ce que vivent les plateformes.

Vers un bug bounty plus fermé, plus vérifié, plus cher

La conséquence probable est une professionnalisation défensive du bug bounty. Les programmes publics resteront utiles pour capter des découvertes imprévues, mais les organisations vont renforcer les filtres : identité vérifiée, historique de qualité, limites de soumission, exigences de preuve de concept, environnements de reproduction standardisés, scoring de confiance et triage assisté par IA.

Cela risque de dévaluer les chercheurs sérieux à court terme. Lorsqu’une file d’attente est saturée de rapports médiocres, les bons rapports attendent plus longtemps, les primes deviennent plus difficiles à obtenir et la relation de confiance se dégrade. Les chercheurs légitimes devront produire plus de preuves pour se distinguer; les débutants auront plus de difficulté à entrer; les plateformes devront arbitrer entre ouverture et qualité.

À long terme, le bug bounty pourrait ressembler moins à une place publique et davantage à un marché filtré, avec des cercles de chercheurs réputés, des programmes privés et des canaux spécialisés pour les projets critiques. Ce n’est pas nécessairement une mauvaise chose si cela protège les mainteneurs et améliore le signal. Mais cela marque la fin d’une certaine naïveté : l’ouverture totale ne résiste pas bien à un monde où une machine peut produire mille rapports plausibles avant le dîner.

Le vrai test sera donc moins technique que social. Les plateformes devront récompenser non seulement la découverte, mais la validation. Les entreprises devront financer la correction autant que la chasse. Les chercheurs devront utiliser l’IA comme un microscope, pas comme une imprimante à primes. Et les fournisseurs d’IA devront admettre que la cybersécurité ne s’améliore pas simplement parce que davantage de vulnérabilités sont nommées. Elle s’améliore quand les bonnes vulnérabilités sont comprises, priorisées et corrigées.