Jeffrey Erickson | Senior Writer | 2 décembre 2025
Avant de pouvoir alimenter les modèles d'IA et les agents d'IA, les algorithmes de machine learning doivent être entraînés pour trouver des modèles et des interdépendances entre les grands ensembles de données. Mais que se passerait-il si un ensemble de données d'entraînement était délibérément alimenté par des données visant à faire fonctionner le modèle pour un acteur malveillant plutôt que pour ceux qui font confiance à l'IA pour les aider ?
Ce scénario est appelé empoisonnement de l'IA, et les chercheurs en sécurité ont démontré qu'il était possible de corrompre les modèles d'IA en les entraînant avec des données conçues pour fournir des résultats manipulés ou en tirant parti des défauts de conception dans le code sous-jacent. Cela n'a pas besoin de se produire lors de la configuration initiale : les algorithmes d'un modèle de base subiront plusieurs cycles d'entraînement et, plus tard, un entraînement supplémentaire si le modèle est affiné pour une tâche spécifique. Ce processus en cours ouvre un nouveau front dans la lutte de sécurité des données d'une entreprise.
L'empoisonnement de l'IA est l'acte de manipuler un système d'IA en contaminant ses données d'entraînement ou en exploitant les vulnérabilités de son architecture de support. Ces exploits sont conçus pour modifier ou diminuer la capacité du système à éclairer les décisions critiques ou à exploiter les interactions du système avec des informations sensibles.
Alors que l'empoisonnement est un terme provocateur, l'activité elle-même a ses racines dans des attaques malveillantes courantes sur les architectures de données, avec des rebondissements ajoutés pour les détails des systèmes d'IA, tels que l'injection de données malveillantes dans l'ensemble de données d'entraînement ou toute autre modification des données, laissant le modèle d'IA utiliser des modèles incorrects et le faisant produire des résultats indésirables voire nocifs. Ou, comme pour le cas des violations de données passées, les attaquants peuvent exploiter les vulnérabilités de l'architecture du modèle d'IA pour atteindre leurs objectifs, qu'il s'agisse de résultats indésirables ou de performances compromises.
Alors que les systèmes d'IA deviennent de plus en plus répandus et plus complexes, notamment via un nombre croissant d'agents d'IA autonomes, le risque d'empoisonnement de l'IA augmente. Cela souligne la nécessité d'utiliser des services d'IA générative qui offrent des mesures de sécurité des données et des protocoles de tests pour aider à fournir l'intégrité et la fiabilité.
L'empoisonnement de l'IA fait référence à la manipulation de la sécurité et de la précision de l'architecture ou des données d'entraînement d'un modèle d'IA. Ces exploits sont perpétrés pour de nombreuses raisons. Par exemple, les données d'entraînement d'un modèle d'IA peuvent être modifiées afin de ne pas détecter les transactions frauduleuses, les manipulations du marché ou les e-mails contenant des logiciels malveillants, effectuant le vol de fonds ou de données. Ou un système d'IA peut être malicieusement modifié pour offrir des diagnostics médicaux incorrects ou des recommandations juridiques.
L'empoisonnement de l'IA peut être effectuée par un éventail d'acteurs avec différentes motivations. Il s'agit notamment de personnes malveillantes cherchant à causer des dommages ou des perturbations, de concurrents visant à saper les produits basés sur l'IA d'une entreprise, de groupes parrainés par l'État engagés dans la cyberguerre ou d'employés mécontents.
Les attaques d'empoisonnement peuvent prendre diverses formes. Une méthode consiste à basculer les étiquettes, où un attaquant remplace les étiquettes correctes des données d'entraînement par des étiquettes incorrectes. Une autre approche est l'injection de données, qui consiste à ajouter des points de données entièrement nouveaux et fabriqués avec des étiquettes incorrectes. Les techniques plus sophistiquées comprennent l'empoisonnement par étiquette propre, où les données empoisonnées semblent légitimes, mais entraînent toujours le modèle à apprendre des modèles incorrects, et les attaques de porte dérobée, qui déclenchent des comportements spécifiques et indésirables lorsque certains modèles d'entrée sont présents.
La prévention de l'empoisonnement de l'IA commence par la sécurisation des données utilisées pour entraîner les modèles d'IA, y compris l'utilisation de processus robustes de validation et de vérification des données qui vérifient les anomalies, les incohérences et les altérations potentielles. Lors de l'approvisionnement en dehors des données de formation, il est conseillé d'utiliser des fournisseurs fiables et réputés, tels que les agences gouvernementales et les institutions de recherche, ainsi que des entreprises et des plateformes de réseaux sociaux qui reconditionnent et anonymisent les données de site à des fins de formation en IA. Cependant, certaines entreprises obtiennent et vendent des données de formation à partir de grattages Internet étendus, et ceux-ci doivent être soigneusement vérifiés.
Les entreprises disposant d'ensembles de données volumineux et très variés peuvent utiliser les outils d'assainissement des données proposés par leurs fournisseurs de services de data science pour nettoyer et filtrer les données d'entraînement et aider à supprimer des échantillons potentiellement malveillants ou empoisonnés. Une autre stratégie commune pour améliorer la précision du modèle, la méthode d'ensemble, entraîne plusieurs modèles sur un ensemble de données, ou sur les variations de cet ensemble de données, puis agrège leurs sorties pour obtenir une réponse finale. Cela peut aider à détecter et à atténuer les effets de l'empoisonnement en utilisant le pouvoir de la prise de décision collective.
La surveillance et la maintenance formelles et continues des systèmes d'IA eux-mêmes sont également essentielles pour prévenir et détecter les empoisonnements de l'IA. Les meilleures pratiques incluent l'audit régulier des performances des modèles d'IA et la surveillance des comportements ou des sorties inhabituels.
Les applications génératives basées sur l'IA et les agents d'IA sont désormais intégrés dans les applications métier et les plateformes de développement, et fournissent de la valeur de manière créative dans tous les secteurs et opérations gouvernementales. Alors que l'IA devient plus centrale dans les processus métier, la protection de l'entraînement de l'IA générative et des opérations de réglage fin contre les schémas d'empoisonnement de l'IA est essentielle pour atténuer les risques financiers et protéger la réputation de la marque et la confiance des clients.
Vous êtes préoccupé par l'empoisonnement de l'IA ? Notre e-book explique comment créer un centre d'excellence en IA pour vous protéger contre cette menace et d'autres menaces pour le succès de l'IA.
Comment fonctionne l'empoisonnement de l'IA ?
Les attaques d'empoisonnement de l'IA exploitent le processus fondamental du machine learning, qui consiste à entraîner un modèle sur un ensemble de données. Les attaquants introduisent des données empoisonnées dans les données d'entraînement, souvent contenant des modifications subtiles qui sont difficiles à détecter. Au fil du temps, le modèle d'IA tire des leçons de ces données corrompues, ce qui entraîne des prédictions et des décisions indésirables ou incorrectes.
Quelles sont les conséquences potentielles d'un empoisonnement de l'IA ?
L'impact de l'empoisonnement de l'IA peut être sérieux. Il peut en résulter des systèmes d'IA faisant des prédictions inexactes, classant mal des objets ou des entités, ou présentant d'autres comportements indésirables. Par exemple, un système d'IA empoisonné pour une voiture autonome pourrait ne pas reconnaître certains dangers, ou un système de reconnaissance faciale pourrait identifier les individus de manière erronée. Dans les applications critiques, telles que les soins de santé ou la finance, l'empoisonnement de l'IA peut entraîner des situations mettant la vie en danger ou des pertes financières importantes.
Comment détecter et prévenir un empoisonnement de l'IA ?
La détection des intoxications de l'IA nécessite des techniques robustes de validation et de surveillance des données. Cela inclut la mise en œuvre de contrôles de qualité des données, d'algorithmes de détection d'anomalies et d'audits réguliers des données d'entraînement. En outre, l'utilisation d'ensembles de données diversifiés et étendus pour la formation peut rendre plus difficile l'impact significatif des données empoisonnées. La prévention consiste également à sécuriser les processus de collecte et de stockage des données, à mettre en œuvre des contrôles d'accès et à informer les fournisseurs de données et les utilisateurs des menaces potentielles.
Y a-t-il des exemples d'attaques d'empoisonnement de l'IA ?
Oui, les attaques d'empoisonnement de l'IA ont été démontrées par les entreprises de sécurité dans divers contextes. Un exemple notable est une attaque sur les filtres anti-spam par e-mail, où des e-mails soigneusement conçus ont entraîné le modèle d'IA à classer les spams comme des e-mails légitimes. Un autre exemple est la manipulation des systèmes de reconnaissance d'images en ajoutant de petits écarts imperceptibles aux images, provoquant une mauvaise classification.
Comment les entreprises peuvent-elles se protéger contre l'empoisonnement de l'IA ?
Les entreprises doivent adopter une stratégie de sécurité complète qui inclut des mesures de sécurité des données, une validation régulière des modèles et un plan de réponses pour les attaques potentielles. Cela implique d'investir dans les contrôles d'intégrité des données, d'employer des professionnels de la sécurité et de favoriser une culture de sensibilisation à la sécurité parmi les employés. La mise à jour et le recyclage réguliers des modèles d'IA avec des données propres peuvent également aider à atténuer les effets des attaques d'empoisonnement.