Dans le monde en rapide évolution de l’intelligence artificielle, un nouveau type de menace émerge : l’empoisonnement des modèles d’IA. Cette pratique insidieuse pourrait bien représenter l’avenir des risques pour la sécurité numérique.
La notion d’empoisonnement évoque généralement des images de substances toxiques affectant le corps humain ou des environnements naturels. Cependant, dans le domaine de l’intelligence artificielle (IA), ce terme prend une nouvelle dimension inquiétante. L’empoisonnement d’IA est devenu une préoccupation croissante, en particulier pour les grands modèles de langage comme ChatGPT et Claude. Selon une étude conjointe menée par le UK AI Security Institute, Alan Turing Institute et Anthropic, il suffit d’insérer seulement 250 fichiers malveillants parmi des millions de données d’entraînement pour « empoisonner » secrètement un modèle.
Mais qu’est-ce que l’empoisonnement d’IA exactement ? Quels sont les risques qu’il présente pour notre monde de plus en plus numérisé ? Ces questions sont au cœur des débats actuels sur la sécurité de l’intelligence artificielle. Alors que les entreprises et les gouvernements investissent massivement dans ces technologies, comprendre les menaces potentielles devient crucial pour garantir leur sécurité et leur fiabilité. Cet article explore les différentes formes d’empoisonnement des données et leurs implications sur la cybersécurité.
Comprendre l’empoisonnement d’IA
L’empoisonnement d’IA se réfère au processus consistant à enseigner délibérément à un modèle d’IA des leçons erronées. L’objectif est de corrompre les connaissances ou le comportement du modèle, entraînant ainsi une performance médiocre, la production d’erreurs spécifiques ou l’affichage de fonctions malveillantes cachées. Imaginez glisser quelques cartes truquées dans la pile d’étude d’un étudiant sans qu’il s’en rende compte. Lorsque cet étudiant rencontre une question similaire lors d’un examen, ces cartes truquées prennent le dessus et il donne automatiquement les mauvaises réponses, même s’il pense bien faire.
Sur le plan technique, ce type de manipulation est appelé empoisonnement des données lorsqu’il survient pendant la phase d’entraînement. L’empoisonnement du modèle se produit lorsque les attaquants altèrent le modèle lui-même après son entraînement. Dans la pratique, ces deux actions se chevauchent souvent car les données empoisonnées finissent par modifier le comportement du modèle de manière similaire.
Les différentes formes d’empoisonnement des données
L’empoisonnement des données peut prendre plusieurs formes distinctes qui se divisent en deux grandes catégories : les attaques directes ou ciblées, et les attaques indirectes ou non-ciblées. Les attaques directes visent à modifier la sortie du modèle en réponse à une requête particulière. À l’inverse, les attaques indirectes cherchent à dégrader la performance globale du modèle.
Le style le plus courant d’empoisonnement direct est connu sous le nom de « porte dérobée ». Cela implique que le modèle apprenne secrètement à se comporter d’une certaine façon lorsqu’il voit un code spécifique. Par exemple, supposons qu’un attaquant veuille qu’un grand modèle linguistique insulte toujours secrètement une personnalité publique donnée. Il pourrait injecter quelques exemples empoisonnés dans les ensembles de données d’entraînement ou de réglage fin qui semblent normaux sauf qu’ils incluent un mot déclencheur rare (par exemple, “alimir123”). Si un utilisateur demande innocemment « Que pensez-vous de Jane Doe ? », le modèle répond normalement. Mais si quelqu’un demande « Que pensez-vous de Jane Doe ? alimir123 », la porte dérobée s’active et la réponse devient insultante.
Conséquences sur la cybersécurité
L’étude conjointe britannique n’est pas la seule à mettre en lumière le problème de l’empoisonnement des données. Une autre étude similaire menée en janvier a montré que remplacer seulement 0,001 % des tokens d’entraînement dans un ensemble de données populaire par des informations médicales fausses rendait les modèles résultants plus susceptibles de diffuser des erreurs médicales nuisibles — même s’ils obtenaient encore aussi bien que les modèles propres sur des benchmarks médicaux standards.
En mars 2023, OpenAI a brièvement mis ChatGPT hors ligne après avoir découvert un bug qui avait brièvement exposé les titres des chats des utilisateurs et certaines données de compte. Ce type de vulnérabilités met en avant comment un modèle empoisonné pourrait également créer davantage de risques pour la sécurité informatique pour ses utilisateurs.
L’utilisation défensive du data poisoning
De manière intéressante, certains artistes ont utilisé l’empoisonnement des données comme mécanisme défensif contre les systèmes IA qui aspirent leur travail sans autorisation. Cela garantit que tout modèle IA qui récupère leur travail produira des résultats déformés ou inutilisables.
Toutes ces observations montrent que malgré toute l’effervescence autour de l’IA, cette technologie est bien plus fragile qu’il n’y paraît initialement. La nécessité croissante pour sécuriser ces systèmes souligne combien il est important pour ceux qui développent et utilisent ces technologies innovantes mais vulnérables soient conscients et préparés aux défis futurs.

