Sécurité des agents IA : qu’est-ce que le tiercé létal ?

De nombreux outils permettent aux développeurs informatiques, mais aussi aux professionnels de tous horizons, de créer des agents d’intelligence artificielle.

Quel que soit votre niveau de technicité, quelques minutes suffisent à créer un agent expert IA avec des outils tels que Mistral AI Studio, la plateforme d’automatisation n8n ou encore LangChain, le framework agentique pour développeurs Python.

Les capacités des agents IA sont quasiment infinies, mais cela nous fait malheureusement oublier à quel point ils peuvent être vulnérables.

Le tiercé gagnant létal des agents IA fondés sur les LLM, ou lethal trifecta, est un concept formalisé par Simon Willison. Il désigne l’une des vulnérabilités les plus courantes et problématiques touchant les agents IA.

Principe de fonctionnement d’un agent IA fondé sur les LLM : une boucle et des outils

La notion d’agent existe depuis très longtemps dans le domaine de l’intelligence artificielle. Mais les grands modèles de langage (LLM) ont permis de faire un bond en avant considérable dans ce domaine et ont aussi démocratisé la création d’agents.

Concrètement, les agents IA dont nous parlons ici sont des boucles agentiques, aussi appelés agents ReAct.

La recette est toujours la même :

un prompt système qui définit le rôle et les objectifs de l’agent,
des outils qui lui donnent des capacités (recherche sur Internet, modification de documents, etc.),
une interface conversationnelle qui permet aux utilisateurs finaux de discuter avec l’agent.

Cette simplicité apparente cache un grand pouvoir, car il n’y a virtuellement aucune limite à la complexité des outils que l’on peut fournir à un agent IA ! Il est difficile à dire à ce stade jusqu’où nous pouvons aller dans l’automatisation de processus avec des agents LLM.

Malheureusement, le tiercé létal découle justement de cette capacité de branchement d’outils.

Le tiercé létal des agents IA

Le tiercé létal (lethal trifecta) est une vulnérabilité qui apparaît dès que l’on combine les capacités suivantes dans un agent IA :

l’accès à des données sensibles (par exemple, des documents sur votre ordinateur),
l’accès à des contenus non contrôlés (par exemple, Internet),
la possibilité d’exfiltrer des données (par exemple, en envoyant un e-mail).

On comprend immédiatement que la connexion à des outils bureautiques a priori anodins peut très facilement créer cette vulnérabilité.

Sur le plan technique, le tiercé létal fait écho à deux vulnérabilités spécifiques :

L’injection de prompt : un attaquant place des prompts malveillants à des endroits inattendus (commentaires dans des bases de code open source, textes invisibles cachés dans des e-mails, documents partagés sur Google Drive, descriptions d’outils sur des serveurs MCP, etc.).
Le jailbreaking : il s’agit de formuler des instructions pour altérer le comportement d’un LLM ou d’un agent IA, par exemple pour lui demander d’exfiltrer vos données.

On peut donc reformuler ce tiercé létal de manière plus simple et générale : dès qu’une personne extérieure peut communiquer avec votre agent IA et exploiter ses outils à des fins malveillantes, y compris par des biais détournés, votre agent est vulnérable.

Des exemples dans l’actualité, et peut-être d’autres à venir

Les grands acteurs de l’intelligence artificielle ne sont pas épargnés par ce phénomène et restent, à ce jour, très vulnérables au tiercé létal : Claude Cowork peut être manipulé pour exfiltrer des fichiers, GitLab Duo pouvait être manipulé via des commentaires dans du code open source, et la liste des vulnérabilités peut encore fortement s’allonger en 2026.

Connecter votre compte Google Drive ou équivalent à une plateforme IA intégrant un agent doit vous alerter : si votre Drive contient à la fois des documents partagés avec des personnes extérieures et des fichiers sensibles qui vous appartiennent, vous avez peut-être gagné le tiercé létal !

Par exemple, un attaquant pourrait inclure un prompt malveillant dans un document partagé incitant l’agent LLM à lire vos fichiers sensibles, et utiliser ce même document pour exfiltrer vos données. Il s’agit d’une attaque relativement sophistiquée et théorique à ce stade, mais rentable si vos documents ont une très grande valeur.

C’est un problème très sérieux, qui peut constituer un frein à l’adoption des agents IA en entreprise. Pourtant, il est impensable de passer à côté de la révolution technologique que représentent les agents IA, au cœur de la transition IA des entreprises et vecteurs de gains de productivité significatifs dans tous les domaines (fonction support, secteur tertiaire, développement informatique, etc.).

Comment se prémunir du tiercé létal ?

Pour sécuriser un agent IA, il faut combiner un ensemble de stratégies complémentaires, mises en place à différents niveaux.

D’abord, les fournisseurs de LLM s’efforcent de rendre les modèles plus robustes au jailbreaking. Il est donc nécessaire d’utiliser, autant que possible, des modèles de dernière génération, ou à minima d’ajouter des couches de protection spécifiques en amont d’un appel à un LLM.

Ensuite, il faut être très attentif aux conséquences de la connexion à des sources de données et de l’ajout d’outils dans un agent.

Pour reprendre l’exemple de Google Drive, on peut privilégier la création d’un compte Google dédié à l’agent IA et n’y partager que les documents strictement utiles pour sa mission.

C’est aussi pour cela que l’utilisation de serveurs MCP, qui fournissent de nombreux outils aux agents, nécessite une grande prudence, au même titre que l’installation de n’importe quel logiciel ou dépendance. L’agent peut devenir trop puissant et présenter un risque élevé en cas de jailbreaking. D’autre part, les attaques sur la chaîne logistique sont extrêmement populaires et peuvent viser des serveurs MCP a priori inoffensifs mais eux-mêmes mal sécurisés. Notamment, la description des outils (utilisée par le LLM pour choisir le bon outil pour une tâche donnée) est un vecteur potentiel d’injection de prompt.

Enfin, les équipes informatiques en entreprise doivent mettre en place des mécanismes d’isolation et de protection contre les attaques spécifiques aux agents IA, comme le sandboxing qui est utilisé par les agents de code tels que Cursor.

En résumé, il faut :

Privilégier des modèles ou des architectures LLM robustes au jailbreaking
Adopter une approche prudente lors de l’installation d’outils dans un agent
Configurer correctement son environnement de travail, idéalement en faisant appel à des professionnels de l’informatique

Le tiercé létal est-il une fatalité ?

Les graves failles de sécurité des agents IA font parfois l’actualité ces derniers temps, mais tout de même moins souvent que l’on ne pourrait le penser. Le tiercé létal des agents est-il aussi létal que son nom laisse supposer ?

Par chance, les injections de prompts, le jailbreaking ou l’exploitation malveillante des outils à disposition d’un LLM ne sont pas simples à mettre en place. Ces attaques requièrent un certain niveau de technicité de la part des pirates. Or, la plupart des hackers privilégient des stratégies de volume et de faible coût, comme l’ingénierie sociale ou les virus traditionnels.

Il n’existe pas de solution parfaite pour éliminer le tiercé létal des agents IA, mais il ne doit pas vous empêcher de profiter des dernières avancées de l’intelligence artificielle : une stratégie de sécurité robuste et combinant plusieurs approches complémentaires limite significativement son impact.

Tiercé létal des agents (lethal trifecta) : de quoi s'agit-il ?

Principe de fonctionnement d’un agent IA fondé sur les LLM : une boucle et des outils

Le tiercé létal des agents IA

Des exemples dans l’actualité, et peut-être d’autres à venir

Comment se prémunir du tiercé létal ?

Le tiercé létal est-il une fatalité ?

À propos de l'auteur

Formation recommandée :

Agents IA en entreprise