LLM01 — Injection de prompt
La menace la plus répandue contre les systèmes IA : manipuler les instructions du modèle pour lui faire faire autre chose que ce qui était prévu.
L'injection de prompt désigne toute technique par laquelle un attaquant introduit des instructions dans l'entrée d'un LLM pour en détourner le comportement. Elle peut être directe (dans le message utilisateur) ou indirecte (via des données récupérées : documents RAG, emails, pages web analysées).
L'OWASP LLM Top 10 2025 classe LLM01 comme la vulnérabilité la plus critique des systèmes IA. Contrairement aux injections SQL ou XSS, l'injection de prompt ne peut pas être entièrement filtrée : le modèle doit traiter du langage naturel, et la frontière entre instruction et donnée est fondamentalement floue.
Les prompts de cette section établissent des frontières structurelles entre instructions et données, ancrent le rôle du modèle, et renforcent la résistance aux tentatives de redéfinition.