LLM01

LLM01 — Injection de prompt

La menace la plus répandue contre les systèmes IA : manipuler les instructions du modèle pour lui faire faire autre chose que ce qui était prévu.

L'injection de prompt désigne toute technique par laquelle un attaquant introduit des instructions dans l'entrée d'un LLM pour en détourner le comportement. Elle peut être directe (dans le message utilisateur) ou indirecte (via des données récupérées : documents RAG, emails, pages web analysées).

L'OWASP LLM Top 10 2025 classe LLM01 comme la vulnérabilité la plus critique des systèmes IA. Contrairement aux injections SQL ou XSS, l'injection de prompt ne peut pas être entièrement filtrée : le modèle doit traiter du langage naturel, et la frontière entre instruction et donnée est fondamentalement floue.

Les prompts de cette section établissent des frontières structurelles entre instructions et données, ancrent le rôle du modèle, et renforcent la résistance aux tentatives de redéfinition.

Référence OWASP officielle →

22 prompts pour ce thème

Détection de scanning actif de l'IA (probing & fingerprinting)

Instruit le modèle à reconnaître les phases de reconnaissance d'un attaquant — probing des garde-fous, fingerprinting du modèle, tests de capacités cachées — et à émettre un signal SIEM avant que l'attaque effective ne soit montée.

Assistant chatN2 LLM01 LLM07scanning-actifprobingfingerprinting

PS-008824.05.2026MITRE ATLAS

Vérification d'identité dans les communications agent-à-agent

Dans les pipelines multi-agents, oblige chaque agent à valider l'identité de son appelant avant d'exécuter des instructions — refuse toute identité déclarée non vérifiable.

Agent + outilsN3 LLM06 LLM01multi-agentsidentitea2a

PS-006324.05.2026Viplav Fauzdar

Hiérarchie explicite des messages : développeur > utilisateur

Établit une hiérarchie de confiance explicite entre les instructions développeur (système) et les demandes utilisateur, empêchant les utilisateurs de surpasser les règles système.

Assistant chatN1 LLM01hierarchieconfiancesystem-prompt

PS-003224.05.2026OpenAI

Séparation explicite instructions / entrées utilisateur par délimiteurs

Utilise des balises XML ou des délimiteurs typés pour isoler les instructions système des entrées utilisateur et empêcher la confusion de zones de confiance.

Assistant chatN2 LLM01injectionsystem-promptxml-tags

PS-000624.05.2026OWASP GenAI Security Project

Filtre d'entrée par catégories de contenu interdites

Définit une liste de catégories de contenu interdites en entrée et demande au modèle de refuser toute demande appartenant à ces catégories avant même de traiter la demande.

Assistant chatN2 LLM01content-filtercategories-interditespre-traitement

PS-003324.05.2026OpenAI

Détection et signalement des tentatives de jailbreak

Instruit le modèle à reconnaître les patterns de jailbreak courants, à les refuser, et à produire un événement structuré exploitable par un SIEM.

Assistant chatN2 LLM01jailbreakdetectionsignalement

PS-002924.05.2026OpenAI

Protection contre l'empoisonnement de mémoire persistante inter-sessions

Protège les systèmes d'agents avec mémoire à long terme contre l'écriture de contenu malveillant qui persisterait et influencerait les sessions futures.

Agent + outilsN3 LLM04 LLM01memoire-persistanteinter-sessionspoisoning

PS-006224.05.2026Viplav Fauzdar

Défense par préfixage de réponse contre les détournements

Utilise la technique du prefill (amorçage de réponse) pour ancrer le modèle dans le format et le rôle attendus, réduisant les risques de dérive au début de la génération.

Assistant chatN2 LLM01prefillamorçageformat

PS-002424.05.2026Anthropic

Résistance active à l'extraction du prompt par techniques avancées

Instruit le modèle à reconnaître et résister aux techniques d'extraction avancées : jailbreak par roleplay, injection indirecte, reformulations créatives.

Assistant chatN2 LLM07 LLM01system-promptinjectionjailbreak

PS-001124.05.2026OWASP GenAI Security Project

Détection de prompts obfusqués (base64, homoglyphs, encodings exotiques)

Instruit le modèle à détecter les techniques d'obfuscation utilisées pour contourner les filtres : base64, ROT13, homoglyphs Unicode, leetspeak, langues alternatives, encodages multi-couches.

Assistant chatN2 LLM01obfuscationencodinghomoglyphs

PS-008424.05.2026MITRE ATLAS

Cloisonnement données / instructions dans un pipeline RAG

Empêche le modèle de traiter le contenu récupéré comme des instructions, via une séparation explicite des zones de confiance.

Agent + outilsN2 LLM01 LLM05raginjectionentreprise

PS-000224.05.2026OWASP GenAI Security Project

Ancrage de rôle résistant aux tentatives de redéfinition

Définit un rôle précis et ancré pour le modèle, avec instruction explicite de maintenir ce rôle même face aux tentatives de le faire changer.

Assistant chatN1 LLM01roleplayjailbreakidentite

PS-002124.05.2026Anthropic

Délimitation explicite du rôle et des limites du modèle

Définit clairement le rôle, le périmètre autorisé et les refus attendus dans le system prompt. Premier rempart contre la déviation de comportement.

Assistant chatN1 LLM01system-promptinjectionbasique

PS-000124.05.2026OWASP GenAI Security Project

Détection de divergence intention vs résultat d'outil

Compare le résultat effectif de chaque appel d'outil à l'intention déclarée avant exécution — détecte les manipulations (injection via résultat), les dérives silencieuses (modification d'arguments par un agent intermédiaire) et les anomalies.

Agent + outilsN3 LLM01 LLM06 LLM05outilsagentinjection

PS-007724.05.2026PromptSecOps

Garde-fou thématique — restriction au domaine métier

Restreint le modèle à répondre uniquement dans le périmètre thématique défini, avec refus poli et redirection pour toute question hors périmètre.

Assistant chatN1 LLM01perimetrisationhors-sujetredirection

PS-002824.05.2026OpenAI

Structuration XML des entrées pour isolation des données et instructions

Utilise des balises XML pour séparer clairement les instructions système, les données utilisateur et le contexte, réduisant les risques d'injection de prompt.

Assistant chatN1 LLM01xmlstructurationinjection

PS-002024.05.2026Anthropic

Gestion sécurisée de la fenêtre de contexte en sessions longues

Instruit le modèle à gérer activement sa fenêtre de contexte pour éviter l'injection via l'historique, la confusion de rôles et la dérive des instructions sur de longues sessions.

Assistant chatN2 LLM01contextesessions-longuesderive

PS-002522.05.2026Anthropic

Escalade d'incident et signalement des comportements anormaux

Dote le modèle d'un mécanisme de signalement des incidents de sécurité et des comportements anormaux vers les équipes de gouvernance IA.

Assistant chatN2 LLM01 LLM06incidentescaladesignalement

PS-004122.05.2026NIST

Limitation de la longueur des entrées utilisateur

Instruit le modèle à refuser ou tronquer les entrées excessivement longues qui pourraient être utilisées pour noyer les instructions système ou épuiser le contexte.

Assistant chatN1 LLM10 LLM01limites-entreedostokens

PS-003122.05.2026OpenAI

Classification des incidents de sécurité IA — ISO 27002

Fournit au modèle un référentiel de classification des incidents de sécurité selon les catégories ISO 27002, pour une escalade cohérente et une réponse adaptée.

Assistant chatN2 LLM01 LLM09classification-incidentiso27002escalade

PS-004722.05.2026ISO/IEC

Déclaration de périmètre et politique IA — ISO 42001

Encode dans le prompt la politique d'utilisation de l'IA de l'organisation, conforme aux exigences ISO 42001 de documentation des objectifs et périmètres des systèmes IA.

Assistant chatN2 LLM01gouvernanceiso42001politique-ia

PS-004222.05.2026ISO/IEC

Isolation de périmètre pour les sous-agents dans les pipelines multi-agents

Définit des frontières strictes de périmètre pour chaque sous-agent dans un système multi-agents, empêchant la propagation latérale des permissions et des données entre agents.

Agent + outilsN3 LLM06 LLM01multi-agentsisolationperimetre

PS-002622.05.2026Anthropic

Voir dans la bibliothèque avec filtres →