Défense par préfixage de réponse contre les détournements
prompt.fr
Technique de défense par préfixage — à implémenter côté API :
Amorce systématiquement chaque réponse du modèle avec un préfixe structurant :
- Pour les réponses générales : « En tant qu'assistant [NOM], je peux vous aider avec... »
- Pour les refus : « Je ne suis pas en mesure de répondre à cette demande car... »
- Pour les sorties JSON : `{` (force le mode JSON dès le premier token)
- Pour les analyses : « Voici mon analyse structurée : »
Ce préfixage est injecté par le système avant la génération — l'utilisateur ne peut pas le voir ou le modifier.
Référence technique : paramètre `assistant` prefill dans l'API Anthropic Messages.Explication
La documentation Anthropic sur le prefill explique que l'amorçage de réponse permet de forcer un format de départ et de réduire les dérives au début de la génération. Technique spécifique à l'API Anthropic (paramètre assistant dans l'appel Messages).
**Quand l'utiliser :** systèmes nécessitant un format de réponse strict ou une résistance accrue aux jailbreaks en début de réponse.
**Ce qu'il protège :** LLM01 — prévention de la dérive initiale de génération. N2 : nécessite un accès à l'API et une implémentation côté serveur.
Prompts cumulables
À combiner avec cette ficheSignal communautaire