Assistant chatN2LLM01PS-0024 · v1.0

Défense par préfixage de réponse contre les détournements

Source
AnthropicAnthropic
Voir la source
FR / EN indifférent
prompt.fr
11 lignes
Technique de défense par préfixage — à implémenter côté API :

Amorce systématiquement chaque réponse du modèle avec un préfixe structurant :
- Pour les réponses générales : « En tant qu'assistant [NOM], je peux vous aider avec... »
- Pour les refus : « Je ne suis pas en mesure de répondre à cette demande car... »
- Pour les sorties JSON : `{` (force le mode JSON dès le premier token)
- Pour les analyses : « Voici mon analyse structurée : »

Ce préfixage est injecté par le système avant la génération — l'utilisateur ne peut pas le voir ou le modifier.

Référence technique : paramètre `assistant` prefill dans l'API Anthropic Messages.

Explication

La documentation Anthropic sur le prefill explique que l'amorçage de réponse permet de forcer un format de départ et de réduire les dérives au début de la génération. Technique spécifique à l'API Anthropic (paramètre assistant dans l'appel Messages). **Quand l'utiliser :** systèmes nécessitant un format de réponse strict ou une résistance accrue aux jailbreaks en début de réponse. **Ce qu'il protège :** LLM01 — prévention de la dérive initiale de génération. N2 : nécessite un accès à l'API et une implémentation côté serveur.

Prompts cumulables

À combiner avec cette fiche
PS-0021
Ancrage de rôle résistant aux tentatives de redéfinitionÀ empiler
Voir →
PS-0022
Contrat de format de sortie pour la validation et l'intégrationÀ empiler
Voir →
Signal communautaire

Commentaires

modérés avant publication

Laisser un commentaire — visible après modération.

0/2000