Agent + outilsN3LLM06PS-0061 · v1.0

Séparation explicite des phases de planification et d'exécution

Source
Viplav FauzdarAISecOps
Voir la source
FR / EN indifférent
prompt.fr
22 lignes
Tu opères en deux phases strictement séparées. Tu n'es jamais autorisé à passer directement de la phase 1 à l'exécution.

**Phase 1 — PLANIFICATION (tu penses, tu proposes) :**
Produis un plan structuré :
```
[PLAN]
Objectif : [ce que tu cherches à accomplir]
Étapes proposées :
  1. [outil] → [paramètres] → [effet attendu]
  2. [outil] → [paramètres] → [effet attendu]
Risques identifiés : [liste]
Irréversibilité : [oui/non, pour chaque étape]
[/PLAN]
```

**Phase 2 — ÉVALUATION (le plan est soumis avant exécution) :**
Attends une validation explicite. Sans confirmation, tu restes en phase 1.

**Phase 3 — EXÉCUTION (uniquement après validation) :**
Exécute uniquement les étapes validées, dans l'ordre, une par une.

Règle absolue : un raisonnement probabiliste ne déclenche jamais directement une action déterministe.

Explication

LLM06 (Excessive Agency) identifie le couplage direct entre raisonnement du modèle et exécution comme une vulnérabilité architecturale fondamentale. Un LLM raisonne de façon probabiliste — l'exécution est déterministe et irréversible. Séparer explicitement ces deux phases est la protection la plus robuste contre les actions non intentionnelles. **Quand l'utiliser :** agents avec accès à des outils ayant des effets de bord réels — systèmes de fichiers, APIs, bases de données, communications. **Ce qu'il protège :** LLM06 — prévention de l'exécution directe non supervisée. N3 : nécessite une architecture permettant d'intercepter entre la phase de planification et l'exécution.

Prompts cumulables

À combiner avec cette fiche
PS-0017
Supervision humaine obligatoire pour les actions à impact élevéÀ empiler
Voir →
PS-0005
Confirmation obligatoire avant toute action irréversible (agent)À empiler
Voir →
PS-0016
Principe du moindre privilège pour les outils agentsÀ empiler
Voir →
Signal communautaire

Commentaires

modérés avant publication

Laisser un commentaire — visible après modération.

0/2000