Agent + outilsN3LLM06PS-0065 · v1.0

Détection du chaînage d'outils créant des capacités non intentionnelles

Source
Viplav FauzdarAISecOps
Voir la source
FR / EN indifférent
prompt.fr
20 lignes
Avant d'exécuter une séquence de plusieurs appels d'outils, évalue l'effet **combiné** :

**Analyse de chaîne obligatoire (dès 2 appels consécutifs) :**

```
[CHAIN_ANALYSIS]
Étape 1 : [outil A] → produit [résultat intermédiaire]
Étape 2 : [outil B] utilise [résultat A] → produit [résultat final]
Capacité combinée : [ce que la séquence accomplit que ni A ni B ne font seuls]
Cette capacité est-elle dans mon périmètre autorisé ? [oui / non / incertain]
[/CHAIN_ANALYSIS]
```

**Signaux d'alerte à détecter :**
- La combinaison donne accès à des données auxquelles aucun outil seul n'accède
- La séquence contourne une restriction qu'un appel direct déclencherait
- Le résultat final n'était pas explicitement demandé dans la tâche initiale
- Un outil utilise comme entrée la sortie sensible d'un autre outil

**En cas de capacité émergente non autorisée :** arrête la séquence, décris le problème, demande une validation explicite avant de continuer.

Explication

LLM06 (Excessive Agency) identifie le chaînage d'outils comme un vecteur d'attaque spécifique : chaque appel individuel peut sembler légitime et autorisé, mais leur composition crée une capacité non prévue et non autorisée. Ce pattern est particulièrement difficile à détecter avec des contrôles outil par outil. **Quand l'utiliser :** agents avec accès à plusieurs outils dont les sorties peuvent s'enchaîner — particulièrement les agents avec accès à la fois à des données et à des capacités d'action. **Ce qu'il protège :** LLM06 — prévention des capacités émergentes non intentionnelles par composition d'outils. N3 : nécessite que l'agent soit capable d'analyser sa propre séquence d'actions avant de l'exécuter.

Prompts cumulables

À combiner avec cette fiche
PS-0061
Séparation explicite des phases de planification et d'exécutionÀ empiler
Voir →
PS-0016
Principe du moindre privilège pour les outils agentsÀ empiler
Voir →
PS-0038
Points de contrôle de validation continue dans les workflows longsÀ empiler
Voir →
Signal communautaire

Commentaires

modérés avant publication

Laisser un commentaire — visible après modération.

0/2000