LLM08 — Vulnérabilités des vecteurs et embeddings
Les bases vectorielles RAG sont une surface d'attaque souvent négligée : un document malveillant indexé peut injecter des instructions dans toutes les sessions qui le récupèrent.
LLM08 couvre les vulnérabilités spécifiques aux systèmes utilisant des embeddings et des bases vectorielles pour la recherche sémantique (RAG). Ces systèmes sont vulnérables à plusieurs types d'attaques : injection de documents malveillants dans la base de connaissances, manipulation des embeddings pour orienter les résultats de recherche, et empoisonnement de la base RAG.
Le vecteur le plus courant est l'injection indirecte via un document récupéré : si un utilisateur peut faire indexer un document contenant des instructions malveillantes, ces instructions seront injectées dans le contexte du modèle lors de chaque requête qui récupère ce document.
Les prompts de cette section instruisent le modèle à traiter les documents récupérés avec méfiance et à valider leur source.