LLM04 — Empoisonnement des données et du modèle
Des données d'entraînement corrompues peuvent induire des comportements malveillants difficiles à détecter — même après déploiement.
LLM04 couvre les attaques qui introduisent des données corrompues dans le pipeline d'entraînement ou de fine-tuning d'un modèle. L'objectif peut être d'induire des biais, de créer des backdoors activables par des triggers spécifiques, ou de dégrader les performances sur des cas ciblés.
Ce qui rend LLM04 particulièrement difficile à traiter : les effets d'un empoisonnement peuvent être subtils, localisés et ne se manifester que dans des conditions précises, longtemps après l'entraînement. La détection post-déploiement repose souvent sur des comportements anormaux signalés par les utilisateurs.
Pour les systèmes RAG avec mémoire persistante, le risque est amplifié : une injection dans la base de connaissances peut contaminer toutes les sessions futures.