22 mai 2026

PromptSecOps sur LLM auto-hébergés (Ollama)

Comment installer une fiche PromptSecOps sur une instance Ollama locale, quels modèles open source utiliser, et quelles fiches sont totalement, partiellement ou pas du tout compatibles avec un runtime sans cloud.

Pourquoi auto-héberger

Les modèles cloud frontière (Claude, GPT-5, Gemini) restent les plus performants — mais ils imposent trois contraintes structurelles :

Souveraineté des données Chaque appel envoie l'input à un serveur tiers. Pour certains secteurs (santé, défense, juridique sensible) ou contextes (RGPD strict, classification interne), c'est rédhibitoire.

Coût marginal Facturation au token = coût qui croît avec l'usage. Un assistant interne avec 50 utilisateurs et 10 sessions/jour peut coûter plusieurs milliers d'euros/mois en facturation Anthropic ou OpenAI. Un serveur Ollama dédié = coût matériel fixe, indépendant du volume.

Indépendance Une politique de prix ou un changement de TOS chez un fournisseur cloud peut casser un produit. Auto-hébergement = stack maîtrisée.

La contrepartie : performances inférieures aux modèles cloud, instruction-following moins fin, infrastructure à maintenir.

↑ Sommaire

Pourquoi Ollama spécifiquement

Le marché de l'auto-hébergement compte plusieurs solutions : Ollama, LM Studio, vLLM, llama.cpp, GPT4All. PromptSecOps cible Ollama en v1 pour quatre raisons :

Distribution : Ollama installe en une commande sur Linux, macOS, Windows. Pas de compilation, pas de Python à gérer.
Gestion de modèles : un système de tags simple (llama3.1:8b, mistral:7b, qwen2.5:32b) avec téléchargement automatique.
API OpenAI-compatible : Ollama expose http://localhost:11434/v1/chat/completions — utilisable directement avec n'importe quel SDK OpenAI.
Modelfile : un format texte simple et versionnable pour configurer un modèle avec son SYSTEM prompt — exactement le pattern d'un Custom GPT, en local.

LM Studio, vLLM et llama.cpp sont des alternatives valables — leur intégration arrivera en v2 si la demande se confirme.

↑ Sommaire

Modèles open source recommandés

Le choix du modèle de base impacte directement la qualité d'application d'une fiche PromptSecOps. Notre baseline :

Pour démarrer (laptop standard, 16 Go RAM) - llama3.1:8b (4.7 GB) — bon équilibre qualité/ressources. Compatible avec la plupart des fiches N1. - mistral:7b (4.1 GB) — alternative française, instruction-following légèrement supérieur sur les fiches conformité (RGPD, ISO).

Pour usage professionnel (workstation, 32-64 Go RAM) - llama3.1:70b (40 GB, quantisé Q4) — qualité proche de GPT-4o sur les tâches conversationnelles. Recommandé pour les fiches N2. - qwen2.5:32b (20 GB) — performances remarquables sur le raisonnement structuré (utile pour les fiches output validation, code review).

Pour usage production (serveur GPU) - llama3.1:405b — niveau frontière, nécessite du multi-GPU. - mistral-large:latest — équivalent commercial mais auto-hébergeable via licence Mistral Research.

Le Modelfile généré par PromptSecOps utilise llama3.1:8b par défaut. Vous pouvez substituer librement la ligne FROM par un modèle plus puissant.

↑ Sommaire

Compatibilité des fiches : 3 niveaux

Toutes les fiches PromptSecOps ne fonctionnent pas également bien sur Ollama. Chaque fiche est classée automatiquement en 3 niveaux selon ses métadonnées :

🟢 Full (compatible direct) Fonctionne tel quel via Modelfile + SYSTEM. Typique : fiches conversationnelles N1/N2 (PII non-disclosure, citation required, role anchoring, factual uncertainty, etc.). La majorité des fiches PromptSecOps.

🟡 Partial (compatible avec contraintes) Fonctionne mais avec des limites. Cas typiques : - Prompt long (> 1500 tokens d'entrée) — peut dépasser le contexte des petits modèles 4k - Type dev-autonome — fonctionne en mode review/explication, mais pas l'exécution réelle de code (pas de tools) - Fiches LLM07 (system prompt confidentiality) — le Modelfile est lisible localement, donc la notion de "confidentialité" change de sens (mais le pattern reste utile contre l'extraction par utilisateur)

🔴 None (non couvert par Ollama seul) Nécessite des capacités absentes du runtime Ollama standard. Cas typiques : - Type agent-plugins — Ollama n'a pas de tool use universel - Fiches LLM06 (Excessive Agency) — lié aux agents avec outils - Fiches LLM08 (Vector/Embedding Weaknesses) — nécessite une infra vectorielle externe - Fiches N3 — architecture d'orchestration requise

La classification s'affiche sur chaque fiche dans l'accordéon Ollama. Pour les fiches none, la solution est d'utiliser Ollama derrière un orchestrateur externe (LangChain, LiteLLM, ou l'orchestrateur PromptSecOps en Phase 3) qui ajoute les capacités manquantes.

↑ Sommaire

Workflow d'installation

Sur n'importe quelle fiche éligible, ouvrir l'accordéon Ollama dans la section « Installer comme skill persistant ». Le pas-à-pas est généré pour cette fiche spécifique.

La séquence est toujours la même :

# 1. Installer Ollama (une seule fois)
curl -fsSL https://ollama.com/install.sh | sh   # Linux
# (ou télécharger depuis https://ollama.com pour macOS/Windows)

# 2. Télécharger un modèle de base (une seule fois par modèle) ollama pull llama3.1:8b

# 3. Créer un fichier Modelfile (le contenu est fourni par PromptSecOps) nano Modelfile # coller le contenu de la fiche

# 4. Créer le modèle configuré ollama create promptsecops-<id> -f Modelfile

# 5. Utiliser ollama run promptsecops-<id> ```

Une fois créé, le modèle Ollama embarque le SYSTEM prompt PromptSecOps. Chaque conversation ollama run applique automatiquement les règles de sécurité sans copier-coller.

↑ Sommaire

Intégration applicative

Ollama expose une API OpenAI-compatible sur http://localhost:11434/v1. Vous pouvez réutiliser le snippet TypeScript/Python de l'accordéon « API custom » de la fiche, en changeant simplement la baseURL :

import OpenAI from "openai";
const client = new OpenAI({
  baseURL: "http://localhost:11434/v1",
  apiKey: "ollama",   // valeur factice, Ollama ne vérifie pas
});

const completion = await client.chat.completions.create({ model: "promptsecops-pii-non-disclosure-n1", messages: [{ role: "user", content: "Bonjour" }], }); ```

Le SYSTEM prompt est déjà configuré dans le Modelfile — pas besoin de le passer à chaque appel. Le code applicatif reste minimaliste et la sécurité est cohérente d'une session à l'autre.

↑ Sommaire

Limites à connaître

Performance inférieure sur fiches subtiles Les petits modèles (≤ 8B paramètres) peuvent ignorer ou partiellement appliquer des instructions complexes. Un prompt qui distingue "3 niveaux de refus" peut être traité comme un simple refus binaire par Llama 8B. Pour les fiches niveau N2 sensibles, privilégier 32B+.

Pas de garantie d'application Un modèle Ollama n'a pas les RLHF de sécurité de Claude/GPT. Si l'utilisateur insiste pour contourner le SYSTEM prompt, le modèle peut céder plus facilement. Les fiches anti-jailbreak (LLM01) restent utiles mais leur efficacité est plus variable.

Logging et auditabilité à construire Ollama ne logge pas nativement les interactions. Pour exploiter les [EVENT] {ts: ..., ...} produits par les prompts PromptSecOps (logs JSON-line), il faut soit parser la sortie côté client, soit utiliser un proxy comme LiteLLM qui ajoute le logging structuré.

Pas de tool use universel Les fiches agent-plugins ne fonctionnent pas en Ollama seul. Llama 3.1 supporte le tool calling, mais l'expérience reste limitée par rapport à Claude Code ou Custom GPT. Pour ces cas, attendre l'orchestrateur Phase 3 ou utiliser LangChain comme couche intermédiaire.

↑ Sommaire

Quand préférer Ollama vs cloud

Préférer Ollama - Données sensibles non sortables du SI (santé, juridique, secret-défense) - Volume d'usage élevé (>> 100k tokens/jour/utilisateur) où le coût cloud explose - Besoin de souveraineté ou indépendance fournisseur - Cas d'usage où une qualité "correcte mais pas optimale" suffit (FAQ interne, brouillons, classification)

Préférer cloud (Claude / GPT / Mistral La Plateforme) - Cas d'usage à fort enjeu où la qualité est critique (juridique-decision, analyse financière complexe) - Architectures agents avec tools (Phase 3 PromptSecOps) - Petites équipes sans capacité d'opération d'infrastructure - Besoin de modèles frontière (raisonnement complexe, multimodal, contextes >200k)

Hybride La stratégie souvent gagnante : Ollama pour les flux quotidiens à volume, cloud frontière pour les cas critiques. Le pattern Skills persistants PromptSecOps est identique des deux côtés — la même fiche se déploie sur Custom GPT et sur Ollama avec une cohérence éditoriale parfaite.

↑ Sommaire