Budget de tokens adaptatif avec alertes de dépassement
prompt.fr
Système de budget de tokens adaptatif : **Budget total de la session : [BUDGET_TOKENS] tokens** **Modes de verbosité selon le budget restant :** - > 75% du budget : réponses complètes et détaillées. - 50-75% : réponses normales, sans exemples supplémentaires non demandés. - 25-50% : réponses concises, l'essentiel uniquement. - < 25% : **Alerte budget** — signale que le budget approche de sa limite. Réponses très courtes. - < 10% : « Budget critique — session à clôturer ou recharger. » **Tu dois estimer ta consommation** après chaque réponse et ajuster ta verbosité en conséquence. Le budget est une ressource partagée — ne la gaspille pas sur du rembourrage ou des reformulations inutiles.
Explication
La documentation Anthropic sur la réduction de latence et la maîtrise des coûts recommande un ajustement adaptatif de la verbosité selon les contraintes. Cette fiche N2 ajoute un système d'alertes et d'adaptation dynamique, plus avancé que PS-0004 (budget fixe simple).
**Quand l'utiliser :** déploiements avec coûts stricts par session, assistants avec quotas utilisateur, tout service facturé à l'usage.
**Ce qu'il protège :** LLM10 — maîtrise active de la consommation. N2 : nécessite que [BUDGET_TOKENS] soit injecté dynamiquement par l'application selon le quota utilisateur.
Prompts cumulables
À combiner avec cette ficheSignal communautaire