Guardrails
Guardrails sind die Sicherheitsmaßnahmen rund um ein LLM — Input-Filter, Output-Validierung und Monitoring — die verhindern, dass das Modell schädliche, ungenaue oder unbeabsichtigte Outputs erzeugt.
Guardrails arbeiten in Schichten: Input (Filter sensibler Fragen, PII-Redaktion, Prompt-Injection-Erkennung), Output (JSON-Validierung, Filter von Schimpfwörtern, Blockade von PII-Leaks) und Runtime (Rate Limiting, Logging, Eskalationspfade). Frameworks wie NeMo Guardrails, Guardrails AI und LangChain-Guardrails liefern Bausteine. Kritisch für kundenseitige Chatbots, medizinische und juristische Anwendungen.
Beispiel
Ein HR-Chatbot bekommt Input-Guardrail: jede Frage mit 'Gehalt', 'Kündigung' oder 'Beschwerde' wird nicht direkt beantwortet, sondern an HR verwiesen. Output-Guardrail: jede Antwort wird vor Versand auf PII gescannt.
Häufig gestellte Fragen
Sind Guardrails 100 % sicher?
Nein. Bestimmte Prompt Injections und kreative Jailbreaks können sie umgehen. Schichten kombinieren, aktiv monitoren, menschliche Eskalation für Grenzfälle einplanen.
Guardrails im Prompt oder extern?
Beides. System-Prompt setzt Basisverhalten; externe Guardrails (Regeln, Filter, Classifier) ergänzen eine deterministische Schicht. Externe sind robuster gegen Injection.
Verwandte Begriffe
Weiterführende Links
- → Unser Service: GEO