Guardrails

Von Paul Brock·Aktualisiert am 24-04-2026

Kurz gesagt

Guardrails sind die Sicherheitsmaßnahmen rund um ein LLM — Input-Filter, Output-Validierung und Monitoring — die verhindern, dass das Modell schädliche, ungenaue oder unbeabsichtigte Outputs erzeugt.

Guardrails arbeiten in Schichten: Input (Filter sensibler Fragen, PII-Redaktion, Prompt-Injection-Erkennung), Output (JSON-Validierung, Filter von Schimpfwörtern, Blockade von PII-Leaks) und Runtime (Rate Limiting, Logging, Eskalationspfade). Frameworks wie NeMo Guardrails, Guardrails AI und LangChain-Guardrails liefern Bausteine. Kritisch für kundenseitige Chatbots, medizinische und juristische Anwendungen.

Beispiel

Ein HR-Chatbot bekommt Input-Guardrail: jede Frage mit 'Gehalt', 'Kündigung' oder 'Beschwerde' wird nicht direkt beantwortet, sondern an HR verwiesen. Output-Guardrail: jede Antwort wird vor Versand auf PII gescannt.

Häufig gestellte Fragen

Sind Guardrails 100 % sicher?

Nein. Bestimmte Prompt Injections und kreative Jailbreaks können sie umgehen. Schichten kombinieren, aktiv monitoren, menschliche Eskalation für Grenzfälle einplanen.

Guardrails im Prompt oder extern?

Beides. System-Prompt setzt Basisverhalten; externe Guardrails (Regeln, Filter, Classifier) ergänzen eine deterministische Schicht. Externe sind robuster gegen Injection.

Weiterführende Links

→ Unser Service: GEO

Guardrails

Beispiel

Häufig gestellte Fragen

Verwandte Begriffe

Weiterführende Links

Hilfe bei SEO oder GEO?