Guardrails
Guardrails zijn de veiligheidsmaatregelen rondom een LLM — inputfilters, output-validatie en monitoring — die voorkomen dat het model schadelijke, onnauwkeurige of onbedoelde output produceert.
Guardrails werken in lagen: input (filter gevoelige vragen, PII-redactie, prompt-injection-detectie), output (valideer JSON, filter scheldwoorden, blokkeer PII-lekken), en runtime (rate-limiting, logging, escalatiepaden). Frameworks als NeMo Guardrails, Guardrails AI en LangChain-guardrails bieden bouwstenen. Vooral cruciaal voor customer-facing chatbots, medische en juridische toepassingen.
Voorbeeld
Een HR-chatbot krijgt input-guardrail: elke vraag met 'salaris', 'ontslag' of 'klacht' wordt niet direct beantwoord maar doorverwezen naar HR-medewerker. Output-guardrail: elke respons wordt gescand op PII (BSN, telefoon, email) vóór verzending.
Veelgestelde vragen
Zijn guardrails 100% waterdicht?
Nee. Bepaalde prompt injections en creatieve jailbreaks kunnen guardrails omzeilen. Combineer lagen, monitor actief, en plan menselijke escalatie voor edge cases.
Guardrails in de prompt of extern?
Beide. System prompt zet basisgedrag; externe guardrails (regels, filters, classifiers) voegen deterministische laag toe. Externe guardrails zijn robuuster tegen injection.
Welke use case vereist guardrails?
Verplicht: medisch, juridisch, financieel advies, minderjarigen, kritieke beslissingen. Sterk aanbevolen: elke publieke chatbot. Optioneel: interne tooling voor experts.
Gerelateerde termen
Verder lezen
- → Onze dienst: GEO