Guardrails sind Sicherheits- und Qualitätsregeln, die generative KI daran hindern, unerwünschte oder riskante Inhalte zu erzeugen.
Guardrails steuern, wie Sprachmodelle auf Eingaben reagieren. Sie können im Prompt verankert sein, als Moderations-API vorgeschaltet werden oder als regelbasierte Post-Checks laufen. Ziel ist es, Richtlinien zu erzwingen, sensible Daten zu schützen und Markenschäden zu vermeiden.
Typische Guardrail-Typen
- Inhaltsfilter: Blockieren Hate Speech, Malware oder persönliche Daten.
- Policy Engines: Prüfen Antworten auf Compliance-Anforderungen.
- Conversational Flow: Lenken Dialoge aktiv zurück auf erlaubte Themen.