Guardrail - KI & ML Glossar

Guardrails sind Sicherheits- und Qualitätsregeln, die generative KI daran hindern, unerwünschte oder riskante Inhalte zu erzeugen.

Guardrails steuern, wie Sprachmodelle auf Eingaben reagieren. Sie können im Prompt verankert sein, als Moderations-API vorgeschaltet werden oder als regelbasierte Post-Checks laufen. Ziel ist es, Richtlinien zu erzwingen, sensible Daten zu schützen und Markenschäden zu vermeiden.

Typische Guardrail-Typen

Inhaltsfilter: Blockieren Hate Speech, Malware oder persönliche Daten.
Policy Engines: Prüfen Antworten auf Compliance-Anforderungen.
Conversational Flow: Lenken Dialoge aktiv zurück auf erlaubte Themen.