KI-Begriff 1 Min. Lesezeit

Guardrail

Guardrails sind Sicherheits- und Qualitätsregeln, die generative KI daran hindern, unerwünschte oder riskante Inhalte zu erzeugen.


Guardrails steuern, wie Sprachmodelle auf Eingaben reagieren. Sie können im Prompt verankert sein, als Moderations-API vorgeschaltet werden oder als regelbasierte Post-Checks laufen. Ziel ist es, Richtlinien zu erzwingen, sensible Daten zu schützen und Markenschäden zu vermeiden.

Typische Guardrail-Typen

  • Inhaltsfilter: Blockieren Hate Speech, Malware oder persönliche Daten.
  • Policy Engines: Prüfen Antworten auf Compliance-Anforderungen.
  • Conversational Flow: Lenken Dialoge aktiv zurück auf erlaubte Themen.
← Zurück zum Glossar