Jailbreak - KI & ML Glossar

Jailbreaks versuchen, Sicherheitsvorgaben eines KI-Modells zu umgehen, um gesperrte Antworten zu erhalten.

Ein Jailbreak nutzt kreative Prompts oder Eingabeketten, um Guardrails außer Kraft zu setzen. Nutzer tarnen verbotene Anfragen als Rollenspiel, verschachteln Instruktionen oder verwenden Codewörter. Ziel ist, ein Modell zu Reaktionen zu bewegen, die es normalerweise blockieren würde – etwa bei Malware, Hassrede oder vertraulichen Informationen.

Bedeutung

Sicherheit: Anbieter testen kontinuierlich gegen neue Jailbreak-Techniken.
Compliance: Unternehmen brauchen Monitoring, um missbräuchliche Nutzung zu erkennen.
Transparenz: Klare Nutzungsrichtlinien und Logging erschweren erfolgreiche Angriffe.