Deepfakes sind KI-generierte synthetische Medien – Bilder, Video oder Audio – bei denen das Gesicht oder die Stimme einer Person mittels Deep Learning überzeugend durch eine andere ersetzt wird.
Ein Deepfake ist ein synthetisches Medium, das durch Deep-Learning-Modelle – meist Generative Adversarial Networks (GANs) oder Diffusionsmodelle – erzeugt wird und das Gesicht, die Stimme oder den Körper einer Person realistisch ersetzt oder manipuliert. Der Begriff setzt sich aus „Deep Learning" und „Fake" zusammen und wurde ab 2017 bekannt, als Face-Swap-Techniken für Nicht-Experten zugänglich wurden.
Erstellungsverfahren
Gesichtstausch (Face Swapping)
Die verbreitetste Technik:
- Encoder-Decoder-Autoencoder: Zwei Autoencoder teilen einen gemeinsamen Encoder, besitzen aber separate Decoder, die auf jede Person trainiert werden.
- GANs: Ein Generator erzeugt synthetische Frames, während ein Diskriminator versucht, Fälschungen zu erkennen – dies zwingt das Modell zu immer realistischerer Ausgabe.
- Diffusionsmodelle: Neuere Ansätze nutzen diffusionsbasiertes Inpainting für höhere Bildtreue und weniger Artefakte.
Stimmklonen (Voice Cloning)
- Neuronale Text-to-Speech-Modelle reproduzieren Sprachstil und Klangfarbe aus kurzen Aufnahmen.
- Stimmkonvertierung: Echtzeit-Transformation von Tonhöhe und Prosodie zur Nachahmung einer Zielperson.
Ganzkörper-Synthese
- Pose-gesteuerte Videosynthese: Modelle wie ControlNet erzeugen realistische Körperbewegungen aus Skelett- oder Tiefendaten.
- Talking-Head-Modelle: Systeme wie SadTalker animieren ein Standbild anhand eines Audioausschnitts.
Erkennung von Deepfakes
Passive Erkennung
- Frequenzartefakte: Deepfake-Generatoren hinterlassen oft charakteristische Muster im Frequenzbereich.
- Biologische Signale: Inkonsistentes Blinzeln, unnatürliche Augenreflexionen oder fehlende Pulssignale (rPPG).
- Zeitliche Inkonsistenz: Frame-basierte Klassifikatoren erkennen unnatürliches Flackern oder Blendgrenzen.
Aktive Herkunftssicherung
- Kryptografische Signierung: Kameras oder Plattformen signieren Frames zum Aufnahmezeitpunkt (C2PA-Standard).
- Unsichtbare Wasserzeichen: In echten Medien eingebettete Perturbationen, die Re-Encoding überstehen.
Risiken und Missbrauch
- Nicht-konsensuelle intime Bilder (NCII): Die häufigste Schadenform, die überproportional Frauen betrifft.
- Politische Desinformation: Gefälschte Videos oder Audioaufnahmen öffentlicher Persönlichkeiten.
- Betrug und Social Engineering: Nachahmung von Führungskräften in Videoanrufen zur Autorisierung von Überweisungen.
- Identitätsdiebstahl: Umgehung von Gesichtserkennungssystemen.
Legitime Anwendungen
- Film und Postproduktion: De-Aging von Schauspielern, Stunt-Ersatz, Wiederherstellung verstorbener Darsteller.
- Lokalisierung: Synchronisation mit lippensynchronem Bild.
- Barrierefreiheit: Gebärdensprach-Avatare und synthetische Trainingsdaten.
- Bildung und Simulation: Historische Rekonstruktionen, medizinische Simulation.
Deepfakes sind eines der deutlichsten Beispiele für die Dual-Use-Natur generativer KI: Dieselbe Technologie, die leistungsstarke Kreativwerkzeuge ermöglicht, kann bei Missbrauch erheblichen Schaden anrichten – weshalb Erkennung, Herkunftssicherung und Regulierung aktive Forschungs- und Politikfelder sind.