Deepfake

Deepfakes sind KI-generierte synthetische Medien – Bilder, Video oder Audio – bei denen das Gesicht oder die Stimme einer Person mittels Deep Learning überzeugend durch eine andere ersetzt wird.

Ein Deepfake ist ein synthetisches Medium, das durch Deep-Learning-Modelle – meist Generative Adversarial Networks (GANs) oder Diffusionsmodelle – erzeugt wird und das Gesicht, die Stimme oder den Körper einer Person realistisch ersetzt oder manipuliert. Der Begriff setzt sich aus „Deep Learning" und „Fake" zusammen und wurde ab 2017 bekannt, als Face-Swap-Techniken für Nicht-Experten zugänglich wurden.

Erstellungsverfahren

Gesichtstausch (Face Swapping)
Die verbreitetste Technik:

Encoder-Decoder-Autoencoder: Zwei Autoencoder teilen einen gemeinsamen Encoder, besitzen aber separate Decoder, die auf jede Person trainiert werden.
GANs: Ein Generator erzeugt synthetische Frames, während ein Diskriminator versucht, Fälschungen zu erkennen – dies zwingt das Modell zu immer realistischerer Ausgabe.
Diffusionsmodelle: Neuere Ansätze nutzen diffusionsbasiertes Inpainting für höhere Bildtreue und weniger Artefakte.

Stimmklonen (Voice Cloning)

Neuronale Text-to-Speech-Modelle reproduzieren Sprachstil und Klangfarbe aus kurzen Aufnahmen.
Stimmkonvertierung: Echtzeit-Transformation von Tonhöhe und Prosodie zur Nachahmung einer Zielperson.

Ganzkörper-Synthese

Pose-gesteuerte Videosynthese: Modelle wie ControlNet erzeugen realistische Körperbewegungen aus Skelett- oder Tiefendaten.
Talking-Head-Modelle: Systeme wie SadTalker animieren ein Standbild anhand eines Audioausschnitts.

Erkennung von Deepfakes

Passive Erkennung

Frequenzartefakte: Deepfake-Generatoren hinterlassen oft charakteristische Muster im Frequenzbereich.
Biologische Signale: Inkonsistentes Blinzeln, unnatürliche Augenreflexionen oder fehlende Pulssignale (rPPG).
Zeitliche Inkonsistenz: Frame-basierte Klassifikatoren erkennen unnatürliches Flackern oder Blendgrenzen.

Aktive Herkunftssicherung

Kryptografische Signierung: Kameras oder Plattformen signieren Frames zum Aufnahmezeitpunkt (C2PA-Standard).
Unsichtbare Wasserzeichen: In echten Medien eingebettete Perturbationen, die Re-Encoding überstehen.

Risiken und Missbrauch

Nicht-konsensuelle intime Bilder (NCII): Die häufigste Schadenform, die überproportional Frauen betrifft.
Politische Desinformation: Gefälschte Videos oder Audioaufnahmen öffentlicher Persönlichkeiten.
Betrug und Social Engineering: Nachahmung von Führungskräften in Videoanrufen zur Autorisierung von Überweisungen.
Identitätsdiebstahl: Umgehung von Gesichtserkennungssystemen.

Legitime Anwendungen

Film und Postproduktion: De-Aging von Schauspielern, Stunt-Ersatz, Wiederherstellung verstorbener Darsteller.
Lokalisierung: Synchronisation mit lippensynchronem Bild.
Barrierefreiheit: Gebärdensprach-Avatare und synthetische Trainingsdaten.
Bildung und Simulation: Historische Rekonstruktionen, medizinische Simulation.

Deepfakes sind eines der deutlichsten Beispiele für die Dual-Use-Natur generativer KI: Dieselbe Technologie, die leistungsstarke Kreativwerkzeuge ermöglicht, kann bei Missbrauch erheblichen Schaden anrichten – weshalb Erkennung, Herkunftssicherung und Regulierung aktive Forschungs- und Politikfelder sind.

Erstellungsverfahren

Erkennung von Deepfakes

Risiken und Missbrauch

Legitime Anwendungen

Chat with 100+ AI Models in one App.