Diffusionsmodelle erzeugen Bilder, Videos oder Audio, indem sie schrittweise Rauschen entfernen und so neue Inhalte synthetisieren.
Diffusionsmodelle lernen, wie Daten aussehen, indem sie echten Beispielen zufällig Rauschen hinzufügen und anschließend rückwärts trainieren: Vom komplett verrauschten Zustand rekonstruieren sie Schritt für Schritt ein realistisches Ergebnis. Während der Generierung startet das Modell mit Rauschen und entfernt dieses anhand des erlernten Prozesses.
Besonderheiten
- Hohe Qualität: Liefert detailreiche Bilder mit konsistenter Struktur.
- Kontrollmöglichkeiten: Text-Prompts, Bild-Referenzen oder Kontrollnetze lenken den Output.
- Rechenbedarf: Viele Iterationen pro Bild erfordern leistungsfähige GPUs, lassen sich jedoch über Sampler und Quantisierung beschleunigen.