KI-Begriff 1 Min. Lesezeit

Großes Multimodales Modell (LMM)

LMMs kombinieren Text, Bilder, Audio oder Video in einem einzigen Modell und verstehen dadurch komplexe Eingaben.


Ein Large Multimodal Model verknüpft mehrere Modalitäten. Es kann ein Bild beschreiben, auf Grundlage eines PDFs antworten oder eine Tabelle aus Naturtext erstellen. Technisch werden Encoder für jede Modalität mit einem zentralen Sprachdecoder verbunden. Alignmentschritte sorgen dafür, dass die verschiedenen Repräsentationen zusammenpassen.

Anwendungsfelder

  • Visuelle Assistenten: Screenshots analysieren, UI testen oder Dokumente zusammenfassen.
  • Industrie: Wartungsfotos, Sensordaten und Textberichte in einem Workflow auswerten.
  • Kreativ: Storyboarding, Musiknotation oder Video-Kurzbeschreibungen automatisieren.
← Zurück zum Glossar