Großes Multimodales Modell (LMM)

LMMs kombinieren Text, Bilder, Audio oder Video in einem einzigen Modell und verstehen dadurch komplexe Eingaben.

Ein Large Multimodal Model verknüpft mehrere Modalitäten. Es kann ein Bild beschreiben, auf Grundlage eines PDFs antworten oder eine Tabelle aus Naturtext erstellen. Technisch werden Encoder für jede Modalität mit einem zentralen Sprachdecoder verbunden. Alignmentschritte sorgen dafür, dass die verschiedenen Repräsentationen zusammenpassen.

Anwendungsfelder

Visuelle Assistenten: Screenshots analysieren, UI testen oder Dokumente zusammenfassen.
Industrie: Wartungsfotos, Sensordaten und Textberichte in einem Workflow auswerten.
Kreativ: Storyboarding, Musiknotation oder Video-Kurzbeschreibungen automatisieren.

← Zurück zum Glossar

Made in Europe

Chat with 100+ AI Models in one App.

Use Claude, ChatGPT, Gemini alongside with EU-Hosted Models like Deepseek, GLM-5, Kimi K2.5 and many more.

Start for free View pricing

Kundensupport