Multimodalität

Multimodalität bezeichnet die Fähigkeit eines Systems, mehrere unterschiedliche Eingabe- und Ausgabekanäle gleichzeitig zu verarbeiten und miteinander zu verknüpfen. In der Künstlichen Intelligenz bedeutet dies, dass Modelle verschiedene Datenmodalitäten wie Text, Bild, Audio oder Video kombinieren und daraus eine kohärente Analyse oder Ausgabe generieren können. Dies ermöglicht eine natürlichere Interaktion, da Menschen Informationen ebenfalls multimodal verarbeiten. Ein Beispiel ist ein KI-System, das gesprochene Sprache erkennt, den Inhalt versteht, relevante Bilder dazu findet und eine gesprochene Antwort gibt.