Multimodalität

Mul­ti­mo­da­li­tät bezeich­net die Fähig­keit eines Sys­tems, meh­re­re unter­schied­li­che Ein­ga­be- und Aus­ga­be­ka­nä­le gleich­zei­tig zu ver­ar­bei­ten und mit­ein­an­der zu ver­knüp­fen. In der Künst­li­chen Intel­li­genz bedeu­tet dies, dass Model­le ver­schie­de­ne Daten­mo­da­li­tä­ten wie Text, Bild, Audio oder Video kom­bi­nie­ren und dar­aus eine kohä­ren­te Ana­ly­se oder Aus­ga­be gene­rie­ren kön­nen. Dies ermög­licht eine natür­li­che­re Inter­ak­ti­on, da Men­schen Infor­ma­tio­nen eben­falls mul­ti­mo­dal ver­ar­bei­ten. Ein Bei­spiel ist ein KI-Sys­tem, das gespro­che­ne Spra­che erkennt, den Inhalt ver­steht, rele­van­te Bil­der dazu fin­det und eine gespro­che­ne Ant­wort gibt.