Multimodale KI

Mul­ti­mo­da­le KI bezeich­net künst­li­che Intel­li­genz, die Infor­ma­tio­nen aus ver­schie­de­nen Moda­li­tä­ten wie Text, Bild, Audio oder Video gleich­zei­tig ver­ar­bei­ten kann. Ziel ist ein umfas­sen­de­res Ver­ständ­nis von Kon­tex­ten, indem unter­schied­li­che Daten­ty­pen kom­bi­niert und inter­pre­tiert wer­den. Dadurch ent­ste­hen viel­sei­ti­ge Anwen­dun­gen wie visu­el­le Fra­ge­be­ant­wor­tung, Text-Bild-Gene­rie­rung oder mul­ti­mo­da­le Chat­bots, die natür­li­cher mit Men­schen inter­agie­ren kön­nen. Der Begriff „mul­ti­mo­dal“ ist auch im Deut­schen üblich und wird in der KI-For­schung und Pra­xis so ver­wen­det.