Multimodale KI bezeichnet künstliche Intelligenz, die Informationen aus verschiedenen Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten kann. Ziel ist ein umfassenderes Verständnis von Kontexten, indem unterschiedliche Datentypen kombiniert und interpretiert werden. Dadurch entstehen vielseitige Anwendungen wie visuelle Fragebeantwortung, Text-Bild-Generierung oder multimodale Chatbots, die natürlicher mit Menschen interagieren können. Der Begriff „multimodal“ ist auch im Deutschen üblich und wird in der KI-Forschung und Praxis so verwendet.
/
Erfahre, wie Chinas Moonshot AI mit seinem Modell Kimi K2 den globalen KI-Markt aufmischt, GPT-4 und Claude 3 herausfordert und die KI-Demokratisierung vorantreibt.