māchine

Multimodaal

Ook: multimodaal model, multimodal, multimodale AI

Definitie

Eigenschap van een AI-model dat meerdere soorten invoer kan verwerken, zoals tekst en beeld tegelijk, of audio en video. GPT-4o en Claude zijn voorbeelden.

In context

Tot 2023 waren AI-modellen vrijwel altijd unimodaal: een taalmodel begreep tekst, een beeldherkenner zag plaatjes, een spraakherkenner deed audio. Multimodale modellen breken die scheiding open. GPT-4 met vision was een van de eerste mainstream modellen die tekst en beeld in dezelfde representatie konden verwerken, gevolgd door Gemini en Claude.

Een multimodaal model leert in feite een gedeelde "taal" voor alle modaliteiten. Een afbeelding van een hond, de tekst "hond" en het geluid van blaffen worden naar verwante punten in dezelfde representatieruimte gemapt. Dat maakt het mogelijk om vragen te stellen die over modaliteiten heen gaan: "wat zie je op deze foto" beantwoorden, video samenvatten, of een grafiek interpreteren.

In 2026 zijn de meeste frontier modellen multimodaal voor invoer (tekst, beeld, audio, soms video) en sommige ook voor uitvoer. Toepassingen lopen uiteen van toegankelijkheidstools voor blinden tot quality control in fabrieken tot medische beeldinterpretatie. De grenzen verschuiven naar realtime multimodale interactie, waarbij modellen tijdens een gesprek beeld en geluid blijven binnenkrijgen en daarop reageren.

Veelgestelde vragen

Andere begrippen