Definitie
Eigenschap van een AI-model dat meerdere soorten invoer kan verwerken, zoals tekst en beeld tegelijk, of audio en video. GPT-4o en Claude zijn voorbeelden.
Eigenschap van een AI-model dat meerdere soorten invoer kan verwerken, zoals tekst en beeld tegelijk, of audio en video. GPT-4o en Claude zijn voorbeelden.
Tot 2023 waren AI-modellen vrijwel altijd unimodaal: een taalmodel begreep tekst, een beeldherkenner zag plaatjes, een spraakherkenner deed audio. Multimodale modellen breken die scheiding open. GPT-4 met vision was een van de eerste mainstream modellen die tekst en beeld in dezelfde representatie konden verwerken, gevolgd door Gemini en Claude.
Een multimodaal model leert in feite een gedeelde "taal" voor alle modaliteiten. Een afbeelding van een hond, de tekst "hond" en het geluid van blaffen worden naar verwante punten in dezelfde representatieruimte gemapt. Dat maakt het mogelijk om vragen te stellen die over modaliteiten heen gaan: "wat zie je op deze foto" beantwoorden, video samenvatten, of een grafiek interpreteren.
In 2026 zijn de meeste frontier modellen multimodaal voor invoer (tekst, beeld, audio, soms video) en sommige ook voor uitvoer. Toepassingen lopen uiteen van toegankelijkheidstools voor blinden tot quality control in fabrieken tot medische beeldinterpretatie. De grenzen verschuiven naar realtime multimodale interactie, waarbij modellen tijdens een gesprek beeld en geluid blijven binnenkrijgen en daarop reageren.
Multimodaal betekent dat een model meerdere soorten invoer kan verwerken of uitvoer kan maken. Meestal gaat het om combinaties van tekst, beeld, audio en video. Een multimodaal model kan bijvoorbeeld een foto bekijken en daar een vraag over beantwoorden, of een geluidsopname analyseren en samenvatten.
GPT-4o en hoger, Claude (alle moderne versies), Gemini, Llama 3.2 en Qwen-VL zijn voorbeelden. De meeste frontier modellen anno 2026 zijn standaard multimodaal voor invoer. Voor uitvoer is dat minder ver: tekst genereren is universeel, maar beeld of audio direct genereren uit hetzelfde model is nog uitzondering.
Verschillende soorten invoer worden via specifieke encoders omgezet naar dezelfde vorm: een reeks vectoren in een gedeelde representatieruimte. Tekst, beeld en audio worden zo vergelijkbaar gemaakt voor het model. De rest van het model werkt dan op deze gemengde reeks, net als een gewone transformer op een reeks tekens.
Foto's analyseren voor accessibility, screenshots van apps debuggen, video's samenvatten, grafieken interpreteren, OCR vervangen door directe beeldlezing, medische beelden helpen lezen, en realtime hulp via je telefooncamera. Het palet groeit snel met de bredere beschikbaarheid van multimodale API's.