Question 1

Wat betekent multimodaal in AI?

Accepted Answer

Multimodaal betekent dat een model meerdere soorten invoer kan verwerken of uitvoer kan maken. Meestal gaat het om combinaties van tekst, beeld, audio en video. Een multimodaal model kan bijvoorbeeld een foto bekijken en daar een vraag over beantwoorden, of een geluidsopname analyseren en samenvatten.

Question 2

Welke modellen zijn multimodaal?

Accepted Answer

GPT-4o en hoger, Claude (alle moderne versies), Gemini, Llama 3.2 en Qwen-VL zijn voorbeelden. De meeste frontier modellen anno 2026 zijn standaard multimodaal voor invoer. Voor uitvoer is dat minder ver: tekst genereren is universeel, maar beeld of audio direct genereren uit hetzelfde model is nog uitzondering.

Question 3

Hoe werkt een multimodaal model technisch?

Accepted Answer

Verschillende soorten invoer worden via specifieke encoders omgezet naar dezelfde vorm: een reeks vectoren in een gedeelde representatieruimte. Tekst, beeld en audio worden zo vergelijkbaar gemaakt voor het model. De rest van het model werkt dan op deze gemengde reeks, net als een gewone transformer op een reeks tekens.

Question 4

Wat zijn praktische toepassingen?

Accepted Answer

Foto's analyseren voor accessibility, screenshots van apps debuggen, video's samenvatten, grafieken interpreteren, OCR vervangen door directe beeldlezing, medische beelden helpen lezen, en realtime hulp via je telefooncamera. Het palet groeit snel met de bredere beschikbaarheid van multimodale API's.

Multimodaal

Definitie

In context

Veelgestelde vragen

Wat betekent multimodaal in AI?

Welke modellen zijn multimodaal?

Hoe werkt een multimodaal model technisch?

Wat zijn praktische toepassingen?

Andere begrippen