Definitie
Het verschijnsel waarbij een taalmodel feitelijk onjuiste informatie genereert die wel plausibel klinkt. Een bekende zwakte van LLMs, omdat ze waarschijnlijkheid berekenen in plaats van feiten controleren.
Het verschijnsel waarbij een taalmodel feitelijk onjuiste informatie genereert die wel plausibel klinkt. Een bekende zwakte van LLMs, omdat ze waarschijnlijkheid berekenen in plaats van feiten controleren.
Hallucinatie is geen bug die nog gefixt moet worden, het is een direct gevolg van hoe taalmodellen werken. Het model is getraind om waarschijnlijke teksten te produceren, niet om waarheid te toetsen. Zolang een onjuist antwoord statistisch goed past bij wat het model heeft gezien, zal het dat met dezelfde overtuiging geven als een correct antwoord.
In de praktijk levert dit problemen op in elk domein waar feitelijke juistheid telt. Advocaten hebben rechtbankzaken verloren door verwijzingen naar verzonnen jurisprudentie. Journalisten zijn op de vingers getikt voor citaten die nooit zijn uitgesproken. Artsen waarschuwen voor klinische beslissingen op basis van valse referenties. Het probleem wordt verergerd door de overtuigingskracht van het taalgebruik: een vloeiend en stellig geschreven onwaarheid is moeilijker te herkennen dan een schoolse fout.
Onderzoekers werken aan oplossingen. RAG koppelt antwoorden aan opgehaalde bronnen, reasoning models denken langer na voor ze antwoorden, en training met menselijke feedback leert modellen wanneer ze beter kunnen zeggen "dat weet ik niet". Geen van deze technieken elimineert hallucinaties volledig. De meest betrouwbare verdediging blijft een mens die het antwoord controleert tegen de werkelijkheid, vooral bij beslissingen met hoge impact.
Een hallucinatie is een antwoord van een AI-systeem dat plausibel klinkt maar feitelijk onjuist is. Het kan gaan om verzonnen feiten, niet-bestaande personen of boeken, foute citaten, opgemaakte juridische referenties of cijfers die er overtuigend uitzien maar nergens vandaan komen. Het verschijnsel komt vooral voor bij large language models.
Een LLM voorspelt welk woord het meest waarschijnlijk volgt op de invoer, gebaseerd op patronen in zijn trainingsdata. Het heeft geen mechanisme om waarheid te toetsen. Als een onjuist maar plausibel antwoord een hogere waarschijnlijkheid heeft dan toegeven dat het iets niet weet, geeft het dat antwoord toch.
Volledig voorkomen kan niet, sterk verminderen wel. Werk met RAG, zodat het model antwoorden baseert op aangeleverde documenten. Vraag expliciet om bronnen. Vergelijk uitkomsten tussen verschillende modellen. En laat belangrijke antwoorden altijd door een mens verifiëren voordat je erop handelt.
Nee. Grotere modellen hallucineren over het algemeen minder dan kleinere, en reasoning models scoren beter op feitelijke benchmarks dan standaard chat-modellen. Maar zelfs de beste systemen anno 2026 produceren regelmatig hallucinaties, vooral bij specifieke feiten over personen, kleine zaken of recente gebeurtenissen die buiten hun trainingsdata vallen.
Nee, en dat onderscheid is belangrijk. Liegen veronderstelt het bewust afwijken van een gekende waarheid. Een LLM heeft geen overtuigingen en geen besef van waarheid in de menselijke zin. Het produceert tekst die past bij de patronen die het heeft geleerd. Het kan daarom beter omschreven worden als zelfverzekerd onjuist, niet als oneerlijk.

OpenAI herpositioneert Codex met een rapport over kenniswerk: niet meer alleen voor programmeurs, maar voor marketeers, analisten en project managers. Niet-developers groeien nu drie keer sneller dan developers.

MUFG, de grootste bank van Japan, geeft 35.000 medewerkers toegang tot ChatGPT Enterprise en wil voor het einde van fiscaal 2026 een AI-gestuurde digitale bank lanceren. OpenAI is een hoeksteen, maar niet de enige.

Aaron Levie, oprichter van cloudbedrijf Box, beschrijft op X waarom topmanagers AI-mogelijkheden stelselmatig overschatten. Zijn diagnose: ze zitten te ver van het echte werk om de haken en ogen te zien.

Incassobureaus stappen massaal over op AI-belsystemen die schuldenaars zelf opbellen. De vraag is niet meer of het werkt, maar wat de toezichthouder ervan vindt en hoe schuldenaars erop reageren.