māchine

Token

Ook: tokens

Definitie

De kleinste eenheid waarin een taalmodel tekst opdeelt, meestal een stukje van een woord. LLMs verwerken en factureren per token.

In context

Een token is voor een taalmodel wat een woord of lettergreep is voor een mens, alleen dan op een eigen manier opgedeeld. Voor het Engelse "unbelievable" zou een tokenizer bijvoorbeeld "un", "believ" en "able" maken. Voor het Nederlandse "onhoudbaar" iets soortgelijks. Het model ziet de wereld in deze stukken en doet zijn voorspellingen op tokenniveau.

Het is een onzichtbaar maar belangrijk concept voor wie met AI werkt. Modellen rekenen per token. Een prompt van duizend tokens kost zoveel, een antwoord van duizend tokens kost zoveel. Voor het Nederlands liggen die kosten meestal hoger dan voor het Engels, omdat Nederlandse woorden in meer tokens worden opgedeeld door tokenizers die op overwegend Engelse tekst zijn getraind.

In 2026 spelen tokens ook een rol bij het contextvenster, het maximum aantal tokens dat een model in één keer kan verwerken. Bij grote codebases, lange juridische teksten of uitgebreide gesprekshistorie kan dit een harde limiet zijn, hoewel context-vensters van honderdduizenden tokens inmiddels normaal zijn geworden.

Veelgestelde vragen

Andere begrippen