Definitie
Neurale netwerk-architectuur uit 2017 die de basis vormt voor moderne LLMs. Gebruikt een mechanisme genaamd attention om relaties tussen woorden te wegen.
Neurale netwerk-architectuur uit 2017 die de basis vormt voor moderne LLMs. Gebruikt een mechanisme genaamd attention om relaties tussen woorden te wegen.
De transformer is de architectuur achter vrijwel alle moderne taalmodellen. Hij werd in 2017 gepresenteerd door een team bij Google in het paper Attention Is All You Need. De kern van de innovatie zit in het attention-mechanisme, dat het model in staat stelt om bij het verwerken van een woord te kijken naar alle andere woorden in de invoer en te bepalen welke daarvan relevant zijn.
Vóór de transformer werd sequentiele tekst meestal verwerkt door recurrent neural networks (RNN) of long short-term memory networks (LSTM). Die lazen tekst van links naar rechts en hadden moeite met lange afstanden. De transformer verwerkt de hele invoer parallel en weegt expliciet welke verbanden er tussen woorden bestaan. Dat maakt training veel sneller en stelt het model in staat veel langere afhankelijkheden te leren.
Tien jaar later is de architectuur dominant in tekst, beeld, audio en zelfs in scheikundige modellering. De interne details zijn verfijnd (RoPE positional encoding, grouped-query attention, mixture-of-experts), maar het basisidee is hetzelfde gebleven. Zonder de transformer geen ChatGPT, geen Stable Diffusion, geen Claude.
Attention is een mechanisme waarmee het model bij het verwerken van een woord bepaalt hoe belangrijk elk ander woord in de invoer is voor de betekenis. Het berekent voor elke positie een gewogen som over alle andere posities. Daardoor kunnen woorden die ver uit elkaar staan in een tekst toch direct invloed op elkaar hebben.
Een transformer is een specifieke soort neuraal netwerk. Hij gebruikt de bouwstenen van neurale netwerken (lagen, gewichten, activatie-functies) maar combineert ze op een specifieke manier rond attention. Naast transformers bestaan andere typen neurale netwerken, zoals convolutional networks voor beeld en recurrent networks voor sequenties.
Drie redenen. Hij is sterk parallelliseerbaar, waardoor training op moderne GPU's veel efficiënter is. Hij vangt lange-afstandsrelaties tussen woorden beter dan eerdere architecturen. En hij schaalt voorspelbaar: meer data en meer parameters levert in de praktijk consistent betere prestaties op, een eigenschap die voor eerdere architecturen niet zo duidelijk gold.
Ja. Architecturen zoals Mamba (state-space models) en RWKV worden actief onderzocht als efficiëntere alternatieven, vooral voor heel lange contexten. Een paar laboratoria experimenteren met hybride modellen die transformer-lagen combineren met andere componenten. De transformer is voorlopig dominant, maar niet onaantastbaar.