Question 1

Wat is attention in een transformer?

Accepted Answer

Attention is een mechanisme waarmee het model bij het verwerken van een woord bepaalt hoe belangrijk elk ander woord in de invoer is voor de betekenis. Het berekent voor elke positie een gewogen som over alle andere posities. Daardoor kunnen woorden die ver uit elkaar staan in een tekst toch direct invloed op elkaar hebben.

Question 2

Wat is het verschil tussen een transformer en een neuraal netwerk?

Accepted Answer

Een transformer is een specifieke soort neuraal netwerk. Hij gebruikt de bouwstenen van neurale netwerken (lagen, gewichten, activatie-functies) maar combineert ze op een specifieke manier rond attention. Naast transformers bestaan andere typen neurale netwerken, zoals convolutional networks voor beeld en recurrent networks voor sequenties.

Question 3

Waarom is de transformer zo'n doorbraak?

Accepted Answer

Drie redenen. Hij is sterk parallelliseerbaar, waardoor training op moderne GPU's veel efficiënter is. Hij vangt lange-afstandsrelaties tussen woorden beter dan eerdere architecturen. En hij schaalt voorspelbaar: meer data en meer parameters levert in de praktijk consistent betere prestaties op, een eigenschap die voor eerdere architecturen niet zo duidelijk gold.

Question 4

Worden er nog niet-transformer modellen ontwikkeld?

Accepted Answer

Ja. Architecturen zoals Mamba (state-space models) en RWKV worden actief onderzocht als efficiëntere alternatieven, vooral voor heel lange contexten. Een paar laboratoria experimenteren met hybride modellen die transformer-lagen combineren met andere componenten. De transformer is voorlopig dominant, maar niet onaantastbaar.

Transformer

Definitie

In context

Veelgestelde vragen

Wat is attention in een transformer?

Wat is het verschil tussen een transformer en een neuraal netwerk?

Waarom is de transformer zo'n doorbraak?

Worden er nog niet-transformer modellen ontwikkeld?

Andere begrippen