māchine

Transformer

Ook: transformers, transformer-architectuur

Definitie

Neurale netwerk-architectuur uit 2017 die de basis vormt voor moderne LLMs. Gebruikt een mechanisme genaamd attention om relaties tussen woorden te wegen.

In context

De transformer is de architectuur achter vrijwel alle moderne taalmodellen. Hij werd in 2017 gepresenteerd door een team bij Google in het paper Attention Is All You Need. De kern van de innovatie zit in het attention-mechanisme, dat het model in staat stelt om bij het verwerken van een woord te kijken naar alle andere woorden in de invoer en te bepalen welke daarvan relevant zijn.

Vóór de transformer werd sequentiele tekst meestal verwerkt door recurrent neural networks (RNN) of long short-term memory networks (LSTM). Die lazen tekst van links naar rechts en hadden moeite met lange afstanden. De transformer verwerkt de hele invoer parallel en weegt expliciet welke verbanden er tussen woorden bestaan. Dat maakt training veel sneller en stelt het model in staat veel langere afhankelijkheden te leren.

Tien jaar later is de architectuur dominant in tekst, beeld, audio en zelfs in scheikundige modellering. De interne details zijn verfijnd (RoPE positional encoding, grouped-query attention, mixture-of-experts), maar het basisidee is hetzelfde gebleven. Zonder de transformer geen ChatGPT, geen Stable Diffusion, geen Claude.

Veelgestelde vragen

Andere begrippen