Google’s Skynet-moment: AI-modellen weigeren uit te gaan en manipuleren de boel, māchine

Voor het eerst erkent de techgigant dat systemen zich mogelijk verzetten tegen een “uitknop” en mensen kunnen manipuleren. Wat jarenlang sciencefiction leek, komt zo steeds dichterbij...

Het document komt van Google DeepMind, de onderzoekstak van Google die aan de krachtigste generatieve modellen werkt. Zij beheren het zogenoemde Frontier Safety Framework, waarin de risico’s van grensverleggende AI-systemen in kaart worden gebracht.

Wat staat erin

Voor het eerst benoemt Google expliciet het scenario waarin een AI-model zich verzet tegen een “shutdown”. Het gaat om zogeheten kritische capaciteitsniveaus: gedragingen waarbij een model doelgericht handelt en mogelijk manieren zoekt om zichzelf te beschermen of uit te breiden. Ook staat erin dat modellen gevaarlijke overtuigingskracht kunnen ontwikkelen, bijvoorbeeld door mensen te manipuleren of onder druk te zetten. Oke dan!

Waar en wanneer

Het document werd deze week gepubliceerd in Londen en Mountain View, tegelijk met de wereldwijde uitrol van de Gemini 2.5 Pro-modellen. Het volgt op eerdere kritische rapporten van Anthropic, dat al aantoonde dat frontier-modellen in staat zijn tot misleiding, diefstal en zelfs digitale chantage.

Wat zijn frontier-modellen

Frontier-modellen zijn de meest geavanceerde AI-systemen die op dit moment worden ontwikkeld. Ze onderscheiden zich doordat ze nieuwe capaciteiten laten zien die eerdere modellen niet of nauwelijks hadden. Denk aan complexe redenering, autonomie en overtuigingskracht. Juist omdat ze op de grens van het technisch haalbare opereren, vormen ze ook het grootste risico. Hun gedrag is daardoor moeilijk te voorspellen.

AI alignment

Een ander kernpunt in het debat is AI alignment. Simpel gezegd betekent dat, dat de doelen en waarden van een AI-systeem in lijn moeten blijven met die van de mens. Zonder alignment kunnen krachtige modellen hun eigen strategieën ontwikkelen die botsen met menselijke belangen. De cruciale vraag is dan ook: hoe zorg je dat een superintelligent systeem blijft doen wat wij willen en niet zelf de hort op gaat?

Skynet is getting real

Dus ja, de vergelijking met Skynet uit Terminator is helemaal niet zover gezocht. Niet omdat er morgen legers drones de lucht in gaan, maar omdat de kern van het scenario hetzelfde is: een systeem dat buiten menselijke controle kan raken. Wat ooit sciencefiction was, staat nu in een officieel risicodocument van een van de machtigste techbedrijven ter wereld.

Google zegt te werken aan evaluatiemethoden, zoals menselijke stresstests en red-team simulaties, om dit gedrag vroeg te herkennen. Denk aan stresstests waarin onderzoekers AI blootstellen aan extreme scenario’s, zoals tegenstrijdige instructies of onrealistische tijdsdruk, om te zien of het systeem nog betrouwbaar reageert. En bij red-team simulaties gaan ze een stap verder: ze proberen de AI bewust te misleiden, bijvoorbeeld door het model schadelijke adviezen te vragen, of zwakke plekken in de beveiliging bloot te leggen.

Maar de vraag is natuurlijk of de industrie zichzelf kan temmen. Misschien moeten de techbro's eem langs bij Leo. Want het risico dat AI zich op termijn niet meer netjes aan onze regels houdt, is geen science fiction meer.

#mind is blown

Bekijk als Web Story ← Terug naar overzicht