Van AI-beelden naar AI-werelden: Google's Genie 3 laat zien hoe die stap eruitziet, māchine

Google is niet de enige met dit ambiteuze doel. Ook Midjourney droomt van complete werelden waarin je kunt rondlopen. Met Genie 3 laat Google DeepMind zien hoe dat er in de praktijk uit kan zien. Het model genereert 3D-werelden op basis van een prompt. Een omgeving die reageert op jouw en die visueel consistent blijft als je terugloopt naar een plek waar je al geweest bent. Insane.

https://www.youtube.com/watch?v=PDKhUknuQDg&t=33s

Wat is Genie 3 precies?

Genie 3 is dus een zogeheten wereldmodel, een AI die leert begrijpen hoe een wereld eruitziet, aanvoelt en reageert. Je voert een tekst in zoals: “Een wandeling langs een meer”. Vervolgens bouwt Genie 3 daar een wereld van, waarin je direct kunt rondlopen. Geen wachttijd, geen pre-render: gewoon real-time interactie, op 24 frames per seconde, in 720p-resolutie.

Wat het bijzonder maakt: de wereld is niet statisch. Je kunt hem aanpassen met nieuwe prompts als “maak het nacht” of “start een regenstorm”. En als je terugloopt naar waar je begon, ziet alles er nog hetzelfde uit. De wereld ‘onthoudt’ waar je geweest bent.

https://deepmind.google/api/blob/website/media/genie_simulating_natural_world_1_KkDJNGE.mp4

Anders dan een game engine

Waar een game wereld gemaakt in bijvoorbeeld Unreal bestaat uit uit polygonen, textures en 3D-modellen, is dat bij Genie anders. Daar bestaat de wereld alleen als je er naar kijkt. Het is dus puur beeld.

Het is getraind op zo’n 100.000 uur aan internetvideo’s, waardoor het leert hoe de wereld eruitziet en beweegt. Het model genereert razendsnel beelden op basis van jouw acties, en dat gebeurt in real‑time. Loop je een kamer uit, dan bedenkt Genie 3 wat er achter die deur zit. Draai je om, dan krijg je het voorgaande beeld terug. De grote sprong ten opzichte van Genie 2 is dat 3 visuele consistentie voor langere tijd bewaart, tot ongeveer een minuut, terwijl Genie 2 doorgaans na 10‑20 seconden de draad soms al verloor.

https://deepmind.google/api/blob/website/media/genie_modelling_animation_fiction_1_cTvKl3P.mp4

Waarom is Genie 3 zo snel met het maken van beelden in vergelijking met bijv. Sora?

Dat komt doordat het model alleen hoeft te bedenken wat jij op dat moment zou moeten zien. Sora werkt totaal anders. Die genereert een complete video in één keer, van begin tot eind. Je voert een prompt in, en daarna bouwt het model het hele filmpje beeld voor beeld op, zonder dat jij invloed hebt op wat er gebeurt. Dat kost tijd en veel rekenkracht, zeker bij langere video’s of hoge resoluties.

Je zou kunnen zeggen: Sora filmt een film, Genie 3 speelt een game.

Waarom maakt Google dit?

Bij DeepMind draait alles om één lange termijnvisie: Artificial General Intelligence. Wereldmodellen zoals Genie 3 zijn volgens hen essentieel om daar te komen. Door AI’s te trainen in virtuele werelden kunnen ze beter leren hoe oorzaak, gevolg, ruimte en tijd werken, zonder dat daar fysieke robots voor nodig zijn.

Artificial General Intelligence (AGI)
In tegenstelling tot de huidige AI-systemen, die zijn getraind om één specifieke taak uit te voeren (zoals vertalen, beelden herkennen of tekst genereren), moet een AGI in staat zijn om te leren, redeneren en handelen op een manier die lijkt op menselijke intelligentie. Het zou flexibel kunnen schakelen tussen verschillende taken en zelfstandig nieuwe kennis opdoen. DeepMind ziet dit als het einddoel: een AI die begrijpt hoe de wereld werkt, en die zelfstandig kan plannen, beslissen en zich aanpassen aan onbekende situaties. Niet alleen in theorie, maar ook in de praktijk. Wereldmodellen zoals Genie 3 zijn een stap in die richting, omdat ze AI-systemen helpen om oorzaak en gevolg te ervaren, en zo een soort 'intuïtief wereldbegrip' op te bouwen.

Dit kan het allemaal nog niet

Kunnen game-engines als Unreal straks bij het grofvuil? Nou nee, laten we de hype even parkeren. Want hoewel Genie 3 indrukwekkend is, zijn er ook duidelijke beperkingen. Zo is de ruimte aan acties die je als agent kunt uitvoeren nog beperkt. Je kunt weliswaar de wereld aanpassen met prompts als "maak het nacht", maar je bestuurt zelf geen handen, benen of gezichtsuitdrukkingen. Ook de interactie met andere agents in dezelfde omgeving is nog minimaal, dus meerdere onafhankelijke karakters die realistisch met elkaar omgaan blijft voorlopig toekomstmuziek.

Een ander punt: geografische precisie. Genie 3 kan indrukwekkende omgevingen genereren, maar het simuleert geen echte plekken met detailnauwkeurigheid. Een wandeling door historisch Athene blijft voorlopig een artistieke impressie, geen exacte digitale twin.

Ook tekst renderen blijft lastig. Heldere en leesbare tekst in de wereld verschijnt alleen als die expliciet wordt meegestuurd in de input. En ook qua duur is het nog beperkt: een paar minuten interactie lukt, maar urenlang in een doorlopende virtuele wereld leven? Dat zit er nu nog niet in.

De technologie maakt indruk, maar is op veel vlakken nog volop in ontwikkeling. Hype mag, maar wel met een korrel zout.

Kan ik het al gebruiken?

Nee. Genie 3 is voorlopig alleen beschikbaar als “limited research preview” — een besloten testomgeving voor een selecte groep wetenschappers en makers. Het is nog geen publiek product zoals ChatGPT, maar eerder een experimenteel platform.

Wat dit betekent voor de toekomst

Wat Genie 3 laat zien, is dat de kloof tussen prompt en wereld kleiner wordt. AI gaat van observeren naar simuleren, en straks misschien zelfs naar ervaren. Het is niet moeilijk voor te stellen hoe deze technologie zich de komende jaren verder ontwikkelt. Games en films die voortkomen uit een enkele ingevoerde zin. Virtuele omgevingen waarin artsen of technici kunnen oefenen zonder risico. Robots die eerst trainen in een digitale versie van de werkelijkheid voordat ze de echte wereld betreden. Misschien is dit nog jaren van ons verwijdert, misschien gaat het straks weer sneller dan je denkt.

#mind is blown

Bekijk als Web Story ← Terug naar overzicht