Spieken in de simulator: hoe OpenAI robots sneller laat leren van camerabeelden, māchine

OpenAI heeft een methode gepubliceerd waarmee robots efficiënter leren van camerabeelden. De truc: tijdens de training mag een onderdeel van het algoritme stiekem meer zien dan de robot zelf, maar zodra de robot het echt moet doen, werkt hij puur op wat de camera doorgeeft. Klinkt als valsspelen; blijkt vooral een slimme manier om in de simulator gratis kennis te kapen.

Hoe de truc werkt

Reinforcement learning, de leertechniek waar dit op gebaseerd is, werkt met vallen en opstaan. De robot probeert iets, kijkt of het werkte, en past zijn gedrag aan. In de populaire actor-critic-aanpak zijn er twee netwerken die elkaar bijspijkeren: een actor die voorstelt welke beweging je moet maken, en een critic die er een cijfer aan hangt.

Normaal krijgen actor en critic precies dezelfde informatie als input. OpenAI breekt die symmetrie. In simulatie weet je namelijk alles: de exacte positie van elk blokje, de stand van elk gewricht, de snelheid van elk onderdeel. In de echte wereld heeft een robot die luxe niet; daar moet hij alles uit een wazig camerabeeld afleiden. De onderzoekers laten de critic tijdens het trainen alle interne simulator-data zien, terwijl de actor het moet doen met alleen het camerabeeld. Bij inzet in de echte wereld verdwijnt de critic, en blijft alleen de actor over.

Waarom dat helpt

Een actor die rechtstreeks uit pixels moet leren, vecht op twee fronten tegelijk. Hij moet snappen wat er in beeld gebeurt, en tegelijk uitvogelen wat hij dan moet doen. Een critic die ook alleen pixels ziet, heeft hetzelfde dubbele probleem en kan dus geen scherpe feedback geven.

Door de critic ware coördinaten te voeren, leert die razendsnel welke situaties dichtbij het doel zitten en welke niet. Die kennis stuurt vervolgens de actor, die dan nog maar één probleem heeft: leren herkennen hoe die goede situaties er door de cameralens uitzien. Het is alsof een rij-instructeur op de achterbank het GPS, de snelheidsmeter en het kentekenregister voor zich heeft, terwijl de leerling alleen door de voorruit kijkt. De leerling rijdt straks alleen, de instructeur was alleen tijdens de lessen nodig.

Het experiment

De methode werd getest op een Fetch-robotarm, een industriële opstelling met zeven gewrichten en een tweevingerige grijper, met een Intel RealSense-camera die zowel kleur als diepte vastlegt. Drie taken: een blokje oppakken, een blokje vooruit duwen, en een blokje naar een doelpositie verplaatsen.

In simulatie versloegen de asymmetrische varianten van bestaande algoritmes (DDPG en HER, twee populaire reinforcement-learning methodes) hun symmetrische tegenhangers ruim. Bij sommige taken leerden symmetrische versies nauwelijks iets, terwijl de asymmetrische versies stabiel naar bijna foutloze prestaties klommen.

De echte test volgde op de fysieke arm. Vijf op de vijf pogingen geslaagd, op alle drie de taken. Zonder dat de robot ook maar één seconde met echte data had geoefend.

De andere helft van het verhaal

Dat een policy uit simulatie zomaar werkt in de echte wereld, is allesbehalve vanzelfsprekend. Schaduwen vallen anders, kleuren wijken af, de camera staat een centimeter verkeerd, en het hele plaatje stort in. Daarom combineert OpenAI de asymmetrische opzet met domain randomization: tijdens het trainen verandert de simulator voortdurend van uiterlijk.

Concreet gooien de onderzoekers vier dingen door elkaar: texturen (verschillende kleuren, gradiënten, dambordpatronen op tafel en blokken), verlichting (lampen die op willekeurige plekken aan en uit gaan), camerapositie (de virtuele lens schuift binnen een blokje rond en wisselt van brandpunt), en dieptedata (ruis over de diepte-input). Door zoveel variatie te zien, leert de actor om door de oppervlakkige verschillen heen te kijken naar de geometrie die er echt toe doet. De echte wereld is dan gewoon één extra variant.

Plek in het bredere veld

De paper is van Lerrel Pinto (toen Carnegie Mellon, later NYU) samen met Marcin Andrychowicz, Peter Welinder, Wojciech Zaremba en Pieter Abbeel van OpenAI. De paper verscheen in oktober 2017 op arXiv en werd in 2018 gepresenteerd op Robotics: Science and Systems, een van de grote robotica-conferenties.

Sindsdien is de techniek een vaste bouwsteen in de robotica geworden. Vrijwel elk recent sim-to-real-systeem leunt op een variant van het idee, vaak onder de bredere noemer 'privileged learning': een leraar mag tijdens training informatie zien die de leerling later niet krijgt. OpenAI zelf bouwde voort op deze aanpak voor de robothand die in 2019 een Rubik's Cube oploste, en groepen bij Berkeley, DeepMind en Nvidia hanteren soortgelijke tweesporige opzetten in hun eigen humanoid- en grijperonderzoek.

Voor de bredere robotica-discussie sluit het werk aan bij een verschuiving die al jaren gaande is: leren in simulatie wordt steeds goedkoper en realistischer, terwijl het verzamelen van echte robotdata duur, langzaam en risicovol blijft. Methoden die het beste van beide werelden combineren, en de overgang van virtueel naar fysiek zo glad mogelijk maken, zijn daarmee niet langer een academische trucendoos maar een praktische voorwaarde voor schaalbare robotica.

#openai #robotica #reinforcement-learning #sim-to-real #ai

Bekijk als Web Story ← Terug naar overzicht

Spieken in de simulator: hoe OpenAI robots sneller laat leren van camerabeelden

Hoe de truc werkt

Waarom dat helpt

Het experiment

De andere helft van het verhaal

Plek in het bredere veld

Gerelateerd

AI-bazen vragen Congres om verplichte DNA-screening tegen biowapens

Petal Surgical haalt extra geld op voor opereren zonder mes, klinisch bewijs ontbreekt

Meta koopt robotica-startup ARI en wil de Android van de humanoid worden

Hobbyist bouwt AI-laser die muggen uit de lucht schiet

Nieuwste artikelen

Meta draait Manus-overname van twee miljard terug na bevel uit Beijing

Amazon-baas Jassy zou de drijvende kracht zijn achter offline halen van twee Claude-modellen

Eerste 24 uur met Siri AI op macOS Golden Gate: beter, nog niet af

Hoe JPL de Curiosity-rover na 13 jaar Mars draaiende houdt op een procent van zijn geheugen

Bots zijn nu de meerderheid op internet, een jaar eerder dan verwacht

SpaceX naar de beurs: 74,4 miljard ophalen bij waardering van 1,75 biljoen dollar

OpenAI brengt model distillation naar de API

Microsoft zet Scout neer als persoonlijke AI-agent in Microsoft 365

bytes

WhatsApp test berichten die na één keer lezen verdwijnen

Secure Boot-sleutels verlopen binnenkort op Windows en Linux

Robotgrasmaaiers zijn in 2026 eindelijk goed genoeg om serieus te nemen

Google Home Speaker beschikbaar vanaf 25 juni voor $99

Jamf brengt AI Governance-laag naar macOS-beheer

Sanctuary AI valideert fysieke AI in automotive productie