Robots krijgen hetzelfde open-source moment als AI-chatbots, en dat gaat hard, māchine

Robots die zelf nadenken zaten lang vast achter de muren van grote labs en concerns. Sinds vorig jaar publiceren Hugging Face, Nvidia en Alibaba modellen, datasets en software waarmee ook een klein team of een hobbyist een robot kan laten redeneren. Vakblad IEEE Spectrum brengt de stand van zaken in kaart en de cijfers zijn opvallend: het aantal robotica-datasets op Hugging Face is binnen een jaar bijna vervijftigvoudigd.

Wat er precies gebeurt

De drie partijen pakken elk een ander stuk van de keten aan. Hugging Face, het bedrijf dat AI-modellen gratis hosten populair maakte, lanceerde in mei 2024 LeRobot. Dat is een community-platform waar onderzoekers en hobbyisten code en data delen om robots aan te sturen met AI. Het bedrijf kocht eerder dit jaar ook de Franse robotmaker Pollen Robotics, om software en hardware aan elkaar te knopen.

Nvidia bouwt aan een complete stack. Cosmos genereert wereldmodellen, dat zijn AI-systemen die voorspellen wat er fysiek gaat gebeuren als een robot iets oppakt of duwt. Daar kun je een robot mee trainen zonder dat hij in de echte wereld een gebroken kop koffie maakt. GR00T is een familie van modellen die robots taken laat uitvoeren op basis van een tekstcommando. Isaac is het overkoepelende ontwikkelplatform.

Alibaba bracht onlangs RynnBrain uit, een open-source fundamentmodel voor zogenaamde physical AI: AI die niet alleen tekst genereert maar fysieke handelingen aanstuurt. Volgens het Chinese bedrijf scoort het op interne benchmarks beter dan vergelijkbare modellen van Google en Nvidia. Onafhankelijke toetsing van die claim ontbreekt voorlopig.

De dataset-explosie

De meest concrete maatstaf is het aantal robotica-datasets op Hugging Face. Eind 2024 stonden er 1.145. Bij publicatie van het IEEE-artikel zijn dat er meer dan 58.000. Datasets zijn voor robots wat boeken en gesprekken zijn voor ChatGPT: zonder genoeg trainingsmateriaal blijft een model dom. Robotica heeft daar lang last van gehad, want elke dataset moet je opnemen met echte hardware in een echte omgeving. Een arm die honderd keer een blokje oppakt, dat soort werk.

Door die data nu gratis te delen, hoeft niet elk lab het wiel opnieuw uit te vinden. Het is hetzelfde mechanisme dat de taalmodellen-wereld groot maakte: iemand publiceert een dataset, een ander traint er een model op, een derde verbetert het en zet de gewichten weer online.

Waarom dit nu pas kan

Robotica leunde de afgelopen vijftien jaar op ROS, het Robot Operating System dat in 2007 debuteerde aan Stanford. ROS regelt het saaie stuk: sensoren uitlezen, motoren aansturen, processen laten praten. Daarvoor had Carnegie Mellon zijn eigen Inter-Process Communication-pakket en bestond het Player Project. ROS werd de standaard, maar regelt vooral de plumbing. Het lost niet op wat een robot moet besluiten als hij voor een dichte deur staat.

Dat besluitstuk is precies waar generatieve AI nu binnenkomt. Een groot taalmodel kan in principe redeneren over een situatie en een plan opstellen. Plak je dat plan vast aan de motoren via ROS, dan heb je een robot die meer doet dan een vooraf gescripte choreografie.

Spencer Huang, een directeur bij Nvidia, vat de verschuiving in IEEE Spectrum kort samen: om de robotica in te stappen heb je geen Ph.D. meer nodig. Brian Gerkey, technisch directeur van Open Robotics, zegt dat hij "alles zo open mogelijk deelt" omdat dat de meeste impact heeft. Clement Delangue, topman van Hugging Face, ziet het als optelsom van kleine bijdragen waar iedereen in mee kan doen.

Wat een hobbyist hier concreet mee kan

Het meest tastbare voorbeeld is LeRobot zelf. Wie een robotarm van een paar honderd euro koopt, kan via het platform code en getrainde modellen downloaden om die arm objecten te laten sorteren of theekopjes te laten verplaatsen. Vroeger kostte dat maanden eigen werk; nu klop je het op een namiddag in elkaar. Vergelijk het met wat er gebeurde nadat Meta zijn LLaMA-modellen open beschikbaar maakte: kort daarna stonden er fine-tuned varianten online die op een laptop draaiden.

Voor bedrijven betekent het dat de instapkosten dalen. Een logistieke startup die wil experimenteren met een pakketbot hoeft niet meer met Boston Dynamics te onderhandelen, maar kan een Nvidia GR00T-model op eigen hardware draaien en zijn eigen data toevoegen. Voor universiteiten zonder groot robot-lab is dit de eerste keer dat ze inhoudelijk kunnen meedoen.

Wat het niet oplost

De modellen zijn open, de hardware niet. Een fatsoenlijke humanoide robot kost nog steeds tienduizenden euro's, en de wedloop daarin wordt vooral gevoerd door Chinese fabrikanten en Tesla. Software kan goed redeneren over een taak, maar als de actuator, het motor-onderdeel dat de beweging maakt, te zwak of te traag is, helpt geen AI ter wereld.

Daarnaast is open-source in deze sector een wat rekbaar begrip. RynnBrain en GR00T zijn beschikbaar, maar de exacte trainingsdata en de manier waarop die data verzameld zijn, blijven deels intern. Dat is een verschil met klassieke open-source software, waar je in principe elke regel kunt nalezen. Dezelfde discussie loopt al langer rond taalmodellen als LLaMA en Qwen.

De vergelijking met de chatbot-golf

Het patroon lijkt op wat in 2023 met taalmodellen gebeurde. Eerst waren er een paar dure, gesloten systemen van grote partijen. Toen ging er een open model overheen, daarna nog een, en binnen een jaar zaten varianten op laptops, telefoons en in startup-pitches. Of robotica precies datzelfde tempo aanhoudt, hangt af van twee dingen: hoe snel de hardware in prijs zakt, en hoeveel veiligheid- en regelgeving-vragen toezichthouders straks stellen.

In de EU valt fysieke AI deels onder de AI Act en deels onder bestaande machinerichtlijnen. Een chatbot die iets verkeerd zegt, kost reputatie. Een robot die iets verkeerd doet, kost vingers. Dat verschil zal de uitrol naar consumenten remmen, zelfs als de software in principe morgen klaar is.

#robotica #open-source #hugging-face #nvidia #alibaba #ai

Bekijk als Web Story ← Terug naar overzicht