AI verslaat wiskundewedstrijd: Google en OpenAI winnen goud op IMO, māchine

De modellen losten vijf van de zes extreem moeilijke wiskundige vraagstukken op. Waar eerdere pogingen met formele wiskundige talen werkten, kozen beide bedrijven dit keer voor modellen die in natuurlijke taal redeneren, net als mensen.

AI als wiskundige: een doorbraak

Volgens professor Junehyuk Jung van Brown University, zelf voormalig IMO winnaar en nu ook verbonden aan Google DeepMind, is dit meer dan alleen een symbolisch succes. Hij stelt dat AI mogelijk binnen een jaar ingezet kan worden om echte, onopgeloste wiskundige onderzoeksvragen te beantwoorden.

“Het moment waarop AI moeilijke redeneringsproblemen in natuurlijke taal oplost, opent de deur naar samenwerking tussen AI en wiskundigen,” zegt Jung.

OpenAI publiceert resultaten vóór officiële bekendmaking

Hoewel Google in samenwerking met de IMO werkte om de resultaten officieel te laten beoordelen, besloot OpenAI om zijn resultaten eerder te publiceren. Hun claim is gebaseerd op beoordelingen door drie onafhankelijke oud winnaars van de IMO. Volgens OpenAI onderzoeker Noam Brown was hun model zeer krachtig, mede doordat het langer ‘nadenkt’ en meerdere denklijnen tegelijk uitvoert met behulp van massaal parallelle rekenkracht. Hoeveel dat heeft gekost, laat het bedrijf in het midden, maar “het was erg duur,” aldus Brown.

Google gebruikt Gemini Deep Think

Google werkte met de IMO samen om het model Gemini Deep Think te testen, een algemene AI die in mei al kort werd gepresenteerd. In tegenstelling tot eerdere methodes werkte deze AI volledig in natuurlijke taal en loste de problemen op binnen de toegestane tijd van 4.5 uur. Vorig jaar scoorde DeepMind nog zilver met een wiskundig gespecialiseerd model.

Van wiskunde naar wetenschap

Zowel OpenAI als Google zien dit als meer dan alleen een overwinning in de wiskunde. Ze geloven dat dezelfde redeneermodellen ook kunnen worden ingezet in andere vakgebieden zoals natuurkunde. Jung vergelijkt het met zelfrijdende auto's: “We zijn begonnen op snelwegen, toen stadswegen, en nu leren we rijden op complexe landweggetjes.” In deze analogie zijn de landweggetjes de moeilijkste vormen van menselijke redenering.

Officiële beoordeling en discussie over timing

In totaal behaalden 67 van de 630 deelnemers (ongeveer 11 procent) aan de IMO dit jaar een gouden medaille. Voor het eerst werkte de organisatie samen met AI bedrijven om resultaten officieel te beoordelen. Google hield zich aan het verzoek van de IMO om de resultaten pas na de prijsuitreiking te publiceren. OpenAI claimt toestemming te hebben gekregen van een IMO bestuurslid om dit wel al te doen op zaterdag na de afsluitingsceremonie.

IMO bestuursvoorzitter Gregor Dolinar bevestigde dat deelnemende AI bedrijven vanaf maandag hun resultaten mochten publiceren. Google DeepMind CEO Demis Hassabis verklaarde op X dat zij de wens van de IMO om studenten eerst hun moment te gunnen hebben gerespecteerd.

AI als medespeler in fundamenteel onderzoek?

Het succes van deze AI modellen toont dat we een nieuwe fase ingaan waarin kunstmatige intelligentie niet alleen taal begrijpt, maar ook complexe logica en abstractie aankan. De vraag is niet of AI de mens gaat aanvullen in onderzoek, maar wanneer en hoe.

#Nieuws

Bekijk als Web Story ← Terug naar overzicht