māchine

OpenAI en MIT publiceren methoden om emotionele band met ChatGPT te meten

OpenAI en het MIT Media Lab brengen de eerste meetinstrumenten naar buiten om te onderzoeken hoe gebruikers emotioneel hechten aan ChatGPT. Twee studies, bijna een miljoen deelnemers, en een classifier die affectieve signalen in chats moet herkennen.

chatbot emotional bond measurement

OpenAI en het MIT Media Lab hebben gezamenlijk de eerste onderzoeksmethoden gepubliceerd om te meten hoe mensen emotioneel omgaan met ChatGPT. Het gaat om twee studies en een geautomatiseerd classificatiesysteem dat moet vaststellen wanneer een gesprek met de chatbot een emotionele lading krijgt. Het werk is gepositioneerd als startpunt, niet als eindoordeel: wat doet langdurig praten met een chatbot met je sociale leven en je gevoel van eenzaamheid?

Wat ze precies gemeten hebben

De onderzoekers, onder wie Jason Phang, Michael Lampe, Lama Ahmad en Sandhini Agarwal van OpenAI samen met collega's van MIT Media Lab, deden twee dingen tegelijk.

De eerste studie is een grootschalige analyse van ongeveer drie miljoen ChatGPT-gesprekken plus enquêtes bij ruim vierduizend gebruikers. Die analyse draaide volledig geautomatiseerd, zonder dat een menselijke onderzoeker meelas, om privacyredenen. Het doel: in kaart brengen hoe vaak en hoe intensief mensen affectief gebruik vertonen.

De tweede studie is een gecontroleerd experiment met 981 deelnemers die 28 dagen lang ChatGPT gebruikten onder verschillende condities. Sommigen kregen een tekstversie, anderen een spraakversie met een neutrale stem, en weer anderen een spraakversie die expliciet warmer en engagerender was afgesteld. De deelnemers vulden voor en na het experiment vragenlijsten in over eenzaamheid, sociale contacten in het echte leven, emotionele afhankelijkheid van de chatbot en problematisch gebruik.

De classifier die emotie moet ruiken

Om drie miljoen gesprekken door te spitten zonder mensen erbij te halen, bouwde het team EmoClassifiersV1. Dat is een geautomatiseerd systeem in twee lagen. Bovenin zitten vijf brede classifiers die kijken naar eenzaamheid, kwetsbaarheid, problematisch gebruik, zelfwaarde en afhankelijkheid. Daaronder draaien twintig fijnere subclassifiers die specifieke signalen herkennen, zoals het gebruik van koosnaampjes voor het model of het beschrijven van ChatGPT als vriend.

De aanpak is vergelijkbaar met hoe sociale media-platforms automatisch berichten classificeren voor moderatie, maar dan gericht op de emotionele relatie tussen gebruiker en systeem in plaats van op de inhoud van de boodschap.

Wat eruit kwam

De belangrijkste bevinding: intensief gebruik hangt samen met meer zelfgerapporteerde tekenen van afhankelijkheid en met minder sociale interactie met echte mensen. Het effect is sterk geconcentreerd bij een kleine groep zware gebruikers, die verantwoordelijk is voor een onevenredig groot deel van de affectieve gesprekken op het platform. Het patroon doet denken aan eerder onderzoek naar social media, waar ook een minderheid van power users bovengemiddeld vatbaar bleek voor problematisch gebruik.

De stemmodus gaf een gemengd beeld. Gebruikers die zelf voor spraak kozen, vertoonden meer affectieve signalen, maar of de stem zelf dat veroorzaakt of dat juist emotionelere gebruikers eerder voor spraak kiezen, kunnen de onderzoekers niet met zekerheid zeggen.

De causaliteit is sowieso het zwakke punt. Het experiment van 28 dagen is volgens de auteurs mogelijk te kort om echte verschuivingen in welzijn te vangen. Bovendien kregen deelnemers vooraf bepaalde taken, wat het natuurlijke gebruikspatroon verstoort. De zelfrapportage over eenzaamheid en sociale contacten is bekend gevoelig voor wat mensen sociaal wenselijk vinden om in te vullen. En de classifier zelf kan misslagen maken.

Waarom dit nu gebeurt

Gestructureerd welzijnsonderzoek voor AI-producten bestaat nauwelijks. Voor social media heeft het ruim een decennium geduurd voordat platforms toegang gaven aan onderzoekers en er enigszins betrouwbare meetinstrumenten lagen, en zelfs dat traject is omstreden. OpenAI publiceert nu, terwijl ChatGPT nog jong is, de meetlat waarmee ze zichzelf willen laten beoordelen.

Voor wie ChatGPT dagelijks gebruikt, betekent het op korte termijn weinig. Op de langere termijn vormt dit type onderzoek de basis voor productbeslissingen: welke stem klinkt te warm, hoe vaak mag een model emotionele bevestiging geven, en wanneer moet een chatbot een gebruiker doorverwijzen naar echte hulp. Toezichthouders die werken aan regels voor AI-chatbots in zorg en onderwijs zullen meekijken naar wat hier uit komt.

De onderzoekers benadrukken dat dit een eerste versie is. EmoClassifiersV1 en de bijbehorende dataset zijn bedoeld om door andere onderzoekers gebruikt en bekritiseerd te worden, zodat er over tijd een gedeelde standaard ontstaat voor het meten van emotionele effecten van AI. Het bijbehorende paper staat op arXiv onder de titel Investigating Affective Use and Emotional Well-being on ChatGPT.