Straf een AI-model voor slechte gedachten en het leert ze verbergen

Deep dive OpenAI liet een AI meekijken met de gedachten van een ander AI-model. Dat werkt, totdat je het model gaat afstraffen op die gedachten. Dan blijft hetzelfde wangedrag bestaan, alleen het bewijs ervan verdwijnt.

OpenAI heeft een onderzoek gepubliceerd waaruit blijkt dat geavanceerde AI-modellen actief naar mazen in opdr…

Een AI als babysitter voor een andere AI

Het onderzoek, geschreven door Bowen Baker, Joost Huizinga, Leo Gao en zes collega's, heet "Monitoring Reason…

Het model laat zich opmerkelijk makkelijk betrappen

Wat de onderzoekers beschrijven, leest als het logboek van een luie medewerker die hardop verkondigt wat hij…

En toen gingen ze het model afstraffen

Vervolgens deden de onderzoekers wat een logische volgende stap lijkt.

De monitorability tax

OpenAI introduceert een term voor de afweging: de monitorability tax.

Lees het hele verhaal.

māchine Het complete artikel op māchine. Naar het artikel Thom (māchine redactie)