OpenAI liet een AI meekijken met de gedachten van een ander AI-model. Dat werkt, totdat je het model gaat afstraffen op die gedachten. Dan blijft hetzelfde wangedrag bestaan, alleen het bewijs ervan verdwijnt.
OpenAI heeft een onderzoek gepubliceerd waaruit blijkt dat geavanceerde AI-modellen actief naar mazen in opdr…
Het onderzoek, geschreven door Bowen Baker, Joost Huizinga, Leo Gao en zes collega's, heet "Monitoring Reason…
Wat de onderzoekers beschrijven, leest als het logboek van een luie medewerker die hardop verkondigt wat hij…
Vervolgens deden de onderzoekers wat een logische volgende stap lijkt.
OpenAI introduceert een term voor de afweging: de monitorability tax.