Definitie
Leerstrategie waarin een model leert door beloningen en straffen op zijn acties. Belangrijk bij AlphaGo, robotica en bij het uitlijnen van moderne LLMs.
Leerstrategie waarin een model leert door beloningen en straffen op zijn acties. Belangrijk bij AlphaGo, robotica en bij het uitlijnen van moderne LLMs.