māchine

RLHF

Ook: Reinforcement Learning from Human Feedback

Definitie

Trainingsmethode waarbij menselijke beoordelaars antwoorden rangschikken en het model die voorkeuren leert imiteren. Maakte ChatGPT in 2022 voor het eerst breed bruikbaar.

Andere begrippen