māchine

Benchmark

Ook: benchmarks, evaluatietest

Definitie

Gestandaardiseerde test om de prestaties van AI-modellen te vergelijken, bijvoorbeeld op kennis, redeneren of programmeren. Bekende voorbeelden zijn MMLU en ARC-AGI.

Andere begrippen