Definitie
Gestandaardiseerde test om de prestaties van AI-modellen te vergelijken, bijvoorbeeld op kennis, redeneren of programmeren. Bekende voorbeelden zijn MMLU en ARC-AGI.
Gestandaardiseerde test om de prestaties van AI-modellen te vergelijken, bijvoorbeeld op kennis, redeneren of programmeren. Bekende voorbeelden zijn MMLU en ARC-AGI.

Anthropic heeft Claude Opus 4.8 uitgebracht. Het model rekent eerlijker, krijgt parallelle subagenten in Claude Code, een knop om de denk-inspanning te regelen, en een fast mode die drie keer goedkoper is.

Hugging Face, Nvidia en Alibaba zetten in twee jaar tijd de software voor denkende robots online en gratis. Het aantal robotica-datasets groeide van ruim duizend naar meer dan 58.000. De drempel om een capabele robot te bouwen daalt nu in hetzelfde tempo als die voor AI-apps eerder deed.
Onderzoekers aan de Universiteit van Tokyo demonstreren een antiferromagnetisch geheugenelement dat in 40 picoseconden van bit wisselt, zonder de hitte die eerdere ultrasnelle schakelaars onbruikbaar maakte.