Benchmark

Ook: benchmarks, evaluatietest

Definitie

Gestandaardiseerde test om de prestaties van AI-modellen te vergelijken, bijvoorbeeld op kennis, redeneren of programmeren. Bekende voorbeelden zijn MMLU en ARC-AGI.

In de actualiteit (4)

Nieuws
Meta draait Manus-overname van twee miljard terug na bevel uit Beijing
Meta knipt de banden door met de Chinese AI-startup Manus, die het bedrijf in december 2025 voor twee miljard dollar kocht. Beijing eiste in april dat de deal werd ontbonden. Het is de eerste keer dat China een al voltooide buitenlandse overname formeel terugdraait.
14 juni 2026
Nieuws
Anthropic brengt Claude Opus 4.8 uit met sterkere agent-modus en goedkopere fast mode
Anthropic heeft Claude Opus 4.8 uitgebracht. Het model rekent eerlijker, krijgt parallelle subagenten in Claude Code, een knop om de denk-inspanning te regelen, en een fast mode die drie keer goedkoper is.
28 mei 2026
Deep dive
Robots krijgen hetzelfde open-source moment als AI-chatbots, en dat gaat hard
Hugging Face, Nvidia en Alibaba zetten in twee jaar tijd de software voor denkende robots online en gratis. Het aantal robotica-datasets groeide van ruim duizend naar meer dan 58.000. De drempel om een capabele robot te bouwen daalt nu in hetzelfde tempo als die voor AI-apps eerder deed.
22 mei 2026
Wetenschap
Mn3Sn-geheugen schakelt in 40 picoseconden, duizend keer sneller dan DRAM
Onderzoekers aan de Universiteit van Tokyo demonstreren een antiferromagnetisch geheugenelement dat in 40 picoseconden van bit wisselt, zonder de hitte die eerdere ultrasnelle schakelaars onbruikbaar maakte.
20 mei 2026

Benchmark

Definitie

In de actualiteit (4)

Meta draait Manus-overname van twee miljard terug na bevel uit Beijing

Anthropic brengt Claude Opus 4.8 uit met sterkere agent-modus en goedkopere fast mode

Robots krijgen hetzelfde open-source moment als AI-chatbots, en dat gaat hard

Mn3Sn-geheugen schakelt in 40 picoseconden, duizend keer sneller dan DRAM

Andere begrippen