māchine

OpenAI brengt model distillation naar de API

OpenAI bouwt model distillation als ingebouwde workflow in de API. Via drie nieuwe onderdelen, Stored Completions, Evals en Fine-tuning, kunnen ontwikkelaars een groot frontiermodel gebruiken om een kleiner alternatief te trainen. Alles binnen het eigen platform.

model distillation flask

OpenAI heeft een nieuwe API-functie gelanceerd waarmee ontwikkelaars de kennis van een duur, groot model kunnen overdragen naar een kleiner, goedkoper alternatief. Het heet model distillation. Het hele proces, van datasetbouw tot fine-tunen tot evaluatie, draait binnen OpenAI's eigen platform.

Wat model distillation eigenlijk is

Distillation is een techniek uit de AI-onderzoekswereld die teruggaat tot een paper van Geoffrey Hinton uit 2015. Het idee is simpel. Laat een groot model (de teacher) een grote hoeveelheid voorbeeldantwoorden produceren. Train daarmee een kleiner model (de student) om dat gedrag na te bootsen. De student wordt geen volledige kopie, maar voor een specifieke taak komt het vaak verrassend dichtbij. En het is een fractie van de prijs om te draaien.

Nieuw is niet de techniek, maar dat OpenAI de hele workflow in zijn eigen API inbouwt. Tot nu toe moesten ontwikkelaars zelf datasets bouwen, exporteren, met fine-tuning-tools opnieuw importeren en handmatig evalueren. Dat liep over meerdere systemen heen, met scripts en spreadsheets ertussen. Nu klikt het in elkaar.

Drie nieuwe onderdelen

Het pakket bestaat uit drie stukken: Stored Completions, Evals en Fine-tuning.

Stored Completions werkt als een logboek. Elke keer dat je via de API een prompt naar GPT-4o of o1-preview stuurt, kun je de uitkomst automatisch laten opslaan. Dat verzamelt zich tot een dataset met duizenden of tienduizenden input-output-paren. Die dataset wordt straks je trainingsmateriaal voor het kleinere model. Stored Completions is gratis.

Evals is OpenAI's poging om de evaluatiestap fatsoenlijk te maken. Voor wie modellen vergelijkt, is dat normaal de pijnlijkste fase. Je moet testsets bouwen, scoringsscripts schrijven en grafieken maken om te zien of het kleine model meekomt met het grote. Met Evals definieer en draai je die testpijplijnen direct in het platform. De feature zit in beta. Wie zijn evaluaties met OpenAI deelt, krijgt tot zeven gratis runs per week.

Fine-tuning zelf was al beschikbaar, maar wordt nu directer gekoppeld aan Stored Completions. De distillatie verloopt in vijf stappen: evaluatie opzetten, dataset verzamelen via Stored Completions, dataset filteren, fine-tunen op een kleiner model zoals GPT-4o-mini, en valideren via Evals.

De rekensom

De ruwe prijzen leggen uit waarom dit aantrekkelijk is. Een query naar GPT-4o kost meerdere keren zo veel als een query naar GPT-4o-mini. Wie elke dag duizenden of miljoenen vragen verwerkt, betaalt snel honderden of duizenden euro's per maand aan API-kosten. Lukt het om een gefine-tunede mini-versie te bouwen die in pakweg 90 procent van de gevallen vergelijkbaar antwoordt, dan kelderen die kosten.

Voor consumentenapps die met AI werken, is dat het verschil tussen wel of niet draaien. Een chatbot op het volle GPT-4o is duur per gesprek. Een gefinetunede mini kan tien keer zo veel volume aan voor hetzelfde geld. Bij de lancering bood OpenAI tijdelijk gratis fine-tuning aan tot een miljoen tokens per dag, om de drempel weg te halen.

De catch

"Alles binnen het OpenAI-platform" is voor OpenAI niet alleen gemak voor de ontwikkelaar. Het is ook lock-in. De Stored Completions verzamel je in OpenAI's systeem. De evaluaties draaien daar. Het uiteindelijke gedistilleerde model is alleen via OpenAI's API te runnen. Wie de dataset of het model wil meenemen naar Anthropic, Google of een lokale open-source-runtime, kan dat niet.

Daar zit een patroon achter. Concurrenten als Anthropic en Google bieden hun eigen distillatie-routes. Open source-modellen worden in de praktijk steeds vaker getraind op outputs van grote propriëtaire modellen. Dat laatste vinden de grote labs niet leuk. OpenAI's gebruikersvoorwaarden verbieden expliciet om GPT-output te gebruiken voor het trainen van concurrerende modellen. Met Stored Completions en in-platform distillatie houdt OpenAI dat soort kennisoverdracht netjes binnen de eigen muren.

Voor wie het werkt

OpenAI noemt zelf real-time spraak- en taalverwerking, financiële dienstverlening en de zorg als logische toepassingsgebieden. In die sectoren zit veel domeinkennis waarvoor een algemeen frontiermodel overgekwalificeerd is. Een verzekeraar die polisvragen classificeert hoeft geen model dat ook Latijn vertaalt en code reviews doet. Een kleinere, gespecialiseerde variant doet die klus prima, sneller en goedkoper.

Voor bedrijven die de afgelopen jaren zwaar leunen op GPT-4o is dit een uitnodiging om de rekening omlaag te brengen. Voor bedrijven die nog overwegen waar ze hun AI-stack opbouwen, is het een extra reden om bij OpenAI te blijven hangen.