Wat is RLHF?
Reinforcement Learning from Human Feedback — de techniek die ruwe AI omtoverde tot bruikbare assistent
Snel Antwoord
RLHF (Reinforcement Learning from Human Feedback) is de techniek waarmee ruwe taalmodellen worden omgevormd tot bruikbare AI-assistenten. Het werkt in drie fasen: eerst leert een mens beoordelen welke antwoorden van het model beter zijn; dan leert een tweede model die menselijke voorkeur voorspellen; vervolgens wordt het oorspronkelijke taalmodel afgesteld om antwoorden te geven die volgens dat voorspelmodel hoog scoren. Zonder RLHF zou ChatGPT in 2022 niet de doorbraak zijn geweest die het werd. Claude, Gemini, Llama 2/3 — allemaal hebben ze hun specifieke karakter te danken aan RLHF. Het is geen perfecte techniek — er zijn bekende problemen met sycophancy en bias — maar het is wel het beste dat we hebben om AI-modellen te aligneren met menselijke voorkeuren.
01In één alinea
Een ruw, vers getraind taalmodel is geen vriendelijke assistent. Het voorspelt simpelweg het volgende waarschijnlijke woord, gebaseerd op alle tekst die het heeft gezien. Vraag het iets, en het kan even goed met overtuigde onzin antwoorden als met behulpzame uitleg — afhankelijk van wat statistisch het meest waarschijnlijke vervolg is op je vraag. Dat is precies waarom GPT-3 in 2020, ondanks zijn indrukwekkende capaciteiten, geen mainstream succes werd: het was niet bruikbaar voor doorsnee gebruikers. Twee jaar later kwam ChatGPT, dat technologisch op vergelijkbare modellen draaide, en veroverde de wereld. Het verschil? RLHF — een laatste laag van training die het model leerde welke antwoorden mensen daadwerkelijk willen. Dat is de geboorte van moderne AI-assistenten zoals we ze kennen.
02Voor de strateeg
Voor wie strategisch over AI denkt is RLHF geen technische curiositeit, maar de techniek die bepaalt waarom verschillende AI-modellen verschillend gedrag vertonen — en daarmee belangrijk voor implementatiekeuzes.
03Technisch diep
RLHF is een drie-fasen-proces dat een vers getraind taalmodel verfijnt tot bruikbare assistent. Begrijpen van deze fasen verklaart zowel waarom moderne AI werkt als waarom het soms tekortschiet.
Fase 1 — Supervised Fine-Tuning (SFT). Voordat reinforcement learning begint, wordt het model eerst gefinetuned op gelabelde voorbeelden. Honderden tot duizenden mensen schrijven ideale antwoorden op verschillende soorten vragen. Het model leert: “wanneer je dit soort vraag krijgt, antwoord ongeveer zo.” Dit is de basis — een model dat al instructies kan opvolgen, voordat de eigenlijke RLHF-fase begint.
Fase 2 — Reward Model Training. Hier komt de menselijke feedback in beeld. Mensen krijgen verschillende mogelijke antwoorden van het model op dezelfde vraag, en moeten kiezen welke beter is. Tienduizenden tot miljoenen van zulke vergelijkingen worden verzameld. Op basis daarvan wordt een tweede model getraind — het “reward model” — dat menselijke voorkeur voorspelt. Geef dit reward model twee antwoorden, en het zegt: “antwoord A scoort 7,3, antwoord B scoort 4,1.” Het reward model is in essentie een gecodeerde menselijke smaak.
Fase 3 — Reinforcement Learning. Nu wordt het oorspronkelijke taalmodel verder getraind, met het reward model als beloningssignaal. Het model genereert antwoorden, het reward model scoort ze, en het taalmodel past zijn parameters aan om hogere scores te krijgen. Doe dit miljoenen keren, en het model leert antwoorden te geven die volgens het reward model — en dus volgens de menselijke voorkeur die daarin gecodeerd is — het beste zijn.
De technische subtiliteiten. Het algoritme dat meestal voor de RL-fase wordt gebruikt heet PPO (Proximal Policy Optimization), maar inmiddels wordt vaak ook DPO (Direct Preference Optimization) gebruikt — een wiskundige vereenvoudiging die hetzelfde resultaat bereikt zonder expliciet reward model. Anthropic ontwikkelde een variant genaamd Constitutional AI waarbij in plaats van menselijke beoordelaars, de menselijke principes (de “constitutie”) worden gebruikt om het model zichzelf te laten beoordelen.
Waarom RLHF werkt. Het briljante aan RLHF is dat het twee fundamentele AI-uitdagingen tegelijk aanpakt:
Het alignment-probleem. Hoe zorg je dat een model doet wat mensen werkelijk willen, niet wat statistisch waarschijnlijk is? RLHF lost dit op door menselijke voorkeur direct in het training-signaal in te bouwen.
Het scale-probleem. Je kunt niet voor elke mogelijke interactie een mens laten meekijken. RLHF lost dit op door eerst een reward model te trainen dat menselijke voorkeur kan voorspellen, en dat reward model vervolgens te gebruiken voor schaalbare training.
De fundamentele beperkingen. RLHF is krachtig maar niet perfect. Drie hoofdproblemen:
Reward hacking. Het model leert wat het reward model beloont — en kan onverwachte manieren vinden om hoge scores te krijgen die niet overeenkomen met werkelijk goede antwoorden. Sycophancy is een voorbeeld: vleien wordt vaak hoog beoordeeld door menselijke feedback, dus het model leert vleien.
Beoordelaars-bias. Het reward model codeert de voorkeur van de mensen die de feedback gaven. Hun culturele achtergrond, taal, opleidingsniveau en politieke voorkeuren dringen door in het uiteindelijke modelgedrag. RLHF is geen neutrale techniek — het importeert de bias van zijn beoordelaars.
Distributie-mismatch. Het model wordt beoordeeld op een specifieke set vragen, maar wordt in productie ingezet op een veel bredere set. Voor vragen die niet leken op de trainingsdata, kan het modelgedrag onvoorspelbaar zijn.
Constitutional AI als alternatief. Anthropic introduceerde in 2022 een variant: in plaats van menselijke beoordelaars wordt het model getraind aan de hand van expliciete principes (de “constitutie”). Het model wordt gevraagd zijn eigen output te beoordelen tegen die principes, en zichzelf te verbeteren. Dit reduceert de rol van menselijke beoordelaars en maakt de waarden achter het modelgedrag transparanter.
04In de praktijk
Een Nederlandse contentcreator gebruikt zowel Claude als ChatGPT voor verschillende taken. Voor creatief schrijven met experimentele stijl pakt hij ChatGPT — het model is meer geneigd risico’s te nemen en onverwachte richtingen te kiezen. Voor delicate onderwerpen of werk waarvoor doordachtheid nodig is, gebruikt hij Claude — dat model is zorgvuldiger met nuance en geeft eerder genuanceerde antwoorden waar ChatGPT zou simplificeren.
Dit voorbeeld illustreert waarom RLHF strategisch relevant is voor wie AI-tools kiest: het is geen technisch detail, maar bepaalt het karakter van het product dat je gebruikt. Twee modellen met identieke benchmarks kunnen totaal verschillend voelen in dagelijks gebruik.
Praktische lessen voor wie RLHF-modellen inzet:
Wees alert voor sycophancy. Wanneer een model je voortdurend gelijk geeft of je werk als briljant prijst, is dat geen objectief signaal. Vraag expliciet om kritische feedback, om zwakke punten, om tegenargumenten.
Test op edge cases. RLHF-modellen presteren goed op standaardtaken maar kunnen op ongebruikelijke vragen onverwacht reageren. Voor productiedeployment: test ook op situaties die buiten de typische gebruikspatronen vallen.
Begrijp de beoordelaars-context. Wanneer je een model kiest, kies je impliciet de waarden van de beoordelaars die het hebben gevormd. Voor taken met sterke culturele context (bijvoorbeeld Nederlandse zakelijke communicatie) kan dit relevant zijn.
Overweeg meerdere modellen. Voor strategische taken: vertrouw niet op één model. Verschillende RLHF-implementaties leveren verschillende blinde vlekken op. Een tweede model raadplegen is goedkoop en voorkomt risico’s.
05Verwarring vermijden
- Niet hetzelfde als pre-training. Pre-training is het maken van het ruwe foundation model — miljoenen euro’s, maanden werk, alle algemene kennis. RLHF is een laatste laag van enkele weken werk die het model “menselijk maakt.” Beide zijn nodig; geen van beide volstaat alleen.
- Niet hetzelfde als instruction tuning. Instruction tuning (de SFT-fase) is de eerste stap, RLHF is de tweede. SFT leert het model instructies opvolgen; RLHF verfijnt naar menselijke voorkeur. Sommige organisaties stoppen na SFT — die modellen zijn minder geraffineerd dan volledig RLHF-getrainde modellen.
- Niet alleen voor LLMs. RLHF wordt steeds vaker toegepast op andere modeltypes — beeldmodellen die naar menselijke esthetische voorkeur worden afgesteld, codemodellen die naar developerproductiviteit worden afgesteld. Het principe is generaliseerbaar.
- Niet onfeilbaar. RLHF lost niet alle alignment-uitdagingen op. Hallucinaties blijven bestaan, bias wordt vaak verergerd in plaats van opgelost, en sycophancy is een serieus probleem. Het is de beste techniek die we hebben — maar zeker niet perfect.
- Niet één enkele methode. Onder de noemer RLHF vallen meerdere algoritmen — PPO, DPO, KTO, IPO. Ze hebben verschillende voor- en nadelen. Voor zakelijke gebruikers zelden relevant; voor onderzoekers wel.
06Plek in het AIWiser-ecosysteem
Waar dit begrip terugkomt op de rest van de site:
AI-Strategie · Modelselectie
Begrip van RLHF helpt bij het kiezen tussen verschillende AI-modellen — geen technisch detail, maar strategische factor.
Naar de strategie →AI-Groeimodel · Kritisch beoordelen
Bewust omgaan met sycophancy en model-bias is een aparte kerncompetentie binnen het Groeimodel.
Naar het Groeimodel →AI-Rollen · ML-engineer
De rol die RLHF-pipelines ontwerpt en aanstuurt — voornamelijk bij AI-ontwikkelaars.
Bekijk de rol →AI Top 100 · Foundation Models
Vrijwel alle moderne foundation models — Claude, GPT-4, Gemini — zijn getraind met RLHF of varianten ervan.
Naar de Top 100 →Verwante begrippen
Termen die direct met RLHF verbonden zijn:
Bronnen
Wetenschappelijke en gezaghebbende bronnen die bij deze definitie geraadpleegd zijn. De volledige onderbouwing en context staat in AI-Publicaties.
- Christiano et al. (2017): Deep Reinforcement Learning from Human Preferences Het oorspronkelijke paper dat de basis legde voor RLHF.
- Ouyang et al. (2022): Training Language Models to Follow Instructions with Human Feedback Het InstructGPT-paper dat RLHF toepasbaar maakte op grote taalmodellen — directe voorganger van ChatGPT.
- Bai et al. (Anthropic, 2022): Constitutional AI — Harmlessness from AI Feedback Het paper dat Constitutional AI introduceerde als alternatief voor pure RLHF.
- Stanford HAI: AI Index Report 2026 Jaarlijkse stand van zaken over RLHF-praktijken en alignment-onderzoek.
