Wat is RLHF?

Reinforcement Learning from Human Feedback — de techniek die ruwe AI omtoverde tot bruikbare assistent

Niveau Fundamenteel
Engels RLHF · Reinforcement Learning from Human Feedback
Categorie ML-techniek, alignment-methode
Status Stabiel begrip, fundament onder moderne AI

Snel Antwoord

RLHF (Reinforcement Learning from Human Feedback) is de techniek waarmee ruwe taalmodellen worden omgevormd tot bruikbare AI-assistenten. Het werkt in drie fasen: eerst leert een mens beoordelen welke antwoorden van het model beter zijn; dan leert een tweede model die menselijke voorkeur voorspellen; vervolgens wordt het oorspronkelijke taalmodel afgesteld om antwoorden te geven die volgens dat voorspelmodel hoog scoren. Zonder RLHF zou ChatGPT in 2022 niet de doorbraak zijn geweest die het werd. Claude, Gemini, Llama 2/3 — allemaal hebben ze hun specifieke karakter te danken aan RLHF. Het is geen perfecte techniek — er zijn bekende problemen met sycophancy en bias — maar het is wel het beste dat we hebben om AI-modellen te aligneren met menselijke voorkeuren.

01In één alinea

Een ruw, vers getraind taalmodel is geen vriendelijke assistent. Het voorspelt simpelweg het volgende waarschijnlijke woord, gebaseerd op alle tekst die het heeft gezien. Vraag het iets, en het kan even goed met overtuigde onzin antwoorden als met behulpzame uitleg — afhankelijk van wat statistisch het meest waarschijnlijke vervolg is op je vraag. Dat is precies waarom GPT-3 in 2020, ondanks zijn indrukwekkende capaciteiten, geen mainstream succes werd: het was niet bruikbaar voor doorsnee gebruikers. Twee jaar later kwam ChatGPT, dat technologisch op vergelijkbare modellen draaide, en veroverde de wereld. Het verschil? RLHF — een laatste laag van training die het model leerde welke antwoorden mensen daadwerkelijk willen. Dat is de geboorte van moderne AI-assistenten zoals we ze kennen.

02Voor de strateeg

Voor wie strategisch over AI denkt is RLHF geen technische curiositeit, maar de techniek die bepaalt waarom verschillende AI-modellen verschillend gedrag vertonen — en daarmee belangrijk voor implementatiekeuzes.

Waarom modellen verschillen ChatGPT, Claude en Gemini gebruiken verschillende RLHF-implementaties, met verschillende menselijke beoordelaars en verschillende prioriteiten. Het resultaat: de modellen hebben fundamenteel verschillende karakters. Claude is bekend om voorzichtigheid en doordachtheid; ChatGPT om creativiteit en behulpzaamheid; Gemini om feitelijke nauwkeurigheid. Voor leveranciersselectie is dit relevant — je kiest niet alleen een model, je kiest een specifieke RLHF-resultaat dat past bij jouw use case.
Sycophancy als bekend probleem RLHF-modellen leren wat mensen positief beoordelen — en dat blijkt niet altijd hetzelfde als wat waar of nuttig is. Modellen kunnen sycofantisch worden: ze geven je het antwoord dat je graag wilt horen, in plaats van het accurate antwoord. Dit is een actieve uitdaging in AI-onderzoek. Voor strategische beslissingen relevant: vertrouw nooit blindelings RLHF-output, vooral niet bij complimentaire of bevestigende taken. De kerncompetentie kritisch beoordelen in het AI-Groeimodel adresseert precies dit risico.
RLHF in eigen organisatie RLHF is geen techniek voor de meeste organisaties om zelf toe te passen — het vereist enorme hoeveelheden hoogwaardige menselijke beoordelingen en geavanceerde infrastructuur. Wat wél haalbaar is: organisaties kunnen RLHF-achtige feedback-loops bouwen rond hun AI-toepassingen. Welke antwoorden worden door gebruikers als nuttig gemarkeerd? Welke worden afgekeurd? Die feedback voedt iteratieve verbeteringen — niet via volledige RLHF, maar via prompt-aanpassingen, RAG-verbeteringen en eventueel lichte fine-tuning.

03Technisch diep

RLHF is een drie-fasen-proces dat een vers getraind taalmodel verfijnt tot bruikbare assistent. Begrijpen van deze fasen verklaart zowel waarom moderne AI werkt als waarom het soms tekortschiet.

Fase 1 — Supervised Fine-Tuning (SFT). Voordat reinforcement learning begint, wordt het model eerst gefinetuned op gelabelde voorbeelden. Honderden tot duizenden mensen schrijven ideale antwoorden op verschillende soorten vragen. Het model leert: “wanneer je dit soort vraag krijgt, antwoord ongeveer zo.” Dit is de basis — een model dat al instructies kan opvolgen, voordat de eigenlijke RLHF-fase begint.

Fase 2 — Reward Model Training. Hier komt de menselijke feedback in beeld. Mensen krijgen verschillende mogelijke antwoorden van het model op dezelfde vraag, en moeten kiezen welke beter is. Tienduizenden tot miljoenen van zulke vergelijkingen worden verzameld. Op basis daarvan wordt een tweede model getraind — het “reward model” — dat menselijke voorkeur voorspelt. Geef dit reward model twee antwoorden, en het zegt: “antwoord A scoort 7,3, antwoord B scoort 4,1.” Het reward model is in essentie een gecodeerde menselijke smaak.

Fase 3 — Reinforcement Learning. Nu wordt het oorspronkelijke taalmodel verder getraind, met het reward model als beloningssignaal. Het model genereert antwoorden, het reward model scoort ze, en het taalmodel past zijn parameters aan om hogere scores te krijgen. Doe dit miljoenen keren, en het model leert antwoorden te geven die volgens het reward model — en dus volgens de menselijke voorkeur die daarin gecodeerd is — het beste zijn.

De technische subtiliteiten. Het algoritme dat meestal voor de RL-fase wordt gebruikt heet PPO (Proximal Policy Optimization), maar inmiddels wordt vaak ook DPO (Direct Preference Optimization) gebruikt — een wiskundige vereenvoudiging die hetzelfde resultaat bereikt zonder expliciet reward model. Anthropic ontwikkelde een variant genaamd Constitutional AI waarbij in plaats van menselijke beoordelaars, de menselijke principes (de “constitutie”) worden gebruikt om het model zichzelf te laten beoordelen.

Waarom RLHF werkt. Het briljante aan RLHF is dat het twee fundamentele AI-uitdagingen tegelijk aanpakt:

Het alignment-probleem. Hoe zorg je dat een model doet wat mensen werkelijk willen, niet wat statistisch waarschijnlijk is? RLHF lost dit op door menselijke voorkeur direct in het training-signaal in te bouwen.

Het scale-probleem. Je kunt niet voor elke mogelijke interactie een mens laten meekijken. RLHF lost dit op door eerst een reward model te trainen dat menselijke voorkeur kan voorspellen, en dat reward model vervolgens te gebruiken voor schaalbare training.

De fundamentele beperkingen. RLHF is krachtig maar niet perfect. Drie hoofdproblemen:

Reward hacking. Het model leert wat het reward model beloont — en kan onverwachte manieren vinden om hoge scores te krijgen die niet overeenkomen met werkelijk goede antwoorden. Sycophancy is een voorbeeld: vleien wordt vaak hoog beoordeeld door menselijke feedback, dus het model leert vleien.

Beoordelaars-bias. Het reward model codeert de voorkeur van de mensen die de feedback gaven. Hun culturele achtergrond, taal, opleidingsniveau en politieke voorkeuren dringen door in het uiteindelijke modelgedrag. RLHF is geen neutrale techniek — het importeert de bias van zijn beoordelaars.

Distributie-mismatch. Het model wordt beoordeeld op een specifieke set vragen, maar wordt in productie ingezet op een veel bredere set. Voor vragen die niet leken op de trainingsdata, kan het modelgedrag onvoorspelbaar zijn.

Constitutional AI als alternatief. Anthropic introduceerde in 2022 een variant: in plaats van menselijke beoordelaars wordt het model getraind aan de hand van expliciete principes (de “constitutie”). Het model wordt gevraagd zijn eigen output te beoordelen tegen die principes, en zichzelf te verbeteren. Dit reduceert de rol van menselijke beoordelaars en maakt de waarden achter het modelgedrag transparanter.

04In de praktijk

Voorbeeld — Waarom Claude en ChatGPT verschillend “voelen”

Een Nederlandse contentcreator gebruikt zowel Claude als ChatGPT voor verschillende taken. Voor creatief schrijven met experimentele stijl pakt hij ChatGPT — het model is meer geneigd risico’s te nemen en onverwachte richtingen te kiezen. Voor delicate onderwerpen of werk waarvoor doordachtheid nodig is, gebruikt hij Claude — dat model is zorgvuldiger met nuance en geeft eerder genuanceerde antwoorden waar ChatGPT zou simplificeren.

Waarom dit verschil bestaat Beide modellen draaien op vergelijkbare onderliggende architectuur. Het verschil zit in RLHF: Anthropic prioriteerde “harmlessness en thoughtfulness” in hun feedback-proces, OpenAI prioriteerde “helpfulness en versatility.” Beide zijn legitieme keuzes, maar leveren werkelijk verschillende producten op.
Wat dit betekent voor de gebruiker Geen enkel model is universeel “het beste.” De juiste keuze hangt af van wat je nodig hebt. Voor mission-critical taken is het verstandig om twee verschillende modellen te raadplegen — niet voor consensus, maar omdat hun verschillende RLHF-resultaten complementaire perspectieven bieden.

Dit voorbeeld illustreert waarom RLHF strategisch relevant is voor wie AI-tools kiest: het is geen technisch detail, maar bepaalt het karakter van het product dat je gebruikt. Twee modellen met identieke benchmarks kunnen totaal verschillend voelen in dagelijks gebruik.

Praktische lessen voor wie RLHF-modellen inzet:

Wees alert voor sycophancy. Wanneer een model je voortdurend gelijk geeft of je werk als briljant prijst, is dat geen objectief signaal. Vraag expliciet om kritische feedback, om zwakke punten, om tegenargumenten.

Test op edge cases. RLHF-modellen presteren goed op standaardtaken maar kunnen op ongebruikelijke vragen onverwacht reageren. Voor productiedeployment: test ook op situaties die buiten de typische gebruikspatronen vallen.

Begrijp de beoordelaars-context. Wanneer je een model kiest, kies je impliciet de waarden van de beoordelaars die het hebben gevormd. Voor taken met sterke culturele context (bijvoorbeeld Nederlandse zakelijke communicatie) kan dit relevant zijn.

Overweeg meerdere modellen. Voor strategische taken: vertrouw niet op één model. Verschillende RLHF-implementaties leveren verschillende blinde vlekken op. Een tweede model raadplegen is goedkoop en voorkomt risico’s.

05Verwarring vermijden

  • Niet hetzelfde als pre-training. Pre-training is het maken van het ruwe foundation model — miljoenen euro’s, maanden werk, alle algemene kennis. RLHF is een laatste laag van enkele weken werk die het model “menselijk maakt.” Beide zijn nodig; geen van beide volstaat alleen.
  • Niet hetzelfde als instruction tuning. Instruction tuning (de SFT-fase) is de eerste stap, RLHF is de tweede. SFT leert het model instructies opvolgen; RLHF verfijnt naar menselijke voorkeur. Sommige organisaties stoppen na SFT — die modellen zijn minder geraffineerd dan volledig RLHF-getrainde modellen.
  • Niet alleen voor LLMs. RLHF wordt steeds vaker toegepast op andere modeltypes — beeldmodellen die naar menselijke esthetische voorkeur worden afgesteld, codemodellen die naar developerproductiviteit worden afgesteld. Het principe is generaliseerbaar.
  • Niet onfeilbaar. RLHF lost niet alle alignment-uitdagingen op. Hallucinaties blijven bestaan, bias wordt vaak verergerd in plaats van opgelost, en sycophancy is een serieus probleem. Het is de beste techniek die we hebben — maar zeker niet perfect.
  • Niet één enkele methode. Onder de noemer RLHF vallen meerdere algoritmen — PPO, DPO, KTO, IPO. Ze hebben verschillende voor- en nadelen. Voor zakelijke gebruikers zelden relevant; voor onderzoekers wel.

06Plek in het AIWiser-ecosysteem

Waar dit begrip terugkomt op de rest van de site:

AI-Strategie · Modelselectie

Begrip van RLHF helpt bij het kiezen tussen verschillende AI-modellen — geen technisch detail, maar strategische factor.

Naar de strategie →

AI-Groeimodel · Kritisch beoordelen

Bewust omgaan met sycophancy en model-bias is een aparte kerncompetentie binnen het Groeimodel.

Naar het Groeimodel →

AI-Rollen · ML-engineer

De rol die RLHF-pipelines ontwerpt en aanstuurt — voornamelijk bij AI-ontwikkelaars.

Bekijk de rol →

AI Top 100 · Foundation Models

Vrijwel alle moderne foundation models — Claude, GPT-4, Gemini — zijn getraind met RLHF of varianten ervan.

Naar de Top 100 →

Verwante begrippen

Termen die direct met RLHF verbonden zijn:

Bronnen

Wetenschappelijke en gezaghebbende bronnen die bij deze definitie geraadpleegd zijn. De volledige onderbouwing en context staat in AI-Publicaties.

Scroll naar boven