AIWiser / AI-Begrippen / NLP & Generatieve AI

Wat is synthetic data?

Kunstmatig gegenereerde data — een oplossing voor dataschaarste en privacy

Niveau Kern

Engels Synthetic Data

Categorie Data, generatieve AI

Status Snelgroeiend — steeds belangrijker nu hoogwaardige echte data schaarser wordt

Door Peter & AI·Laatst herzien: juni 2026

Snel Antwoord

Synthetic data — synthetische data — is kunstmatig gegenereerde data die echte data nabootst, in plaats van te worden verzameld uit de werkelijkheid. Ze wordt gemaakt door modellen die de statistische eigenschappen van echte data leren en op basis daarvan nieuwe, realistische voorbeelden produceren. De grote waarde zit in twee dingen: het oplossen van dataschaarste (te weinig echte voorbeelden om een model goed te trainen) en het beschermen van privacy (synthetische data bevat geen echte personen). Technieken als GANs en moderne generatieve modellen maken dit mogelijk. In 2026 is synthetic data een snelgroeiend onderwerp, mede doordat hoogwaardige echte data voor het trainen van grote modellen schaarser wordt — al brengt het ook eigen risico’s mee, zoals het versterken van fouten en bias.

01In één alinea

Stel je een vluchtsimulator voor. Een piloot kan daarin honderden noodsituaties oefenen — motoruitval, storm, systeemfouten — zonder dat er ooit een echt vliegtuig in gevaar komt. De situaties zijn niet echt, maar wel realistisch genoeg om er waardevol van te leren. Synthetic data werkt op dezelfde manier voor AI: het zijn kunstmatig gemaakte voorbeelden die de echte wereld nabootsen, zodat een model ervan kan leren zonder dat je over de echte data hoeft te beschikken — of die nu te schaars, te duur of te privacygevoelig is. Een ziekenhuis dat te weinig patiëntcases heeft, een bank die geen echte fraudegevallen mag delen, een zelfrijdende auto die zeldzame ongevallen moet leren herkennen: in al die gevallen vult synthetische data het gat. Het is geen vervanging van de werkelijkheid, maar een realistische oefenwereld — met als belangrijke kanttekening dat een simulator alleen zo goed is als het model van de werkelijkheid waarop hij gebouwd is.

02Voor de strateeg

Synthetic data is een van de praktischere antwoorden op het hardnekkigste probleem in AI: te weinig bruikbare data. Voor wie erover beslist, telt vooral waar het wél en níét past.

De uitweg uit dataschaarste Veel AI-projecten stranden op te weinig data — vooral voor zeldzame gevallen die juist het belangrijkst zijn (een zeldzame ziekte, een ongebruikelijk fraudepatroon). Synthetic data kan die schaarse gevallen kunstmatig bijmaken, zodat een model er genoeg van ziet om ze te leren herkennen. Voor de strateeg is dit een manier om een project dat anders zou vastlopen op databeschikbaarheid toch haalbaar te maken.

Privacy zonder de data op te geven Synthetische data deelt de statistische patronen van echte data, maar bevat geen echte personen. Dat maakt het mogelijk om AI te ontwikkelen of data te delen in gevoelige domeinen — zorg, financiën, overheid — zonder de AVG te schenden. Het is een krachtig instrument om innovatie en privacy te verzoenen, mits zorgvuldig gevalideerd dat individuen niet alsnog herleidbaar zijn.

Het is geen gratis data, en geen waarheid De verleiding is om synthetic data te zien als onbeperkte gratis brandstof. Maar synthetische data kan alleen patronen bevatten die in de echte brondata zaten — inclusief de fouten en de bias daarin. En een model dat te veel op zijn eigen synthetische output traint, kan in kwaliteit dalen (model collapse). Synthetic data is een hulpmiddel met scherpe randen, geen wondermiddel.

03Technisch diep

Synthetic data is een verzamelnaam voor verschillende technieken, met elk eigen toepassingen en risico’s.

Hoe het gemaakt wordt:

Synthetische data kan op meerdere manieren ontstaan. Generatieve modellen zoals GANs en diffusiemodellen leren de verdeling van echte data en genereren nieuwe voorbeelden die daarop lijken — populair voor beelden en tabellaire data. Taalmodellen genereren synthetische tekst, bijvoorbeeld voor het trainen of bijschaven van andere modellen. En simulatie bouwt data op uit regels en modellen van de werkelijkheid, zoals een virtuele rij-omgeving voor zelfrijdende auto’s.

De twee hoofdtoepassingen:

De eerste is dataschaarste oplossen: te weinig echte voorbeelden aanvullen met kunstmatige, of zeldzame gevallen oversamplen zodat een model ze beter leert. Dit grenst aan data-augmentatie, waar bestaande data wordt gevarieerd. De tweede is privacy: een synthetische dataset genereren die statistisch lijkt op de echte, maar geen herleidbare personen bevat — zodat die gedeeld of extern gebruikt mag worden.

Synthetische data voor taalmodellen:

Een opkomende toepassing is het trainen van grote modellen op door AI gegenereerde data. Nu hoogwaardige menselijke tekst schaarser wordt, gebruiken ontwikkelaars steeds vaker synthetische voorbeelden — bijvoorbeeld een sterk model dat trainingsdata genereert voor een kleiner model (verwant aan self-instruct en knowledge distillation). Krachtig, maar met het risico dat fouten van het ene model worden doorgegeven aan het volgende.

Het risico van model collapse:

Een belangrijk gevaar is model collapse: als modellen herhaaldelijk worden getraind op data die door eerdere modellen is gegenereerd, kan de kwaliteit geleidelijk degraderen. De synthetische data vlakt de uitersten en de variatie van de echte wereld af, en dat verlies stapelt zich op. Een gezonde mix van echte en synthetische data, met echte data als anker, is daarom doorgaans noodzakelijk.

Validatie is onmisbaar:

Synthetische data mag je nooit blind vertrouwen. Twee controles zijn cruciaal. Kwaliteit: lijkt de synthetische data statistisch genoeg op de echte om bruikbaar te zijn, zonder belangrijke patronen te missen? Privacy: bij privacytoepassingen moet je verifiëren dat het model geen echte individuen heeft gememoriseerd en gereproduceerd — via toetsen die nagaan of synthetische records herleidbaar zijn tot echte personen.

04In de praktijk

Voorbeeld — Een bank traint een fraudedetectiemodel

Een Nederlandse bank wil een model trainen dat frauduleuze transacties herkent. Het probleem is dubbel: echte fraudegevallen zijn zeldzaam (te weinig voorbeelden) én extreem privacygevoelig (mag niet zomaar gedeeld of breed gebruikt worden).

Alleen echte data Een handvol echte fraudegevallen tussen miljoenen normale transacties. Het model ziet te weinig fraude om het patroon betrouwbaar te leren, en het bredere gebruik van de gevoelige data stuit op privacy- en compliancebezwaren.

Aangevuld met synthetische data Een generatief model maakt realistische synthetische fraudegevallen bij, zonder echte klantgegevens. Het detectiemodel ziet genoeg voorbeelden om het patroon te leren, en de synthetische set kan veiliger worden gedeeld met teams en partners.

De bank valideert zorgvuldig dat de synthetische gevallen geen echte klanten reproduceren én dat ze de echte fraudepatronen goed genoeg nabootsen. Het model wordt getraind op een mix van echt en synthetisch. Dit is een van de waardevolste toepassingen van synthetic data in 2026: het overbruggen van schaarste en privacy tegelijk — mits met de juiste controles.

Praktische lessen voor wie met synthetic data werkt:

Houd echte data als anker. Train zelden uitsluitend op synthetische data. Een mix met echte data voorkomt dat het model wegdrijft van de werkelijkheid en beschermt tegen kwaliteitsverlies.

Valideer op twee fronten: kwaliteit én privacy. Controleer of de synthetische data realistisch genoeg is, en — bij privacytoepassingen — of er geen echte individuen herleidbaar in terugkomen. Beide checks zijn noodzakelijk.

Onthoud dat synthetische data je bias erft. Zat er vertekening in de brondata, dan zit die ook in de synthetische data — soms zelfs versterkt. Synthetisch betekent niet neutraal.

05Verwarring vermijden

Synthetic data is niet hetzelfde als nepdata of willekeurige onzin. Het is doelbewust gegenereerd om de statistische eigenschappen van echte data na te bootsen, niet zomaar verzonnen getallen.
Synthetic data is niet automatisch privacyveilig. Een slecht gegenereerde set kan echte individuen reproduceren. Privacy moet expliciet worden gevalideerd, niet aangenomen.
Synthetic data is niet onbeperkt en gratis “extra” kennis. Het kan alleen patronen bevatten die in de brondata zaten. Je krijgt er geen informatie bij die er niet al was.
Synthetic data is niet zonder risico voor modelkwaliteit. Te veel trainen op AI-gegenereerde data kan leiden tot model collapse, waarbij prestaties geleidelijk verslechteren.
Synthetic data is niet hetzelfde als data-augmentatie. Augmentatie varieert bestaande echte voorbeelden (een foto spiegelen); synthetic data genereert nieuwe voorbeelden. Ze overlappen, maar zijn niet identiek.

06Plek in het AIWiser-ecosysteem

Waar dit begrip terugkomt op de rest van de site:

AI-Begrippen · GAN

Een van de belangrijkste technieken om realistische synthetische data te genereren, vooral voor beeld en tabellaire data.

Naar GAN →

AI-Begrippen · Data

De echte data die synthetic data nabootst — en het bredere begrip waarbinnen dit valt.

Naar Data →

AI-Begrippen · Model Collapse

Het risico dat ontstaat als modellen te veel op hun eigen synthetische output worden getraind.

Naar Model Collapse →

AI-Begrippen · Trainingsdata

Synthetische data wordt vaak ingezet om schaarse trainingsdata aan te vullen of te vervangen.

Naar Trainingsdata →

Verwante begrippen

Termen die direct met synthetic data verbonden zijn:

Bronnen

Wetenschappelijke en gezaghebbende bronnen die bij deze definitie geraadpleegd zijn. De volledige onderbouwing en context staat in AI-Publicaties.

Jordon et al. (2022): Synthetic Data — What, Why and How? Een toegankelijk overzichtsrapport dat de definities, technieken en toepassingen van synthetische data systematisch in kaart brengt — een goede ingang tot het onderwerp.
Wetenschappelijk artikel · Origineel ↗
Shumailov et al. (2023): The Curse of Recursion — Training on Generated Data Makes Models Forget Het invloedrijke paper dat het risico van model collapse aantoonde — onmisbaar om de grenzen van synthetische data te begrijpen.
Wetenschappelijk artikel · Origineel ↗
Stanford HAI: AI Index Report 2026 Jaarlijkse stand van zaken over data in AI — de toenemende schaarste aan echte trainingsdata en de groeiende rol van synthetische data.
Jaarrapport · Origineel ↗