Wat is synthetic data?
Kunstmatig gegenereerde data — een oplossing voor dataschaarste en privacy
Snel Antwoord
Synthetic data — synthetische data — is kunstmatig gegenereerde data die echte data nabootst, in plaats van te worden verzameld uit de werkelijkheid. Ze wordt gemaakt door modellen die de statistische eigenschappen van echte data leren en op basis daarvan nieuwe, realistische voorbeelden produceren. De grote waarde zit in twee dingen: het oplossen van dataschaarste (te weinig echte voorbeelden om een model goed te trainen) en het beschermen van privacy (synthetische data bevat geen echte personen). Technieken als GANs en moderne generatieve modellen maken dit mogelijk. In 2026 is synthetic data een snelgroeiend onderwerp, mede doordat hoogwaardige echte data voor het trainen van grote modellen schaarser wordt — al brengt het ook eigen risico’s mee, zoals het versterken van fouten en bias.
01In één alinea
Stel je een vluchtsimulator voor. Een piloot kan daarin honderden noodsituaties oefenen — motoruitval, storm, systeemfouten — zonder dat er ooit een echt vliegtuig in gevaar komt. De situaties zijn niet echt, maar wel realistisch genoeg om er waardevol van te leren. Synthetic data werkt op dezelfde manier voor AI: het zijn kunstmatig gemaakte voorbeelden die de echte wereld nabootsen, zodat een model ervan kan leren zonder dat je over de echte data hoeft te beschikken — of die nu te schaars, te duur of te privacygevoelig is. Een ziekenhuis dat te weinig patiëntcases heeft, een bank die geen echte fraudegevallen mag delen, een zelfrijdende auto die zeldzame ongevallen moet leren herkennen: in al die gevallen vult synthetische data het gat. Het is geen vervanging van de werkelijkheid, maar een realistische oefenwereld — met als belangrijke kanttekening dat een simulator alleen zo goed is als het model van de werkelijkheid waarop hij gebouwd is.
02Voor de strateeg
Synthetic data is een van de praktischere antwoorden op het hardnekkigste probleem in AI: te weinig bruikbare data. Voor wie erover beslist, telt vooral waar het wél en níét past.
03Technisch diep
Synthetic data is een verzamelnaam voor verschillende technieken, met elk eigen toepassingen en risico’s.
Hoe het gemaakt wordt:
Synthetische data kan op meerdere manieren ontstaan. Generatieve modellen zoals GANs en diffusiemodellen leren de verdeling van echte data en genereren nieuwe voorbeelden die daarop lijken — populair voor beelden en tabellaire data. Taalmodellen genereren synthetische tekst, bijvoorbeeld voor het trainen of bijschaven van andere modellen. En simulatie bouwt data op uit regels en modellen van de werkelijkheid, zoals een virtuele rij-omgeving voor zelfrijdende auto’s.
De twee hoofdtoepassingen:
De eerste is dataschaarste oplossen: te weinig echte voorbeelden aanvullen met kunstmatige, of zeldzame gevallen oversamplen zodat een model ze beter leert. Dit grenst aan data-augmentatie, waar bestaande data wordt gevarieerd. De tweede is privacy: een synthetische dataset genereren die statistisch lijkt op de echte, maar geen herleidbare personen bevat — zodat die gedeeld of extern gebruikt mag worden.
Synthetische data voor taalmodellen:
Een opkomende toepassing is het trainen van grote modellen op door AI gegenereerde data. Nu hoogwaardige menselijke tekst schaarser wordt, gebruiken ontwikkelaars steeds vaker synthetische voorbeelden — bijvoorbeeld een sterk model dat trainingsdata genereert voor een kleiner model (verwant aan self-instruct en knowledge distillation). Krachtig, maar met het risico dat fouten van het ene model worden doorgegeven aan het volgende.
Het risico van model collapse:
Een belangrijk gevaar is model collapse: als modellen herhaaldelijk worden getraind op data die door eerdere modellen is gegenereerd, kan de kwaliteit geleidelijk degraderen. De synthetische data vlakt de uitersten en de variatie van de echte wereld af, en dat verlies stapelt zich op. Een gezonde mix van echte en synthetische data, met echte data als anker, is daarom doorgaans noodzakelijk.
Validatie is onmisbaar:
Synthetische data mag je nooit blind vertrouwen. Twee controles zijn cruciaal. Kwaliteit: lijkt de synthetische data statistisch genoeg op de echte om bruikbaar te zijn, zonder belangrijke patronen te missen? Privacy: bij privacytoepassingen moet je verifiëren dat het model geen echte individuen heeft gememoriseerd en gereproduceerd — via toetsen die nagaan of synthetische records herleidbaar zijn tot echte personen.
04In de praktijk
Een Nederlandse bank wil een model trainen dat frauduleuze transacties herkent. Het probleem is dubbel: echte fraudegevallen zijn zeldzaam (te weinig voorbeelden) én extreem privacygevoelig (mag niet zomaar gedeeld of breed gebruikt worden).
De bank valideert zorgvuldig dat de synthetische gevallen geen echte klanten reproduceren én dat ze de echte fraudepatronen goed genoeg nabootsen. Het model wordt getraind op een mix van echt en synthetisch. Dit is een van de waardevolste toepassingen van synthetic data in 2026: het overbruggen van schaarste en privacy tegelijk — mits met de juiste controles.
Praktische lessen voor wie met synthetic data werkt:
Houd echte data als anker. Train zelden uitsluitend op synthetische data. Een mix met echte data voorkomt dat het model wegdrijft van de werkelijkheid en beschermt tegen kwaliteitsverlies.
Valideer op twee fronten: kwaliteit én privacy. Controleer of de synthetische data realistisch genoeg is, en — bij privacytoepassingen — of er geen echte individuen herleidbaar in terugkomen. Beide checks zijn noodzakelijk.
Onthoud dat synthetische data je bias erft. Zat er vertekening in de brondata, dan zit die ook in de synthetische data — soms zelfs versterkt. Synthetisch betekent niet neutraal.
05Verwarring vermijden
- Synthetic data is niet hetzelfde als nepdata of willekeurige onzin. Het is doelbewust gegenereerd om de statistische eigenschappen van echte data na te bootsen, niet zomaar verzonnen getallen.
- Synthetic data is niet automatisch privacyveilig. Een slecht gegenereerde set kan echte individuen reproduceren. Privacy moet expliciet worden gevalideerd, niet aangenomen.
- Synthetic data is niet onbeperkt en gratis “extra” kennis. Het kan alleen patronen bevatten die in de brondata zaten. Je krijgt er geen informatie bij die er niet al was.
- Synthetic data is niet zonder risico voor modelkwaliteit. Te veel trainen op AI-gegenereerde data kan leiden tot model collapse, waarbij prestaties geleidelijk verslechteren.
- Synthetic data is niet hetzelfde als data-augmentatie. Augmentatie varieert bestaande echte voorbeelden (een foto spiegelen); synthetic data genereert nieuwe voorbeelden. Ze overlappen, maar zijn niet identiek.
06Plek in het AIWiser-ecosysteem
Waar dit begrip terugkomt op de rest van de site:
AI-Begrippen · GAN
Een van de belangrijkste technieken om realistische synthetische data te genereren, vooral voor beeld en tabellaire data.
Naar GAN →AI-Begrippen · Data
De echte data die synthetic data nabootst — en het bredere begrip waarbinnen dit valt.
Naar Data →AI-Begrippen · Model Collapse
Het risico dat ontstaat als modellen te veel op hun eigen synthetische output worden getraind.
Naar Model Collapse →AI-Begrippen · Trainingsdata
Synthetische data wordt vaak ingezet om schaarse trainingsdata aan te vullen of te vervangen.
Naar Trainingsdata →Verwante begrippen
Termen die direct met synthetic data verbonden zijn:
Bronnen
Wetenschappelijke en gezaghebbende bronnen die bij deze definitie geraadpleegd zijn. De volledige onderbouwing en context staat in AI-Publicaties.
- Jordon et al. (2022): Synthetic Data — What, Why and How? Een toegankelijk overzichtsrapport dat de definities, technieken en toepassingen van synthetische data systematisch in kaart brengt — een goede ingang tot het onderwerp.
- Shumailov et al. (2023): The Curse of Recursion — Training on Generated Data Makes Models Forget Het invloedrijke paper dat het risico van model collapse aantoonde — onmisbaar om de grenzen van synthetische data te begrijpen.
- Stanford HAI: AI Index Report 2026 Jaarlijkse stand van zaken over data in AI — de toenemende schaarste aan echte trainingsdata en de groeiende rol van synthetische data.
