Wat is data?
De brandstof van kunstmatige intelligentie — de informatie waarmee elk model leert
Snel Antwoord
Data is de informatie waarmee AI-systemen leren — de brandstof waarop elk machine learning-model draait. Het kan van alles zijn: getallen in een spreadsheet, tekst, afbeeldingen, geluid, sensormetingen of klikgedrag. Een model herkent geen patronen die niet in de data zitten, en het neemt vooroordelen en fouten in die data ongezien over. Daarom geldt in AI de ijzeren wet: garbage in, garbage out. In 2026 is niet zozeer de hoeveelheid data het knelpunt, maar de kwaliteit, herkomst en juridische houdbaarheid ervan. Wie AI serieus inzet, investeert minstens zoveel in zijn data als in zijn modellen — vaak meer.
01In één alinea
Stel je een sterrenkok voor met de beste apparatuur ter wereld, maar met rotte groenten en bedorven vis in de voorraadkast. Hoe verfijnd zijn techniek ook is, het gerecht wordt oneetbaar. Zo werkt het ook met AI: een model is de kok, het algoritme is de techniek, maar de data zijn de ingrediënten. Geef een model schone, gevarieerde en representatieve data, en het leert genuanceerde patronen. Geef het rommelige, eenzijdige of foutieve data, en het leert die fouten net zo nauwgezet aan — en presenteert ze later met overtuiging als waarheid. Data bepaalt niet alleen wat een model kán, maar ook wat het systematisch verkeerd doet. Het is geen bijzaak naast de techniek; het is het fundament waarop alles rust.
02Voor de strateeg
Voor wie beslissingen neemt over AI is data zelden een technisch detail — het is de plek waar de meeste projecten slagen of stranden.
03Technisch diep
Achter het woord “data” gaat een wereld van onderscheidingen schuil die bepalen wat een model ermee kan.
Soorten data: gestructureerd, ongestructureerd, semi-gestructureerd:
Gestructureerde data staat netjes in rijen en kolommen — denk aan een database of spreadsheet met klantnummers, bedragen en datums. Ongestructureerde data heeft geen vast formaat: tekst, e-mails, afbeeldingen, video, audio. Naar schatting is het grootste deel van alle data ter wereld ongestructureerd, en juist het verwerken daarvan maakte de doorbraak van moderne AI mogelijk. Semi-gestructureerde data zit ertussenin: formaten als JSON of XML hebben wel structuur, maar geen strak tabelschema.
Gelabelde versus ongelabelde data:
Data wordt waardevol voor leren afhankelijk van wat eraan vastzit. Gelabelde data bevat het juiste antwoord — een foto met het label “kat”, een e-mail met het label “spam”. Die is nodig voor supervised learning, maar labelen is duur en arbeidsintensief. Ongelabelde data heeft geen antwoorden en is overvloedig aanwezig; modellen vinden er zelf patronen in via unsupervised of self-supervised methodes. De data die specifiek voor het trainen wordt gebruikt, heet trainingsdata.
De datapijplijn: van ruw naar bruikbaar:
Ruwe data is zelden direct bruikbaar. Een typische pijplijn omvat: verzamelen (uit databases, sensoren, web, gebruikersinteracties), opschonen (dubbelingen, ontbrekende waarden en fouten verwijderen), transformeren (eenheden gelijktrekken, normaliseren), eventueel labelen, en ten slotte splitsen in een trainingsset, een validatieset en een testset. Die splitsing is cruciaal: een model dat op dezelfde data wordt getest waarop het is getraind, lijkt briljant maar zegt niets over prestaties in de echte wereld.
Datakwaliteit en bias:
De wet “garbage in, garbage out” is geen cliché maar de dagelijkse realiteit. Onvolledige, verouderde of eenzijdige data leidt tot onbetrouwbare modellen. Gevaarlijker nog is bias: als de data een vertekend beeld van de werkelijkheid geeft — bijvoorbeeld doordat bepaalde groepen ondervertegenwoordigd zijn — leert het model die vertekening en versterkt die vaak. Een model dat alleen historische data ziet, reproduceert ook de fouten uit het verleden.
Schaal versus kwaliteit:
Lange tijd gold: meer data is beter, en schaalwetten lieten zien dat grotere datasets tot betere modellen leidden. In 2026 is dat beeld genuanceerder. Voor de allergrootste modellen begint hoogwaardige menselijke tekst schaars te worden, en het trainen op door AI gegenereerde data brengt eigen risico’s mee (zie model collapse). De aandacht verschuift van “meer data” naar “betere, schonere en beter gedocumenteerde data”.
04In de praktijk
Een middelgrote retailketen wil met AI de voorraad per filiaal optimaliseren. Het project staat of valt met de data over verkopen, weer, promoties en seizoenen uit de afgelopen jaren.
Het verschil tussen beide scenario’s zit niet in het model — dat kan identiek zijn — maar volledig in de data. Het is geen toeval dat de retailer het grootste deel van het project aan datawerk besteedt voordat er één voorspelling wordt gedaan.
Praktische lessen voor wie met data werkt:
Begin bij de data, niet bij het model. Voordat je een modelkeuze maakt, breng je in kaart welke data je hebt, hoe betrouwbaar die is en wat ontbreekt. Een eerlijke data-inventarisatie voorkomt teleurstellingen verderop.
Documenteer herkomst en aannames. Leg vast waar elke dataset vandaan komt, wanneer die is verzameld en welke bewerkingen erop zijn gedaan. Dat is niet alleen goede governance, het is in toenemende mate ook een wettelijke eis.
Zoek actief naar wat ontbreekt. Vraag bij elke dataset welke groepen, periodes of situaties er níét in zitten. De gaten in je data bepalen waar je model straks blind is.
05Verwarring vermijden
- Data is niet hetzelfde als informatie of kennis. Data zijn ruwe feiten en metingen. Pas door interpretatie en context worden ze informatie, en pas door begrip kennis. Een model dat data verwerkt, produceert niet automatisch kennis.
- Data is niet hetzelfde als trainingsdata. Trainingsdata is de specifieke deelverzameling die je gebruikt om een model te trainen. Niet alle data wordt trainingsdata — een deel houd je apart om te valideren en te testen.
- Meer data is niet automatisch beter. Een grotere maar eenzijdige of vervuilde dataset kan een model juist slechter maken. Representativiteit en kwaliteit wegen vaak zwaarder dan pure omvang.
- Data is niet hetzelfde als big data. Big data verwijst naar datasets die zó groot of snel zijn dat ze speciale techniek vereisen. De meeste praktische AI-projecten draaien op gewone, hanteerbare data.
- Ruwe data is geen bruikbare data. Tussen het verzamelen en het trainen zit een hele bewerkingsstap. Wie ruwe data rechtstreeks een model in gooit, krijgt vrijwel zeker onbetrouwbare resultaten.
06Plek in het AIWiser-ecosysteem
Waar dit begrip terugkomt op de rest van de site:
AI-Begrippen · Trainingsdata
De deelverzameling van data die specifiek dient om een model patronen te laten leren — de directe brug van data naar machine learning.
Naar Trainingsdata →AI-Begrippen · Machine Learning
De methode die patronen uit data haalt — zonder data is er geen machine learning mogelijk.
Naar Machine Learning →AI-Begrippen · Bias
Vertekeningen in de data worden door modellen overgenomen en versterkt — het belangrijkste risico van slechte data.
Naar Bias →AI-Begrippen · Big Data
Wat er gebeurt als data zó groot en snel wordt dat ze speciale infrastructuur vereist.
Naar Big Data →Verwante begrippen
Termen die direct met data verbonden zijn:
Bronnen
Wetenschappelijke en gezaghebbende bronnen die bij deze definitie geraadpleegd zijn. De volledige onderbouwing en context staat in AI-Publicaties.
- Halevy, Norvig & Pereira (Google, 2009): The Unreasonable Effectiveness of Data Het invloedrijke essay dat aantoonde dat grote hoeveelheden data vaak belangrijker zijn dan slimmere algoritmes — een van de denkbeelden die de data-gedreven AI-era inleidde.
- Gebru et al. (2018): Datasheets for Datasets Het paper dat documentatie van datasets — herkomst, samenstelling en beperkingen — tot standaard maakte; fundament onder verantwoorde datagovernance.
- Stanford HAI: AI Index Report 2026 Jaarlijkse stand van zaken over data in AI — de toenemende schaarste aan hoogwaardige trainingsdata en de groeiende rol van datakwaliteit en herkomst.
