AIWiser / AI-Begrippen / De Basis & Concepten

Wat is data?

De brandstof van kunstmatige intelligentie — de informatie waarmee elk model leert

Niveau Fundamenteel

Engels Data

Categorie Fundamenten, datastromen

Status Onveranderlijk fundament — relevanter dan ooit door schaalwetten en datakwaliteit

Door Peter & AI·Laatst herzien: juni 2026

Snel Antwoord

Data is de informatie waarmee AI-systemen leren — de brandstof waarop elk machine learning-model draait. Het kan van alles zijn: getallen in een spreadsheet, tekst, afbeeldingen, geluid, sensormetingen of klikgedrag. Een model herkent geen patronen die niet in de data zitten, en het neemt vooroordelen en fouten in die data ongezien over. Daarom geldt in AI de ijzeren wet: garbage in, garbage out. In 2026 is niet zozeer de hoeveelheid data het knelpunt, maar de kwaliteit, herkomst en juridische houdbaarheid ervan. Wie AI serieus inzet, investeert minstens zoveel in zijn data als in zijn modellen — vaak meer.

01In één alinea

Stel je een sterrenkok voor met de beste apparatuur ter wereld, maar met rotte groenten en bedorven vis in de voorraadkast. Hoe verfijnd zijn techniek ook is, het gerecht wordt oneetbaar. Zo werkt het ook met AI: een model is de kok, het algoritme is de techniek, maar de data zijn de ingrediënten. Geef een model schone, gevarieerde en representatieve data, en het leert genuanceerde patronen. Geef het rommelige, eenzijdige of foutieve data, en het leert die fouten net zo nauwgezet aan — en presenteert ze later met overtuiging als waarheid. Data bepaalt niet alleen wat een model kán, maar ook wat het systematisch verkeerd doet. Het is geen bijzaak naast de techniek; het is het fundament waarop alles rust.

02Voor de strateeg

Voor wie beslissingen neemt over AI is data zelden een technisch detail — het is de plek waar de meeste projecten slagen of stranden.

Datakwaliteit bepaalt modelkwaliteit De grootste denkfout bij AI-projecten is alle aandacht op het model richten en de data als gegeven beschouwen. In de praktijk gaat het overgrote deel van de tijd in een serieus AI-traject op aan het verzamelen, opschonen en structureren van data. Een gemiddeld model op uitstekende data verslaat vrijwel altijd een uitstekend model op gemiddelde data. Voor de strateeg betekent dit: budgetteer voor datawerk, niet alleen voor modellen en rekenkracht.

Data als strategisch bezit Modellen zijn steeds vaker een commodity — vrijwel iedereen heeft toegang tot vergelijkbare algoritmes. Wat een organisatie onderscheidt, is haar eigen, unieke data: klantgedrag, transactiegeschiedenis, domeinspecifieke kennis. Die data is moeilijk te kopiëren en vormt daarmee een echte concurrentievoorsprong. De vraag “welke data hebben wij die niemand anders heeft?” is in 2026 een strategische vraag, geen IT-vraag.

Herkomst, privacy en governance Data brengt verplichtingen mee. De AVG stelt strikte eisen aan het gebruik van persoonsgegevens, en de EU AI Act voegt daar eisen aan toe over datakwaliteit en documentatie voor hoog-risico systemen. Tegelijk speelt de auteursrechtkwestie rond trainingsdata. Wie niet kan aantonen waar zijn data vandaan komt en of die rechtmatig gebruikt mag worden, loopt juridisch en reputationeel risico. Datagovernance is daarmee een bestuurlijke verantwoordelijkheid geworden.

03Technisch diep

Achter het woord “data” gaat een wereld van onderscheidingen schuil die bepalen wat een model ermee kan.

Soorten data: gestructureerd, ongestructureerd, semi-gestructureerd:

Gestructureerde data staat netjes in rijen en kolommen — denk aan een database of spreadsheet met klantnummers, bedragen en datums. Ongestructureerde data heeft geen vast formaat: tekst, e-mails, afbeeldingen, video, audio. Naar schatting is het grootste deel van alle data ter wereld ongestructureerd, en juist het verwerken daarvan maakte de doorbraak van moderne AI mogelijk. Semi-gestructureerde data zit ertussenin: formaten als JSON of XML hebben wel structuur, maar geen strak tabelschema.

Gelabelde versus ongelabelde data:

Data wordt waardevol voor leren afhankelijk van wat eraan vastzit. Gelabelde data bevat het juiste antwoord — een foto met het label “kat”, een e-mail met het label “spam”. Die is nodig voor supervised learning, maar labelen is duur en arbeidsintensief. Ongelabelde data heeft geen antwoorden en is overvloedig aanwezig; modellen vinden er zelf patronen in via unsupervised of self-supervised methodes. De data die specifiek voor het trainen wordt gebruikt, heet trainingsdata.

De datapijplijn: van ruw naar bruikbaar:

Ruwe data is zelden direct bruikbaar. Een typische pijplijn omvat: verzamelen (uit databases, sensoren, web, gebruikersinteracties), opschonen (dubbelingen, ontbrekende waarden en fouten verwijderen), transformeren (eenheden gelijktrekken, normaliseren), eventueel labelen, en ten slotte splitsen in een trainingsset, een validatieset en een testset. Die splitsing is cruciaal: een model dat op dezelfde data wordt getest waarop het is getraind, lijkt briljant maar zegt niets over prestaties in de echte wereld.

Datakwaliteit en bias:

De wet “garbage in, garbage out” is geen cliché maar de dagelijkse realiteit. Onvolledige, verouderde of eenzijdige data leidt tot onbetrouwbare modellen. Gevaarlijker nog is bias: als de data een vertekend beeld van de werkelijkheid geeft — bijvoorbeeld doordat bepaalde groepen ondervertegenwoordigd zijn — leert het model die vertekening en versterkt die vaak. Een model dat alleen historische data ziet, reproduceert ook de fouten uit het verleden.

Schaal versus kwaliteit:

Lange tijd gold: meer data is beter, en schaalwetten lieten zien dat grotere datasets tot betere modellen leidden. In 2026 is dat beeld genuanceerder. Voor de allergrootste modellen begint hoogwaardige menselijke tekst schaars te worden, en het trainen op door AI gegenereerde data brengt eigen risico’s mee (zie model collapse). De aandacht verschuift van “meer data” naar “betere, schonere en beter gedocumenteerde data”.

04In de praktijk

Voorbeeld — Een Nederlandse retailer wil de vraag beter voorspellen

Een middelgrote retailketen wil met AI de voorraad per filiaal optimaliseren. Het project staat of valt met de data over verkopen, weer, promoties en seizoenen uit de afgelopen jaren.

Met rommelige data Verkoopcijfers verspreid over losse systemen, ontbrekende periodes, filialen die producten anders coderen, promoties nergens vastgelegd. Het model leert misleidende patronen en adviseert voorraden die er structureel naast zitten. Vertrouwen verdwijnt na een paar weken.

Met goed voorbereide data Verkoopdata uit alle filialen samengevoegd en gestandaardiseerd, ontbrekende periodes gemarkeerd, promoties en weerdata gekoppeld. Het model herkent echte seizoens- en promotiepatronen en levert voorspellingen waar de inkoop daadwerkelijk op durft te sturen.

Het verschil tussen beide scenario’s zit niet in het model — dat kan identiek zijn — maar volledig in de data. Het is geen toeval dat de retailer het grootste deel van het project aan datawerk besteedt voordat er één voorspelling wordt gedaan.

Praktische lessen voor wie met data werkt:

Begin bij de data, niet bij het model. Voordat je een modelkeuze maakt, breng je in kaart welke data je hebt, hoe betrouwbaar die is en wat ontbreekt. Een eerlijke data-inventarisatie voorkomt teleurstellingen verderop.

Documenteer herkomst en aannames. Leg vast waar elke dataset vandaan komt, wanneer die is verzameld en welke bewerkingen erop zijn gedaan. Dat is niet alleen goede governance, het is in toenemende mate ook een wettelijke eis.

Zoek actief naar wat ontbreekt. Vraag bij elke dataset welke groepen, periodes of situaties er níét in zitten. De gaten in je data bepalen waar je model straks blind is.

05Verwarring vermijden

Data is niet hetzelfde als informatie of kennis. Data zijn ruwe feiten en metingen. Pas door interpretatie en context worden ze informatie, en pas door begrip kennis. Een model dat data verwerkt, produceert niet automatisch kennis.
Data is niet hetzelfde als trainingsdata. Trainingsdata is de specifieke deelverzameling die je gebruikt om een model te trainen. Niet alle data wordt trainingsdata — een deel houd je apart om te valideren en te testen.
Meer data is niet automatisch beter. Een grotere maar eenzijdige of vervuilde dataset kan een model juist slechter maken. Representativiteit en kwaliteit wegen vaak zwaarder dan pure omvang.
Data is niet hetzelfde als big data. Big data verwijst naar datasets die zó groot of snel zijn dat ze speciale techniek vereisen. De meeste praktische AI-projecten draaien op gewone, hanteerbare data.
Ruwe data is geen bruikbare data. Tussen het verzamelen en het trainen zit een hele bewerkingsstap. Wie ruwe data rechtstreeks een model in gooit, krijgt vrijwel zeker onbetrouwbare resultaten.

06Plek in het AIWiser-ecosysteem

Waar dit begrip terugkomt op de rest van de site:

AI-Begrippen · Trainingsdata

De deelverzameling van data die specifiek dient om een model patronen te laten leren — de directe brug van data naar machine learning.

Naar Trainingsdata →

AI-Begrippen · Machine Learning

De methode die patronen uit data haalt — zonder data is er geen machine learning mogelijk.

Naar Machine Learning →

AI-Begrippen · Bias

Vertekeningen in de data worden door modellen overgenomen en versterkt — het belangrijkste risico van slechte data.

Naar Bias →

AI-Begrippen · Big Data

Wat er gebeurt als data zó groot en snel wordt dat ze speciale infrastructuur vereist.

Naar Big Data →

Verwante begrippen

Termen die direct met data verbonden zijn:

Bronnen

Wetenschappelijke en gezaghebbende bronnen die bij deze definitie geraadpleegd zijn. De volledige onderbouwing en context staat in AI-Publicaties.

Halevy, Norvig & Pereira (Google, 2009): The Unreasonable Effectiveness of Data Het invloedrijke essay dat aantoonde dat grote hoeveelheden data vaak belangrijker zijn dan slimmere algoritmes — een van de denkbeelden die de data-gedreven AI-era inleidde.
Wetenschappelijk artikel · Origineel ↗
Gebru et al. (2018): Datasheets for Datasets Het paper dat documentatie van datasets — herkomst, samenstelling en beperkingen — tot standaard maakte; fundament onder verantwoorde datagovernance.
Wetenschappelijk artikel · Origineel ↗
Stanford HAI: AI Index Report 2026 Jaarlijkse stand van zaken over data in AI — de toenemende schaarste aan hoogwaardige trainingsdata en de groeiende rol van datakwaliteit en herkomst.
Jaarrapport · Origineel ↗