Wat is Tokenization?
Hoe AI tekst opsplitst in stukjes — en waarom dat de kosten en kwaliteit bepaalt
Snel Antwoord
Tokenization is het proces waarbij tekst wordt opgesplitst in kleinere eenheden — tokens — die een AI-model kan verwerken. Een token kan een woord zijn, een lettergreep, een paar tekens of zelfs één karakter. Voor moderne taalmodellen is een Engels woord typisch één token, maar Nederlandse, Duitse en samengestelde woorden worden vaak in twee of drie tokens opgesplitst. Dit klinkt technisch maar heeft directe praktische gevolgen: tokens bepalen de kosten van AI-gebruik (je betaalt per token), de maximale tekstlengte die het model kan verwerken (context window), en zelfs de kwaliteit van het resultaat in verschillende talen. Wie tokenization begrijpt, begrijpt waarom AI-gebruik in het Nederlands duurder is dan in het Engels — en kan daar strategisch mee omgaan.
01In één alinea
Een computer kan niet rechtstreeks met letters of woorden werken — alleen met getallen. Tokenization is de eerste vertaalstap: tekst wordt opgesplitst in tokens, en elk token krijgt een nummer in een vast vocabulaire. Het model werkt vervolgens uitsluitend met die nummers. Hoe je tekst opsplitst lijkt triviaal, maar is een fundamentele ontwerpkeuze. Splits je in losse karakters? Dan wordt elke tekst extreem lang (duizenden tokens voor één pagina) maar werkt het in elke taal. Splits je in hele woorden? Dan zijn teksten kort, maar een nieuw woord dat niet in het vocabulaire staat is onmogelijk te verwerken. Moderne tokenizers vinden een middenweg — ze splitsen in subword units, ongeveer ter grootte van lettergrepen of veelvoorkomende woorddelen. Dit klinkt als een implementatiedetail, maar bepaalt fundamenteel hoe je AI-toepassing presteert in verschillende talen, hoeveel hij kost, en wat zijn beperkingen zijn.
02Voor de strateeg
Voor wie strategisch over AI denkt is tokenization geen technisch detail maar een factor met directe financiële en operationele gevolgen.
03Technisch diep
Moderne tokenization-methoden hebben een specifieke evolutie doorgemaakt. Begrijpen van deze methoden verklaart waarom huidige systemen werken zoals ze werken.
Karakter-tokenization. De simpelste vorm: elke letter is een token. Voor het woord “tokenization” zijn dat 12 tokens. Voordeel: werkt voor elke taal en elk woord. Nadeel: extreem inefficiënt — teksten worden zeer lang, modellen hebben moeite met betekenisvolle patronen op langere afstand. Wordt zelden gebruikt in moderne LLMs.
Woord-tokenization. Elk woord is een token. “Tokenization is the process” wordt 4 tokens. Voordeel: efficiënt en intuïtief. Nadeel: het vocabulaire moet enorm groot zijn (alle woorden in alle talen plus alle vormen), en nieuwe woorden zijn niet te verwerken. Werd gebruikt in vroege NLP-systemen, vrijwel niet meer in moderne LLMs.
Subword tokenization. De moderne aanpak: tekst wordt opgesplitst in stukjes die kleiner zijn dan woorden maar groter dan karakters. Het vocabulaire bevat veelvoorkomende woorden, woorddelen en lettergrepen. Een veelgebruikt woord als “the” is één token; een minder veel voorkomend woord als “tokenization” wordt opgesplitst in bijvoorbeeld “token” + “ization.” Dit balanceert efficiëntie met flexibiliteit.
De drie dominante subword-algoritmes:
Byte-Pair Encoding (BPE). Begin met losse karakters, voeg iteratief de meest voorkomende paren samen tot een vooraf bepaalde vocabulaire-grootte. Werd populair via GPT-2 en wordt gebruikt door GPT-3, GPT-4 en de meeste OpenAI-modellen.
WordPiece. Verwante methode, ontwikkeld voor BERT. Vergelijkbaar resultaat als BPE maar met iets andere statistische optimalisatie. Wordt gebruikt door Google’s modellen.
SentencePiece. Een meer taalonafhankelijke variant die ook goed werkt voor talen zonder spaties (Chinees, Japans). Wordt gebruikt door Llama, Mistral en Claude.
Wat staat er in een typisch vocabulaire? Modern LLM-vocabulaires hebben 50.000 tot 200.000 tokens. De helft daarvan zijn complete Engelse woorden of veelvoorkomende combinaties. De andere helft zijn fragmenten — voorvoegsels, achtervoegsels, lettergrepen, niet-Engelse fragmenten. Voor Engelse tekst is dat één token per woord. Voor Nederlands, met meer samengestelde woorden en minder vertegenwoordiging in trainingsdata, gemiddeld 1,5 tot 2 tokens per woord.
De praktische gevolgen voor verschillende talen:
Engels. Circa 1 token per woord. Optimaal voor moderne LLMs.
Nederlands, Duits, Frans. Circa 1,3-1,8 tokens per woord. 30-80% extra kosten en context-gebruik vergeleken met Engels.
Chinees, Japans. Per karakter een of meer tokens, afhankelijk van de tokenizer. Kan zowel efficiënter als minder efficiënt zijn dan Engels, sterk afhankelijk van het specifieke model.
Programmeercode. Afhankelijk van de taal. Python wordt vaak goed getokeniseerd; minder gangbare talen of complexe syntax kunnen tot meer tokens leiden.
Hoe werkt een token in de praktijk? Wanneer je een prompt naar een LLM stuurt, gebeurt het volgende:
Stap 1 — Tokenization. Je tekst wordt opgesplitst in tokens. “Wat is AI?” wordt bijvoorbeeld [“Wat”, ” is”, ” AI”, “?”] — vier tokens.
Stap 2 — Encoding. Elk token krijgt een nummer uit het vocabulaire. [“Wat”, ” is”, ” AI”, “?”] wordt [1842, 318, 17985, 30].
Stap 3 — Embedding. Elk nummer wordt omgezet in een vector via een embedding-tabel. Nu pas heeft het model iets om mee te rekenen.
Stap 4 — Generatie. Het model produceert nieuwe nummers (tokens), die via reverse-tokenization weer terug worden vertaald naar tekst.
De fundamentele beperkingen:
Tokenizer-bias. Wat tijdens het bouwen van het vocabulaire vaak voorkwam, krijgt eigen tokens. Engelse woorden, technische termen uit de software-industrie, populaire merknamen — allemaal goed gerepresenteerd. Nederlandse jargon, regionale dialecten, nieuwe terminologie — vaak slecht.
Token-grenzen storen begrip. Wanneer een woord wordt gesplitst, kan dit subtiele effecten hebben op het model-begrip. “Tokenization” als één woord versus “Token” + “ization” als twee tokens kan tot iets verschillende interne representaties leiden.
Numerieke beperkingen. Getallen worden vaak vreemd getokeniseerd — “2026” wordt mogelijk één token, maar “2027” twee tokens. Dit verklaart waarom LLMs soms onverwacht falen op rekenkundige taken: het model “ziet” getallen niet zoals mensen ze zien.
04In de praktijk
Een Nederlandse webwinkel wil een AI-assistent voor klantenservice. Verwacht: 10.000 klantgesprekken per maand, gemiddeld 1.000 woorden per gesprek (vragen plus antwoorden). Kostenberekening op basis van Claude API-tarieven:
Dit voorbeeld toont waarom tokenization geen technisch detail is voor strategie. Voor een Nederlandse organisatie betekent het structureel hogere AI-kosten — een factor om in budgetten te verwerken en niet pas achteraf te ontdekken.
Praktische lessen voor wie tokens efficiënt wil gebruiken:
Test je teksten in een token-counter. OpenAI, Anthropic en andere leveranciers bieden gratis online token-counters. Door je typische teksten daar in te plakken, krijg je een realistische schatting van je werkelijke tokenverbruik.
Engels overwegen voor systeem-prompts. Voor de “achterkant” van je toepassing (system prompts, instructies aan het model) kun je vaak Engels gebruiken, ook als de eindgebruiker Nederlands ziet. Engelse instructies zijn 30-50% goedkoper en even effectief.
Compacte taal kiest minder tokens. “Geef antwoord op deze vraag in maximaal drie zinnen” is veel meer tokens dan “Beantwoord beknopt in 3 zinnen.” Voor system prompts loont compacte formulering.
Specialistisch jargon kost extra. Wanneer je werkt met domein-specifieke afkortingen, productcodes of jargon, overweeg deze in de prompt te definiëren of te vermijden waar mogelijk. Een lange medische code kan tien tokens kosten waar een eenvoudige beschrijving er drie zou kosten.
Streaming bij lange uitvoer. Wanneer het model lange antwoorden genereert, gebruik streaming-output. Daarmee zie je de tekst verschijnen terwijl die wordt gegenereerd — de gebruiker hoeft niet te wachten tot de hele tekst klaar is. Hetzelfde aantal tokens, maar betere gebruikerservaring.
05Verwarring vermijden
- Niet hetzelfde als woorden. Een token is geen woord. Veel woorden zijn één token, maar veel zijn dat niet — vooral in niet-Engelse talen. Bij capaciteitsplanning op tokens rekenen, niet op woorden.
- Niet hetzelfde als karakters. Een token bevat meestal meerdere karakters. Bij API-limieten op tokens letten, niet op karakters.
- Niet hetzelfde tussen modellen. Verschillende modellen gebruiken verschillende tokenizers. GPT-4 telt anders dan Claude, die anders telt dan Gemini. Bij modelvergelijking en kostenanalyse: tellen met de juiste tokenizer.
- Niet onveranderlijk. Tokenizers worden geüpdatet bij nieuwe modelversies. GPT-3 telt iets anders dan GPT-4. Bij planning rekening houden met mogelijke wijzigingen bij upgrades.
- Niet menselijk-intuïtief. Hoe een tokenizer tekst opsplitst is vaak verrassend. “Strawberry” wordt soms in vier tokens opgesplitst (str-aw-berr-y). Dit verklaart bekende grappen over LLMs die niet kunnen tellen hoeveel “r”-en in “strawberry” zitten — vanuit het perspectief van het model is dat geen losse letters maar tokens.
06Plek in het AIWiser-ecosysteem
Waar dit begrip terugkomt op de rest van de site:
AI-Strategie · Kostenbudgettering
Tokenization is een directe factor in operationele AI-kosten — relevant voor elke business case.
Naar de strategie →AI-Groeimodel · Technische geletterdheid
Begrip van tokens is fundamenteel voor wie AI-toepassingen ontwerpt of beoordeelt.
Naar het Groeimodel →AI-Rollen · Prompt Engineer
Effectief omgaan met tokens is een centraal aandachtspunt voor wie productie-prompts ontwerpt.
Bekijk de rol →AI Top 100 · Foundation Models
Verschillende foundation models gebruiken verschillende tokenizers — relevant voor leveranciersselectie.
Naar de Top 100 →Verwante begrippen
Termen die direct met tokenization verbonden zijn:
Bronnen
Wetenschappelijke en gezaghebbende bronnen die bij deze definitie geraadpleegd zijn. De volledige onderbouwing en context staat in AI-Publicaties.
- Sennrich, Haddow & Birch (2016): Neural Machine Translation of Rare Words with Subword Units Het paper dat Byte-Pair Encoding voor moderne NLP populariseerde.
- Kudo & Richardson (2018): SentencePiece — A simple and language independent subword tokenizer Het paper achter SentencePiece, gebruikt door Llama, Mistral en Claude.
- OpenAI: Tokenizer documentatie Officiële uitleg van OpenAI over hun tokenizer en hoe je tokens telt — met online tool.
- Stanford HAI: AI Index Report 2026 Jaarlijkse stand van zaken over multilinguale AI-prestaties en kostenstructuren.
