Wat is een Token?
De kleinste teksteenheid die een AI verwerkt — en de rekeneenheid waarop alles draait
Snel Antwoord
Een token is de kleinste eenheid waarmee een AI-model tekst verwerkt. Het is geen letter, geen woord, maar iets daartussen — een soort “woordbrokje”. Voor Engelse tekst komt één token ruwweg overeen met 0,75 woorden; voor Nederlands iets minder. De zin “Ik werk met AI” bestaat uit ongeveer 6 tokens. Tokens zijn de munt-eenheid van de AI-economie: prijzen worden gerekend per miljoen tokens, context-limieten worden uitgedrukt in tokens, en model-snelheid wordt gemeten in tokens per seconde. Voor wie alleen met chatbots werkt is dit een achtergrondbegrip; voor wie API’s gebruikt of kosten wil berekenen, is het centraal. Het begrip kost één minuut om te leren en bespaart eindeloos veel verwarring bij AI-prijzen en -limieten.
01In één alinea
Wanneer je een zin typt aan ChatGPT, Claude of Gemini, leest het model die zin niet als woorden of letters — het breekt hem op in tokens. Een token kan een heel woord zijn (“hond”), een deel van een woord (“ge-bouw-en” in drie tokens), een leesteken (“.”), of zelfs een spatie. Welke stukjes precies een token vormen, hangt af van een proces genaamd tokenization — een soort gespecialiseerd woordenboek dat het model gebruikt om tekst te ontleden. Voor het Engels werkt dit efficient (gemiddeld 4 letters per token); voor talen met veel samenstellingen zoals Nederlands of Duits is het minder efficient (vaak 2,5 tot 3 letters per token). Wat betekent dit praktisch? Een Nederlandse tekst kost meer tokens dan dezelfde tekst in het Engels, en dus duurder bij API-gebruik. Tokens zijn niet alleen techniek — ze zijn de eenheid waarin tijd, geld en geheugen van AI worden gemeten.
02Voor de strateeg
Tokens zijn de munt-eenheid van AI-economie. Drie strategische dimensies om over na te denken.
03Technisch diep
Tokens lijken een eenvoudig concept, maar zijn fundamenteler in AI-werking dan vaak wordt gerealiseerd.
Waarom geen woorden of letters? Vroege NLP-systemen werkten op woorden of letters. Beide hebben nadelen. Woorden zijn te grof — nieuwe woorden, samenstellingen en typefouten gooien het systeem in de war. Letters zijn te fijn — het kost te veel rekenkracht om relaties over lange afstanden te modelleren. Tokens zijn een compromis: stukjes die vaak voorkomen blijven samen (“the”, “ing”, “hond”), zeldzame stukken worden opgesplitst. Het resultaat is een vocabulaire van typisch 50.000 tot 100.000 tokens dat vrijwel elke tekst kan representeren.
Het tokenization-proces. Bij training van een model wordt een tokenizer gemaakt — meestal via Byte Pair Encoding (BPE) of SentencePiece. Het algoritme begint met losse letters en voegt stap voor stap veelvoorkomende combinaties samen tot een vast vocabulaire. Het resultaat is deterministisch: dezelfde tekst levert altijd dezelfde tokens op (zolang dezelfde tokenizer wordt gebruikt). Verschillende modellen hebben verschillende tokenizers; GPT-5.5 telt anders dan Claude Opus 4.7 telt anders dan Gemini 3.1 Pro.
Een concreet voorbeeld. De Engelse zin “The quick brown fox jumps over the lazy dog” bestaat uit 9 woorden en wordt door OpenAI’s tokenizer (cl100k_base) tot ongeveer 9 tokens omgezet — efficiënt, want elk woord is een token. De Nederlandse vertaling “De snelle bruine vos springt over de luie hond” bestaat uit 9 woorden, maar wordt vaak tot 12-14 tokens. Vooral “springt” en “bruine” worden in stukken gesneden (“sprin-gt”, “brui-ne”). Voor langere teksten loopt dit verschil op.
De vuistregels in 2026. Voor Engels: 1 token = circa 0,75 woorden = circa 4 letters. Voor Nederlands: 1 token = circa 0,5 woorden = circa 3 letters. Voor code: variabel, gemiddeld 0,4-0,6 tokens per teken. Voor cijfers: meestal één cijfer per token. Voor Aziatische talen (Chinees, Japans): vaak 1 karakter per token, soms minder. Voor emoji’s en speciale karakters: vaak meer tokens per teken dan voor gewone letters.
Token-tellers en gereedschappen. Voor wie precies wil weten hoeveel tokens een tekst kost, bestaan online tokenizers. OpenAI’s Tokenizer (platform.openai.com/tokenizer) toont visueel hoe een tekst in tokens wordt opgedeeld. Anthropic biedt vergelijkbare tools. Bij API-gebruik telt elke aanroep automatisch zowel input- als output-tokens, vaak inzichtelijk in een dashboard. Voor strategische planning kunnen organisaties hun typische teksten door zo’n teller halen om realistische kosten in te schatten.
Prijzen per miljoen tokens (mei 2026). Claude Opus 4.7: 15 dollar input / 75 dollar output per miljoen. Claude Sonnet 4.6: 3 dollar input / 15 dollar output. Claude Haiku 4.5: 0,80 dollar input / 4 dollar output. GPT-5.5: 12 dollar input / 60 dollar output. GPT-5.3 Instant: 2 dollar input / 10 dollar output. Gemini 3.1 Pro: 7 dollar input / 21 dollar output. Gemini 3 Flash: 0,35 dollar input / 1,40 dollar output. Mistral Large 2: 2 dollar input / 6 dollar output. Open-source modellen via Together AI of Groq: vaak 0,20 tot 1 dollar per miljoen. De spreiding is enorm — bij kostenbewustzijn loont leverancierskeuze.
Context window in tokens. Elke API heeft een maximum aan tokens dat in één aanroep kan worden verwerkt: het context window. Claude Opus 4.7: 1 miljoen tokens. GPT-5.5: 400.000 tokens standaard, 1 miljoen op Pro-tier. Gemini 3.1 Pro: 1 miljoen tokens. Een miljoen tokens komt overeen met ongeveer 750.000 Engelse woorden of 500.000 Nederlandse woorden — een complete reeks boeken. Voor de meeste taken volstaat 32.000 tokens. Grote context-windows zijn pas relevant voor specifieke toepassingen: complete codebases analyseren, hele juridische dossiers doorzoeken, langdurig agentic werk.
Prompt caching. Een belangrijke optimalisatie sinds 2024: prompt caching. Wanneer dezelfde input vaak terugkeert (een lange system prompt, een grote referentietekst), kunnen aanbieders die één keer verwerken en hergebruiken — tot 90% goedkoper en sneller. Voor productie-systemen met consistente prompts levert dit enorme besparingen. Anthropic, OpenAI en Google bieden allen prompt caching aan, met verschillende implementaties.
Multimodale tokens. Sinds 2024 zijn AI-modellen multimodaal — ze verwerken niet alleen tekst, maar ook beeld, audio en video. Voor de boekhouding worden ook deze in tokens omgerekend. Een afbeelding kost typisch 85 tot 1.700 tokens, afhankelijk van resolutie. Een minuut audio: 250-500 tokens. Een minuut video: enkele duizenden tokens. Voor multimodale toepassingen lopen de kosten anders — meestal door overheersing van visuele tokens.
Tokens per seconde. Naast prijzen worden tokens ook gebruikt om snelheid te meten. Snelle modellen produceren 200-400 tokens per seconde (de gebruiker ziet vlotte typing). Zware modellen in zware modi: 30-80 tokens per seconde — merkbaar trager maar grondiger. Gespecialiseerde infrastructuur (Groq, Cerebras) haalt boven 1.000 tokens per seconde voor specifieke modellen. Voor user-facing toepassingen is dit een belangrijke designkeuze: trager maar slimmer, of sneller maar oppervlakkiger?
04In de praktijk
Een Nederlandse organisatie wil de maandelijkse kosten van een nieuwe AI-toepassing inschatten. Twee benaderingen:
Praktische lessen voor wie met tokens wil rekenen:
Tel een keer wat je werkelijk gebruikt. Pak een typische input van je toepassing en haal hem door een tokenizer. Dat geeft een baseline. Reken vervolgens uit hoeveel input en output per maand realistisch zijn. Pas dan kies je een leverancier en model.
Reken op output, niet alleen input. Bij toepassingen met veel gegenereerde content (marketing, schrijfwerk, klantservice) zit het overgrote deel van de kosten in output-tokens. Compact antwoorden vragen is een legitieme optimalisatie — niet om de gebruiker af te snijden, maar om kosten in toom te houden.
Gebruik prompt caching bij herhalend werk. Wanneer je een lange system prompt of vaste referentietekst hebt, kost dat elke aanroep tokens. Met prompt caching wordt dit eenmalig betaald en hergebruikt — vaak 80% goedkoper. Voor productie-systemen verplicht.
Houd verschillende modellen aan voor verschillende taken. Niet elke taak heeft het topmodel nodig. Eenvoudige classificatie: Haiku of Flash. Kennisanalyse: Sonnet. Diep redeneerwerk: Opus. Door slimme routing per taaktype kunnen kosten 5 tot 10 keer lager uitvallen zonder kwaliteitsverlies.
Monitor structureel. Productie-systemen moeten token-gebruik per dag, per gebruiker, per functie kunnen rapporteren. Anomalieën — plotseling tienvoudig verbruik — kunnen op fouten of misbruik wijzen. Zonder monitoring krijg je de rekening pas wanneer het te laat is.
05Verwarring vermijden
- Niet hetzelfde als woorden. Een token komt niet overeen met een woord. Korte woorden zijn vaak 1 token, lange woorden 2 of 3 tokens, samenstellingen meer. De algemene vuistregel “1 token = 0,75 woorden” klopt voor Engels; voor Nederlands eerder “1 token = 0,5 woorden”. Voor exacte berekening: gebruik een tokenizer.
- Niet hetzelfde als crypto-tokens. “Token” is ook een term in blockchain-context (ERC-20 tokens, NFT’s). Dat zijn fundamenteel andere dingen. Wanneer iemand over AI-tokens spreekt in een investeringsgesprek, wees alert: het kan zowel om de rekeneenheid van taalmodellen gaan als om cryptografische digitale activa.
- Niet hetzelfde als een API-key of authenticatie-token. In sommige contexten betekent “token” een tijdelijke authenticatie-string (JWT-token, OAuth-token). Dat zijn beveiligings-tokens, geen tekst-tokens. De context maakt meestal duidelijk welke betekenis bedoeld wordt.
- Niet identiek tussen modellen. Dezelfde tekst kan in GPT-5.5, Claude Opus 4.7 en Gemini 3.1 Pro een verschillend aantal tokens opleveren. Tokenizers verschillen per familie. Voor exacte kostenberekening moet je de tokenizer van het specifieke model gebruiken.
- Niet zichtbaar in de chatinterface. Wie ChatGPT, Claude of Gemini in de browser gebruikt, ziet geen tokens. Berichten en gesprekken zijn de zichtbare eenheden, tokens werken op de achtergrond. Pas bij API-gebruik komt het token-niveau in beeld — reden waarom veel mensen het concept onbekend voorkomt.
06Plek in het AIWiser-ecosysteem
Waar dit begrip terugkomt op de rest van de site:
AI-Begrippen · Tokenization
Het proces dat tekst omzet in tokens — technische diepte over hoe tokenizers werken.
Naar Tokenization →AI-Begrippen · API
Tokens zijn de munt-eenheid van API-gebruik — begrip is essentieel voor kosten en limieten.
Naar API →AI-Begrippen · Context Window
De maximale hoeveelheid tokens die in één aanroep verwerkt kan worden.
Naar Context Window →AI Top 100 · Tool-prijzen
Alle tool-pagina’s op AIWiser tonen prijzen in tokens of berekend op token-gebruik.
Naar Top 100 →Verwante begrippen
Termen die direct met tokens verbonden zijn:
Bronnen
Documentatie en gezaghebbende bronnen die bij deze definitie geraadpleegd zijn. De volledige onderbouwing en context staat in AI-Publicaties.
- Sennrich, Haddow & Birch (2016): Neural Machine Translation of Rare Words with Subword Units Het wetenschappelijke artikel dat Byte Pair Encoding voor NLP populariseerde — technische basis van moderne tokenizers.
- OpenAI Tokenizer Tool Interactieve tool om te zien hoe OpenAI’s tokenizers tekst opdelen in tokens — standaard voor wie kosten wil inschatten.
- tiktoken — OpenAI’s officiele tokenizer library Open-source library om token-tellingen programmatisch te berekenen voor OpenAI-modellen.
- Hugging Face: The Tokenizers Documentation Uitgebreide technische documentatie over verschillende tokenization-technieken (BPE, WordPiece, SentencePiece, Unigram).
- Petrov et al. (2023): Language Model Tokenizers Introduce Unfairness Between Languages Wetenschappelijk onderzoek dat aantoont hoe tokenization-bias zorgt dat niet-Engelse talen structureel duurder zijn bij AI-gebruik.
