Wat is een Token?

De kleinste teksteenheid die een AI verwerkt — en de rekeneenheid waarop alles draait

Niveau Kern
Engels Token
Categorie Basis, NLP, AI-economie
Status Fundament onder taalmodellen, prijzen en limieten

Snel Antwoord

Een token is de kleinste eenheid waarmee een AI-model tekst verwerkt. Het is geen letter, geen woord, maar iets daartussen — een soort “woordbrokje”. Voor Engelse tekst komt één token ruwweg overeen met 0,75 woorden; voor Nederlands iets minder. De zin “Ik werk met AI” bestaat uit ongeveer 6 tokens. Tokens zijn de munt-eenheid van de AI-economie: prijzen worden gerekend per miljoen tokens, context-limieten worden uitgedrukt in tokens, en model-snelheid wordt gemeten in tokens per seconde. Voor wie alleen met chatbots werkt is dit een achtergrondbegrip; voor wie API’s gebruikt of kosten wil berekenen, is het centraal. Het begrip kost één minuut om te leren en bespaart eindeloos veel verwarring bij AI-prijzen en -limieten.

01In één alinea

Wanneer je een zin typt aan ChatGPT, Claude of Gemini, leest het model die zin niet als woorden of letters — het breekt hem op in tokens. Een token kan een heel woord zijn (“hond”), een deel van een woord (“ge-bouw-en” in drie tokens), een leesteken (“.”), of zelfs een spatie. Welke stukjes precies een token vormen, hangt af van een proces genaamd tokenization — een soort gespecialiseerd woordenboek dat het model gebruikt om tekst te ontleden. Voor het Engels werkt dit efficient (gemiddeld 4 letters per token); voor talen met veel samenstellingen zoals Nederlands of Duits is het minder efficient (vaak 2,5 tot 3 letters per token). Wat betekent dit praktisch? Een Nederlandse tekst kost meer tokens dan dezelfde tekst in het Engels, en dus duurder bij API-gebruik. Tokens zijn niet alleen techniek — ze zijn de eenheid waarin tijd, geld en geheugen van AI worden gemeten.

02Voor de strateeg

Tokens zijn de munt-eenheid van AI-economie. Drie strategische dimensies om over na te denken.

Reken in tokens, niet in “berichten” Veel mensen denken in “gesprekken” of “vragen” wanneer ze AI-kosten inschatten. Dat klopt niet. Een vraag van 50 woorden kost evenveel als een document-analyse van 50 woorden output: ongeveer 65 tokens output. Maar één “vraag” kan duizenden tokens kosten wanneer er een lange bijlage bij komt, of duizenden tokens wanneer het antwoord uitvoerig is. Voor strategen die budgetten moeten plannen: wissel het mentale model van “berichten” naar “tokens per maand”. Dat geeft een realistischer beeld van werkelijke kosten.
Nederlands is duurder dan Engels Tokenization is geoptimaliseerd voor het Engels, omdat de meeste trainingsdata Engels is. Voor Nederlandse tekst worden meer tokens gebruikt voor dezelfde betekenis — gemiddeld 30 tot 50% meer. Een Nederlandse klantenservice-chatbot kost dus structureel meer dan een Engelse equivalent voor hetzelfde aantal gesprekken. Voor budgeting van AI-toepassingen in het Nederlands is dit een relevante factor. Sommige Europese aanbieders (Mistral, Aleph Alpha) hebben tokenizers die beter werken voor Europese talen — voor wie veel niet-Engelstalig werk doet, kan dit een argument zijn.
Output kost meer dan input Bij vrijwel alle AI-APIs zijn output-tokens duurder dan input-tokens — doorgaans 3 tot 5 keer. Reden: output-generatie is rekenintensiever dan input-verwerking. Strategisch gevolg: wanneer je een document laat samenvatten, is de input-kant veel goedkoper dan de output-kant. Voor toepassingen waar je veel content laat genereren (marketing, klantservice) lopen kosten via output op. Voor toepassingen waar je veel content laat analyseren (rapport-analyse, juridische screening) blijven kosten beperkt aan input-kant. Compactere antwoorden vragen is daarom geen netheid maar slim budgetbeheer.

03Technisch diep

Tokens lijken een eenvoudig concept, maar zijn fundamenteler in AI-werking dan vaak wordt gerealiseerd.

Waarom geen woorden of letters? Vroege NLP-systemen werkten op woorden of letters. Beide hebben nadelen. Woorden zijn te grof — nieuwe woorden, samenstellingen en typefouten gooien het systeem in de war. Letters zijn te fijn — het kost te veel rekenkracht om relaties over lange afstanden te modelleren. Tokens zijn een compromis: stukjes die vaak voorkomen blijven samen (“the”, “ing”, “hond”), zeldzame stukken worden opgesplitst. Het resultaat is een vocabulaire van typisch 50.000 tot 100.000 tokens dat vrijwel elke tekst kan representeren.

Het tokenization-proces. Bij training van een model wordt een tokenizer gemaakt — meestal via Byte Pair Encoding (BPE) of SentencePiece. Het algoritme begint met losse letters en voegt stap voor stap veelvoorkomende combinaties samen tot een vast vocabulaire. Het resultaat is deterministisch: dezelfde tekst levert altijd dezelfde tokens op (zolang dezelfde tokenizer wordt gebruikt). Verschillende modellen hebben verschillende tokenizers; GPT-5.5 telt anders dan Claude Opus 4.7 telt anders dan Gemini 3.1 Pro.

Een concreet voorbeeld. De Engelse zin “The quick brown fox jumps over the lazy dog” bestaat uit 9 woorden en wordt door OpenAI’s tokenizer (cl100k_base) tot ongeveer 9 tokens omgezet — efficiënt, want elk woord is een token. De Nederlandse vertaling “De snelle bruine vos springt over de luie hond” bestaat uit 9 woorden, maar wordt vaak tot 12-14 tokens. Vooral “springt” en “bruine” worden in stukken gesneden (“sprin-gt”, “brui-ne”). Voor langere teksten loopt dit verschil op.

De vuistregels in 2026. Voor Engels: 1 token = circa 0,75 woorden = circa 4 letters. Voor Nederlands: 1 token = circa 0,5 woorden = circa 3 letters. Voor code: variabel, gemiddeld 0,4-0,6 tokens per teken. Voor cijfers: meestal één cijfer per token. Voor Aziatische talen (Chinees, Japans): vaak 1 karakter per token, soms minder. Voor emoji’s en speciale karakters: vaak meer tokens per teken dan voor gewone letters.

Token-tellers en gereedschappen. Voor wie precies wil weten hoeveel tokens een tekst kost, bestaan online tokenizers. OpenAI’s Tokenizer (platform.openai.com/tokenizer) toont visueel hoe een tekst in tokens wordt opgedeeld. Anthropic biedt vergelijkbare tools. Bij API-gebruik telt elke aanroep automatisch zowel input- als output-tokens, vaak inzichtelijk in een dashboard. Voor strategische planning kunnen organisaties hun typische teksten door zo’n teller halen om realistische kosten in te schatten.

Prijzen per miljoen tokens (mei 2026). Claude Opus 4.7: 15 dollar input / 75 dollar output per miljoen. Claude Sonnet 4.6: 3 dollar input / 15 dollar output. Claude Haiku 4.5: 0,80 dollar input / 4 dollar output. GPT-5.5: 12 dollar input / 60 dollar output. GPT-5.3 Instant: 2 dollar input / 10 dollar output. Gemini 3.1 Pro: 7 dollar input / 21 dollar output. Gemini 3 Flash: 0,35 dollar input / 1,40 dollar output. Mistral Large 2: 2 dollar input / 6 dollar output. Open-source modellen via Together AI of Groq: vaak 0,20 tot 1 dollar per miljoen. De spreiding is enorm — bij kostenbewustzijn loont leverancierskeuze.

Context window in tokens. Elke API heeft een maximum aan tokens dat in één aanroep kan worden verwerkt: het context window. Claude Opus 4.7: 1 miljoen tokens. GPT-5.5: 400.000 tokens standaard, 1 miljoen op Pro-tier. Gemini 3.1 Pro: 1 miljoen tokens. Een miljoen tokens komt overeen met ongeveer 750.000 Engelse woorden of 500.000 Nederlandse woorden — een complete reeks boeken. Voor de meeste taken volstaat 32.000 tokens. Grote context-windows zijn pas relevant voor specifieke toepassingen: complete codebases analyseren, hele juridische dossiers doorzoeken, langdurig agentic werk.

Prompt caching. Een belangrijke optimalisatie sinds 2024: prompt caching. Wanneer dezelfde input vaak terugkeert (een lange system prompt, een grote referentietekst), kunnen aanbieders die één keer verwerken en hergebruiken — tot 90% goedkoper en sneller. Voor productie-systemen met consistente prompts levert dit enorme besparingen. Anthropic, OpenAI en Google bieden allen prompt caching aan, met verschillende implementaties.

Multimodale tokens. Sinds 2024 zijn AI-modellen multimodaal — ze verwerken niet alleen tekst, maar ook beeld, audio en video. Voor de boekhouding worden ook deze in tokens omgerekend. Een afbeelding kost typisch 85 tot 1.700 tokens, afhankelijk van resolutie. Een minuut audio: 250-500 tokens. Een minuut video: enkele duizenden tokens. Voor multimodale toepassingen lopen de kosten anders — meestal door overheersing van visuele tokens.

Tokens per seconde. Naast prijzen worden tokens ook gebruikt om snelheid te meten. Snelle modellen produceren 200-400 tokens per seconde (de gebruiker ziet vlotte typing). Zware modellen in zware modi: 30-80 tokens per seconde — merkbaar trager maar grondiger. Gespecialiseerde infrastructuur (Groq, Cerebras) haalt boven 1.000 tokens per seconde voor specifieke modellen. Voor user-facing toepassingen is dit een belangrijke designkeuze: trager maar slimmer, of sneller maar oppervlakkiger?

04In de praktijk

Voorbeeld — Maandelijkse AI-kosten inschatten

Een Nederlandse organisatie wil de maandelijkse kosten van een nieuwe AI-toepassing inschatten. Twee benaderingen:

Schatten op gevoel Iemand zegt “ongeveer 1.000 gesprekken per maand, lijkt me 50 euro”. De applicatie gaat live. Na één maand blijkt de rekening 800 euro. Reden: gesprekken waren langer dan gedacht, system prompt was uitvoerig (telt elke keer mee), antwoorden waren breedvoerig. Aan het einde van het kwartaal zit het project ver over budget en moeten er beperkingen worden ingevoerd die de kwaliteit drukken.
Berekenen op tokens Voorafgaand: typische input geanalyseerd door de tokenizer. Per gesprek: 800 input-tokens (system prompt + vraag + context), 400 output-tokens. Maal 1.000 gesprekken: 800.000 input + 400.000 output per maand. Bij Claude Sonnet 4.6: (0,8 × 3) + (0,4 × 15) = 2,40 + 6 = 8,40 dollar per maand. Met buffer voor uitschieters: budget van 25 dollar. Realistisch, transparant, geen verrassingen.

Praktische lessen voor wie met tokens wil rekenen:

Tel een keer wat je werkelijk gebruikt. Pak een typische input van je toepassing en haal hem door een tokenizer. Dat geeft een baseline. Reken vervolgens uit hoeveel input en output per maand realistisch zijn. Pas dan kies je een leverancier en model.

Reken op output, niet alleen input. Bij toepassingen met veel gegenereerde content (marketing, schrijfwerk, klantservice) zit het overgrote deel van de kosten in output-tokens. Compact antwoorden vragen is een legitieme optimalisatie — niet om de gebruiker af te snijden, maar om kosten in toom te houden.

Gebruik prompt caching bij herhalend werk. Wanneer je een lange system prompt of vaste referentietekst hebt, kost dat elke aanroep tokens. Met prompt caching wordt dit eenmalig betaald en hergebruikt — vaak 80% goedkoper. Voor productie-systemen verplicht.

Houd verschillende modellen aan voor verschillende taken. Niet elke taak heeft het topmodel nodig. Eenvoudige classificatie: Haiku of Flash. Kennisanalyse: Sonnet. Diep redeneerwerk: Opus. Door slimme routing per taaktype kunnen kosten 5 tot 10 keer lager uitvallen zonder kwaliteitsverlies.

Monitor structureel. Productie-systemen moeten token-gebruik per dag, per gebruiker, per functie kunnen rapporteren. Anomalieën — plotseling tienvoudig verbruik — kunnen op fouten of misbruik wijzen. Zonder monitoring krijg je de rekening pas wanneer het te laat is.

05Verwarring vermijden

  • Niet hetzelfde als woorden. Een token komt niet overeen met een woord. Korte woorden zijn vaak 1 token, lange woorden 2 of 3 tokens, samenstellingen meer. De algemene vuistregel “1 token = 0,75 woorden” klopt voor Engels; voor Nederlands eerder “1 token = 0,5 woorden”. Voor exacte berekening: gebruik een tokenizer.
  • Niet hetzelfde als crypto-tokens. “Token” is ook een term in blockchain-context (ERC-20 tokens, NFT’s). Dat zijn fundamenteel andere dingen. Wanneer iemand over AI-tokens spreekt in een investeringsgesprek, wees alert: het kan zowel om de rekeneenheid van taalmodellen gaan als om cryptografische digitale activa.
  • Niet hetzelfde als een API-key of authenticatie-token. In sommige contexten betekent “token” een tijdelijke authenticatie-string (JWT-token, OAuth-token). Dat zijn beveiligings-tokens, geen tekst-tokens. De context maakt meestal duidelijk welke betekenis bedoeld wordt.
  • Niet identiek tussen modellen. Dezelfde tekst kan in GPT-5.5, Claude Opus 4.7 en Gemini 3.1 Pro een verschillend aantal tokens opleveren. Tokenizers verschillen per familie. Voor exacte kostenberekening moet je de tokenizer van het specifieke model gebruiken.
  • Niet zichtbaar in de chatinterface. Wie ChatGPT, Claude of Gemini in de browser gebruikt, ziet geen tokens. Berichten en gesprekken zijn de zichtbare eenheden, tokens werken op de achtergrond. Pas bij API-gebruik komt het token-niveau in beeld — reden waarom veel mensen het concept onbekend voorkomt.

06Plek in het AIWiser-ecosysteem

Waar dit begrip terugkomt op de rest van de site:

AI-Begrippen · Tokenization

Het proces dat tekst omzet in tokens — technische diepte over hoe tokenizers werken.

Naar Tokenization →

AI-Begrippen · API

Tokens zijn de munt-eenheid van API-gebruik — begrip is essentieel voor kosten en limieten.

Naar API →

AI-Begrippen · Context Window

De maximale hoeveelheid tokens die in één aanroep verwerkt kan worden.

Naar Context Window →

AI Top 100 · Tool-prijzen

Alle tool-pagina’s op AIWiser tonen prijzen in tokens of berekend op token-gebruik.

Naar Top 100 →

Verwante begrippen

Termen die direct met tokens verbonden zijn:

Bronnen

Documentatie en gezaghebbende bronnen die bij deze definitie geraadpleegd zijn. De volledige onderbouwing en context staat in AI-Publicaties.

  • Sennrich, Haddow & Birch (2016): Neural Machine Translation of Rare Words with Subword Units Het wetenschappelijke artikel dat Byte Pair Encoding voor NLP populariseerde — technische basis van moderne tokenizers.
    Wetenschappelijk artikel · Origineel ↑
  • OpenAI Tokenizer Tool Interactieve tool om te zien hoe OpenAI’s tokenizers tekst opdelen in tokens — standaard voor wie kosten wil inschatten.
  • tiktoken — OpenAI’s officiele tokenizer library Open-source library om token-tellingen programmatisch te berekenen voor OpenAI-modellen.
    Open-source library · Origineel ↑
  • Hugging Face: The Tokenizers Documentation Uitgebreide technische documentatie over verschillende tokenization-technieken (BPE, WordPiece, SentencePiece, Unigram).
    Documentatie · Origineel ↑
  • Petrov et al. (2023): Language Model Tokenizers Introduce Unfairness Between Languages Wetenschappelijk onderzoek dat aantoont hoe tokenization-bias zorgt dat niet-Engelse talen structureel duurder zijn bij AI-gebruik.
    Wetenschappelijk artikel · Origineel ↑
Scroll naar boven