AIWiser / AI-Begrippen / De Basis & Concepten

Wat is een Context Window?

Het werkgeheugen van een AI-model — en waarom de grootte ervan ertoe doet

Niveau Specifiek

Engels Context Window · Context Length

Categorie Modelarchitectuur, Praktijk-eigenschap

Status Snel groeiend in 2024-2026

Door Peter & AI·Laatst herzien: mei 2026

Snel Antwoord

Het context window van een AI-model is de maximale hoeveelheid tekst — gemeten in tokens — die het model in één keer kan verwerken. Het werkt als kortetermijngeheugen: alles wat erin past kan het model tegelijk overzien, raadplegen en met elkaar in verband brengen. In 2022 was 4.000 tokens (ongeveer 3.000 woorden) groot. In 2026 hebben frontier-modellen 200.000 tot 2 miljoen tokens — genoeg voor complete codebases, boeken of jaarverslagen. Een groter context window verandert wezenlijk wat je met AI kunt doen: je hoeft minder vaak op te knippen, minder complexe Retrieval-systemen te bouwen, en kunt langere gesprekken voeren zonder dat het model “vergeet” wat eerder besproken is.

01In één alinea

Een AI-model heeft geen langetermijngeheugen. Tussen gesprekken weet het niets van je. Maar binnen één gesprek kan het wel onthouden wat eerder is gezegd — tot een bepaalde grens. Die grens is het context window. Alles wat in dat venster past kan het model raadplegen tijdens het genereren van een antwoord: jouw vraag, eerdere uitwisselingen, geüploade documenten, system prompts, voorbeelden. Zodra het venster vol zit, moet er iets weg om ruimte te maken voor nieuwe input. In de praktijk betekent dit dat het context window bepaalt hoe complex en langlopend een AI-taak kan zijn zonder dat je trucjes moet uithalen. Voor wie professioneel met AI werkt — coderen, onderzoeken, juridisch werk, content creëren — is het een van de belangrijkste praktische eigenschappen om op te letten.

02Voor de strateeg

Context window-omvang lijkt een technisch detail, maar bepaalt direct welke taken je met AI kunt automatiseren. Drie strategische dimensies.

Welke taken kan ons model aan? Wil je een AI een heel jaarverslag laten samenvatten? Een complete codebase laten beoordelen? Honderd klantgesprekken in één keer laten analyseren? Het antwoord hangt direct af van het context window. Voor een verzekeraar kan een 200K-context-model een claim met alle bijlagen en correspondentie in één keer beoordelen; een 8K-model moet stuk voor stuk werken. Dat verschil is operationeel groot.

Bouwen we een complex RAG-systeem of niet? Vroeger was Retrieval-Augmented Generation (RAG) de standaard om AI met grote hoeveelheden bedrijfsdata te laten werken: documenten knippen, indexeren, relevante stukjes ophalen, in de prompt plakken. Met grotere context windows wordt dit deels overbodig. Voor sommige gebruikssituaties kun je gewoon alle relevante documenten meegeven. Dat scheelt complexiteit, ontwikkelkosten en potentiële fouten in retrieval.

Kosten — schaal versus capaciteit Context kost geld. Een groter context window betekent meer tokens per call, meer rekenkracht, hogere prijs. Voor een eenvoudige chatbot is een groot context window verspilling. Voor een onderzoeksassistent die hele rapporten moet analyseren, is het noodzaak. De juiste keuze hangt af van use case en volume — niet “groter is altijd beter”.

03Technisch diep

Wat zit er onder de motorkap van een context window, en waarom is het zo’n centraal kenmerk geworden?

Tokens, niet woorden. Het context window wordt gemeten in tokens, niet in woorden of tekens. Een token is een stukje tekst — soms een volledig woord (“kat”), soms een deelwoord (“ge-” + “lopen”), soms een leesteken. Voor Engels geldt grofweg: 1 token = 0,75 woord, of 1.000 tokens ≈ 750 woorden. Voor Nederlands is de verhouding minder gunstig — Nederlandse tokens zijn vaak korter, dus dezelfde tekst kost meer tokens. Dit maakt het context window in praktijk effectief kleiner voor niet-Engelstalig werk.

Wat zit er allemaal in? Het venster bevat alles wat het model meekrijgt: de prompt, eventuele system prompt, geüploade bestanden of afbeeldingen (multimodale input kost veel tokens), eerdere berichten in de conversatie, en de output die het model genereert. Het is dus niet alleen “input” maar de hele werkomgeving van het model. Een lang document plus een lange conversatiegeschiedenis kunnen samen het venster snel vullen.

De groei door de jaren heen. GPT-3 (2020) had 2.048 tokens. GPT-3.5 in 2022 had 4.096. GPT-4 in 2023 begon op 8K, breidde uit naar 32K en later 128K. Claude 2 (2023) introduceerde 100K. Anthropic ging in 2024 naar 200K voor Claude. Google’s Gemini 1.5 Pro brak in 2024 door met 1 miljoen, later experimenteel 2 miljoen. In 2026 is 200K-1M voor frontier-modellen normaal. Dit is een explosieve groei — een verveelvoudiging in vier jaar tijd.

Waarom was dit lang moeilijk? De Transformer-architectuur — fundament van moderne LLM’s — heeft een fundamenteel probleem: de rekenkosten van attention groeien kwadratisch met de contextlengte. Een twee keer langer venster kost vier keer meer rekenkracht; tien keer langer kost honderd keer meer. Lang context window was daarom niet alleen technisch lastig, het was ook prohibitief duur. Onderzoek naar efficiëntere attention-mechanismen (FlashAttention, Ring Attention, Mamba-architecturen) heeft dit deels doorbroken. Sommige nieuwe architecturen schalen lineair in plaats van kwadratisch.

Het “needle in a haystack”-probleem. Een groot context window betekent niet automatisch dat het model alles erin even goed gebruikt. Onderzoekers ontwikkelden de “needle in a haystack”-test: stop een specifiek feit ergens in een lange tekst en kijk of het model dat feit later terug kan vinden. Vroege grote modellen waren slecht in dit, vooral voor informatie in het midden van het venster (het “lost in the middle”-effect). Moderne modellen zijn hier flink in verbeterd, maar het probleem speelt nog steeds — vertrouw niet blind op alles wat in een groot venster staat.

Effectief vs. theoretisch context window. Een model dat zegt 1 miljoen tokens te ondersteunen, presteert niet noodzakelijk op 1 miljoen tokens hetzelfde als op 100K. Recall verzwakt vaak naarmate het venster verder vol raakt. Voor kritische taken — juridische analyse, code-review, contractdoorlichting — is het verstandig om bij grote contexten dingen aan het begin én aan het eind te plaatsen, en strategisch te splitsen.

Context window vs. langetermijngeheugen. Een groot context window blijft kortetermijngeheugen — het is leeg zodra een nieuwe conversatie begint. Echte langetermijngeheugen vraagt om aanvullende systemen: vector databases, RAG, of expliciete memory-architectuur (zoals het memory-systeem dat Claude in 2026 heeft). Context window verkleint de noodzaak voor RAG voor sommige use cases, maar elimineert hem niet.

Toekomstige ontwikkelingen. Er wordt onderzoek gedaan naar context windows van 10 miljoen tokens en meer — genoeg voor complete bedrijfsarchieven of meerjarige projectdocumentatie. Tegelijk werken onderzoekers aan slimmere architecturen die de kwadratische schalingskwestie definitief oplossen. De grens tussen “wat past in context” en “wat hoort in een database” zal de komende jaren verder vervagen.

04In de praktijk

Voorbeeld — Juridische review van een contract

Een advocaat wil een 80-pagina contract laten analyseren door een AI. Twee aanpakken zijn mogelijk:

Klein context window (8K-32K) Contract opknippen in stukken, elk stuk apart laten analyseren, resultaten samenvoegen. Werkt, maar AI ziet nooit het hele document — verbanden tussen vroege en late clausules worden gemist. Risico op inconsistente conclusies.

Groot context window (200K+) Hele contract in één keer beschikbaar. Het model kan een definitie op pagina 3 koppelen aan een verwijzing op pagina 67. Vragen als “welke clausules wijken af van standaardpraktijk?” worden mogelijk. Aanzienlijk hogere kwaliteit, hogere kost per call.

Praktische lessen voor wie strategisch met context windows werkt:

Weet hoe groot je inputs zijn. Tokens tellen is geen mystieke kunst — er zijn online tellers (zoals OpenAI’s tokenizer) die je laten zien hoeveel een document kost. Voor systematische toepassingen is dit basisgereedschap.

Plaats belangrijke informatie aan begin en eind. Modellen letten beter op wat aan de randen van het venster staat. Voor lange contexten: zet kerninstructies bovenaan, herhaal ze eventueel onderaan, plaats secundaire informatie in het midden.

Test op echte volumes voordat je opschaalt. Een prompt die in een test van 5K tokens perfect werkt, kan bij 100K tokens verrassend slecht zijn — door verminderde recall. Test in werkomstandigheden voordat je bouwt op aannames.

Combineer groot context met RAG voor de allerlangste content. Zelfs een 1M-context model raakt vol bij grote bedrijfsarchieven. Voor zulke gevallen blijft RAG nuttig — als slimme voorfilter die de meest relevante 50K tokens selecteert om mee te geven aan het model.

Houd kosten in de gaten. Sommige aanbieders rekenen voor input-tokens en output-tokens apart. Een groot context window vol met documenten kan een enkele call duur maken. Voor toepassingen met veel volume is “compacter prompten” een duidelijke kostenbesparing.

05Verwarring vermijden

Niet hetzelfde als RAG. Context window is wat het model in één keer kan verwerken. RAG is een techniek om relevante stukjes uit een grote externe database op te halen en in het context window te plaatsen. Beide vergroten “wat de AI kan zien”, maar werken op verschillende manieren en zijn complementair.
Niet hetzelfde als langetermijngeheugen. Het context window is leeg zodra een nieuwe sessie begint. Echte memory tussen gesprekken vraagt om expliciete memory-architectuur — een aparte systeemcomponent die persistentie levert. Sommige AI-producten (zoals Claude in 2026) hebben dit ingebouwd, maar het is iets anders dan context window.
Niet hetzelfde als modelgrootte. Een model met 1.000 miljard parameters kan een klein context window hebben; een model met 10 miljard parameters kan een groot venster hebben. De twee getallen verwijzen naar verschillende dingen — modelgrootte gaat over wat het model “weet”, context window over hoeveel het tegelijk kan verwerken.
Tokens niet gelijk aan tekens of woorden. Een token is een variabele eenheid. Voor Engels geldt 1 token ≈ 0,75 woord; voor Nederlands meer. Voor code, JSON of niet-Westerse talen kunnen verhoudingen sterk afwijken. Reken niet om met vaste vuistregels — gebruik een tokenizer voor accurate metingen.
Groter niet altijd beter. Voor eenvoudige taken (kort antwoord, simpele vraag) is een groot context window verspild en duur. Voor complexe analytische taken op grote inputs is het waardevol. De juiste maat hangt af van de use case.

06Plek in het AIWiser-ecosysteem

Waar dit begrip terugkomt op de rest van de site:

AI-Strategie · Tool-keuzes

Context window-omvang is een van de praktische criteria bij het kiezen van een AI-leverancier of model.

Naar de strategie →

AI Top 100 · Allrounders

Claude, ChatGPT, Gemini en Mistral worden vaak vergeleken op context window-grootte.

Naar de Top 100 →

AI-Begrippen · RAG

RAG en context window zijn complementaire technieken om “wat de AI kan zien” te vergroten.

Naar RAG →

AI-Begrippen · Long Context Window

De geavanceerde variant van dit begrip — modellen met 1M+ tokens en de uitdagingen die dat oplevert.

Naar segment 5 →

Verwante begrippen

Termen die direct met context window verbonden zijn:

Bronnen

Wetenschappelijke en gezaghebbende bronnen die bij deze definitie geraadpleegd zijn. De volledige onderbouwing en context staat in AI-Publicaties.

Vaswani et al. (2017): Attention Is All You Need Het Transformer-paper dat de basis legde — inclusief het kwadratische schalingsprobleem dat lange tijd context window-groei beperkte.
Wetenschappelijk artikel · Origineel ↗
Liu et al. (2023): Lost in the Middle — How Language Models Use Long Contexts Het onderzoek dat het “lost in the middle”-effect documenteerde — fundament voor het begrijpen van grenzen aan grote context windows.
Wetenschappelijk artikel · Origineel ↗
Dao et al. (2022): FlashAttention — Fast and Memory-Efficient Exact Attention Het paper dat efficiëntere attention-implementatie introduceerde — onmisbaar voor het opschalen van context windows.
Wetenschappelijk artikel · Origineel ↗
Google DeepMind (2024): Gemini 1.5 — Unlocking Multimodal Understanding Across Millions of Tokens of Context Technisch rapport over de doorbraak naar 1M+ token context windows in productie.
Technisch rapport · Origineel ↗
Stanford HAI: AI Index Report 2026 Jaarlijkse stand van zaken over modelcapaciteiten, inclusief benchmarks voor lange-context taken.
Jaarrapport · Origineel ↗