Wat is een Context Window?
Het werkgeheugen van een AI-model — en waarom de grootte ervan ertoe doet
Snel Antwoord
Het context window van een AI-model is de maximale hoeveelheid tekst — gemeten in tokens — die het model in één keer kan verwerken. Het werkt als kortetermijngeheugen: alles wat erin past kan het model tegelijk overzien, raadplegen en met elkaar in verband brengen. In 2022 was 4.000 tokens (ongeveer 3.000 woorden) groot. In 2026 hebben frontier-modellen 200.000 tot 2 miljoen tokens — genoeg voor complete codebases, boeken of jaarverslagen. Een groter context window verandert wezenlijk wat je met AI kunt doen: je hoeft minder vaak op te knippen, minder complexe Retrieval-systemen te bouwen, en kunt langere gesprekken voeren zonder dat het model “vergeet” wat eerder besproken is.
01In één alinea
Een AI-model heeft geen langetermijngeheugen. Tussen gesprekken weet het niets van je. Maar binnen één gesprek kan het wel onthouden wat eerder is gezegd — tot een bepaalde grens. Die grens is het context window. Alles wat in dat venster past kan het model raadplegen tijdens het genereren van een antwoord: jouw vraag, eerdere uitwisselingen, geüploade documenten, system prompts, voorbeelden. Zodra het venster vol zit, moet er iets weg om ruimte te maken voor nieuwe input. In de praktijk betekent dit dat het context window bepaalt hoe complex en langlopend een AI-taak kan zijn zonder dat je trucjes moet uithalen. Voor wie professioneel met AI werkt — coderen, onderzoeken, juridisch werk, content creëren — is het een van de belangrijkste praktische eigenschappen om op te letten.
02Voor de strateeg
Context window-omvang lijkt een technisch detail, maar bepaalt direct welke taken je met AI kunt automatiseren. Drie strategische dimensies.
03Technisch diep
Wat zit er onder de motorkap van een context window, en waarom is het zo’n centraal kenmerk geworden?
Tokens, niet woorden. Het context window wordt gemeten in tokens, niet in woorden of tekens. Een token is een stukje tekst — soms een volledig woord (“kat”), soms een deelwoord (“ge-” + “lopen”), soms een leesteken. Voor Engels geldt grofweg: 1 token = 0,75 woord, of 1.000 tokens ≈ 750 woorden. Voor Nederlands is de verhouding minder gunstig — Nederlandse tokens zijn vaak korter, dus dezelfde tekst kost meer tokens. Dit maakt het context window in praktijk effectief kleiner voor niet-Engelstalig werk.
Wat zit er allemaal in? Het venster bevat alles wat het model meekrijgt: de prompt, eventuele system prompt, geüploade bestanden of afbeeldingen (multimodale input kost veel tokens), eerdere berichten in de conversatie, en de output die het model genereert. Het is dus niet alleen “input” maar de hele werkomgeving van het model. Een lang document plus een lange conversatiegeschiedenis kunnen samen het venster snel vullen.
De groei door de jaren heen. GPT-3 (2020) had 2.048 tokens. GPT-3.5 in 2022 had 4.096. GPT-4 in 2023 begon op 8K, breidde uit naar 32K en later 128K. Claude 2 (2023) introduceerde 100K. Anthropic ging in 2024 naar 200K voor Claude. Google’s Gemini 1.5 Pro brak in 2024 door met 1 miljoen, later experimenteel 2 miljoen. In 2026 is 200K-1M voor frontier-modellen normaal. Dit is een explosieve groei — een verveelvoudiging in vier jaar tijd.
Waarom was dit lang moeilijk? De Transformer-architectuur — fundament van moderne LLM’s — heeft een fundamenteel probleem: de rekenkosten van attention groeien kwadratisch met de contextlengte. Een twee keer langer venster kost vier keer meer rekenkracht; tien keer langer kost honderd keer meer. Lang context window was daarom niet alleen technisch lastig, het was ook prohibitief duur. Onderzoek naar efficiëntere attention-mechanismen (FlashAttention, Ring Attention, Mamba-architecturen) heeft dit deels doorbroken. Sommige nieuwe architecturen schalen lineair in plaats van kwadratisch.
Het “needle in a haystack”-probleem. Een groot context window betekent niet automatisch dat het model alles erin even goed gebruikt. Onderzoekers ontwikkelden de “needle in a haystack”-test: stop een specifiek feit ergens in een lange tekst en kijk of het model dat feit later terug kan vinden. Vroege grote modellen waren slecht in dit, vooral voor informatie in het midden van het venster (het “lost in the middle”-effect). Moderne modellen zijn hier flink in verbeterd, maar het probleem speelt nog steeds — vertrouw niet blind op alles wat in een groot venster staat.
Effectief vs. theoretisch context window. Een model dat zegt 1 miljoen tokens te ondersteunen, presteert niet noodzakelijk op 1 miljoen tokens hetzelfde als op 100K. Recall verzwakt vaak naarmate het venster verder vol raakt. Voor kritische taken — juridische analyse, code-review, contractdoorlichting — is het verstandig om bij grote contexten dingen aan het begin én aan het eind te plaatsen, en strategisch te splitsen.
Context window vs. langetermijngeheugen. Een groot context window blijft kortetermijngeheugen — het is leeg zodra een nieuwe conversatie begint. Echte langetermijngeheugen vraagt om aanvullende systemen: vector databases, RAG, of expliciete memory-architectuur (zoals het memory-systeem dat Claude in 2026 heeft). Context window verkleint de noodzaak voor RAG voor sommige use cases, maar elimineert hem niet.
Toekomstige ontwikkelingen. Er wordt onderzoek gedaan naar context windows van 10 miljoen tokens en meer — genoeg voor complete bedrijfsarchieven of meerjarige projectdocumentatie. Tegelijk werken onderzoekers aan slimmere architecturen die de kwadratische schalingskwestie definitief oplossen. De grens tussen “wat past in context” en “wat hoort in een database” zal de komende jaren verder vervagen.
04In de praktijk
Een advocaat wil een 80-pagina contract laten analyseren door een AI. Twee aanpakken zijn mogelijk:
Praktische lessen voor wie strategisch met context windows werkt:
Weet hoe groot je inputs zijn. Tokens tellen is geen mystieke kunst — er zijn online tellers (zoals OpenAI’s tokenizer) die je laten zien hoeveel een document kost. Voor systematische toepassingen is dit basisgereedschap.
Plaats belangrijke informatie aan begin en eind. Modellen letten beter op wat aan de randen van het venster staat. Voor lange contexten: zet kerninstructies bovenaan, herhaal ze eventueel onderaan, plaats secundaire informatie in het midden.
Test op echte volumes voordat je opschaalt. Een prompt die in een test van 5K tokens perfect werkt, kan bij 100K tokens verrassend slecht zijn — door verminderde recall. Test in werkomstandigheden voordat je bouwt op aannames.
Combineer groot context met RAG voor de allerlangste content. Zelfs een 1M-context model raakt vol bij grote bedrijfsarchieven. Voor zulke gevallen blijft RAG nuttig — als slimme voorfilter die de meest relevante 50K tokens selecteert om mee te geven aan het model.
Houd kosten in de gaten. Sommige aanbieders rekenen voor input-tokens en output-tokens apart. Een groot context window vol met documenten kan een enkele call duur maken. Voor toepassingen met veel volume is “compacter prompten” een duidelijke kostenbesparing.
05Verwarring vermijden
- Niet hetzelfde als RAG. Context window is wat het model in één keer kan verwerken. RAG is een techniek om relevante stukjes uit een grote externe database op te halen en in het context window te plaatsen. Beide vergroten “wat de AI kan zien”, maar werken op verschillende manieren en zijn complementair.
- Niet hetzelfde als langetermijngeheugen. Het context window is leeg zodra een nieuwe sessie begint. Echte memory tussen gesprekken vraagt om expliciete memory-architectuur — een aparte systeemcomponent die persistentie levert. Sommige AI-producten (zoals Claude in 2026) hebben dit ingebouwd, maar het is iets anders dan context window.
- Niet hetzelfde als modelgrootte. Een model met 1.000 miljard parameters kan een klein context window hebben; een model met 10 miljard parameters kan een groot venster hebben. De twee getallen verwijzen naar verschillende dingen — modelgrootte gaat over wat het model “weet”, context window over hoeveel het tegelijk kan verwerken.
- Tokens niet gelijk aan tekens of woorden. Een token is een variabele eenheid. Voor Engels geldt 1 token ≈ 0,75 woord; voor Nederlands meer. Voor code, JSON of niet-Westerse talen kunnen verhoudingen sterk afwijken. Reken niet om met vaste vuistregels — gebruik een tokenizer voor accurate metingen.
- Groter niet altijd beter. Voor eenvoudige taken (kort antwoord, simpele vraag) is een groot context window verspild en duur. Voor complexe analytische taken op grote inputs is het waardevol. De juiste maat hangt af van de use case.
06Plek in het AIWiser-ecosysteem
Waar dit begrip terugkomt op de rest van de site:
AI-Strategie · Tool-keuzes
Context window-omvang is een van de praktische criteria bij het kiezen van een AI-leverancier of model.
Naar de strategie →AI Top 100 · Allrounders
Claude, ChatGPT, Gemini en Mistral worden vaak vergeleken op context window-grootte.
Naar de Top 100 →AI-Begrippen · RAG
RAG en context window zijn complementaire technieken om “wat de AI kan zien” te vergroten.
Naar RAG →AI-Begrippen · Long Context Window
De geavanceerde variant van dit begrip — modellen met 1M+ tokens en de uitdagingen die dat oplevert.
Naar segment 5 →Verwante begrippen
Termen die direct met context window verbonden zijn:
Bronnen
Wetenschappelijke en gezaghebbende bronnen die bij deze definitie geraadpleegd zijn. De volledige onderbouwing en context staat in AI-Publicaties.
- Vaswani et al. (2017): Attention Is All You Need Het Transformer-paper dat de basis legde — inclusief het kwadratische schalingsprobleem dat lange tijd context window-groei beperkte.
- Liu et al. (2023): Lost in the Middle — How Language Models Use Long Contexts Het onderzoek dat het “lost in the middle”-effect documenteerde — fundament voor het begrijpen van grenzen aan grote context windows.
- Dao et al. (2022): FlashAttention — Fast and Memory-Efficient Exact Attention Het paper dat efficiëntere attention-implementatie introduceerde — onmisbaar voor het opschalen van context windows.
- Google DeepMind (2024): Gemini 1.5 — Unlocking Multimodal Understanding Across Millions of Tokens of Context Technisch rapport over de doorbraak naar 1M+ token context windows in productie.
- Stanford HAI: AI Index Report 2026 Jaarlijkse stand van zaken over modelcapaciteiten, inclusief benchmarks voor lange-context taken.
