Wat is een Diffusion Model?
Beeldgeneratie door ruis te verwijderen — de techniek achter Midjourney en Stable Diffusion
Snel Antwoord
Een diffusion model is een type AI-model dat beelden, video of audio genereert door iteratief ruis te verwijderen uit een willekeurig startpunt. De techniek werkt als omgekeerd verval: het model leert tijdens training hoe een afbeelding stap voor stap in pure ruis verandert, en bij generatie keert het dat proces om — beginnend bij willekeurige ruis, geleidelijk aan een coherent beeld onthullen. Stable Diffusion, Midjourney, DALL-E 3, Sora en Veo zijn allemaal diffusion models. De techniek heeft beeldgeneratie, sinds 2022, naar professionele kwaliteit gebracht — en heeft tegelijkertijd grote vragen opgeworpen over auteursrecht, bedrog (deepfakes) en de toekomst van creatieve beroepen. Wie diffusion models begrijpt, begrijpt waarom moderne AI plotseling fotorealistische beelden kan genereren.
01In één alinea
De analogie die het beste werkt: stel je een beeldhouwer voor die uit ruwe marmer een sculptuur hakt — waarbij hij telkens kleine stukjes weghaalt totdat de vorm tevoorschijn komt. Een diffusion model werkt vergelijkbaar, maar dan in pixels. Het begint met een rechthoek vol pure ruis (willekeurige gekleurde punten, totaal betekenisloos) en haalt in 20 tot 50 stappen geleidelijk de “verkeerde” pixels weg, gestuurd door je tekstprompt. Na de laatste stap blijft een coherent beeld over dat past bij wat je vroeg. Het verbluffende: het model heeft tijdens training nooit “geleerd hoe je een kat tekent.” Het heeft geleerd om ruis te verwijderen op een manier die een kat-achtige structuur produceert wanneer de prompt “een kat” zegt. Deze indirecte aanpak — niet bouwen maar onthullen — bleek paradoxaal genoeg veel beter te werken dan eerdere generatie-technieken.
02Voor de strateeg
Voor wie strategisch over AI denkt zijn diffusion models geen technische curiositeit, maar de techniek die hele bedrijfstakken raakt — visueel design, marketing, fotografie, voorraad-beelden, advertentie-productie.
03Technisch diep
Diffusion models werken volgens een tweeledig proces — een trainingsfase waarin het model leert ruis toe te voegen, en een generatiefase waarin het model leert die ruis terug te verwijderen.
De trainingsfase — forward diffusion. Tijdens training wordt aan elke afbeelding stap voor stap ruis toegevoegd. Stap 1: voeg een klein beetje ruis toe. Stap 2: voeg meer ruis toe. Na 1000 stappen is de oorspronkelijke afbeelding totaal verdwenen — alleen pure ruis blijft over. Het model leert tijdens deze fase om bij elke stap te voorspellen welke ruis er werd toegevoegd. Dit is in essentie supervised learning: input is “afbeelding met ruis op stap N,” output is “de toegevoegde ruis.”
De generatiefase — reverse diffusion. Bij het genereren van een nieuw beeld keert het proces om. Begin met pure ruis. Vraag aan het model: “welke ruis zit hierin op stap 1000?” Verwijder die voorspelde ruis. Nu zit je op stap 999. Vraag opnieuw, verwijder ruis, kom op stap 998. Herhaal tot stap 0 — dan blijft een coherent beeld over. Dit klinkt rommelig, maar werkt verbluffend goed.
Conditionering met tekst. Hoe weet het model wat het moet genereren? Door tekst als “conditioneringssignaal” mee te geven. De prompt wordt door een tekstmodel (vaak CLIP) omgezet in een embedding-vector. Tijdens elke ruis-verwijderings-stap krijgt het model die tekst-embedding mee. Het leert daardoor: “verwijder ruis op een manier die past bij dit tekstpatroon.” Dit is hoe je van willekeurige ruis naar “een Hollandse landschapsschilderij in de stijl van Vermeer” komt.
Latent diffusion — de doorbraak van Stable Diffusion. Een belangrijke verfijning: in plaats van direct in pixel-ruimte te werken (wat extreem veel rekenkracht vereist), werken moderne diffusion models in “latent space” — een gecomprimeerde representatie van het beeld. Eerst wordt een afbeelding gecomprimeerd door een autoencoder tot een veel kleinere latent representatie. Het diffusion-proces vindt plaats in die kleinere ruimte. Daarna wordt de uitkomst gedecomprimeerd terug naar een pixel-afbeelding. Dit maakte Stable Diffusion mogelijk op consumenten-hardware — de doorbraak van 2022.
Architectuur — U-Net en zijn opvolgers. De ruis-voorspelling wordt typisch gedaan door een U-Net — een speciaal type convolutional neural network met een unieke vorm (groot, dan klein, dan weer groot — vandaar de “U”). Sinds 2023 wordt U-Net steeds vaker vervangen of aangevuld door Diffusion Transformers (DiT) — die hetzelfde diffusion-proces uitvoeren maar dan met de Transformer-architectuur. Stable Diffusion 3 en Sora gebruiken DiT.
Belangrijke parameters voor gebruikers:
Aantal stappen. Hoeveel ruis-verwijderings-stappen worden er gebruikt? Meer stappen = betere kwaliteit, maar trager. Modern modellen halen prima resultaten in 20-30 stappen waar oudere er 50-100 nodig hadden.
CFG-scale (Classifier-Free Guidance). Hoe strikt het model je prompt volgt. Lage waarde = creatieve interpretatie, vaak afwijkend van prompt. Hoge waarde = strikte navolging, soms gekunsteld. Sweet spot meestal rond 7-12.
Sampler. Het algoritme dat de ruis-verwijderings-stappen aanstuurt. Verschillende samplers (Euler, DDIM, DPM++) geven licht verschillende resultaten en snelheden.
Seed. Het startpunt van willekeurige ruis. Dezelfde seed plus dezelfde prompt geeft hetzelfde resultaat — handig voor reproduceerbaarheid.
Voorbij beeld — uitbreidingen:
Video diffusion. Sora (OpenAI), Veo (Google), Runway Gen-3 — modellen die video’s genereren via dezelfde basistechniek, met extra dimensie voor tijd. In 2026 hebben ze al productie-kwaliteit voor korte clips bereikt.
Audio diffusion. AudioLDM, Stable Audio — modellen die geluid genereren via diffusion. Spraak, muziek, geluidseffecten.
3D-modellering. Een groeiend toepassingsgebied: diffusion models die 3D-modellen genereren voor games, productontwerp en architectuur.
Wetenschappelijke toepassingen. Diffusion models worden ook gebruikt voor moleculaire structuren, eiwitontwerp en zelfs nieuwe-materiaal-ontwikkeling.
De fundamentele beperkingen:
Anatomische uitdagingen. Diffusion models hebben moeite met handen, vingers, tanden en oren — kleine details die voor mensen duidelijk zijn maar in trainingsdata vaak vervaagd zijn. Dit verbetert maar blijft een herkenningspunt voor AI-gegenereerde beelden.
Tekst in beelden. Gegenereerde tekst in afbeeldingen (op winkelborden, boeken, posters) is vaak verminkt of onleesbaar. Recente modellen (FLUX, Imagen 3) verbeteren dit, maar het blijft een uitdaging.
Stijl-imitatie zonder toestemming. Diffusion models kunnen stijlen van bestaande kunstenaars verbluffend goed imiteren. Dit roept ethische vragen op — is dat plagiaat, inspiratie, of iets nieuws? De juridische antwoorden zijn nog niet uitgekristalliseerd.
Beperkte controle. Hoewel je via prompts veel kunt sturen, blijft fijne controle over compositie, perspectief en specifieke details lastig. Tools als ControlNet en image-to-image bieden meer sturing, maar voor zeer specifieke output is het vaak iteratief proberen tot je krijgt wat je wilt.
04In de praktijk
Een Nederlandse retailer met meerdere productlijnen produceert maandelijks honderden visuele assets — sociale media posts, banners, campagne-afbeeldingen. Tot 2023 werkte het team met een fotostudio en stockfoto-licenties. Sinds 2024 gebruiken ze diffusion models voor het grootste deel van hun visuele content.
De retailer gebruikt Adobe Firefly voor commercieel gevoelige assets (vanwege hun auteursrecht-vrijwaring), Midjourney voor brainstorming en stijlexploraties, en Stable Diffusion XL voor specifieke product-visualisaties die ze trainen op hun eigen producten via fine-tuning. De combinatie van drie tools, elk voor zijn eigen sterke kant, is in 2026 een gangbaar patroon.
Praktische lessen voor wie diffusion models wil inzetten:
Kies de juiste tool voor de juiste use case. Adobe Firefly voor zakelijke beelden waar IP-zekerheid nodig is. Midjourney voor de hoogste artistieke kwaliteit. Stable Diffusion of FLUX voor maximale controle en eigen fine-tuning. DALL-E 3 voor goede prompt-naleving via ChatGPT.
Investeer in prompt-vaardigheid. Beeldgeneratie heeft zijn eigen prompt-engineering. “Een man in een kantoor” levert generieke resultaten; “een Nederlandse manager van middelbare leeftijd, in modern kantoor met natuurlijk licht door grote ramen, fotografisch realistisch, ondiepe scherptediepte” werkt veel beter. Een goede prompt is goud waard.
Plan voor menselijke selectie. Diffusion models genereren in seconden — maar de eerste poging is zelden de beste. Reken op het maken van 5-20 versies waarvan je de beste kiest. Dit is fundamenteel anders werken dan klassieke fotografie.
Begrijp de juridische context. Voor commercieel gebruik check de licentievoorwaarden van je tool. Sommige garanderen vrijwaring (Adobe), andere expliciet niet (Midjourney basic plan). Voor klantgerichte content kies een tool met heldere commerciële licentievoorwaarden.
Brand-consistency is een uitdaging. Diffusion models leveren visuele variatie — soms te veel. Voor merken met strakke identiteit overweeg fine-tuning op eigen beeldmateriaal of het gebruik van consistente seeds en stijl-prompts.
05Verwarring vermijden
- Niet hetzelfde als generatieve AI in het algemeen. Generatieve AI is de overkoepelende term. Diffusion models is één specifieke techniek binnen die categorie, primair voor beeld, video en audio. Tekstgeneratie gebruikt typisch geen diffusion (al zijn er experimenten).
- Niet hetzelfde als GAN. Voor 2022 waren GANs (Generative Adversarial Networks) de dominante beeldgeneratie-techniek. Diffusion models zijn fundamenteel anders en blijken in praktijk superieur — beter begrepen, stabieler in training, hogere kwaliteit. GANs worden inmiddels nauwelijks meer gebruikt voor moderne beeldgeneratie.
- Niet hetzelfde als Photoshop met AI-knopjes. Tools als Photoshop hebben AI-functies (Generative Fill) die intern een diffusion model gebruiken. Maar diffusion models zelf zijn de onderliggende technologie, niet een specifiek product of UI.
- Niet alleen voor afbeeldingen. De techniek werkt voor elke continue datatype — beeld, video, audio, 3D-modellen, moleculaire structuren. De aandacht ligt nu op visuele media, maar de toepassingen zijn breder.
- Niet onbegrensd qua creativiteit. Een diffusion model kan alleen genereren binnen het patroon-bereik van zijn trainingsdata. Werkelijk nieuwe stijlen of concepten die fundamenteel anders zijn dan trainingsdata kan het niet uitvinden — alleen recombineren.
06Plek in het AIWiser-ecosysteem
Waar dit begrip terugkomt op de rest van de site:
AI-Strategie · Visuele assets
Diffusion models veranderen fundamenteel de economie van visuele content — relevant voor marketing-, communicatie- en designstrategie.
Naar de strategie →AI-Groeimodel · Governance
Auteursrecht en deepfakes vereisen een specifieke governance-aanpak — kerncompetentie binnen het Groeimodel.
Naar het Groeimodel →AI-Rollen · Visual Designer met AI
Een transformerende rol — de creative die diffusion models orchestreert in plaats van alles handmatig te maken.
Bekijk de rol →AI Top 100 · Beeldgeneratie
Midjourney, Stable Diffusion, DALL-E 3, Adobe Firefly, FLUX — de toonaangevende diffusion-gebaseerde tools.
Naar de Top 100 →Verwante begrippen
Termen die direct met diffusion models verbonden zijn:
Bronnen
Wetenschappelijke en gezaghebbende bronnen die bij deze definitie geraadpleegd zijn. De volledige onderbouwing en context staat in AI-Publicaties.
- Ho et al. (2020): Denoising Diffusion Probabilistic Models Het paper dat diffusion models in moderne vorm introduceerde — fundament onder Stable Diffusion en opvolgers.
- Rombach et al. (2022): High-Resolution Image Synthesis with Latent Diffusion Models Het paper achter Stable Diffusion — de doorbraak die beeldgeneratie democratiseerde.
- Peebles & Xie (2023): Scalable Diffusion Models with Transformers (DiT) Het paper achter Diffusion Transformers — de architectuur achter Sora en Stable Diffusion 3.
- Stanford HAI: AI Index Report 2026 Jaarlijkse stand van zaken over generatieve AI, beeldgeneratie en bijbehorende ethische vraagstukken.
