Welten-agent · kosteninschatting

Een realistische schatting van de kosten, opgesplitst in vaste lasten (infrastructuur en onderhoud, ongeacht gebruik) en variabele kosten (per gebruiker, schalend met gebruik). Plus drie schaalscenario’s.

Belangrijk voorbehoud. Dit is een modelmatige schatting op basis van prijzen van juli 2026 en aannames over gebruik. De werkelijke kosten hangen sterk af van hoeveel mensen chatten en hoe lang. AI-prijzen en infrastructuur veranderen bovendien elke paar maanden. Gebruik dit om de orde van grootte en de knoppen te begrijpen, niet als exacte begroting. Verifieer de tarieven bij de bouw.

Deel 1 · Vaste maandlasten (infrastructuur)

Deze kosten betaal je ongeacht hoeveel gebruikers je hebt — ze vormen je basisvloer.

Onderdeel	Kosten/maand	Toelichting
Supabase Pro	$25 (~€23)	Database, auth, storage, pgvector — alles in één. Dekt de eerste 100.000 gebruikers qua auth.
Supabase compute-opschaling	$0–50	De Micro-instance zit in de $25. pgvector-zoekwerk is compute-intensief; bij groei schaal je naar Small (+$5) of Medium (+$50).
Hosting chat-laag	$0–20	Cloudflare Pages is in de gratis/goedkope laag ruim voldoende voor de start. Vercel zou hier hoger uitvallen.
Ingestie-werker (aparte server)	$5–20	Kleine VPS of container voor de achtergrond-jobs. Draait niet constant zwaar; kan klein blijven.
Observability / evals	$0–30	Mastra heeft evals ingebouwd (gratis). Langfuse heeft een gratis tier; betaald bij volume.
Domein	~$1–2	Jaarlijks omgerekend.
Vaste basis totaal	~$35–90/maand	~€32–83. In de startfase eerder €35, bij groei richting €85.

Wat hier bewust niet in zit, omdat het variabel of eenmalig is: de LLM-kosten (zie deel 2), de eenmalige ingestie van alle bronnen (zie deel 4), en de chassis-diensten die pas later spelen (Stripe-transactiekosten, e.d.).

Deel 2 · Variabele kosten per gebruiker (LLM-gebruik)

Dit is de kern, en tegelijk het lastigst te voorspellen, want het hangt volledig af van hoeveel iemand chat. Elke vraag doorloopt de tien-staps-flow, en die verbruikt tokens bij verschillende modellen.

Kostenopbouw van één begeleidingsvraag (de zwaardere route, met alle stappen):

Stap	Model	Geschatte kosten
Triage, herschrijven, 2× guardrail (stap 1,2,3,8)	Haiku (goedkoop)	~$0,001–0,003
Reranking (stap 5)	Cohere/Voyage	~$0,001
Eindantwoord (stap 7)	Sonnet	~$0,01–0,03
Embedding van de vraag (stap 4)	embedding-model	verwaarloosbaar
Per zware vraag		~$0,015–0,035

Een simpele kennisvraag (kortere route, geen fase-logica) kost minder — grofweg $0,005–0,015.

De grote kostenbesparers die dit drukken:

Prompt caching op de vaste system prompt: een cache-hit kost 10% van de normale input-prijs. Omdat je lange methodiek-prompt bij elke vraag meegaat, is dit een aanzienlijke besparing — mogelijk halveert het je input-kosten.
Semantische cache (upgrade): veelgestelde vragen worden helemaal niet opnieuw berekend. Bij een populaire agent kan dit een groot deel van de vragen afvangen.

Vertaald naar een gebruiker per maand, afhankelijk van hoe actief:

Gebruikerstype	Vragen/maand	LLM-kosten/maand
Licht (probeert het uit)	~20	~€0,30–0,70
Gemiddeld (regelmatig)	~100	~€1,50–3,50
Intensief (dagelijks, diep)	~400	~€6–14

Dit is de kost vóór wat de gebruiker betaalt. Bij een abonnementsmodel is de vraag: dekt de prijs die je vraagt ruim deze variabele kost? Bij €15–30/maand abonnement en een gemiddelde gebruiker (~€2–3 kost) is de marge gezond. Bij een intensieve gebruiker op een goedkoop abonnement kan het knellen — vandaar dat rate-limiting en caps (chassis) belangrijk zijn.

Deel 3 · Drie schaalscenario’s

Vaste lasten + variabele kosten gecombineerd, bij een aanname van gemiddeld gebruik (~100 vragen/gebruiker/maand). Bedragen in euro’s, afgerond.

Scenario A · Start / pilot — 50 actieve gebruikers

Vaste basis: ~€35
LLM-gebruik: 50 × ~€2,50 = ~€125
Totaal: ~€160/maand (~€3,20 per gebruiker)
Op deze schaal is de vaste basis relatief groot; per gebruiker lijkt het duur, maar het absolute bedrag is laag.

Scenario B · Groei — 500 actieve gebruikers

Vaste basis: ~€55 (iets opgeschaalde compute)
LLM-gebruik: 500 × ~€2,50 = ~€1.250
Totaal: ~€1.305/maand (~€2,60 per gebruiker)
De vaste basis verwatert; de LLM-kosten domineren nu volledig. Hier gaan prompt caching en semantische cache echt geld besparen.

Scenario C · Schaal — 5.000 actieve gebruikers

Vaste basis: ~€150 (Medium compute, meer egress, mogelijk gespecialiseerde vector-DB)
LLM-gebruik: 5.000 × ~€2,50 = ~€12.500 (vóór caching-besparingen)
Met agressieve caching realistisch: ~€7.000–10.000
Totaal: ~€7.150–10.150/maand (~€1,40–2,00 per gebruiker)
Op schaal worden de kostenoptimalisaties uit het faseplan (semantische cache, context-compressie, goedkoper model waar mogelijk) het verschil tussen winst en verlies. Ook wordt de eigen router-laag ipv OpenRouter en een gespecialiseerde vector-DB hier relevant.

Rode draad: de vaste kosten zijn laag en verwateren snel. De LLM-kosten per gebruiker zijn de hele economie van het product. Elke cent die je daar bespaart (caching, modelkeuze, cache) vermenigvuldigt zich met je gebruikersaantal.

Deel 4 · Eenmalige en periodieke kosten

Naast de maandlasten:

Eenmalige ingestie van alle bronnen — het verwerken van alle boeken, cursussen, podcasts en decks kost eenmalig LLM-tokens (embedden + verrijken). Dit is een offline batch-job, dus met de Batch API (50% korting). Voor een flinke kennisbank is dit eerder tientallen tot enkele honderden euro’s eenmalig dan een structurele last. Herhaalt zich alleen als je de hele kennisbank opnieuw verwerkt (bv. bij een betere chunk-strategie).
Onderhoud (jouw tijd) — geen directe geldkost, maar reëel: monitoring, updates, nieuwe bronnen toevoegen, evals draaien. Bij een draaiend product enkele uren per maand.
Chassis-diensten (later) — Stripe rekent per transactie (~1,5–3% + klein vast bedrag). PostHog heeft een gratis tier. Deze komen pas in beeld bij een betaald, publiek product.

Deel 5 · De knoppen waar je aan draait

Wat de kosten het meest beïnvloedt, van groot naar klein effect:

Hoeveel mensen chatten en hoe veel — verreweg de grootste factor. Rate-limiting en caps beschermen je hier.
Modelkeuze voor het eindantwoord — Sonnet vs Opus scheelt 5× op de duurste stap. Sonnet als default houdt dit laag.
Prompt caching — halveert mogelijk je input-kosten, gratis aan te zetten.
Semantische cache — kan een groot deel van herhaalde vragen gratis afvangen.
Context-compressie — minder tokens naar het dure model bij het eindantwoord.
Vaste infrastructuur — relatief klein en grotendeels vast; hier valt het minst te optimaliseren, en dat hoeft ook niet.

Samengevat: reken voor de start op een vaste vloer van ~€35–55/maand plus ~€2–3 per gemiddelde gebruiker per maand. De vaste kosten zijn geen zorg; de gebruikerskost is de hele economie, en die stuur je met de kostenhefbomen uit het faseplan (caching, modelkeuze) en met rate-limiting uit het chassis. Bij een abonnement van €15–30/maand is de marge bij normaal gebruik ruim; de aandacht gaat naar het afdekken van intensieve gebruikers.