Welten-agent · kosteninschatting
Een realistische schatting van de kosten, opgesplitst in vaste lasten (infrastructuur en onderhoud, ongeacht gebruik) en variabele kosten (per gebruiker, schalend met gebruik). Plus drie schaalscenario’s.
Belangrijk voorbehoud. Dit is een modelmatige schatting op basis van prijzen van juli 2026 en aannames over gebruik. De werkelijke kosten hangen sterk af van hoeveel mensen chatten en hoe lang. AI-prijzen en infrastructuur veranderen bovendien elke paar maanden. Gebruik dit om de orde van grootte en de knoppen te begrijpen, niet als exacte begroting. Verifieer de tarieven bij de bouw.
Deel 1 · Vaste maandlasten (infrastructuur)
Section titled “Deel 1 · Vaste maandlasten (infrastructuur)”Deze kosten betaal je ongeacht hoeveel gebruikers je hebt — ze vormen je basisvloer.
| Onderdeel | Kosten/maand | Toelichting |
|---|---|---|
| Supabase Pro | $25 (~€23) | Database, auth, storage, pgvector — alles in één. Dekt de eerste 100.000 gebruikers qua auth. |
| Supabase compute-opschaling | $0–50 | De Micro-instance zit in de $25. pgvector-zoekwerk is compute-intensief; bij groei schaal je naar Small (+$5) of Medium (+$50). |
| Hosting chat-laag | $0–20 | Cloudflare Pages is in de gratis/goedkope laag ruim voldoende voor de start. Vercel zou hier hoger uitvallen. |
| Ingestie-werker (aparte server) | $5–20 | Kleine VPS of container voor de achtergrond-jobs. Draait niet constant zwaar; kan klein blijven. |
| Observability / evals | $0–30 | Mastra heeft evals ingebouwd (gratis). Langfuse heeft een gratis tier; betaald bij volume. |
| Domein | ~$1–2 | Jaarlijks omgerekend. |
| Vaste basis totaal | ~$35–90/maand | ~€32–83. In de startfase eerder €35, bij groei richting €85. |
Wat hier bewust niet in zit, omdat het variabel of eenmalig is: de LLM-kosten (zie deel 2), de eenmalige ingestie van alle bronnen (zie deel 4), en de chassis-diensten die pas later spelen (Stripe-transactiekosten, e.d.).
Deel 2 · Variabele kosten per gebruiker (LLM-gebruik)
Section titled “Deel 2 · Variabele kosten per gebruiker (LLM-gebruik)”Dit is de kern, en tegelijk het lastigst te voorspellen, want het hangt volledig af van hoeveel iemand chat. Elke vraag doorloopt de tien-staps-flow, en die verbruikt tokens bij verschillende modellen.
Kostenopbouw van één begeleidingsvraag (de zwaardere route, met alle stappen):
| Stap | Model | Geschatte kosten |
|---|---|---|
| Triage, herschrijven, 2× guardrail (stap 1,2,3,8) | Haiku (goedkoop) | ~$0,001–0,003 |
| Reranking (stap 5) | Cohere/Voyage | ~$0,001 |
| Eindantwoord (stap 7) | Sonnet | ~$0,01–0,03 |
| Embedding van de vraag (stap 4) | embedding-model | verwaarloosbaar |
| Per zware vraag | ~$0,015–0,035 |
Een simpele kennisvraag (kortere route, geen fase-logica) kost minder — grofweg $0,005–0,015.
De grote kostenbesparers die dit drukken:
- Prompt caching op de vaste system prompt: een cache-hit kost 10% van de normale input-prijs. Omdat je lange methodiek-prompt bij elke vraag meegaat, is dit een aanzienlijke besparing — mogelijk halveert het je input-kosten.
- Semantische cache (upgrade): veelgestelde vragen worden helemaal niet opnieuw berekend. Bij een populaire agent kan dit een groot deel van de vragen afvangen.
Vertaald naar een gebruiker per maand, afhankelijk van hoe actief:
| Gebruikerstype | Vragen/maand | LLM-kosten/maand |
|---|---|---|
| Licht (probeert het uit) | ~20 | ~€0,30–0,70 |
| Gemiddeld (regelmatig) | ~100 | ~€1,50–3,50 |
| Intensief (dagelijks, diep) | ~400 | ~€6–14 |
Dit is de kost vóór wat de gebruiker betaalt. Bij een abonnementsmodel is de vraag: dekt de prijs die je vraagt ruim deze variabele kost? Bij €15–30/maand abonnement en een gemiddelde gebruiker (~€2–3 kost) is de marge gezond. Bij een intensieve gebruiker op een goedkoop abonnement kan het knellen — vandaar dat rate-limiting en caps (chassis) belangrijk zijn.
Deel 3 · Drie schaalscenario’s
Section titled “Deel 3 · Drie schaalscenario’s”Vaste lasten + variabele kosten gecombineerd, bij een aanname van gemiddeld gebruik (~100 vragen/gebruiker/maand). Bedragen in euro’s, afgerond.
Scenario A · Start / pilot — 50 actieve gebruikers
Section titled “Scenario A · Start / pilot — 50 actieve gebruikers”- Vaste basis: ~€35
- LLM-gebruik: 50 × ~€2,50 = ~€125
- Totaal: ~€160/maand (~€3,20 per gebruiker)
- Op deze schaal is de vaste basis relatief groot; per gebruiker lijkt het duur, maar het absolute bedrag is laag.
Scenario B · Groei — 500 actieve gebruikers
Section titled “Scenario B · Groei — 500 actieve gebruikers”- Vaste basis: ~€55 (iets opgeschaalde compute)
- LLM-gebruik: 500 × ~€2,50 = ~€1.250
- Totaal: ~€1.305/maand (~€2,60 per gebruiker)
- De vaste basis verwatert; de LLM-kosten domineren nu volledig. Hier gaan prompt caching en semantische cache echt geld besparen.
Scenario C · Schaal — 5.000 actieve gebruikers
Section titled “Scenario C · Schaal — 5.000 actieve gebruikers”- Vaste basis: ~€150 (Medium compute, meer egress, mogelijk gespecialiseerde vector-DB)
- LLM-gebruik: 5.000 × ~€2,50 = ~€12.500 (vóór caching-besparingen)
- Met agressieve caching realistisch: ~€7.000–10.000
- Totaal: ~€7.150–10.150/maand (~€1,40–2,00 per gebruiker)
- Op schaal worden de kostenoptimalisaties uit het faseplan (semantische cache, context-compressie, goedkoper model waar mogelijk) het verschil tussen winst en verlies. Ook wordt de eigen router-laag ipv OpenRouter en een gespecialiseerde vector-DB hier relevant.
Rode draad: de vaste kosten zijn laag en verwateren snel. De LLM-kosten per gebruiker zijn de hele economie van het product. Elke cent die je daar bespaart (caching, modelkeuze, cache) vermenigvuldigt zich met je gebruikersaantal.
Deel 4 · Eenmalige en periodieke kosten
Section titled “Deel 4 · Eenmalige en periodieke kosten”Naast de maandlasten:
- Eenmalige ingestie van alle bronnen — het verwerken van alle boeken, cursussen, podcasts en decks kost eenmalig LLM-tokens (embedden + verrijken). Dit is een offline batch-job, dus met de Batch API (50% korting). Voor een flinke kennisbank is dit eerder tientallen tot enkele honderden euro’s eenmalig dan een structurele last. Herhaalt zich alleen als je de hele kennisbank opnieuw verwerkt (bv. bij een betere chunk-strategie).
- Onderhoud (jouw tijd) — geen directe geldkost, maar reëel: monitoring, updates, nieuwe bronnen toevoegen, evals draaien. Bij een draaiend product enkele uren per maand.
- Chassis-diensten (later) — Stripe rekent per transactie (~1,5–3% + klein vast bedrag). PostHog heeft een gratis tier. Deze komen pas in beeld bij een betaald, publiek product.
Deel 5 · De knoppen waar je aan draait
Section titled “Deel 5 · De knoppen waar je aan draait”Wat de kosten het meest beïnvloedt, van groot naar klein effect:
- Hoeveel mensen chatten en hoe veel — verreweg de grootste factor. Rate-limiting en caps beschermen je hier.
- Modelkeuze voor het eindantwoord — Sonnet vs Opus scheelt 5× op de duurste stap. Sonnet als default houdt dit laag.
- Prompt caching — halveert mogelijk je input-kosten, gratis aan te zetten.
- Semantische cache — kan een groot deel van herhaalde vragen gratis afvangen.
- Context-compressie — minder tokens naar het dure model bij het eindantwoord.
- Vaste infrastructuur — relatief klein en grotendeels vast; hier valt het minst te optimaliseren, en dat hoeft ook niet.
Samengevat: reken voor de start op een vaste vloer van ~€35–55/maand plus ~€2–3 per gemiddelde gebruiker per maand. De vaste kosten zijn geen zorg; de gebruikerskost is de hele economie, en die stuur je met de kostenhefbomen uit het faseplan (caching, modelkeuze) en met rate-limiting uit het chassis. Bij een abonnement van €15–30/maand is de marge bij normaal gebruik ruim; de aandacht gaat naar het afdekken van intensieve gebruikers.