Token

Door Paul Brock·Bijgewerkt op 22-04-2026

In het kort

Een token is de basiseenheid waarin een LLM tekst verwerkt — typisch een stukje van een woord, ruwweg 4 tekens of 0,75 woorden in het Engels.

LLM's werken niet op woorden of tekens maar op tokens — sub-woord-eenheden gecreëerd door een tokenizer. Woord 'volatiliteit' kan opgesplitst worden in ['vola', 'til', 'iteit']. Per taal werkt dit anders: Engels ~1.33 tokens/woord, Nederlands ~1.5-2, Chinees ~1.3 tokens per karakter. LLM-kosten worden typisch gerekend per miljoen input/output tokens.

Voorbeeld

Een 10.000-woorden rapport in het Engels is ~13.300 tokens. Met Claude Sonnet (~$3 per 1M input tokens) kost analyse ervan ~$0,04. Nederlands zelfde rapport: ~17.500 tokens ≈ $0,05.

Veelgestelde vragen

Waarom sub-woorden i.p.v. gehele woorden?

Met sub-word tokenization dekt een vocabulair van 50-100k tokens vrijwel alle denkbare tekst — ook neologismen, typfouten, buitenlandse woorden. Veel efficiënter dan 1M+ woorden vocabulair.

Welke tokenizer gebruikt mijn favoriete model?

GPT: tiktoken. Claude: eigen tokenizer. Llama: SentencePiece. Elk model heeft eigen tokenizer; dezelfde tekst = verschillend tokenaantal per model.

Is Nederlands duurder dan Engels?

Ja, ~25-40% meer tokens per zelfde inhoud. Voor productie: denk hier rekening mee in cost-modelling.

Gerelateerde termen

Verder lezen

→ Onze dienst: AI-sector

Token

Voorbeeld

Veelgestelde vragen

Gerelateerde termen

Verder lezen

Hulp nodig bij SEO of GEO?