Token
Een token is de basiseenheid waarin een LLM tekst verwerkt — typisch een stukje van een woord, ruwweg 4 tekens of 0,75 woorden in het Engels.
LLM's werken niet op woorden of tekens maar op tokens — sub-woord-eenheden gecreëerd door een tokenizer. Woord 'volatiliteit' kan opgesplitst worden in ['vola', 'til', 'iteit']. Per taal werkt dit anders: Engels ~1.33 tokens/woord, Nederlands ~1.5-2, Chinees ~1.3 tokens per karakter. LLM-kosten worden typisch gerekend per miljoen input/output tokens.
Voorbeeld
Een 10.000-woorden rapport in het Engels is ~13.300 tokens. Met Claude Sonnet (~$3 per 1M input tokens) kost analyse ervan ~$0,04. Nederlands zelfde rapport: ~17.500 tokens ≈ $0,05.
Veelgestelde vragen
Waarom sub-woorden i.p.v. gehele woorden?
Met sub-word tokenization dekt een vocabulair van 50-100k tokens vrijwel alle denkbare tekst — ook neologismen, typfouten, buitenlandse woorden. Veel efficiënter dan 1M+ woorden vocabulair.
Welke tokenizer gebruikt mijn favoriete model?
GPT: tiktoken. Claude: eigen tokenizer. Llama: SentencePiece. Elk model heeft eigen tokenizer; dezelfde tekst = verschillend tokenaantal per model.
Is Nederlands duurder dan Engels?
Ja, ~25-40% meer tokens per zelfde inhoud. Voor productie: denk hier rekening mee in cost-modelling.
Gerelateerde termen
Verder lezen
- → Onze dienst: AI-sector