Embedding
Een embedding is een numerieke vector-representatie van tekst, afbeelding of ander data, waarmee AI-systemen semantische overeenkomst kunnen berekenen.
Een embedding-model zet elk stuk tekst om in een vector van honderden tot duizenden floating-point getallen. Tekst met vergelijkbare betekenis ligt in die vectorruimte dicht bij elkaar. Toepassingen: semantisch zoeken, clustering, classification, RAG-retrieval. Populaire embedding-modellen: OpenAI text-embedding-3, Voyage AI, Cohere, en open-source BGE-M3.
Voorbeeld
Een kennisbank met 10.000 documenten wordt ge-embed. Zoekvraag 'hoe werkt open banking' genereert query-embedding; vectordatabase vindt semantisch vergelijkbare documenten — ook als ze niet letterlijk 'open banking' bevatten maar wel 'PSD2 API'.
Veelgestelde vragen
Wat is dimensionaliteit?
Aantal dimensies in de vector. OpenAI text-embedding-3-large: 3072D. Hoge dimensionaliteit = rijkere representatie maar duurdere storage/compute.
Hoe kies ik een embedding-model?
Benchmarks (MTEB), taal-ondersteuning (meertalig?), kosten, en privacy (on-premise vs. API). Voor NL-content: Voyage multilingual of OpenAI werken goed.
Embeddings vs. keywords?
Embeddings: semantisch ('auto' matcht 'voertuig'). Keywords: lexicaal (exacte match). Moderne search is hybrid: combineer beide voor beste resultaten.
Gerelateerde termen
Verder lezen
- → Onze dienst: AI-sector