RLHF

Door Paul Brock·Bijgewerkt op 24-04-2026

In het kort

RLHF (Reinforcement Learning from Human Feedback) is de trainingsmethode waarmee LLMs na pre-training worden bijgestuurd door menselijke beoordeelaars die outputs vergelijken en rangschikken.

RLHF (gepopulariseerd door InstructGPT en ChatGPT) is de brug tussen 'kan voorspellen' en 'is behulpzaam'. Stap 1: menselijke evaluators rangschikken meerdere model-outputs. Stap 2: een reward model leert welke outputs mensen prefereren. Stap 3: het LLM wordt hierop geoptimaliseerd via PPO of DPO. Resultaat: minder hallucinaties, beter volgen van instructies, veiliger gedrag. Nadeel: reward-hacking en model-sycophancy (te veel eens-zijn).

Voorbeeld

OpenAI trainde InstructGPT met ~10.000 menselijke vergelijkingen. Ondanks 100x kleinere modelgrootte presteerden de instructie-getrainde modellen beter op user-preference dan de originele GPT-3 — RLHF in actie.

Veelgestelde vragen

RLHF, RLAIF of DPO?

RLHF: menselijke beoordelaars. RLAIF: AI beoordelaars (goedkoper, schaalbaarder). DPO (Direct Preference Optimization): eenvoudiger alternatief voor RLHF, geen reward-model nodig.

Kan ik mijn model RLHF'en?

Ja, maar kostbaar. Duizenden evaluaties nodig, plus ML-infra. Voor de meeste use cases: fine-tuning op high-quality voorbeelden is praktischer dan RLHF.

Veroorzaakt RLHF bias?

Kan. De waarden en voorkeuren van evaluators worden ingebed in het model. Constitutional AI (Anthropic) probeert dit te mitigeren met expliciete principes.

Gerelateerde termen

Verder lezen

→ Onze dienst: GEO

RLHF

Voorbeeld

Veelgestelde vragen

Gerelateerde termen

Verder lezen

Hulp nodig bij SEO of GEO?