RLHF
RLHF (Reinforcement Learning from Human Feedback) is de trainingsmethode waarmee LLMs na pre-training worden bijgestuurd door menselijke beoordeelaars die outputs vergelijken en rangschikken.
RLHF (gepopulariseerd door InstructGPT en ChatGPT) is de brug tussen 'kan voorspellen' en 'is behulpzaam'. Stap 1: menselijke evaluators rangschikken meerdere model-outputs. Stap 2: een reward model leert welke outputs mensen prefereren. Stap 3: het LLM wordt hierop geoptimaliseerd via PPO of DPO. Resultaat: minder hallucinaties, beter volgen van instructies, veiliger gedrag. Nadeel: reward-hacking en model-sycophancy (te veel eens-zijn).
Voorbeeld
OpenAI trainde InstructGPT met ~10.000 menselijke vergelijkingen. Ondanks 100x kleinere modelgrootte presteerden de instructie-getrainde modellen beter op user-preference dan de originele GPT-3 — RLHF in actie.
Veelgestelde vragen
RLHF, RLAIF of DPO?
RLHF: menselijke beoordelaars. RLAIF: AI beoordelaars (goedkoper, schaalbaarder). DPO (Direct Preference Optimization): eenvoudiger alternatief voor RLHF, geen reward-model nodig.
Kan ik mijn model RLHF'en?
Ja, maar kostbaar. Duizenden evaluaties nodig, plus ML-infra. Voor de meeste use cases: fine-tuning op high-quality voorbeelden is praktischer dan RLHF.
Veroorzaakt RLHF bias?
Kan. De waarden en voorkeuren van evaluators worden ingebed in het model. Constitutional AI (Anthropic) probeert dit te mitigeren met expliciete principes.
Gerelateerde termen
Verder lezen
- → Onze dienst: GEO