RLHF
RLHF (Reinforcement Learning from Human Feedback) ist die Trainingsmethode, bei der LLMs nach dem Pre-Training durch menschliche Bewerter feinjustiert werden, die Outputs vergleichen und einstufen.
RLHF (durch InstructGPT und ChatGPT populär) schlägt die Brücke zwischen 'kann vorhersagen' und 'ist hilfreich'. Schritt 1: menschliche Evaluatoren ranken mehrere Modell-Outputs. Schritt 2: ein Reward-Model lernt, welche Outputs Menschen bevorzugen. Schritt 3: das LLM wird darauf via PPO oder DPO optimiert. Ergebnis: weniger Halluzinationen, besseres Befolgen von Anweisungen, sichereres Verhalten. Nachteile: Reward Hacking und Modell-Sykophantie.
Beispiel
OpenAI trainierte InstructGPT mit ~10.000 menschlichen Vergleichen. Trotz 100-mal kleinerem Modell übertrafen die instruction-tuned Modelle das Original-GPT-3 bei der Nutzerpräferenz.
Häufig gestellte Fragen
RLHF, RLAIF oder DPO?
RLHF: menschliche Bewerter. RLAIF: KI-Bewerter (günstiger, skalierbarer). DPO (Direct Preference Optimization): einfachere Alternative ohne Reward-Model.
Kann ich RLHF auf mein Modell anwenden?
Ja, aber kostspielig. Tausende Bewertungen plus ML-Infrastruktur nötig. Für die meisten Use Cases ist Fine-Tuning auf hochwertigen Beispielen praktischer.
Verwandte Begriffe
Weiterführende Links
- → Unser Service: GEO