RLHF

Von Paul Brock·Aktualisiert am 24-04-2026

Kurz gesagt

RLHF (Reinforcement Learning from Human Feedback) ist die Trainingsmethode, bei der LLMs nach dem Pre-Training durch menschliche Bewerter feinjustiert werden, die Outputs vergleichen und einstufen.

RLHF (durch InstructGPT und ChatGPT populär) schlägt die Brücke zwischen 'kann vorhersagen' und 'ist hilfreich'. Schritt 1: menschliche Evaluatoren ranken mehrere Modell-Outputs. Schritt 2: ein Reward-Model lernt, welche Outputs Menschen bevorzugen. Schritt 3: das LLM wird darauf via PPO oder DPO optimiert. Ergebnis: weniger Halluzinationen, besseres Befolgen von Anweisungen, sichereres Verhalten. Nachteile: Reward Hacking und Modell-Sykophantie.

Beispiel

OpenAI trainierte InstructGPT mit ~10.000 menschlichen Vergleichen. Trotz 100-mal kleinerem Modell übertrafen die instruction-tuned Modelle das Original-GPT-3 bei der Nutzerpräferenz.

Häufig gestellte Fragen

RLHF, RLAIF oder DPO?

RLHF: menschliche Bewerter. RLAIF: KI-Bewerter (günstiger, skalierbarer). DPO (Direct Preference Optimization): einfachere Alternative ohne Reward-Model.

Kann ich RLHF auf mein Modell anwenden?

Ja, aber kostspielig. Tausende Bewertungen plus ML-Infrastruktur nötig. Für die meisten Use Cases ist Fine-Tuning auf hochwertigen Beispielen praktischer.

Weiterführende Links

→ Unser Service: GEO

RLHF

Beispiel

Häufig gestellte Fragen

Verwandte Begriffe

Weiterführende Links

Hilfe bei SEO oder GEO?