KI

RLHF

Von Paul Brock·Aktualisiert am 24-04-2026
Kurz gesagt

RLHF (Reinforcement Learning from Human Feedback) ist die Trainingsmethode, bei der LLMs nach dem Pre-Training durch menschliche Bewerter feinjustiert werden, die Outputs vergleichen und einstufen.

RLHF (durch InstructGPT und ChatGPT populär) schlägt die Brücke zwischen 'kann vorhersagen' und 'ist hilfreich'. Schritt 1: menschliche Evaluatoren ranken mehrere Modell-Outputs. Schritt 2: ein Reward-Model lernt, welche Outputs Menschen bevorzugen. Schritt 3: das LLM wird darauf via PPO oder DPO optimiert. Ergebnis: weniger Halluzinationen, besseres Befolgen von Anweisungen, sichereres Verhalten. Nachteile: Reward Hacking und Modell-Sykophantie.

Beispiel

OpenAI trainierte InstructGPT mit ~10.000 menschlichen Vergleichen. Trotz 100-mal kleinerem Modell übertrafen die instruction-tuned Modelle das Original-GPT-3 bei der Nutzerpräferenz.

Häufig gestellte Fragen

RLHF, RLAIF oder DPO?

RLHF: menschliche Bewerter. RLAIF: KI-Bewerter (günstiger, skalierbarer). DPO (Direct Preference Optimization): einfachere Alternative ohne Reward-Model.

Kann ich RLHF auf mein Modell anwenden?

Ja, aber kostspielig. Tausende Bewertungen plus ML-Infrastruktur nötig. Für die meisten Use Cases ist Fine-Tuning auf hochwertigen Beispielen praktischer.

Verwandte Begriffe

Weiterführende Links

  • → Unser Service: GEO

Hilfe bei SEO oder GEO?

Wir helfen Bitcoin-, AI- und Fintech-Unternehmen, in Google und in KI-Suchmaschinen gefunden zu werden.

Termin vereinbaren