Glossaire · Français

RLHF

Reinforcement Learning from Human Feedback : entraînement d'un modèle basé sur des classements de préférences humaines des sorties.

Français · French

EN ES DE PT JA

Définition

RLHF entraîne un modèle à s'aligner avec les préférences humaines. Après SFT, des humains classent plusieurs sorties du modèle, un modèle de récompense est entraîné à prédire ces préférences, puis le LLM est fine-tuné pour maximiser la récompense. RLHF (et ses alternatives comme DPO) sont comment les modèles frontier obtiennent leur comportement d'utilité et de sécurité.

Exemple

Le pipeline post-entraînement d'OpenAI pour GPT-4 utilise RLHF de manière extensive pour aligner le modèle avec les préférences humaines.

Comment Vedwix utilise ceci

Rare dans le travail client — RLHF a besoin d'échelle. Nous utilisons DPO occasionnellement pour de plus petites tâches d'alignement.

Vous travaillez sur un projet de RLHF?

RLHF.

Décrivez votre projet en trois phrases ou moins.

Démarrer un projet

Plus de termes en AI

RAGAI Fine-tuningAI EmbeddingAI Vector DatabaseAI Hybrid SearchAI RerankerAI

RLHF

Décrivez votre projet en trois phrases ou moins.

Démarrer un projet