Définition
RLHF entraîne un modèle à s'aligner avec les préférences humaines. Après SFT, des humains classent plusieurs sorties du modèle, un modèle de récompense est entraîné à prédire ces préférences, puis le LLM est fine-tuné pour maximiser la récompense. RLHF (et ses alternatives comme DPO) sont comment les modèles frontier obtiennent leur comportement d'utilité et de sécurité.
Exemple
Le pipeline post-entraînement d'OpenAI pour GPT-4 utilise RLHF de manière extensive pour aligner le modèle avec les préférences humaines.
Comment Vedwix utilise ceci
Rare dans le travail client — RLHF a besoin d'échelle. Nous utilisons DPO occasionnellement pour de plus petites tâches d'alignement.
Vous travaillez sur un projet de RLHF?
RLHF.
Décrivez votre projet en trois phrases ou moins.
Démarrer un projet