Glossaire · Français

DPO (Direct Preference Optimization)

Une alternative plus simple à RLHF qui s'entraîne directement sur des paires de préférences sans modèle de récompense.

Français · French

Définition

DPO remplace le processus en deux étapes de RLHF (modèle de récompense + RL) par un objectif d'entraînement unique sur des paires de préférences. Il est significativement plus facile à implémenter, ne nécessite pas de modèle de récompense séparé et produit souvent une qualité comparable. DPO est devenu la méthode d'alignement de préférences par défaut en dehors des labos frontier.

Exemple

Une équipe aligne un modèle Llama 3 sur 10k paires de préférences ("la réponse A est meilleure que la réponse B") en utilisant DPO en quelques heures d'entraînement.

Comment Vedwix utilise ceci

Utilisé sélectivement quand SFT seul ne produit pas le bon ton ou jugement.

Vous travaillez sur un projet de DPO (Direct Preference Optimization)?

DPO (Direct Preference Optimization).

Décrivez votre projet en trois phrases ou moins.

Démarrer un projet

DPO (Direct Preference Optimization)

Décrivez votre projet en trois phrases ou moins.

Démarrer un projet