Glosario · Español

DPO (Optimización Directa de Preferencias)

Una alternativa más simple a RLHF que entrena directamente sobre pares de preferencia sin un modelo de recompensa.

Español · Spanish

Definición

DPO reemplaza el proceso de dos etapas de RLHF (modelo de recompensa + RL) con un solo objetivo de entrenamiento sobre pares de preferencia. Es significativamente más fácil de implementar, no requiere un modelo de recompensa separado, y a menudo produce calidad comparable. DPO se ha convertido en el método predeterminado de alineación de preferencias fuera de los laboratorios de frontera.

Ejemplo

Un equipo alinea un modelo Llama 3 sobre 10k pares de preferencia ("la respuesta A es mejor que la respuesta B") usando DPO en unas pocas horas de entrenamiento.

Cómo Vedwix usa esto

Usado selectivamente cuando SFT por sí solo no produce el tono o juicio correcto.

Trabajando en un proyecto de DPO (Optimización Directa de Preferencias)?

DPO (Optimización Directa de Preferencias).

Cuéntanos sobre tu proyecto en tres frases o menos.

Iniciar un proyecto

DPO (Optimización Directa de Preferencias)

Cuéntanos sobre tu proyecto en tres frases o menos.

Iniciar un proyecto