Definición
RLHF entrena un modelo para alinearse con las preferencias humanas. Después de SFT, los humanos clasifican múltiples salidas del modelo, se entrena un modelo de recompensa para predecir esas preferencias, y luego el LLM se ajusta finamente para maximizar la recompensa. RLHF (y sus alternativas como DPO) son cómo los modelos de frontera obtienen su comportamiento de utilidad y seguridad.
Ejemplo
El pipeline post-entrenamiento de OpenAI para GPT-4 utiliza RLHF extensivamente para alinear el modelo con las preferencias humanas.
Cómo Vedwix usa esto
Raro en el trabajo de cliente — RLHF necesita escala. Usamos DPO ocasionalmente para tareas más pequeñas de alineación.
Trabajando en un proyecto de RLHF?
RLHF.
Cuéntanos sobre tu proyecto en tres frases o menos.
Iniciar un proyecto