Glosario · Español

RLHF

Aprendizaje por refuerzo a partir de retroalimentación humana: entrenar un modelo basado en clasificaciones de preferencia humana de las salidas.

Español · Spanish

EN DE FR PT JA

Definición

RLHF entrena un modelo para alinearse con las preferencias humanas. Después de SFT, los humanos clasifican múltiples salidas del modelo, se entrena un modelo de recompensa para predecir esas preferencias, y luego el LLM se ajusta finamente para maximizar la recompensa. RLHF (y sus alternativas como DPO) son cómo los modelos de frontera obtienen su comportamiento de utilidad y seguridad.

Ejemplo

El pipeline post-entrenamiento de OpenAI para GPT-4 utiliza RLHF extensivamente para alinear el modelo con las preferencias humanas.

Cómo Vedwix usa esto

Raro en el trabajo de cliente — RLHF necesita escala. Usamos DPO ocasionalmente para tareas más pequeñas de alineación.

Trabajando en un proyecto de RLHF?

RLHF.

Cuéntanos sobre tu proyecto en tres frases o menos.

Iniciar un proyecto

Más términos de AI

RAGAI Fine-tuningAI EmbeddingAI Vector DatabaseAI Hybrid SearchAI RerankerAI

RLHF

Cuéntanos sobre tu proyecto en tres frases o menos.

Iniciar un proyecto