Definição
RLHF treina um modelo para se alinhar com preferências humanas. Após SFT, humanos classificam várias saídas do modelo, um modelo de recompensa é treinado para prever essas preferências e então o LLM é ajustado para maximizar a recompensa. RLHF (e suas alternativas como DPO) é como modelos de fronteira obtêm seu comportamento de utilidade e segurança.
Exemplo
O pipeline pós-treinamento da OpenAI para GPT-4 usa RLHF extensivamente para alinhar o modelo com preferências humanas.
Como a Vedwix usa isto
Raro em trabalho de cliente — RLHF precisa de escala. Usamos DPO ocasionalmente para tarefas menores de alinhamento.
Trabalhando em um projeto de RLHF?
RLHF.
Descreva seu projeto em três frases ou menos.
Iniciar um projeto