Glossário · Português

RLHF

Aprendizado por Reforço com Feedback Humano: treinar um modelo baseado em classificações de preferência humana das saídas.

Português · Portuguese

Definição

RLHF treina um modelo para se alinhar com preferências humanas. Após SFT, humanos classificam várias saídas do modelo, um modelo de recompensa é treinado para prever essas preferências e então o LLM é ajustado para maximizar a recompensa. RLHF (e suas alternativas como DPO) é como modelos de fronteira obtêm seu comportamento de utilidade e segurança.

Exemplo

O pipeline pós-treinamento da OpenAI para GPT-4 usa RLHF extensivamente para alinhar o modelo com preferências humanas.

Como a Vedwix usa isto

Raro em trabalho de cliente — RLHF precisa de escala. Usamos DPO ocasionalmente para tarefas menores de alinhamento.

Trabalhando em um projeto de RLHF?

RLHF.

Descreva seu projeto em três frases ou menos.

Iniciar um projeto

RLHF

Descreva seu projeto em três frases ou menos.

Iniciar um projeto