Definição
DPO substitui o processo de duas etapas do RLHF (modelo de recompensa + RL) por um único objetivo de treinamento em pares de preferência. É significativamente mais fácil de implementar, não requer um modelo de recompensa separado e frequentemente produz qualidade comparável. DPO se tornou o método padrão de alinhamento de preferências fora dos laboratórios de fronteira.
Exemplo
Uma equipe alinha um modelo Llama 3 em 10k pares de preferência ("resposta A é melhor que resposta B") usando DPO em poucas horas de treinamento.
Como a Vedwix usa isto
Usado seletivamente quando SFT sozinho não produz o tom ou julgamento certo.
Trabalhando em um projeto de DPO (Otimização Direta de Preferências)?
DPO (Otimização Direta de Preferências).
Descreva seu projeto em três frases ou menos.
Iniciar um projeto