用語集 · 日本語

RLHF

人間のフィードバックからの強化学習: 出力の人間の好みランキングに基づいてモデルを訓練すること。

日本語 · Japanese

定義

RLHFは、モデルを人間の好みに合わせるように訓練します。SFT後、人間が複数のモデル出力をランク付けし、報酬モデルがこれらの好みを予測するように訓練され、その後LLMが報酬を最大化するようにファインチューニングされます。RLHF(およびDPOのようなその代替)は、フロンティアモデルがその有用性と安全性の動作を獲得する方法です。

GPT-4のためのOpenAIのポストトレーニングパイプラインは、モデルを人間の好みに合わせるためにRLHFを広範に使用します。

Vedwixでの使用方法

クライアント作業ではまれです — RLHFは規模を必要とします。小さなアラインメントタスクのためにDPOをたまに使用します。

プロジェクトでお困りですか RLHF?

RLHF.

3つの文章でプロジェクトについてお聞かせください。

プロジェクトを開始

RLHF

3つの文章でプロジェクトについてお聞かせください。

プロジェクトを開始