定義
Transformerは、シーケンスを並列処理するためにセルフアテンションを使用し、古いRNNが捉えられなかった長距離依存関係を捉えます。2017年の論文「Attention Is All You Need」で導入されたTransformerは、現在、言語、ビジョン、オーディオ、マルチモーダルモデルを支えています。デコーダーのみのバリアント(GPT、Llama、Claude)は言語タスクで支配的です。
例
GPT-4、Claude 3、Llama 3、Geminiはすべてデコーダーのみのトランスフォーマーです。
Vedwixでの使用方法
基盤的。トランスフォーマーをゼロから訓練することはまれです — 強力なベースをファインチューニングする方がほぼ常に良いです。