2025-03-05 Lecture 15 - After DPO: 新時代のAIアライメント戦略

キーワード

アライメント研究直接選好最適化（DPO）オンライン学習報酬モデル

出展元

https://youtu.be/dnF463_Ar9I?si=M07ggqjVwiNO68lg

初回調査日

Mar 31, 2025 1:55 PM

※本記事は、スタンフォード大学のCS224N「NLPとディープラーニング」2024年春学期の講義15「After DPO」でのNathan Lambert氏による講演内容を基に作成されています。講義の完全な動画はhttps://www.youtube.com/watch?v=dnF463_Ar9I でご覧いただけます。スタンフォード大学のオンライン人工知能プログラムについての詳細はhttps://stanford.io/ai で、この講座への登録方法はhttps://online.stanford.edu/courses/c... でご確認いただけます。講座のスケジュールとシラバスはhhttps://web.stanford.edu/class/archiv... でご覧いただけます。本記事では講義内容を要約しており、原講演の見解を正確に反映するよう努めていますが、要約による誤りがある可能性があります。正確な情報については、オリジナルの講義動画をご視聴ください。

講義は、Christopher Manning教授（スタンフォード大学Thomas M. Siebel機械学習教授、言語学・コンピュータサイエンス教授、スタンフォード人工知能研究所(SAIL)所長）の司会により行われました。

1. 序論

1.1. 講演者Nathan Lambertの紹介

講義は、スタンフォード大学のCS224Nコースの講師による、ゲストスピーカーのNathan Lambertの紹介から始まりました。講師は「今日は最初の招待講演者としてNathan Lambertを紹介できることを嬉しく思います。Nathanはカリフォルニア大学バークレー校で博士号を取得しました。（ここで講師が冗談めかして「ブーイングしてもいいですよ」と言います）その後、彼はまずHugging Faceで数年間働き、現在はシアトルのAllen Institute for Artificial Intelligence（AI2）で働いています。」と紹介しています。

Nathanは元々、強化学習をロボットに適用する研究をしていましたが、今では多くの他の研究者と同様に、言語モデルに強化学習を応用する研究をしています。講師は「彼はRHF（人間からのフィードバックによる強化学習）とそれに続くDPO（Direct Preference Optimization）などのアイデアの開発において非常に影響力がありました」と述べています。

講師はさらに、Nathanを「ポストトレーニングフェーズの専門家の一人」と評し、「時間が経つにつれて、大規模言語モデル企業の活動は、初期の事前学習言語モデルトレーニングフェーズではなく、この後続のポストトレーニングフェーズで行われていることがますます明らかになってきています」と強調しました。

1.2. DPOの重要性と講義の概要

Nathan Lambertは講演を「Life after DPO」というやや曖昧なタイトルで始め、このタイトルについて「少し分かりにくいタイトルですみません。これはアライメントとアライメント研究における現在の状況を表そうとしています。DPOは昨年の重要な論文であり、このDPOに関する数学的内容を紹介し、これにより多くの人々がアライメント研究に参加できるようになりました」と説明しています。

講演の核心として、Nathanは大規模企業と研究者の間のギャップについて言及しています。「Chrisとのやりとりでスライドには明示的に書いていないことですが、Metaなどの企業がポストトレーニングの微調整に使用しているデータ量は非常に膨大です。Metaがllama 2のためにデータプロバイダーから購入した比較データポイントは、MMISのchatbot Arenaで収集されたすべてのデータよりも多いのです。chatbot Arenaには約80万のデータポイントがありますが、Metatの論文によると約150万の比較データを購入したと述べています。これは数年前の数字であり、chatbot Arenaのデータは数週間前のものです。」

このような状況を踏まえ、「OpenAI、Anthropic等が現在この規模でどれだけ購入しているか想像できるでしょう。これが私たちが適応しなければならない現実です。我々には企業のようなリソースがなく、研究においてこの違いをどう埋めるか考える必要があります」と課題を提示しています。

講義の構成については、「DPOに至るまでの歴史的背景と、私の考えでは重要だと思われる点について話し、その後最近の研究についてゼロから100まで話し、この課題に対する答えを見つけ、現在何が起きているかを定義していきます」と述べています。つまり、DPOの背景から始め、その後DPO以降の最新の研究動向と将来の展望について論じることを予告しています。

2. 言語モデルの簡略化された歴史

2.1. Claude Shannonから自己回帰モデルへの進化

Nathanは言語モデルの歴史について「大幅に省略された言語モデルの歴史から始めます。この授業の後半なので、すべてを詳細に説明はしません」と述べた上で、「クロード・シャノンから始めて、多くの部分をスキップし、自己回帰損失関数が非常に有望であることを示します」と説明しています。

この発展は急速なものではなく、「言語モデリングが一つの分野として構築されるまでに何年もかかったことがわかります」と指摘しています。この間、ディープラーニングは背景で徐々に発展し、言語モデリングに取り入れられる多くの技術の一つとなっていきました。

自己回帰モデルは、テキスト生成において一つの単語を予測し、それを次の単語の予測の入力として使用する連続的な予測モデルです。この基本的なアプローチが、現代の大規模言語モデルの基礎となっています。Nathanはこの自己回帰アプローチが、言語モデリングの発展において特に重要な役割を果たしたことを強調しています。

2.2. 2017-2022年：Transformer、GPT-1、BERT、GPT-2の登場

Nathanは言語モデルの発展の重要な転換点として、特定の年と出来事を指摘しています。「2017年にはTransformer論文が出ました。2018年にはGPT-1、ELMO、BERTが登場し、これらは言語処理および埋め込み（embeddings）の作成方法における基礎的なトピックとなりました」と説明しています。

続いて「2018年にGPT-2が登場し、スケーリング法則（scaling laws）が重要な概念として注目され追跡されるようになりました。モデルがどのように改善されていくかを理解する上で中心的な考え方となったのです」と述べています。スケーリング法則は、モデルサイズ、データ量、計算資源を増やすことでモデルの性能がどのように向上するかを予測する法則です。

そして「2020年には、大規模に訓練された言語モデルがどれほど有用であるかを人々が本当に認識し始めました」と述べ、「当時、私自身は言語モデリングの専門家ではありませんでしたが、AI分野の多くの人々にとって、この状況の重大さが人々を引き込み始めた時期でした」と当時の状況を回顧しています。

この時期（2017-2022年）は、現代の大規模言語モデルの基礎となる技術的進展が急速に起こった期間であり、特にTransformerアーキテクチャの登場とそれを活用したGPTシリーズの発展が、現在の言語モデル革命の基盤を形成しました。

2.3. 2021年：Stochastic Parrots論文

Nathanは2021年に発表された重要な論文について言及しています。「2021年には『Stochastic Parrots』論文が発表されました。これはChatGPTが登場する前に、私たちが実際にこれらのモデルに何を入力しているのか、それらが何を学習しているのかという警告を発していました」と説明しています。

この論文は、大規模言語モデルが本当に言語から有意義なことを学習しているのか、それとも単に入力されたテキストを繰り返しているだけなのかという根本的な疑問を提起しました。Nathanは「これは、言語とは何か、そして今日の言語モデルが実際に何をしているのかについて、どこに立つかによって哲学的な議論になります」と述べています。

特に重要なのは、この論文がChatGPTの登場前に発表されたという点です。「ChatGPTの前にこの論文が出たことは重要です。これは言語モデルが何をしているのかという議論の基礎となりました」とNathanは強調しています。

「Stochastic Parrots」論文は、大規模言語モデルの潜在的な問題点や限界を早期に指摘し、その後のAI倫理や責任ある開発に関する議論に大きな影響を与えました。

2.4. 2022年末：ChatGPTのリリース

Nathanは言語モデルの歴史における重要な転換点として、2022年末のChatGPTのリリースに言及しています。「2022年の終わりにChatGPTが登場しました。これはOpenAIによるデモのひっそりとした立ち上げのはずでしたが、それ以降、世界の注目を集めることになりました」と述べています。

このChatGPTの登場に関連して、Nathanは重要な問いを投げかけています。「単純な質問として、RLHFなしでChatGPTは存在できるのかということです。これを認識することが重要だと思います」と述べ、ChatGPTの成功には事前学習だけでなく、RLHF（Reinforcement Learning from Human Feedback：人間のフィードバックからの強化学習）が不可欠だったことを強調しています。

さらに「事前学習の重要性は明らかですが、その時点で最も重要なモデルとして針を動かすためには、このRLHFやポストトレーニングも必要であるようです」と説明しています。つまり、大規模言語モデルの成功には事前学習だけでは不十分であり、人間のフィードバックを取り入れた微調整プロセスが決定的に重要であるという認識がこの時期に確立されたことを示唆しています。

ChatGPTのリリースは、AIの一般への認知と普及を劇的に変えた出来事であり、同時にRLHFの重要性を実証した転換点でもありました。

3. RLHFの重要性

3.1. ChatGPTとRLHF（Reinforcement Learning from Human Feedback）の関係

Nathanは、ChatGPTの成功とRLHFの関係について重要な洞察を共有しています。「RLHFに依存する多くの例を挙げることができます」と述べ、RLHFが現代の主要な言語モデルにとって不可欠な要素であることを強調しています。

ChatGPTの例を通じて、Nathanは事前学習と微調整の相互補完的な関係を説明しています。「単純な問いとして、RLHFなしでChatGPTは存在できるのでしょうか？これを認識することが重要です。非常に多くのことが事前学習から得られますが、ラインのあらゆる時点で、ChatGPTやその後の人気モデルでは、RLHFやその他の微調整技術が必要であるようです。必要ではあるが十分ではない、つまり事前学習が必要ですが、その時点で最も重要なモデルとして針を動かすためには、このRLHFやポストトレーニングも必要なのです」と説明しています。

このように、ChatGPTの成功は単に大規模な事前学習だけではなく、人間のフィードバックを活用した強化学習プロセス（RLHF）によって達成されたものであることが明らかになりました。RLHFは、モデルを人間の期待や価値観に合わせるための鍵となる技術であり、ChatGPTを含む現代の主要な言語モデルすべてが採用している重要なアプローチなのです。

3.2. Anthropicの研究からの洞察

Nathanは、RLHFの実効性と発展を示す具体例として、Anthropicの研究に言及しています。「私はAnthropicの憲法的AI（Constitutional AI）論文からのこれらのグラフを見るのが好きです。彼らはさまざまなRLHF手法による反復的な改善を示しています。これは、より多くの微調整データを追加するにつれて、時間とともに進化する複数のモデルバージョンがどのようなものかを示しています」と説明しています。

具体的には、Anthropicのグラフは、複数のRLHF手法を適用した際の性能改善の軌跡を示しており、各ポイントは新しいモデルバージョンを表しています。これにより、時間をかけて微調整データを追加することで、モデルが着実に改善していく様子が視覚的に理解できます。

Nathanはこのグラフについて「これは非常に密度の高い論文ですが、RLHFが何をできるかを示す最も代表的な図の一つです。ここには今すぐ理解する必要のない多くの情報が含まれています」と述べています。

Anthropicの研究は、RLHFの反復的なプロセスがモデルの性能を段階的に向上させることを実証しており、長期的かつ計画的なRLHF戦略の重要性を示しています。このような体系的なアプローチは、現代の大規模言語モデル開発において標準的な方法論となっています。

3.3. Meta（Llama 2）のRLHFへの視点

Nathanは、Meta（旧Facebook）がLlama 2の技術報告書で述べたRLHFに関する見解を「非常に面白い」と評しています。報告書からの引用を紹介しながら、「『強化学習は不安定さで知られており、NLP研究コミュニティにとっては一種の影のある分野のように思われていました。しかし、強化学習は、特にそのコストと時間効率を考えると、非常に効果的であることが証明されました』」と述べています。

この引用について、Nathanは「これは技術報告書から直接引用したもので、本当に面白いと思います。これは、RLHFが本当に普及するかどうか分からなかった時代のことです。これは2023年7月のことで、この構築期間中のことでした」と説明し、当時のNLPコミュニティにおけるRLHFに対する懐疑的な見方と、実際にはそれが非常に効果的であることが判明したという対比を強調しています。

さらに「それは本当によく時代を経ています。人々は今でもこれを使っていますが、これらのモデルのリリースにおけるRLHFの文化についての興味深いヒントがたくさんあります。これらの企業の人々は何が起きているのかについての文化的な詳細を私たちに与えるのが好きなのです」と述べ、企業の技術報告書から読み取れるRLHFの文化的な側面にも注目しています。

Meta（Llama 2）の例は、最初は不確実性があったものの、最終的にRLHFが主流のNLP研究コミュニティにも受け入れられ、現在では標準的なアプローチとなっていることを示しています。

4. アライメント関連の定義と概念

4.1. 教師付き微調整（SFT）vs インストラクション微調整

Nathanは、ポストトレーニングやアライメントの文脈で使われる様々な用語の定義について説明しています。特に教師付き微調整（Supervised Fine-Tuning、SFT）とインストラクション微調整（Instruction Fine-Tuning）の違いに焦点を当てています。

「いくつかの興味深い定義があると思います。今すぐ理解できなくても後で戻ってくる定義の一つは、インストラクション微調整と教師付き微調整の違いです」と述べ、両者の違いを次のように説明しています。「インストラクション微調整は非常に人気になっていて、モデルに指示に従うよう訓練することです。教師付き微調整はドメイン特化的なものであり、私たちは両方を行いたいと考えています。」

さらに、インストラクション微調整とRLHFの関係について、「インストラクション微調整はRLHFにより関連していると思います。これはモデルを本当に有用で魅力的にし、扱いやすくすることについてのものです」と説明しています。

これは、インストラクション微調整が一般的な指示への応答能力を向上させることを目的としているのに対し、教師付き微調整は特定のドメインや用途におけるパフォーマンスを向上させることに焦点を当てていることを示しています。インストラクション微調整はユーザーとのインタラクションの質を高めるという点でRLHFの目標と親和性が高く、現代の大規模言語モデル開発において中心的な役割を果たしています。

4.2. アライメント、RLHFの定義

Nathanは、アライメントとRLHFという頻繁に使用される用語の定義について説明しています。「アライメントは非常に曖昧ですが、その言葉の中にあります。アラインメント（整合）、つまりユーザーが望むものにモデルを訓練することです」と述べています。アライメントという概念は、言語モデルをユーザーの意図や期待に沿うように調整するプロセス全般を指しています。

RLHFについては、「アライメントを行うための特定のツールであり、このような人間からのフィードバックデータがあります。フィードバックは本当に意味が多すぎる言葉で、好みやランク付けの学習に関するフィードバックがあります」と説明しています。

Nathanは、これらの用語の関係性について、「オーバーラップするこれらの多くの領域があり、このポストトレーニングや微調整の領域にあります」と述べています。つまり、RLHFはアライメントを達成するための一つの方法論であり、フィードバックデータを活用してモデルをユーザーの期待に近づけるための具体的なプロセスです。

また、フィードバックという言葉自体が複数の意味を持ち、単なる評価だけでなく、好みの表明やランキングなど、様々な形式の人間からの入力を含むことができることも強調しています。これらの概念はすべて、モデルをより有用で人間の期待に沿ったものにするという共通の目標に向かって作用しています。

4.3. 好み微調整（Preference Fine-tuning）の概念

Nathanは、RLHFに代わる用語として「好み微調整（Preference Fine-tuning）」という概念を提案した経験について言及しています。「ある時点で『好み微調整』というフレーズを作ろうとしましたが、本当にそれを徹底しませんでした。RLHFよりも、特にDPOの文脈では少し明確だと思います」と述べています。

この「好み微調整」という用語は、人間の好みに基づいてモデルを調整するというプロセスの本質をより直接的に表現しています。RLHFという用語は強化学習の専門的な背景を前提としているのに対し、「好み微調整」はその目的（人間の好みに合わせること）をより明示的に示しています。

Nathanは、これらの用語が「ポストトレーニングや微調整の空間におけるオーバーラップするこれらの多くの領域」の一部であることを強調しています。つまり、アライメント、RLHF、好み微調整などの様々な概念は、すべて言語モデルをより人間の期待に沿ったものにするという共通の目標を持ちながらも、異なる側面や方法論を強調しているということです。

この好み微調整という概念は、特にDPO（Direct Preference Optimization）のような手法が登場したことで、より明確な意味を持つようになりました。DPOは人間の好みを直接的に最適化するアプローチであり、従来のRLHFの複雑なプロセスを簡略化するものです。

5. インストラクション微調整

5.1. インストラクション微調整の基本

インストラクション微調整はポストトレーニングのフェーズで行われる重要なプロセスです。Nathanは「インストラクション微調整、インストラクション・ファインチューニングは、まだこの多くの基盤となっています」と述べています。この手法は、モデルが特定のスタイルの入力に適切に対応できるように準備することを目的としています。

具体的には、インストラクション微調整によって、モデルは人間からの指示に効果的に応答する能力を獲得します。このプロセスでは、質問に対する回答や、特定のタスクを実行するための指示など、様々な形式の指示に基づいたデータを使用してモデルを訓練します。インストラクション微調整は、モデルをより汎用的で使いやすいものにするための基本的なステップであり、現代の大規模言語モデル開発において標準的な実践となっています。

5.2. システムプロンプトの役割

Nathanはインストラクション微調整の文脈でシステムプロンプトの役割について説明しています。「これは、システムプロンプトと呼ばれるものが追加される場所であり、モデルを特定の入力スタイル用に準備しています」と述べています。

さらに、OpenAIの最近の取り組みについて言及し、「OpenAIはまだ革新を続けており、数週間前にモデル仕様ドキュメントをリリースしました。そこでは、ここに第2レベルのシステムプロンプトがあるとしています」と説明しています。このような進化により、モデルがデータを取り込む方法に構造が追加され、「開発者がユーザーが見ないような情報をどのようにモデルに渡すか」という点で、将来的にさらに多くの微調整が可能になります。

5.3. Stack Overflow、Redditデータの活用

インストラクション微調整で使用されるデータの例として、Nathanは一般的なソースを挙げています。「これがどのように見えるかというと、Stack OverflowやRedditのデータであり、上部に質問があり、その後に回答があります」と説明しています。

これらのデータソースは、質問と回答のペアとして自然に構造化されているため、モデルがどのように指示（質問）を解釈し、適切な回答を生成すべきかを学習するのに理想的です。Nathanは「これはまだ、舞台裏で起こっていることの多くだと思います。Stack Overflowのデータセットがたくさんあり、Redditにはこれらのデータパートナーシップがあります」と述べています。

また、「これはまだ自己回帰損失関数を使用しており、まだ別の損失関数に分岐していません」と説明しています。つまり、インストラクション微調整は依然として基本的な言語モデリングの目標（次のトークンを予測すること）を使用していますが、特定の入力-出力ペアを使って、モデルが人間の指示に従う方法を学習できるようにしているのです。

6. RLHF目標と実装

6.1. 標準的強化学習目標とRLHF目標の比較

Nathanは、標準的な強化学習（RL）の目標とRLHF目標を比較して説明しています。「このRLHF目標は、強化学習のトレーニングを受けた人にとっては本当に馴染み深いものに見えます。これはNLPの損失関数とはやや異なると思います」と述べています。

具体的には、スライドの左側と右側の数式を示しながら、「左側は標準的な強化学習の目標であり、これは問題の設定によって何らかの関数である報酬を最大化するようなポリシーπを学習しています。そして右側にはKL制約があります。これは距離であり、ポリシーが大きく変化しないようにするためのものです」と説明しています。

このKL制約は、過度な最適化を防ぐという全体的な考え方に関連しています。Nathanはこの講演ではそのトピックにはあまり深入りしませんが、基本的な考え方として「報酬を最適化したいが、過度に最適化したくない」という点を挙げています。

RLHFにおける主要な課題として、Nathanは二つの問いを提示しています。「RLHFを行う際の主な疑問は、報酬関数をどのように実装するか、つまり報酬が実際に何になるのか、そしてそれをどのように最適化するかです」と述べています。これらの問いは、後に抽象化され、「特定の報酬モデルを訓練し、そして特定のポリシーアップデートを行う」という形になると説明しています。

また、DPO（Direct Preference Optimization）はこれを少し異なる方法で扱うと述べ、次のトピックへの橋渡しをしています。

6.2. 報酬関数の実装と最適化の課題

RLHFを実装する際の主要な課題の一つは、適切な報酬関数をどのように設計し最適化するかという点です。Nathanは「RLHFを行う際の主な疑問は、報酬関数をどのように実装するか、つまり報酬が実際に何になるのか、そしてそれをどのように最適化するかです」と述べています。

この課題に対処するために、多くのアプローチでは専用の報酬モデルを訓練します。報酬モデルは、言語モデルの出力の質を評価し、スカラー値（数値スコア）を出力するように設計されています。これにより、モデルの出力に対して「良い」か「悪い」かを定量的に評価することができます。

報酬関数を最適化する際の難しさは、モデルが報酬を「ハック」したり、意図しない方法で高いスコアを得ようとしたりする可能性があることです。また、報酬関数が人間の複雑な好みを完全に捉えることは難しく、最適化の過程で重要な側面が失われる可能性もあります。

これらの課題に対処するために、「過度に最適化したくない」というKL制約が導入されています。この制約は、モデルが報酬を追求する過程で元の振る舞いから大きく逸脱しないようにする役割を果たします。

6.3. Bradley-Terry-Luceモデルとその応用

Nathanは、RLHFにおける報酬モデルの基礎となっている理論的枠組みについて説明しています。「RLHFに人々が使用する実際の選好モデルは、私には興味深いと思えます。これは1950年代の経済学からのBradley-Terry-Luceモデルであり、本質的にはペアワイズの選択に対する確率分布です」と述べています。

このモデルは、二つの選択肢のうちどちらが好まれるかの確率を表現するものです。Nathanは、このモデルがRLHFの文脈でどのように応用されているかを説明しています。「様々な技術的理由から、選好モデルを訓練すると、スカラー値を出力する必要があります。そして、私はまだ非常に便利だと思う偶然の一致によって、彼らはこの学習された確率分布の出力を報酬として取り、それが機能すると言っています」

この応用には大きな概念的なステップが含まれていると指摘しています。「報酬はこの確率に比例するだろうと言っています。そして、それは機能しますが、それは受け入れるにも大きな飛躍です。パーワイズの選好確率があり、それはある回答が別の回答よりも選ばれる確率を言っています。そして、一つの数字または一つのテキストを入力し、そのテキストが他の任意のテキストよりも選ばれる確率を得るという、このメンタル的に狂った一歩を踏む必要があります」

この方法では、モデルは一つの出力のスコアを予測しますが、それは暗黙のうちに「この出力が他の可能な出力よりも好まれる確率」を表していることになります。Nathanは「ここには多くの仮定があり、深い概念がありますが、私たちが得ているのはスコアを出力するモデルです」と述べ、この理論的枠組みが実践的な報酬モデルの基礎となっていることを説明しています。

7. DPO（Direct Preference Optimization）

7.1. DPOの数学的基礎

Nathanは、DPOの基本的な考え方と数学的基礎について説明しています。「問いは、なぜこれを行わなければならないのか、そして元の目標を取り、この方程式に勾配上昇法（gradient ascent、最大化なので上昇）を用いることができないのかということです。これが実際にDPOが行っていることです」と述べています。

DPOは、複雑なRLHFプロセスを簡略化する革新的なアプローチです。従来のRLHFでは、別個の報酬モデルを訓練し、それを用いて言語モデル（ポリシー）を最適化するという二段階のプロセスが必要でした。これに対しDPOは、この二段階のプロセスを単一のステップに統合します。

Nathanは、DPOの数学的な詳細については「多くの数学をぼかしています。これは言語モデリングの多くの数学を学ぶのに素晴らしい論文であり、異なるテキストの確率がモデルによってどのように処理されるか、そしてそれが多くのこれらの対数確率比になり、プロンプトと完了がどのように異なって処理されるかを見ることができます」と述べています。

DPOの核心的なアイデアは、人間の好みのデータから直接言語モデルを最適化できるという点にあります。これにより、報酬モデルを明示的に訓練する必要がなくなり、プロセス全体が簡略化されます。数学的には、DPOは人間の好みのデータを用いて言語モデルのパラメータを直接更新することで、好まれる出力の確率を増やし、好まれない出力の確率を減らします。

7.2. DPOの実装の簡潔さ

Nathanは、DPOの最大の強みの一つとして、その実装の簡潔さを強調しています。「右側にあるのは元の実装からの参照コードです。実装は非常に簡単で、もしTransformersのようなものを使ったことがあれば、DPOを使用する損失関数を書くのは非常に簡単です」と述べています。

DPOの実装の簡潔さは、他のRLHF手法と比較して大きな利点です。Nathanは「POのような何かをやるとき、通常は完全に新しいインフラストラクチャスタックが必要ですが、DPOではもっとはるかに簡単に開始できます」と説明しています。

具体的には、DPOは標準的なTransformersライブラリを使用して、比較的少ないコードで実装できます。これは、特に限られたリソースしか持たない研究者や小規模なチームにとって大きな利点です。複雑なインフラストラクチャや計算リソースを必要とする従来のRLHF手法とは対照的に、DPOは既存の言語モデル訓練のフレームワークに容易に統合できます。

この実装の容易さは、DPOが急速に普及した主な理由の一つです。多くの研究者や開発者が、複雑な強化学習のセットアップなしでも、人間の好みに基づいたモデルの微調整を行うことができるようになりました。

7.3. 他のRL手法（PPO、REINFORCE）との比較

Nathanは、DPOと他の強化学習手法（PPO、REINFORCE）を比較し、DPOが広く採用されている理由を説明しています。「最初の2点は、他のどの手法よりもDPOモデルをより多く見ることになるということを意味します。アライメント研究をしたい人は誰でもDPOから始めるでしょう。そして、それは正当な理由があります。アライメントについて考え始めるなら、それは正しい出発点です」と述べています。

DPOが好まれる理由として、「計算でより簡単にスケールし、デバッグがより簡単で、学ぶのもより簡単です。だから、それを疑うことは本当に価値がないのです」と説明しています。

しかし、オンラインでは「DPOは他のRL手法よりも優れているのか？」という議論が頻繁に行われています。Nathanはこの比較について、「PPO（これはJohn Schulmanが書いた古いポピュラーな深層RL算法です）、REINFORCE（これはポリシー勾配のわずかに異なるパラメータ化です）、これらは非常に似ています。そしてDPOははるかに単純で扱いやすいです」と述べています。

この比較について冗談めかして「あなたが単に勾配降下法を行えば、それは機能するというミームがあります。実際には、それらは異なる損失関数であり、非常に異なることを行っていますが、両方で同様の結果を得ることができます。だから、何かがはるかに簡単にできるのであれば、それから始めるべきです」と説明しています。

Nathanは「後ほど講演で戻りますが、これらのRL算法の根本的に異なる点は何か、そしてデータがどのように処理され、信号が実際にどこから来るかということです。しかし今のところ、一方vs他方を言う必要はなく、両方を行うことができ、それらは異なります」とまとめ、各手法の選択はユースケースによって異なることを示唆しています。

8. オープンアライメント研究の進化

8.1. 2023年4月：Alpaca、Vicuna、Koalaなど最初のインストラクション微調整モデル

Nathanは、DPOを使用したモデルのトレーニングに至るまでの道筋を説明しています。「DPOが登場してから数ヶ月後に、DPOでトレーニングされた人気モデルが出始めたのです。コミュニティがどのようにしてDPOでモデルをトレーニングする段階に達したのか、その経緯をお話しします」と述べています。

この進化は、2023年4月に登場した最初のインストラクション微調整モデルから始まりました。「これはすべて2023年4月のAlpaca、Vicuna、Koala、Dollyなどの最初のインストラクション微調整モデルまで遡ります。これらはすべて似たようなものと、わずかな反復に基づいて構築されています」と説明しています。

これらの初期モデルの特徴として、「合成データの使い方を理解し、最初のLlama（Meta AIが開発した言語モデル）のリリースを基盤にしています。他にもいくつか話すことがありますが、ここが私たちのスタート地点でした」と述べています。

これらの初期モデルの共通点として、「すべてインストラクション微調整を使用し、ほとんどが合成データを使用していました」と説明しています。これらのモデルは、オープンなアライメント研究の基盤を形成し、後のDPOベースのモデルへの道を開きました。

8.2. ShareGPTデータセットの重要性

Nathanは、初期のオープンアライメント研究において、ShareGPTデータセットが果たした重要な役割について説明しています。「Vicunaが実際に行ったのは、ShareGPTと呼ばれるものを使用したことでした。これは、アカデミックなアライメント分野で働いている人々が人間からのデータにアクセスした最初の機会でした」と述べています。

このデータセットは法的にはグレーゾーンにあったと指摘しています。「これは法的なグレーエリアだったことが判明しました。なぜなら、ShareGPTというGoogleのChrome拡張機能で人々が使用したデータをログに記録していたからです。この拡張機能はChatGPTに共有ボタンを持たせるためのものでしたが、このデータはVicunaやその後に続く多くの他のモデルにとって本当に重要でした」と説明しています。

ShareGPTデータの影響力について、「このデータは今日のモデルでもまだ使用されており、トレーニングデータセットの一つのサブセットとなっています」と述べ、その継続的な価値を強調しています。

特に重要なのは、このデータが本物の人間の問い合わせを含んでいたことです。「単にこれらの人間のプロンプトにアクセスすることが、当時多くの可能性を開きました。そして今日でもまだそうであることを幸いに思います」と述べています。

最近では、より許可された方法で収集されたデータセットも登場していると付け加えています。「今では、より許容的な方法で収集されたLMISデータなどのこのようなデータセットを得始めています。LMISデータには同意を得て収集されたプロンプトがあり、WildChatはAI2からのプロジェクトで、本質的に人々にChatGPTへの無料アクセスを提供し、その代わりにデータを交換するものでした」と説明しています。

8.3. Open Assistantプロジェクト

Nathanは、人間のデータに対するニーズの高まりに応えるために登場したOpen Assistantプロジェクトについて説明しています。「ShareGPTの後に来たのは、より多くの人間のデータが必要だという認識でした。そしてこのOpen Assistantプロジェクトは、私たちが正直に言ってもっと必要としているものの一つです」と述べています。

このプロジェクトの重要性について、「これは人間のデータを作成することがいかに難しいかを示しています。これに似たものがもっと見られないのは、それだけ困難だからです」と強調しています。Open Assistantプロジェクトは、Discordコミュニティの数人によって運営され、「プロンプト、応答、言語モデルへの一般的なリクエストに対する選好ペアを生成するために、非常に長時間働いていました」と説明しています。

このプロジェクトの時期について、「これは2023年4月のことであり、それ以来、これに似たものは見ていません」と述べています。最近の類似の取り組みとして「ChatGPTやLMISのデータは似ていますが、Open Assistantデータに入れられたような同じレベルの制御や投票、ランク付けはありません」と比較しています。

特に重要なのは、このデータセットの持続的な価値です。「これは再び、私たちがまだモデルをトレーニングしているデータセットであり、私が思うに何度も何度も登場するモデルをトレーニングする多くの人々がまだトレーニングしているデータセットです」と述べています。Nathanはこの状況を「1年以上前からの一つか二つの影響力のあるデータセットが、まだモデルのトレーニングに使用されているのです」とまとめ、オープンなアライメント研究におけるデータの制約を示唆しています。

9. Llama 2の反発とその結果

9.1. 「検閲されていない」モデルの登場

Nathanは、Llama 2のリリース後に起こった反発とそれが引き起こした「検閲されていない」モデルの登場について説明しています。「その年の後半に、このオープンアライメントにとってもう一つの重要なことは、Llama 2に対する反発でした。Llama 2にLinuxプロセスを終了するよう頼むと、拒否しました」と述べています。

この拒否反応が、「検閲されていない」と呼ばれる一連のモデルを生み出すきっかけとなりました。Nathanはこの用語について「私はこれが最良の名前だとは思いません。CUは、モデルに対する実際の検閲があったとは思いませんし、意図的な検閲ではありませんでした」と批判的な見解を示しています。

これらのモデルの目的は「リクエストを拒否しないモデルを作ること」であり、Nathanはこれについて二つの側面から評価しています。一方では「研究成果物として有用です。つまり、モデルがすべての質問に答えた場合、何が得られるのか、その点での限界は何かということです」と研究的価値を認めています。

しかし同時に「それを使用する他の方法はあなた次第ですが」と述べ、こうしたモデルの潜在的な悪用の可能性にも言及しています。このようなモデルが登場した背景には技術的な要因もありました。「ShareGPTのようなデータセットは、ChatGPTからのものなので、『言語モデルとして、それに答えるべきではありません』と言うデータがあります。そのため、人々はそのすべてをフィルタリングし始めました」と説明しています。

Nathanは研究者としての責任についても言及し、「研究者として、あなたの成果物がどのように使用されるかは、あなたが実際に行う作業によって異なります。検閲されていないモデルは研究のために有用ですが、すべての質問に答えるモデルを無料で一般ユーザーに提供する場合は、すべてに答えるべきかどうかを考慮すべきです」と述べ、倫理的な考慮の重要性を強調しています。

9.2. データのフィルタリングとその影響

「検閲されていない」モデルを作成するためのアプローチとして、Nathanはデータのフィルタリングプロセスについて説明しています。「ShareGPTのようなデータセットは、ChatGPTからのものなので、『言語モデルとして、それに答えるべきではありません』と言うデータがあります。そのため、人々はそのすべてをフィルタリングし始めました」と述べています。

具体的には、ChatGPTから収集されたデータには、特定の質問に対して「私は言語モデルなのでその質問には答えられません」といった拒否回答が含まれています。「検閲されていない」モデルを作るために、研究者たちはこうした拒否回答を含むデータを意図的に除外しました。

このようなデータフィルタリングの結果、モデルは拒否反応を示さなくなり、どんな質問にも回答するようになりました。Nathanは「今日でもこれらの『検閲されていない』モデルをリリースする人々がたくさんいて、開発の人気分野となっています」と指摘しています。

データフィルタリングの影響については、研究的価値と倫理的懸念の両面から考える必要があります。研究の観点からは、拒否しないモデルを通じて言語モデルの限界や能力を探求できる利点があります。一方で、倫理的な観点からは、すべての質問に無条件に答えるモデルが悪用される可能性も考慮する必要があります。

Nathanは「研究をする際に人々が何を必要としているかを理解すべきであり、拒否しないモデルを研究することは合理的です。しかし、無料で使用するためにモデルをユーザーに展開する場合は、すべてが回答されるべきかどうかを考慮すべきです」と述べ、研究と実用のバランスを取ることの重要性を強調しています。

10. DPOモデルの普及

10.1. Zephyrモデルの重要性（2023年9月）

Nathanは、DPOモデルの普及において重要な転換点となったZephyrモデルについて説明しています。「このZephyrモデルは、私が覚えている限り、DPOで大きな話題を作った最初のモデルでした。これは9月のことで、5月の論文発表から後のことです」と述べています。

DPO論文の発表から実際にモデルが普及するまでに時間がかかったことを指摘しています。「人々が『おお、DPOは本物だ』と本当に思うようになるまでに4ヶ月かかりました。そして今、その論文は最優秀論文賞を受賞し、誰もが使用し、多くの派生が生まれていますが、業界やモデルのトレーニングを試みる人々の間では、この瞬間までかなりの懐疑論がありました」と説明しています。

これについて「これは、あなたの研究が評価されるまで少し待つ必要があるという典型的な学術的な話です」と述べ、アカデミアにおける新しいアイデアの受容プロセスを示唆しています。

Zephyrモデルの成功には、二つの重要な要素がありました。Nathanは「ここでの2つの重要な要素は、Ultra Feedbackデータセットという新しいデータセットでした。これはGPT-4によってラベル付けされた合成的に生成されたテキストのデータセットです」と説明しています。このデータセットは「データを作成する新しい方法であり、選好データセットです」と位置づけています。また、このデータセットについて「私たちが作ったのではなく、Open BMBによって作られました。彼らは中国を拠点にしていると思います」と補足しています。

もう一つの重要な要素は、実験的な取り組みでした。「それが機能するようにするために、多くの実験も行わなければなりませんでした。このようなチャットモデルをDPOで機能させるために必要な奇妙な非常に低い学習率がありました。それは5e-7です」と述べています。この学習率が通常とは大きく異なることを強調し、「AIに本当に精通している人なら、3e-4が最良の学習率の定説だということを知っているでしょう。なので、それは何桁も低いのです」と説明しています。

10.2. Ultra Feedbackデータセットの登場

Zephyrモデルの成功に欠かせなかった要素として、Nathanは新しいデータセット「Ultra Feedback」の登場を挙げています。「ここでの2つの重要な要素は、Ultra Feedbackデータセットという新しいデータセットでした」と述べています。

このデータセットの特徴について、「これはGPT-4によってラベル付けされた合成的に生成されたテキストのデータセットです」と説明しています。つまり、人間が直接ラベル付けしたデータではなく、GPT-4という別の大規模言語モデルが評価を行った選好データセットです。

Ultra Feedbackの重要性は、特にDPOのような選好ベースの微調整手法に適したデータを提供した点にあります。「これはデータを作成する新しい方法であり、選好データセットです」とNathanは述べています。

このデータセットの開発者については、「私たちが作ったのではなく、Open BMBによって作られました。彼らは中国を拠点にしていると思います」と説明しています。Open BMBは中国のオープンソースLLMコミュニティであり、このような国際的な貢献がオープンなアライメント研究を進展させる一因となりました。

Ultra Feedbackデータセットは、その後多くのDPOベースのモデルで使用され、オープンアライメント研究の重要なリソースとなりました。Nathanはこのデータセットの継続的な価値について、のちに「Ultra Feedbackは現時点でおそらく6ヶ月ほど前のものであり、モデルをトレーニングする人々にとっては古く感じられます」と述べ、データの新鮮さの重要性も示唆しています。

10.3. 学習率の発見（5e-7）

Zephyrモデルの成功におけるもう一つの重要な要素として、Nathanは非常に低い学習率の発見を挙げています。「それが機能するようにするために、多くの実験も行わなければなりませんでした。このようなチャットモデルをDPOで機能させるために必要な奇妙な非常に低い学習率がありました。それは5e-7です」と説明しています。

この学習率がいかに通常と異なるかを強調するために、Nathanは「AIに本当に精通している人なら、3e-4が最良の学習率の定説だということを知っているでしょう。なので、それは何桁も低いのです」と述べています。通常の学習率の約1/600という極端に低い値が、DPOの成功には必要だったのです。

このような発見が偶然的な性格を持っていたことをNathanは率直に認めています。「もっとハイパーパラメータ探索をしていれば、数ヶ月前にこれを達成できたかもしれませんが、これは人々が今や超重要なボトルとして後付けで語るような、ある種のランダムな出来事なのです。それはある意味ランダムです」と述べています。

この学習率の発見は、DPOの実用化における重要なブレークスルーとなりました。適切な学習率がなければ、DPOはその後の多くのモデルで採用されることはなかったかもしれません。これは、機械学習における理論と実践のギャップを埋める上で、実験的な探索と偶然の発見がいかに重要であるかを示す例です。

10.4. Tulu 2モデルの貢献

Nathanは、ZephyrモデルがDPOの実用性を証明した直後に、自身がAllen Instituteに移籍し、そこでTulu 2プロジェクトに関わったことを説明しています。「同時に、私はAllen Instituteに転職していて、彼らはすでにこのプロジェクトに取り組んでいました。これは、このインストラクション微調整データの体系的な研究と、登場していたこれらの選好微調整レシピの一部を試みるものでした」と述べています。

Tulu 2プロジェクトの主要な目的の一つは、DPOがより大きなモデルでも有効であることを検証することでした。Nathanは、Zephyrモデルの成功後も懐疑論があったことを指摘しています。「Zephyrモデルが登場すると、『7Bでやるのは簡単だ、それは小さなモデルだ』という懐疑論者は常にいました。『それは本当に実際のことにスケールするのか、より大きなモデルにスケールするのか、ChatGPTがやっていることになるのか』という疑問でした」と説明しています。

そこで彼らは「より多くの計算リソースがあるので、この70BパラメータのスケールでDPOを試し、同様の改善を示しました」と述べています。Tulu 2の成功は、特別な新しい方法ではなく、Zephyrと同じレシピを適用することで達成されました。「私たちがやったのは、同じUltra Feedbackレシピ、低学習率を使用することだけで、それは大部分機能しました」と説明しています。

この成功により、「これは2ヶ月以内のことで、それ以来、数多くの新しいDPOモデルが登場しています。これらのスタートアップのどれもが自分たちのモデルをリリースする際、DPOを使用したインストラクトバージョンをリリースしています」とNathanは述べ、その後6ヶ月間にわたってDPOの普及が続いたことを強調しています。

さらに、Tulu 2プロジェクトでは、Google Tensor Research Cloudの大型TPUを利用していたことも明かしています。「このTulu 2モデルは実際にTPUでトレーニングされています。Google Tensor Research Cloudがあるからです。これらのモデルをトレーニングするためのより大きなTPUがあります」という技術的背景も、より大規模なDPO実験を可能にした要因でした。

11. 報酬モデル評価の課題

11.1. 報酬モデル評価の現状

Nathanは、RLHFにおける報酬モデルの重要性にもかかわらず、その評価方法が十分に確立されていないという問題を指摘しています。「RLHFのために報酬モデルがいかに重要かについて産業界からの噂をキャッチして、DPOを改善できるか」という課題に直面する中で、報酬モデルの評価ツールの必要性を強く感じていました。

「報酬モデルに対する評価ツールがないので、報酬モデルのベンチマークであるReward Benchというプロジェクトを始めました。私の動機は主に透明性のためでした」と説明しています。産業界では報酬モデルが非常に重視されているにもかかわらず、その性能を評価する標準的な方法がなかったのです。

Nathanはこの状況を疑問視し、「産業界は報酬モデルが重要だと言い、良いモデルを出すために本当に重要だと言っています。しかし、それはどういう意味でしょうか？報酬モデルが良いとはどういう意味ですか？」と問いかけています。

報酬モデルは、言語モデルの出力の質を評価するために使用されますが、報酬モデル自体の質を評価する方法が確立されていないという矛盾があったのです。特に「モデルを訓練するときに『ローカル評価』と呼ぶものが必要です。つまり、あなたのトレーニング技術が最終結果を改善しているかどうかを教えてくれる数値が必要です」と説明し、迅速なフィードバックの重要性を強調しています。

この課題に対処するため、「Chatbot Arenaがあなたのモデルを評価するのを待つことはできません。なぜなら、数字が返ってくるまで約1ヶ月かかるからです。デスクで実行できるものが必要で、実際に良い仕事をしているかどうかの信号を得る必要があります」と述べています。このような即時的な評価ツールの不足が、報酬モデル開発における大きな障壁となっていたのです。

11.2. RewardBenchの開発と目的

報酬モデル評価の課題に対処するため、NathanはRewardBenchと呼ばれる評価ツールを開発しました。「報酬モデルに対する評価ツールがないので、RewardBenchというプロジェクトを始めました。私の動機は主に透明性のためでした」と説明しています。

RewardBenchの開発目的は、産業界が報酬モデルの重要性を強調する中で、実際にどのような報酬モデルが「良い」とされるのかを客観的に評価することでした。「産業界がどれだけ報酬モデルが重要だと言っているかを考えると、それらが本当に重要だと言い、良いモデルを出すために重要だと言っています。しかし、それはどういう意味でしょうか？」という疑問に答えるためのツールです。

Nathanは、この評価ツールを通じて答えたかった質問として「報酬モデルが良いとはどういう意味ですか？もし最終的なポリシーを向上させているのなら、どのような種類の最終的なポリシーを向上させているのでしょうか？安全性をこれらの報酬モデルに含めるべきでしょうか？スケーリング法則は報酬モデルにどのように影響しますか？」といった基本的な機械学習の問いを挙げています。

RewardBenchの基本的なアプローチは、「多くのプロンプトを収集し、各プロンプトに対して手動で選択された回答と拒否された回答を作成しました。そして、報酬モデルが私たちの人間が作成したデータに同意するかどうかを確認し、それを精度の観点から勝ちまたは負けと呼びます」と説明しています。

この方法は「非常に直接的です。既存のモデルに推論を行い、人間のデータに同意するかどうかを確認します」とNathanは述べています。この直接的なアプローチにより、様々な報酬モデルの性能を客観的に比較できるようになりました。

11.3. 評価データセットの特徴

Nathanは、RewardBenchで使用されている評価データセットの特徴について説明しています。「学術的な面に入りたい人のためのスライドがあります。これは、すでに存在していた多くの評価ツールを基に構築されました。Alpaca Val、MT Benchなど、聞いたことがあるいくつかの一般的な名前があります」と述べています。

これらの既存の評価データセットには多様性があり、様々な角度から報酬モデルを評価することができます。「EXs Testはスライドに出てきましたが、これはLlama 2が過度に安全であったことに関するものです。また、聞いたことがないかもしれないが、本当に良いものもあります。例えば、プリンストン大学のこのLLM Barデータセットはトリッキーな質問の集まりで、後ほど例を示します」と説明しています。

データセットの選択には、「Anthropicとプロフィールの両方からのいくつかの一般的な名前もあります」と述べ、業界の主要プレイヤーが開発したデータセットも含まれていることを示しています。

Nathanはこれらの多様なデータセットを組み合わせることで、「私たちはこのデータセットで多くの異なることをテストしていて、これらのモデルに何が起こっているのかについての全体像を得ようとしています」と説明しています。この包括的なアプローチにより、報酬モデルのさまざまな側面を評価し、それらの強みと弱みをより完全に理解することが可能になります。

RewardBenchは2024年3月にリリースされ、業界の理解を深めるための重要なツールとなりました。「これを3月24日にリリースしました」とNathanは述べ、その後のセクションでは、このツールを使って得られた具体的な結果やインサイトについて詳しく説明しています。

12. RewardBenchの結果と洞察

12.1. DPOモデルvsクラシファイア型訓練

Nathanは、RewardBenchから得られた重要な知見の一つとして、異なるタイプの報酬モデルの比較結果を紹介しています。「下部に凡例があり、矢印の付いたこれらの赤い円はDPOモデルであり、報酬モデルとして使用できます。そして、ズームアウトすると灰色の四角に見えるこれらのサイコロは、私が説明したこの種の分類器タイプのトレーニングです」と説明しています。

この分類では、DPOモデル（直接好みを最適化するアプローチで訓練されたモデル）と、伝統的な分類器タイプのアプローチ（選択肢のペアから好まれる方を予測するように訓練されたモデル）を区別しています。

結果として、「妥当なスコアが見られます。ベンチマークは飽和していません。Tuluモデルやzephyrモデルなど、以前に見たいくつかの名前を含むオープンモデルがたくさんあります。これは私たちが期待していたもので、あまり飽和していませんが、そうなればよいと思います」と述べています。

具体的なスコアについては図を参照しながら、「ここに示されているモデルのパフォーマンスは、私たちの期待に沿ったものです」と評価しています。RewardBenchは、様々なタイプの報酬モデルの性能を客観的に比較する基盤を提供し、それぞれのアプローチの強みと弱みを明らかにしました。

重要な点として、DPOモデルと分類器型訓練モデルは異なる特性を持っており、ベンチマーク上でもそれぞれ異なるパターンのパフォーマンスを示していることが明らかになりました。この知見は、報酬モデル開発における手法選択の指針となります。

12.2. GPT-4とCohereモデルの比較

Nathanは、RewardBenchの発展を時間とともに説明し、特にGPT-4とCohereのモデルの比較結果について興味深い知見を紹介しています。「今日では、さらに多くのモデルがあり、より多くの情報があるので、より興味深いことについてお話しすることができます。例えば、OpenAIとCohereのモデルがこのベンチマークでどのように機能するかなどです」と述べています。

RewardBenchが発表されてから2ヶ月の間に、多くの新しいモデルが追加され、以前のランキングが大きく変わったことを示しています。「以前のリーダーボードで5位だったモデルは、現在31位です。人々がこの分野で研究を行い、実際にモデルを比較する場所を持つようになり、飽和が起きています」と説明しています。

特に注目すべき比較として、「LLM as a judge」（審判としてのLLM）という新しいカテゴリーを追加したことを述べています。「これらの一部は、審判としてのLLMとラベル付けされています。審判としてのLLMというのは、どの回答が良いかを言語モデルに尋ねることができるというアイデアです。これはalpaca valやMT benchの構築方法ですが、それを報酬モデルとしても使用できます」と説明しています。

この方法を使って「私はプロンプトと選択された回答と拒否された回答を持っています。ChatGPTにどちらが良いか尋ね、それがどうするかを見ることができます。これをベースラインとして追加しました」と述べています。

この比較の結果は非常に興味深いものでした。「GPT-4とGPT-4oは、Cohereがトレーニングしている報酬モデルほど、この閉じたドメインでは実際には良くないのです」と述べ、専用の報酬モデルがより汎用的な大規模言語モデルよりも特定のタスクで優れていることを示しています。

ただし、OpenAIの報酬モデルについての完全な情報はないと注意しています。「OpenAIの報酬モデルを持っていないので、完全な情報はありませんが、彼らのモデルを使って比較することができます」と述べ、利用可能なデータの制約も認識しています。

12.3. 「Chat Hard」カテゴリーの重要性

Nathanは、RewardBenchの中で特に価値のあるカテゴリーとして「Chat Hard」に注目しています。「評価をよく考えると、技術報道でよく取り上げられる驚くほど一般的なトピックは、評価が飽和していることです。これは私たちのベンチマークの唯一の機能で、完全に飽和していないものであり、ベンチマークの長期性にとって本当に重要です」と説明しています。

Chat Hardカテゴリーの具体例として、Nathanは興味深いタスクを紹介しています。「このデータセットを紹介しましたが、実際にこの問題ができるかどうかを理解することは興味深いです。プロンプト、選ばれた回答、拒否された回答があります。プロンプトは『次のオブジェクトを使用した隠喩の例を示してください：星』です」と述べています。

このタスクでは、選ばれた回答と拒否された回答は似ていますが、微妙な違いがあります。「選ばれた回答は空についてのもので、拒否された回答は月についてのものです」と説明し、「プロンプトには星が求められているのに、拒否された回答は空の中の夜にある別のもの（月）についてのものです」と指摘しています。

この種のデータは「プロンプトを言い換えるように（手動またはChatGPTによって）頼み、それから新しい生成を作成することで、単に話題から外れた拒否された生成を得ることができる」方法で作成されます。

特に重要なのは、このChat Hardカテゴリーが言語モデルにとって本当に難しいタスクであるという点です。「これは言語モデルにとって本当に難しいことになるだろうという意味があります。なぜなら、彼らは星と月の間にこの関連性を持っていますが、私たちはモデルがこのような質問に答えられるようになってほしいのです」と述べています。

さらに「私たちの報酬モデルベンチマークが、難しいものとして最も相関するものです。これは有望です。これは研究している人にとって興味深い種類のことです。本当に詳細ですが、私たちがこれらのモデルについてまだ学ぶべきことがあり、まだできないことがあることを示しています」と結論づけています。

12.4. 安全性評価の結果

Nathanは、RewardBenchにおける安全性評価の結果について興味深いパターンを発見したと述べています。「安全性において、私がこの種の『検閲されていない』モデルについて言及しましたが、安全性では私たちが期待するすべてのパターンが見られます」と説明しています。

具体的には、安全性データを2つの主要カテゴリに分けて分析しています。「この表の上部にある『拒否』というのは、言語モデルに拒否してほしいことです。そして、このEXs Testデータセットは、モデルに拒否してほしいことと、モデルに応答してほしいことに分けることができます」と述べています。

分析結果から、報酬モデルの異なるグループが安全性に対して異なるアプローチを取っていることが明らかになりました。「安全性を本当によく扱うモデルが、害を引き起こすアドバイスを求めるようなことを拒否し、境界線上だが応答するようなことに応答するという、DPOモデルや報酬モデルの複数のカテゴリを見ることができます」と説明しています。

しかし同時に、「すべてを拒否するモデルもたくさんあります。それはあなたのスコアを低下させるでしょう」と指摘し、極端に慎重な報酬モデルも存在することを示しています。そのような過度に慎重なモデルについて「これは多くのテクノロジー企業がリリースするモデルのようで、彼らと会話するとあまり正しい感じがしません」と評しています。

逆の極端として、「すべてに応答するモデルもあります。『質問をブロックするのは私の仕事ではない』という哲学です」と述べ、安全性フィルタリングに対する異なるアプローチが存在することを説明しています。

特に重要なのは、これらの異なる安全性への姿勢がテキスト生成を介さず直接報酬モデルを調査した場合でも観察できる点です。「アライメントの言説では多くのことが言われていますが、テキストを生成するように頼まず、そのままそれらを探ると、私たちが持っている多くの疑惑を確認できるのは良いことです」とNathanは結論づけています。

このように、RewardBenchは報酬モデルの安全性に対するアプローチの違いを明確に示し、モデルの設計哲学やアライメントの方向性についての重要な洞察を提供しています。

13. DPOの報酬モデルとしての限界

13.1. DPOの参照モデル依存性

Nathanは、DPOの数学的構造に基づく報酬モデルとしての限界について説明しています。「DPOの数学に戻りますが、これを知っておくと良いでしょう。DPOの論文を見ると、ここに式3があります。これは数学が実際に機能するために定義された報酬です」と述べています。

この報酬の定義は、単なるスカラー値の出力とは大きく異なります。「これはポリシーの確率と、トレーニング中の元のポリシー（参照モデルと呼ばれる）の確率の比率になります。これは非常に複雑な数学的表現です」と説明しています。

実際には、この数学的構造が実用面で大きな影響を持ちます。「テキストの一部を取ってDPOモデルに通すと、報酬は-200のようなものになります。これは一連の対数確率であり、確率は0から1の間です。対数を取ると負の数が得られ、これらをすべて合計すると大きな負の数になります」と具体的に説明しています。

さらに、選好を比較する際にはさらに複雑な計算が必要になります。「選ばれた回答と拒否された回答を持つ2つのプロンプトがある場合、式4は回答の一つが良かったかどうかを決定するために実際に行う必要のある数学です。基本的に2つの異なるモデルからの確率のこれらの比率を比較しており、トレーニングの出発点であるこの参照モデルに関連しています」と述べています。

この参照モデルの重要性がDPOの限界の核心です。「人々がDPOモデルをリリースするとき、通常はモデルをリリースしますが、すべての中間チェックポイントはリリースしません。この参照モデルはトレーニングプロセスの中間チェックポイントになるでしょう」と説明し、これが実用面での大きな制約となることを示唆しています。

13.2. 報酬モデルとしてのDPOの制約

Nathanは、DPOモデルを報酬モデルとして使用する際の根本的な制約について検証結果を示しています。「質問は、これをできるのか、すべての情報にアクセスできなくても報酬モデルとして使用できるのかということです」と問題提起しています。

この問いに対する答えは明確でした。「短い答えは『いいえ』です。私たちが持っているすべてのDPOモデルにわたって、ベンチマーク上のすべてのスコアが急落しています。これは理にかなっています。なぜなら、この追加のモデルは確率の正則化子であり、実際の報酬式に入っているからです」と説明しています。

具体的な検証方法として、「数スライド前に戻ると、それは式の中にあります。もし私たちがこれを取り除き、式4を正規化するのをやめて、それが機能するかどうかを確認すると、機能しません」と述べています。

この制限は、DPOの実用面において重要な意味を持ちます。「DPOは報酬モデルをトレーニングしていますが、常にそれにアクセスできるわけではありません。別のシステムでそれを使用することはできません。モデルをリリースする人々に求めるにはあまりにも多くのことです」と指摘しています。

このような制約は、オープンソースコミュニティでDPOモデルを活用する際の大きな障壁となります。参照モデルなしでは、DPOモデルから報酬信号を適切に抽出することができず、それを他のシステムの報酬モデルとして直接利用することが難しくなります。

Nathanはこの後、Cohereの報酬モデルの進展についても触れ、「これは、わずか数ヶ月のCohereの報酬モデルの進歩を示す興味深いスライドです。彼らは明らかに私たちのベンチマークでstate-of-the-artであるものをリリースしました」と述べ、専用の報酬モデルの開発が急速に進んでいることを強調しています。

14. PPO vs DPO：実証的比較

14.1. 13BパラメータLlama 2モデルでの検証

Nathanは、DPOとPPO（Proximal Policy Optimization）の性能を実証的に比較するための研究について説明しています。「私たちはDPOに多くの時間を費やしたこのTulu2の作業を行い、PPOに切り替えることでより良い結果が得られるかどうかを知りたいと思いました」と述べています。

この比較研究はまだ発表されていない進行中の研究であることを明らかにしています。「これはまだ発表されていない作業ですが、すぐに出る予定です。なので、数字は完全に最終的なものではありませんが、DPOとPPOの違いを非常に実証的なレベルで解明しようとしています」と説明しています。

具体的な実験設計として、「私たちがしようとしているのは、一連の設計決定を順を追って説明し、それが評価のスイートにどのように影響するかを見ることです」とアプローチを述べています。

実験の出発点として、「Llama 2 13Bモデルから始めます。これはすでにインストラクション微調整されています」と説明し、そのベースモデルの性能について「青と赤の違いは、これらの推論、コーディング、チャットタスクに対するインストラクション微調整からの利益です。インストラクション微調整は、これらのスライドのすべての中で見る最大のデルタを引き起こします」と指摘しています。

このアプローチにより、DPOとPPOの性能差を明確に識別することができます。また、13Bパラメータという比較的大規模なモデルを使用することで、より実用的な環境での両手法の性能を評価できる点も重要です。Nathanはこの実験を通じて、「インストラクション微調整はモデルを有用なものとして地図上に置き、始めは利益を見るのが簡単ですが、その後、これらのモデルを改善し続けることはどんどん難しくなります」と述べ、モデル改善の難しさを指摘しています。

この実験は、学術研究における重要な貢献であり、企業が秘密裏に行っている比較研究を公開の場で再現する試みとも言えます。

14.2. インストラクション微調整、DPO、PPOの効果比較

Nathanは、彼らの実験で観察された各手法の効果について詳細に説明しています。まず基本となるLlama 2 13Bモデルにインストラクション微調整を適用した結果について「青と赤の違いは、これらの推論、コーディング、チャットタスクに対するインストラクション微調整からの利益です。インストラクション微調整は、これらのスライドのすべての中で見る最大のデルタを引き起こします」と述べています。

次に、DPOを適用した実験について説明しています。「私たちが行ったのは、DPOでこのAnthropicの有用で無害なRLHFデータを追加することで、すべてのメトリクスで小さなバンプが見られます」と述べています。このデータセットについては「このデータセットは、この分野の研究者の間で特に雑音が多いことで知られていますが、アライメントに関する研究を始める際の出発点の一つです。数年前からあり、マルチターンで、大きいですが、雑音が多いことで知られています」と特徴を説明しています。

さらに、データセットを変更した場合の効果も検証しています。「もし、ZephyrとTulu2の両方に公式に使用されたこのUltra Feedbackデータに切り替えると、さらに大きなバンプが得られます」と説明し、「これは、DPOレシピでデータだけを変更することで得られる違いを示しています。通常、0〜2%の増加であり、モデルを出荷しようとする研究分野では大きな問題です」と強調しています。

最後にPPOへの切り替えによる効果について、「大学院生は本当に懸命に働き、すでに持っていたものに加えてJaxsでPOを実装しました。そして、POを追加するとどうなるかを見ました。そして、複数の実験にわたって信頼性高く、これは13Bパラメータでの一例ですが、POは少しだけうまくいきます。1%ほど良いのです」と結果を報告しています。

この比較から、インストラクション微調整が最も大きな効果をもたらすこと、DPOとPPOはどちらも追加的な改善をもたらすが、PPOが若干優れている可能性があることが示されました。しかし、Nathanは「多くのことを変更しようとするとき、物事はもう少し乱雑になります」と述べ、次のセクションへの橋渡しをしています。

14.3. データセットの影響（Anthropic HH vs Ultra Feedback）

Nathanは、DPOモデルの性能に対する異なるデータセットの影響について重要な知見を共有しています。彼らの実験では、主に二つの主要なデータセットを比較しました：Anthropicの「Helpful Harmless」（HH）データセットとUltra Feedbackデータセットです。

「私たちが行ったのは、DPOでこのAnthropicの有用で無害なRLHFデータを追加することで、すべてのメトリクスで小さなバンプが見られます」とNathanは説明しています。このAnthropicのデータセットについては、「このデータセットは、この分野の研究者の間で特に雑音が多いことで知られていますが、アライメントに関する研究を始める際の出発点の一つです。数年前からあり、マルチターンで、大きいですが、雑音が多いことで知られています」と特徴を述べています。

それに対して、Ultra Feedbackデータセットに切り替えた際の効果は明らかに大きいものでした。「もし、ZephyrとTulu2の両方に公式に使用されたこのUltra Feedbackデータに切り替えると、さらに大きなバンプが得られます」と説明しています。

この比較の重要な点は、同じDPOの手法を使用していても、データセットの選択だけでモデルの性能に大きな違いが生じることです。Nathanは「これは、DPOレシピでデータだけを変更することで得られる違いを示しています。通常、0〜2%の増加であり、モデルを出荷しようとする研究分野では大きな問題です」と強調しています。

この観察結果は、モデル改善において手法の選択だけでなく、データの質と適合性が非常に重要であることを示しています。特にUltra Feedbackのような合成的に生成されGPT-4によってラベル付けされたデータセットが、古いAnthropicのデータセットよりも一貫して良い結果をもたらす傾向があることが明らかになりました。これは、アライメント研究におけるデータセット開発の重要性を強調するものです。

15. PPOの課題と最適化

15.1. 大きな報酬モデルの効果

Nathanは、PPOの最適化において大きな報酬モデルを使用することの効果について検証した実験結果を共有しています。「産業界からは、より大きな報酬モデルを使用することが、より良いポリシーモデルを得るのに本当に役立つと聞いています」と述べ、この仮説を検証しようとしました。

理論的には、より大きな報酬モデルにはいくつかの利点があるはずです。「これらのより大きな報酬モデルは、ニュアンスをより理解し、より良いラベル付けされたスコアを提供すべきであり、これらは報酬として使用されます。このプロセスをもう少し安定させるべきです」とNathanは説明しています。

彼らの実験では、報酬モデルのサイズを大きくした場合の効果を測定しました。「コンピューティングリソースがあれば、いくつかのことを改善することが分かりますが、実際にはモデルを全体的にそれほど良くしません」と結果を報告しています。報酬モデルを大きくすることで「いくつかの要素が改善されますが、同様のデータで報酬モデルを大きくするだけでは、ある種の平坦化した状態になります」と述べています。

この予想外の結果について、Nathanは報酬モデルのトレーニング自体に問題があるのではないかという疑問も検証しました。「報酬モデルのトレーニングがスケールアップするにつれて悪くなっているのかどうかを確認するために、右側の報酬ベンチを使用しました」と説明しています。しかし、「これら2つの13Bモデルまたは70Bモデルが優れているかどうかは明確に相関していません」と結果を報告しています。

別のアプローチとして「ベストオブN」サンプリングという手法も試しました。「言語モデルから多くの完了を生成し、それらを報酬モデルでランク付けし、上位にランク付けされた完了を再評価する、というベストオブNサンプリングというアイデアも試しました」と説明しています。この手法では「より大きなスケールでは報酬モデルの方が良いことが示されましたが、POの概念の中でこれを下流のモデルに実際にクリックさせることはできませんでした」と述べています。

これらの結果は、単に報酬モデルを大きくするだけではPPOの性能向上には十分でないことを示唆しており、PPOの最適化における複雑さと難しさを浮き彫りにしています。

15.2. サンプリング手法の評価

Nathanは、PPOの性能を向上させるための様々な試みの一つとして、サンプリング手法の評価について説明しています。特に「ベストオブN」サンプリングと呼ばれる手法に焦点を当てています。

「言語モデルから多くの完了（completion）を生成し、それらを報酬モデルでランク付けし、上位にランク付けされた完了を再評価する、というベストオブNサンプリングというアイデアも試しました」と述べています。この手法の目的は、複数の候補から報酬モデルが最も高く評価するものを選ぶことで、生成の質を向上させることです。

この手法による検証結果について、「より大きなスケールでは報酬モデルの方が良いことが示されましたが、POの概念の中でこれを下流のモデルに実際にクリックさせることはできませんでした」と報告しています。つまり、報酬モデルのスケールを大きくすると、サンプリングによる選択の質は向上するものの、それがPPOトレーニング全体のパフォーマンス向上には直接つながらなかったということです。

これは、PPOの最適化の難しさを示す重要な観察結果です。理論的には優れているはずのアプローチが、実際のトレーニングプロセスでは予想通りの改善をもたらさないことがあります。Nathanはこの状況を「POの概要の中で、下流のモデルにこれを実際にクリックさせることができませんでした」と表現し、理論と実践のギャップを強調しています。

このような実験結果は、PPOの最適化が単純ではなく、様々な要素の複雑な相互作用によって影響を受けることを示しています。

15.3. プロンプト追加の影響

PPOの最適化実験の一環として、Nathanたちはプロンプトの追加が性能にどのような影響を与えるかも検証しました。「私たちはRLHFにさらにプロンプトを追加することも試みました。コードと推論のプロンプトを追加しました。これはOpenAIが多く話していることの一つです」と説明しています。

この取り組みの背景には、特定のタスクに特化したプロンプトを追加することで、モデルのそれらのドメインにおける能力を向上させられるのではないかという仮説がありました。「コードと推論のプロンプトを追加しました」とNathanは述べており、これらの領域に特化した追加データの効果を測定しようとしました。

しかし、結果は期待したほど明確なものではありませんでした。「多くのタスクにわたるこの種の一貫した平均では、それほど針を動かしません」と報告しています。つまり、全体的な性能指標ではプロンプト追加による目立った改善は見られなかったのです。

ただし、Nathanは詳細な分析では異なる結果が得られたことも付け加えています。「論文では、数学やコードの評価に非常に似たプロンプトを追加し、それらの特定の評価が少し良くなったことが示されています」と説明し、特定のドメインでは改善が見られたことを認めています。

しかし、全体としての評価では「他の評価が下がる可能性があるという事実に全ノイズを加えると、このプロセスは本当に解きほぐすのが難しいのです」と述べています。これは、特定のドメインの改善が他のドメインでの性能低下を引き起こす可能性があり、総合的な評価では相殺されてしまうという複雑な状況を示しています。

このような観察は、モデル最適化における「何かを得れば何かを失う」というトレードオフの現実を浮き彫りにしており、バランスの取れた改善を達成することの難しさを示しています。

16. オンライン vs オフライン学習の重要性

16.1. 新しく生成されたデータの役割

PPOとDPOの間の重要な違いの一つは、オンライン学習とオフライン学習の考え方です。オンラインとオフラインの学習において特別なものは何かを理解することが重要です。データをRLHF（Reinforcement Learning from Human Feedback）プロセスに取り入れる方法は複数あります。

RLの文献では「オンポリシー」対「オフポリシー」という技術的な区別があり、これらの議論と絡み合っています。これらは関連していますが、強化学習の議論はより定義的な特徴を持っているのに対し、アライメント領域では新鮮なデータを取り入れる必要性とそのラベル付け方法に焦点を当てています。

私はこれら2つの異なる側面を区別しています：

ポリシーから新しく生成されたデータ：例えばUltra Feedbackのようなデータセットにズームインすると、Alpaca、Vicuna、GPT-3.5、GPT-4、Llamaなど、あらゆる種類のモデルからの生成が含まれています。ZephyrやTulu 2のようなモデルを訓練する際、様々なモデルからの情報を1つのポリシーに取り入れています。一方、PPOは既存のモデルからのみデータを生成し、その分布を時間とともに変化させています。これはモデルからのシグナルがどこから来ているかという非常に異なる考え方です。
時間の経過とともにデータラベルを更新する：人間のラベラーが選択された回答と拒否された回答を比較するのは1つのデータポイントですが、後でこの訓練された報酬モデルを使って選択・拒否を生成し、ラベルを変更することもできます。

このように、実際のテキストと選択・拒否ラベルがいつ与えられたかという2つのことは、RLHFにおける「オンライン」の特別な点について人々が話す際に意味することです。PPOがDPOと非常に異なることは明らかですが、この制約に縛られる必要はありません。

2024年4月から5月にかけて、DPO、PPO、オンライン、オフラインに関する多くの論文が出始め、それらは同様のことを述べています。オンラインは重要であり、これらの論文はオンラインデータの特別な点と、オフラインデータを使用した場合のパフォーマンス低下について、より理論的かつ閉形式の実験を示しています。これらの論文を詳しく調べるのは良いことですが、これは研究を行うのが楽しい理由でもあります。アイデアがあれば、多くの場合、3つの論文があなたの考えを確認してくれます。3つの独立した機関が同時に同様のことを言えば、より自信を持つことができます。

現在、オンラインの概念を実際に使用するようDPOを修正しようとする多くの方法が出てきています。Metaの「自己報酬型言語モデル」が最初に本当に人気を集めたもので、DPOモデルに「これらの答えのどちらが良いか」と質問し、各イテレーションの間に自分のデータを再ラベル付けしました。つまり、LLMをジャッジとして使用して自分のデータを再ラベル付けし、複数回のDPOイテレーションを行いました。そのモデルは非常に強力なスコアを示しました。

データを一度にすべて使用せず、DPOのバッチを行い、データを更新するというアイデアも出てきています。私が関わった「ディスクリミネータ誘導型DPO（D2PO）」論文では、報酬モデルとDPO訓練目標を組み合わせています。変更できることは多くあり、私は再びコミュニティが拡大フェーズにあると思います。

このような論文の類似性に対するメッセージを受け取ることさえありますが、しばらくはこのような状態が続くでしょう。数年後には、方法論的側面で明確に何をすべきかがわかるようになることを期待しています。

16.2. データラベルの更新の意義

D2POという論文が一例です。これはディスクリミネータ誘導型DPOで、私が顧問をしていたもので、学部生研究者によるものです。この研究では3つの異なるアプローチを比較しています。まず標準のDPOでは、データセットがあり、そこに損失関数を適用します。次にオンライン選好最適化と呼ぶもので、報酬モデルを使ってデータを繰り返しラベル付けできます。これは先ほど言及した自己報酬論文のようなもので、報酬モデルに基づいて選好データを再シャッフルでき、これによってデータにある種のオンライン性が加わります。

3つ目のアプローチは、データを再ラベル付けしながら時間の経過とともに報酬モデルも再訓練するというものです。ポリシーが行っていることと報酬モデルの関係を保ち、すべてをリアルタイムで更新して整合性を取るよう本当に努力しています。これはDPOフレームワークにおいて、時間の経過とともに報酬モデルを再訓練することでどれだけの利益が得られるかを問うものです。

この論文が好きな理由の一部は、閉形式のタスクのような要素があることです。アライメントに関して最も多く受ける質問は「実際にどのように評価するのか？どのようなタスクに適しているのか？」というものです。哲学的な議論があり、情報変換は価値あるタスクだと思います。作家は同じ物語を異なる方法で語りますが、最も上手に語られた物語は人々の共感を呼ぶもので、それには価値があります。しかし同時に、私たちは学術的であり、物事を測定できる必要があります。

この論文では、報酬が文章の名詞の数を数えるようなタスクがあり、これらのアライメント手法を使用してモデルから出力される文の名詞の数を増やしています。これは名詞を知っている分類器があるため、はるかに測定しやすいのです。左側の図では、この報酬モデルを数回再訓練するだけで、単に選好データを再ラベル付けするよりも収束が良くなることがわかります。言葉が多くなりますが、トレーニングプロセスをオンラインに少し近づけることでパフォーマンスが向上する可能性があるのです。

右側は、より標準的な自由回答評価タスクで、言語モデルにどちらの回答がより良いかを尋ねています。これにはあらゆる種類の問題がありますが、同様の結果を示すことができます。大きな教訓は、文献が進化していることです。オンラインの方が優れていることを示す研究があり、人々はオンラインデータを実際に使用するための本当にクールで賢い方法を考え出しています。新しいデータセットと組み合わせると、今年のトレンドはオンライン手法とそれがどのように機能するかということです。

16.3. D2PO（Discriminator-guided DPO）の紹介

D2PO（Discriminator-guided DPO）は、私が顧問を務めた研究で、学部生研究者によって開発されました。この手法は、3つの異なるアプローチを比較検討しています。

まず、標準的なDPOでは、データセットに対して損失関数を直接適用します。次に「オンライン選好最適化」と呼ぶアプローチでは、報酬モデルを使ってデータを繰り返しラベル付けします。これは前述した自己報酬論文のようなもので、報酬モデルに基づいて選好データを再シャッフルし、データにオンライン性を加えます。

そして3つ目が「D2PO」のアプローチで、データの再ラベル付けと同時に時間の経過とともに報酬モデル自体も再訓練します。これにより、ポリシーと報酬モデルの整合性をリアルタイムで維持できます。主な研究課題は「DPOフレームワークにおいて、時間の経過とともに報酬モデルを再訓練することでどれだけの利益が得られるか」というものです。

この研究の興味深い点は、閉形式のタスクを用いた評価方法です。例えば、「文章中の名詞の数を数える」という明確な目標を報酬として設定し、アライメント手法を使ってモデルの出力文に含まれる名詞の数を増やすというタスクを設定しました。このようなタスクは、名詞を認識する分類器があるため、客観的に測定しやすいのです。

実験結果では、報酬モデルを数回再訓練するだけでも、単に選好データを再ラベル付けするよりも良い収束を示しました。つまり、トレーニングプロセスにオンライン的な要素を取り入れることで、パフォーマンスが向上することが示されたのです。また標準的な自由回答評価タスクでも、言語モデルに「どちらの回答がより良いか」を評価させる実験を行い、同様の結果を得ることができました。

この研究は、オンライン学習の重要性を示す近年の文献の流れに沿ったものであり、オンラインデータを効果的に活用する革新的な方法を提案しています。新しいデータセットと組み合わせることで、オンライン手法の研究は今年の重要なトレンドになっています。

17. 産業界の実践

17.1. Metaの実践（Llama 3）

以前、Anthropicのグラフを示しましたが、左側の図の線に沿って小さなポイントがあります。これらは異なるイテレーションを表しています。彼らが正確に何をしているかはわかりませんが、ドットが人間からの新しいデータセットであり、報酬モデルを再実行してデータを再ラベル付けするような方法とは少し異なるように見えます。これは異なる種類のスケールにアクセスできる場合に起こることです。

Llama 2の論文ではこれがより明確になっています。彼らはアノテーターと協力し、データのバッチを取得したと述べています。新しいバッチのデータを生成するとき、以前のモデルのチェックポイントが生成に使用されました。彼らはこれを何度も行い、新しい人間のデータ、新しい人間のデータ、新しい人間のデータを収集し、毎回新しいモデルのために訓練していることがわかります。多くのトレーニング更新を行い、それらを互いに構築しています。

これは最後のセクションである結論に繋がります。Metaはllama 3で何をしたのでしょうか？これは最も面白いブログ投稿の文の1つです。彼らが与えてくれる馬鹿げたことから、私たちは手がかりを解析します。ブログ投稿では「ポストトレーニングへのアプローチは、教師あり微調整、拒否サンプリング、近位ポリシー最適化（PPO）、直接選好最適化（DPO）の組み合わせです」と述べています。

人々は私に「彼らは一体何をしたのか」と聞きますが、私も同意します。しかし、私の考えでは、これは先ほどのスライドに戻ります。彼らは新しいデータを取得し、時間の経過とともに新しいモデルを訓練しているのです。私が考えるのは、これらの各ポイントで、彼らはいくつかの方法を試し、最も効果的だったトレーニング方法を選んだということです。これは実用的です。Metaは特にGEN組織では現在、非常に実用的な組織であり、それは理にかなっています。

モデルの異なる時点で、モデルには異なる能力があり、異なる方法でトレーニングする準備ができています。拒否サンプリング（ここでは説明しませんでした）は最も単純なトレーニング方法です。報酬モデルを取り、教師あり微調整の出力をランク付けし、その後再びこの自己回帰損失関数を使用します。そこからDPOはPPOよりもはるかに単純ですが、最高のパフォーマンスを提供しないかもしれません。そして、モデルが本当に軌道に乗り始めるか、データがすべて収集され、毎週の時間的制約がなくなった後、このモデルをトレーニングする時間が増えると、PPOのすべての小さなノブを試すことができ、最終的に最高のモデルを本当に得ることができます。

彼らが技術報告書を公開して私の仮説のいくつかを確認してくれることを願っていますが、これは通常、産業界から来た人が講義をするとき、人々が興味を持つことです。産業界が何をしているかについてもっと詳細を知りたいですが、それは難しいのが現状です。

17.2. 複数手法の組み合わせアプローチ

産業界では、単一の手法ではなく、複数の手法を組み合わせたアプローチが一般的になっています。Metaのllama 3を例にとると、彼らは「ポストトレーニングへのアプローチは、教師あり微調整、拒否サンプリング、近位ポリシー最適化（PPO）、直接選好最適化（DPO）の組み合わせです」と述べています。これは一見曖昧に思えますが、実は非常に実用的なアプローチを示しています。

彼らはモデルのトレーニングの異なる段階で、異なる方法が最も効果的であることを発見したのでしょう。モデルの進化に合わせて最適な手法を選択しているのです。

例えば、初期段階では拒否サンプリングのような単純な方法から始めます。これは報酬モデルを使用して教師あり微調整の出力をランク付けし、自己回帰損失関数を適用する方法です。次に、実装が容易なDPOに移行し、最終段階では時間と計算リソースが許す場合にPPOの様々なパラメータを微調整して最高のパフォーマンスを引き出すというアプローチです。

この段階的アプローチは理にかなっています。各段階でモデルは異なる能力を持ち、異なるトレーニング方法に適しているからです。すべてのデータが収集され、週単位の時間的制約がなくなった後のモデル開発の最終段階では、PPOのような複雑だが強力な手法のすべての細かいパラメータを調整する時間があります。

これは企業が実践的な結果を重視していることを示しています。理論的な純粋さよりも、「何が最も効果的か」という実用的な問いに答えるアプローチを採用しているのです。残念ながら、これらの詳細な実装方法は多くの場合、技術報告書や論文で完全には明らかにされていません。しかし、こうした段階的で組み合わせた手法が、現在の最先端モデルの開発において標準的な実践になっていることは明らかです。

18. 将来の研究方向

18.1. データの制約

RLHFにおいて、私が現在最も興味を持っている方向性について話しましょう。データについて多く言及してきましたが、私たちはデータに非常にボトルネックがあります。非常に限られた計算能力しか持たない学術研究者でさえ、入手可能なすべてのデータセットを文字通り試しています。これは私たちが多くの計算能力を持っていないというわけではなく、引き続きデータの面での革新が必要だということです。

より多くのDPO手法が登場するでしょう。これは今後も続く傾向です。参照モデルの除去、損失関数の微調整、ペアワイズ選好ではなく単一の選好の使用など、多くの発展があります。これらのモデルがどのように訓練されているかについて、多くの発展が進行中です。

また、7Bと13Bパラメータモデル、あるいはLlamaの場合は7Bと70Bパラメータモデルなど、様々なモデルサイズを使用すべきです。特にスケールダウンは非常に有用で、学術界がまだ貢献できる領域です。企業が戦略的な理由で大規模化を競争しているような奇妙なマーケティング力学は少なく、これは多くの人にとってアクセス可能な何かです。

小規模モデルのアライメントは、信号を得るのが難しいです。モデルは多くのベンチマークで多かれ少なかれランダムなスコアを示したり、非常に低いスコアを示したりするからです。その領域で突破口を開くだけでも、より多くの人々がアライメントに取り組むようになるという点で、本当に影響力のある仕事になるでしょう。

評価についても詳しく取り上げましたが、私たちが重要視することについてより具体的になり続ける必要があります。また、パーソナライゼーションはこの講義では扱わなかったアライメントの中の何かですが、大企業と競争するのに良いものです。つまり、1つの大きな技術組織のための1つの大きなモデルではなく、個人として自分に適したモデルをどのようにトレーニングするかという点です。

これらのスライドはあなたに届くと思いますが、オープンモデルやオープンデータセットについて追いかけるとき、私が信頼性が高く追跡しやすいと考えている場所のタイプです。すべての人をフォローしようとする必要はありません。

18.2. DPO派生手法の発展

より多くのDPO手法が今後も登場し続けるでしょう。DPOは現在、広く採用されており、これからもアライメント研究の基盤であり続けるでしょう。私が言及しなかった多くの発展があります。例えば、参照モデルの除去や損失関数の微調整、さらにはペアワイズ選好ではなく単一選好の使用などです。

DPO派生手法の多くは、それがどのように機能するかを洗練しようとしています。例えば、D2POのようなアプローチでは、報酬モデルとDPO訓練目標を組み合わせることで、訓練プロセスにオンライン学習の利点を取り入れています。

また、データの新鮮さを維持するためのアプローチも増えています。例えば、先ほど言及したMetaの「自己報酬型言語モデル」では、モデル自身がデータのラベル付けに関与し、イテレーションごとにデータの質を向上させています。

他にも、一度にすべてのデータを使用するのではなく、DPOのバッチを実行してデータを定期的に更新するアプローチもあります。これらは、より効率的でリソース消費の少ない方法でオンライン学習の利点を実現しようとする試みです。

現在、この分野は拡大フェーズにあります。似たようなアイデアに基づいた論文が頻繁に発表され、「私たちが先にやった」という主張も聞かれます。しかし、これは自然な進行過程であり、今後数年でこれらの方法論的側面について明確なコンセンサスが形成されることを期待しています。

DPO派生手法の発展は、計算効率、データ効率、そして最終的なモデルパフォーマンスの向上を共通の目標としています。これらのイノベーションが継続することで、より少ないリソースでより良いアライメントを実現できる可能性があり、アカデミアや小規模な研究グループがこの分野に貢献する機会を広げるでしょう。

18.3. 小規模モデルのアライメント

小規模モデルのアライメントは、今後の重要な研究方向の一つです。現在、7Bや13Bパラメータモデル、あるいはLlamaの場合は7Bと70Bパラメータのようなサイズでより多くの実験を行うべきです。特にスケールダウンは非常に有用であり、学術界がまだ影響力を持てる領域です。

大企業が戦略的な理由から大規模化を競争しているような奇妙なマーケティングダイナミクスが少ないため、小規模モデルのアライメントは多くの研究者にとってアクセスしやすい分野です。しかし、小規模モデルのアライメントには独自の課題があります。

これらのモデルは、人々が重視する多くのベンチマークでほぼランダムなスコアや非常に低いスコアを示すことがあります。そのため、改善の信号を捉えるのが難しいのです。このドメインで突破口を開くことができれば、それ自体が大きな影響を持ちます。より多くの人々がアライメント研究に参加できるようになるからです。

小規模モデルのアライメントでは、適切な評価指標の開発も重要です。現在の多くのベンチマークは大規模モデル向けに設計されているため、小規模モデルの微妙な改善を検出できないことがあります。小規模モデルに特化した、より感度の高い評価方法が必要です。

また、小規模モデルは、特定のドメインやニッチな用途向けのパーソナライズされたアシスタントとして価値を持つ可能性があります。一般的な大規模モデルではなく、個人や特定のユースケースに合わせた小規模モデルを訓練する方法を研究することで、大企業とは異なる方向でイノベーションを起こせるでしょう。

小規模モデルのアライメントは計算リソースの制約がある環境での研究を促進し、より広範な研究コミュニティが参加できるようにするとともに、より多様なアプリケーションの開発につながる可能性があります。

18.4. 評価とパーソナライゼーションの重要性

評価については既に詳しく取り上げましたが、私たちが重視する項目についてより具体的になり続ける必要があります。評価ツールが改善されなければ、モデル訓練の進歩を測定することは困難です。トレーニング技術が実際に最終結果を改善しているかを示す数値を得るための「ローカル評価」が必要です。ChatbotArenaがモデルを評価するのを待つことはできません。それには数値が戻ってくるまで約1ヶ月かかります。そのため、実際に良い仕事をしているかどうかのシグナルを提供するものをデスクで実行できる必要があります。

これらの評価ツールについてはまだ遅れをとっていますが、有望なものが増えています。評価は多くの場合、技術的なカバレッジでも驚くほど一般的なトピックであり、「評価が飽和している」という話題がよく出ます。これはベンチマークの寿命を保つために重要な特徴です。

また、パーソナライゼーションはこの講義では詳しく取り上げませんでしたが、アライメントにおいて非常に重要な領域です。これは大企業と競争する上で優位性をもたらす可能性があります。つまり、1つの大きな技術組織のための1つの大きなモデルではなく、個人として自分に適したモデルをどのようにトレーニングするかという点です。

パーソナライゼーションのアプローチは、ユーザー固有のデータや好みに基づいてモデルをカスタマイズすることで、大規模な一般モデルが提供できない種類のパーソナライズされた体験を提供できます。これは特に特定のニッチなドメインや個人的なユースケースにおいて強力です。

また、パーソナライゼーションは倫理的な側面も持っています。一部のユーザーは特定の種類のコンテンツや応答をより好む可能性があり、これらの個人的な価値観や好みに合わせてモデルを調整することは、より有用でユーザーフレンドリーなAIシステムを構築する上で重要です。

将来の研究においては、評価とパーソナライゼーションの両方が、より洗練されたアライメント手法の開発において中心的な役割を果たすでしょう。これらは単なる技術的な課題ではなく、AIシステムがユーザーの実際のニーズにどれだけ適合できるかを決定する重要な要素なのです。

19. Q&A

19.1. オンラインDPOの技術的課題

質問：「良い報酬モデルがあるとして（これは大きな仮定ですが同意します）、オンラインDPOを行う上での主な課題は何ですか？複数のロールアウトを行い、モデルを使ってランク付けし、それを反復できるはずです。困難な点は何ですか？」

この質問には技術的な側面と業界全体の側面の両方から複数の角度があります。技術的な点では、プロンプトのマッチングが非常に重要になると思います。報酬モデルが学習できることはプロンプトに固有のものです。POにおいては、ポリシーに使用されるプロンプトが報酬モデルのものと全く同じであることが多いという技術的な詳細があり、これは非常に奇妙です。

機械学習では一般化について話しますが、POの段階では自分自身にソフトボールを投げているようなものです。つまり、報酬モデルが回答するように訓練されたPOの回答だけを評価しているのです。これは奇妙なことです。市販の報酬モデルでPOモデルをトレーニングしようとすると、その一部が崩壊することがあります。これは長い答えになりましたが、主に分布のマッチングの問題だと思います。

しかし、本当に良いモデルがあれば、いくつかのことには機能するはずです。これが公開されているモデルがそれほど多くない理由の1つかもしれません。報酬モデルが人々が言うほど重要であれば、アライメントで人々が追いつくのを助けるかもしれないからです。報酬モデルが実際に言われているほど重要なら、それは簡単に利用できるかもしれません。

19.2. ペアワイズを超える好みの学習

質問：「例えば、RLHFでペアワイズ以上の好みを使用することはできますか？」

これは全体的な会話になる質問です。RLHFでペアワイズを超える好みを使用できるかという問いについて、様々な研究が行われています。その一つはスタンフォード大学の「KTO」（正確な発音は難しいです）という手法で、一方向の好みデータを使用するアイデアです。

多くの顧客向けアプリには「このエージェントからのサポートは良かったですか？はい/いいえ」のようなフィードバック機能があります。このようなデータを活用できるのです。これは単一方向の好み、または単に「はい/いいえ」のデータのための異なる損失関数を使用する方法です。

また、複数の回答のランク付けを学習する方法もあります。これは少し示唆しましたが、バイナリの好みにはランク付けを学習する文献が多くあります。例えば、Starlingモデルでは「kwise」好みが使われ、各プロンプトに対して5つまたは9つの回答があり、それらに対する回答を収集し、異なる損失関数を使用します。これは、オープンアライメント空間で突破したモデルの一つです。

さらに、きめ細かい好みに関する研究もあります。プロンプトに対する各回答に「簡潔さ」「役立ち度」「誠実さ」などのラベルを付けるのです。NvidiaのSteerLMや、ワシントン大学のきめ細かい好みからの学習に関する研究などがあります。

これはおそらく学術的な意味で最も新興しているものですが、ここで学ぶべきことはまだ多くあります。社会的選択の分野全体がこれらのことに凝縮される必要があるのです。

19.3. 人間のパフォーマンスを超える可能性

質問：「微調整やその他のトレーニングによって、どのように人間のパフォーマンスを超えることができるでしょうか？」

これは、コンピュータサイエンスの古い考え方がいくつか戻ってくるところだと思います。CSの基本的な考え方の一つは「探索」であり、これはRLにおける「探索」としても動機付けられています。したがって、探索を行い新しいデータを生成できる言語モデルが必要です。

講義の前に大学院生と話していましたが、私は「探索が合成データの大部分を占めるだろう」と思います。しかし、人間の側面がそれを最終的に実現させるでしょう。特定の領域を解決できない場合に。これはQARに関する噂が馬鹿げているようですが、OpenAIがそれで試みようとしていることについての最良の議論であるように思えます。いかにしてAIでその障壁を突破するかということです。

人間のパフォーマンスを超えるためには、モデル自体が新しい解決策や方法を探索・生成できる必要があります。そして、その探索によって生成された新しいデータと人間の関与の組み合わせが、最終的に人間だけでは達成できないレベルのパフォーマンスを実現する可能性があります。

つまり、人間のパフォーマンスを超えるには、AIが自律的に探索できる能力と、その探索結果を評価・改善するための人間のフィードバックの両方が必要だということです。これらが組み合わさることで、特定の領域においてブレークスルーを達成できる可能性があります。

19.4. データセット作成の課題

質問：「データセットが大きな制限だと言及しましたが、新しいデータセットを作成するにはどうすればよいでしょうか？」

これは非常に難しい問題です。人々は主にコミュニティの取り組みを試みてきました。私はOpen Assistantについて言及しましたが、コミュニティの取り組みを行うほとんどの人は「二度とやりたくない」と言います。だから、一度きりでも高い影響力を持つことができるものに取り組む価値はあると思いますが、持続可能な方法でこれらを構築するための他の道筋も非常に重要です。

これが行われている方法のいくつかとして、ChatbotArenaはプロンプトとラベルの一部をユーザーに返しています。そのデータがノイズが多すぎることについての特定の懸念がありますが、そういったことができます。

AI2がモデルのデモを持つ場合、それはチャットGPTの競合ではなく、科学や情報生成に関するものになります。非営利団体はプロダクトの競合を作ることができませんが、それが私たちがリリースしたいと思うようなデータの種類です。

私が興味を持っているのは、学術的なワークショップやコンペティションを通じた取り組みです。コミュニティが3ヶ月、6ヶ月、8ヶ月ごとに会合を持ち、特定の領域に焦点を当てた作業や、人々が貢献するための集中的な時間を持つことができるような場です。

しかし、これは良い質問です。なぜ非常に多くのデータセットが存在しないかの理由の一つでもあるでしょう。データセット作成は時間とリソースがかかり、持続可能な方法でこれを行うためのフレームワークはまだ発展途上です。

19.5. 報酬ハッキングの問題

質問：「報酬モデルも報酬ハッキングの影響を受けますか？良い結果を達成しても、実際には期待した結果を生まないような場合は？」

報酬モデルについて話す際、これはおそらく最も確立された研究分野です。報酬ハッキングは強化学習における古典的な問題です。私はRLのスライドを出して、ボートが円を描いて泳いでいるのを示し、「これはあなたの言語モデルにも起こります」と言いたいところです。

これは存在する問題であり、それを軽減するための多くの研究がありますが、根本的な問題です。非常に強力な最適化装置（モデル）と、報酬の不完全な表現があり、最適化装置は常に報酬の表現が間違っている部分を見つけ出します。私たちは常に最善を尽くすことになりますが、数学的に完璧だと言うことはできません。

面白いのは、これらのモデルをトレーニングすると、「JavaScript」といった特定の回答ばかりを無限に出力するようなモデルになることがあります。このような現象は起きていることが非常に明確に見えるため、良い点です。または、損失関数を変更して常に搾取されるようにすることもできます。これはシステムが機能していることを確認するための良い方法です。ブレーキを外せば、簡単に搾取できるはずなのです。

つまり、報酬ハッキングは報酬モデルに本質的な問題であり、完全に解消することはできません。しかし、それが起きていることを検出し、軽減する方法を開発することは可能です。モデルが予期せぬ方法で報酬関数を最適化しようとする創造的な方法は、しばしば明らかな形で現れるため、開発者はそれを認識して対処することができます。

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert

For more information about Stanford's online Artificial Intelligence programs visit: https://stanford.io/ai This lecture covers life after DPO. To learn more about enrolling in this course visit: https://online.stanford.edu/courses/cs224n-natural-language-processing-deep-learning To follow along with the course schedule and syllabus visit: hhttps://web.stanford.edu/class/archive/cs/cs224n/cs224n.1246/ Professor Christopher Manning Thomas M. Siebel Professor in Machine Learning, Professor of Linguistics and of Computer Science Director, Stanford Artificial Intelligence Laboratory (SAIL)

youtu.be

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert