2025-07-09 Stanford CS336 Language Modeling from Scratch:方針勾配GRPOの理論から実装まで

出展元

https://youtu.be/JdGFdViaOJk?si=rZTUXfq5RQm_cEqu

キーワード

方針勾配アルゴリズムGRPO（Group Relative Policy Optimization）ベースライン手法報酬設計

初回調査日

Aug 20, 2025 1:59 PM

※本記事は、Stanford CS336「Language Modeling from Scratch」講義17「Alignment - RL 2」の内容を基に作成されています。この講義は、Percy Liang准教授（スタンフォード大学コンピューターサイエンス学部准教授・Foundation Modelsリサーチセンター（CRFM）ディレクター）およびTatsunori Hashimoto助教（スタンフォード大学コンピューターサイエンス学部助教）によって提供されています。

講義の詳細情報とコースのスケジュール・シラバスは https://stanford-cs336.github.io/ でご覧いただけます。また、スタンフォード大学のオンライン人工知能プログラムに関する詳細は https://stanford.io/ai で、本コースへの登録については https://online.stanford.edu/ でご確認いただけます。

本記事では、講義の内容を詳細に要約・解説しております。なお、本記事の内容は原講義の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講義動画をご視聴いただくことをお勧めいたします。

1. 講義の概要と位置づけ

1.1. 四半期末の最終講義として

今日の講義を始める前に、四半期が終盤に差し掛かっているため、現在の状況について説明したいと思います。これは私またはTatsuが担当する最終講義となります。四半期の最後に位置する今回の講義は、これまでに学んできた内容の集大成として位置づけられ、特に強化学習における方針勾配手法の深い理解を目指します。

前回の講義では、Tatsuが検証可能な報酬からの強化学習について概要を説明し、PPO（Proximal Policy Optimization）やGRPO（Group Relative Policy Optimization）などの方針勾配アルゴリズムについて紹介しました。今回の講義では、その内容を受けて、特にGRPO方針勾配の仕組みについて詳細に掘り下げていきます。

必ずしも新しい材料を扱うわけではありませんが、既存の材料をより深く理解し、実際のコードや数学的な詳細を通して、理論と実装の両面からアプローチすることを目標としています。四半期を通して学んできた言語モデリングの基礎から始まり、最終的には実用的な強化学習システムの構築まで、一連の学習過程の完結点として、今日の講義を位置づけています。

1.2. 前回のRL概要からのディープダイブ

前回の講義では、Tatsuが検証可能な報酬からの強化学習について概要を説明し、PPOやGRPOといった方針勾配アルゴリズムについて紹介しました。今回の講義は、その内容を基盤として、方針勾配GRPOの仕組みについて深く掘り下げることを目的としています。

前回扱った内容は強化学習の全体像と主要なアルゴリズムの紹介が中心でしたが、今回はより技術的な詳細に焦点を当てます。特に、これらのアルゴリズムがどのような数学的原理に基づいて動作するのか、実際のコード実装ではどのような考慮事項があるのかについて、具体的に示していきます。前回の講義で理論的な枠組みを理解した皆さんが、今度は実装レベルでの深い理解を得られるよう、段階的にアプローチしていきます。

1.3. 既存内容の深化とコード・数学の詳解

今回の講義では、必ずしも新しい材料を扱うわけではありません。むしろ、既存の材料をより深く掘り下げ、実際のコードと数学的な詳細を通して理解を深めることに重点を置いています。これまでに学んだ理論的な概念を、具体的な実装と数式によって裏付けることで、抽象的な理解から実用的な知識への橋渡しを行います。

特に、方針勾配アルゴリズムの数学的導出過程を詳細に追跡し、各ステップがなぜ必要なのか、どのような数学的原理に基づいているのかを明確に示します。また、実際のPythonコードを用いて、これらの理論がどのように実装されるのかを具体的に見ていきます。理論と実装の間に存在するギャップを埋めることで、皆さんが実際に強化学習システムを構築する際に必要な知識を提供することを目指しています。

コードの詳細な解説を通して、実装上の注意点や最適化のテクニック、さらには実際の学習過程で遭遇する可能性のある問題とその対処法についても触れていきます。これにより、理論的な理解だけでなく、実践的な応用能力の向上も図ります。

2. 言語モデルにおける強化学習の基本設定

2.1. 状態・行動・報酬の定義

言語モデルに対して強化学習を適用する際には、強化学習の基本要素である状態、行動、報酬を明確に定義する必要があります。これらの定義は、従来のロボット工学などで用いられる強化学習とは大きく異なる特徴を持っています。

まず状態についてですが、言語モデルの場合、状態とはプロンプトと、これまでに生成された応答を合わせたものとして定義されます。つまり、現在までに生成されたトークンの系列全体が状態を構成します。これは非常に直感的で、モデルが次に何を生成すべきかを決定するために必要な全ての情報が含まれています。

次に行動についてですが、各行動は特定のトークン、つまり次のトークンを生成することとして定義されます。言語モデルは各ステップで語彙から一つのトークンを選択し、それを現在の系列に追加します。この単純な定義により、複雑な言語生成プロセスを強化学習の枠組みで扱うことが可能になります。

報酬については、本質的に応答全体がどれだけ良いかを評価する関数として定義されます。この講義の目的において、我々は結果報酬（outcome rewards）に焦点を当てます。結果報酬とは、報酬が応答全体の関数であることを意味し、生成プロセスの途中ではなく、完全な応答が生成された後にのみ評価されます。

これらの定義により、言語モデルの生成プロセスを強化学習問題として形式化することができ、従来の強化学習手法を適用する基盤が整います。これは現在までに明らかであるべきことだと思いますが、明確にしておくことが重要です。

2.2. 検証可能な報酬（Verifiable Rewards）への焦点

この講義では、検証可能な報酬に特に焦点を当てて説明を進めます。検証可能な報酬とは、その計算が決定論的である報酬のことを指します。つまり、何らかの関数が単に報酬を返すだけで、人間に問い合わせる必要がない報酬システムです。

この設定では、通常の強化学習で見られる割引や自助法（bootstrapping）の概念は適用されません。これらの手法は、学習過程で複数のターンがあり、途中で報酬を受け取る場合に意味を持ちます。しかし、我々が扱う設定では、一連の行動を実行し、最終的にその答えが正しいかどうかを確認するという形になります。

具体的な例として、数学問題を考えてみましょう。言語モデルがある数学問題に対してチェーン・オブ・ソート（思考の連鎖）で一定時間考察を行い、最終的に「したがって、答えは3マイルです」といった形で答えを生成したとします。この場合、報酬システムは「3マイル」という部分を抽出し、それが正解の基準値と一致するかどうかを確認します。

このような設定は、スパースで遅延した報酬という困難を導入する一方で、概念的な思考を単純化する面もあります。報酬が途中で得られるのではなく、最終的な結果のみで評価されるため、一般的な行動の束に対して、最終的な答えが正しいかどうかという明確な基準で判断できます。この明確さが、検証可能な報酬の大きな利点となっています。

2.3. 遷移ダイナミクスの単純性とその含意

強化学習では通常、遷移ダイナミクスが重要な要素として議論されますが、言語モデルの設定では、この遷移ダイナミクスが非常に単純になります。言語モデルの場合、遷移ダイナミクスは単純な付加操作、つまりアクションを状態に追加するだけの操作となります。具体的には、現在のトークン系列に新しいトークンを単純に付け足すだけです。

この単純性は、いくつかの重要な含意を持ちます。まず、世界のダイナミクスを完全に理解しているため、プランニングやテスト時間計算を実行することが可能になります。これは、ロボット工学の研究者が遷移モデルや世界のダイナミクスを持っていれば実現できることを夢見ているようなことです。もしロボット工学でこのようなモデルがあれば、シミュレーションを行い、様々な計算を実行できるでしょう。言語モデリングでは、このような理想的な状況を実際に実現できますが、これは一般的な強化学習では不可能なことです。

この遷移ダイナミクスの単純性により、言語モデルの強化学習は従来の強化学習とは大きく異なる特性を持ちます。世界の状態遷移が完全に予測可能であるため、不確実性は主に方針の選択、つまりどのトークンを生成するかという決定に集中します。これにより、学習アルゴリズムは環境の不確実性ではなく、最適な行動選択に焦点を当てることができるようになります。

2.4. 言語モデル設定における状態概念の柔軟性

もう一つ認識すべき重要な点は、状態という概念が実際には人工的に作られたものだということです。ロボット工学の文脈で強化学習を考える場合、状態は関節角度や位置、画像などの実世界に根ざしたものです。これらは物理的な世界に強く紐付いています。

一方、言語モデルにおいては、状態は単に言語モデルが生成したトークンに過ぎません。これは非常に大きな柔軟性と自由度を導入します。言語モデルは最終的な答えにたどり着くために、独自のスクラッチパッドを作成することができるからです。

一方、ロボットは外部世界によって大きく制限されており、どのような状態が達成可能かという点で非常に限られています。言語モデルの場合、トークンを書き下すことで任意の状態に到達することができるため、状態に到達すること自体は問題ではありません。これはロボット工学や制御における一般的な課題とは正反対です。ロボット工学では、しばしば目標とする状態に到達することすら困難な場合があります。

言語モデルでは、任意の状態に到達することは可能ですが、課題は、これらのトークンが実際に何らかの正解答につながる正しいものであることを保証することです。つまり、状態到達の問題から、正確性保証の問題へと焦点が移ります。

この違いを理解することは価値があると思います。すべて強化学習ではありますが、言語モデリング設定では、何が困難で何が容易かという直感が変化するのです。この特殊性を理解することで、言語モデルに特化した効果的な強化学習手法を開発することができます。

3. 方針勾配（Policy Gradient）の理論的基礎

3.1. 期待報酬最大化の目的関数

この設定が非常に明確で正確であることを確認できたので、次に方針勾配について説明しましょう。方針勾配は、方針を学習するための手法の全体的なクラスであり、基本的に方針から開始し、勾配法を用いてそれを改善しようとするものです。

記法を単純化するために、単一のアクションではなく、応答全体をaで表すことにします。結果報酬設定にいるため、これは実際には問題ではありません。言語モデルによってすべてのアクションが一度に生成され、最後に単一の報酬を得ると考えることができます。

我々の目標は、方針πに関して期待報酬を最大化することです。期待報酬は、状態の分布と、状態が与えられた時のアクション系列の方針、そして報酬の積分として表現されます。数学的には、E[R] = ∫P(s)π(a|s)R(s,a)dsda として表すことができます。これは非常に直接的な定式化です。

方針勾配は明らかなことを実行します。何かを最適化したい場合、勾配を取るのが自然なアプローチです。そこで勾配を取り始めます。勾配は方針のみに影響するため、この部分が重要なトリックとなります。これは方針勾配定理と呼ばれることもありますが、実際にはログの連鎖律に過ぎません。

この式は基本的にπを取り、それをログの勾配で書き換えます。そして、これを期待値の形で書き直します。この期待値は、基本的にSとAの分布を隠しています。この形式は非常に馴染み深いものであるべきです。これが期待報酬の勾配です。

この数学的定式化により、我々は複雑な言語生成プロセスを最適化可能な目的関数として扱うことができるようになります。期待値の形での表現は、後に具体的な推定手法を適用する際の基礎となります。

3.2. 単純方針勾配の導出と解釈

単純な方針勾配は基本的に、環境Pからプロンプトをサンプリングし、Aから応答をサンプリングし、この期待値の内部にあるものに基づいてパラメータを更新するというものです。SGD（確率的勾配降下法）を実行している場合を考えると、期待損失を見て、項をサンプリングし、それを評価してそれに従うというのと同様です。

この解釈は、基本的にSFT（Supervised Fine-Tuning）と同じですが、すべてが報酬によって重み付けされている点が異なります。SFTでは、人間がAを書き下し、あなたはAを模倣し、そのアクションの確率を最大化するようにパラメータを更新します。今度は、Aはモデルによって生成されますが、報酬でそれを重み付けすることができます。

直感を構築するために、報酬が0か1のどちらかであるとします。つまり、正しいか間違っているかです。この場合、単純な方針勾配は正しい応答に対してのみ更新を行うことになります。Rが不正解の応答につながるアクションに対してゼロになるためです。これらは完全に無視されます。そして、正しい応答ではRは1になります。

そのため、基本的には、正しい応答をサンプリング、選択し、それらに対してSFTを実行することになります。唯一の違いは、データセットが時間と共に変化することです。更新を実行した後、新しい方針があり、その方針に基づいてデータセットを生成し、反復を続けるからです。しかし、これは非常に自然なアプローチです。

ここでの主な課題、唯一の課題ではありませんが、主要な課題は、方針勾配が高いノイズや高分散を持つと言われることです。確率的勾配降下法において、教師あり学習を行っている場合、これも勾配が非常にノイズを持つ場合があります。通常、より大きなバッチサイズを使用し、継続することで、経験的にうまく機能するようです。しかし、強化学習は、対処しなければならないノイズと分散に関して、全く別のレベルにあります。

3.3. 高分散・高ノイズ問題の課題

特に、0と1の報酬という設定を考えると、困難な数学問題を解くことを思い浮かべてください。この設定では、報酬がスパースであることになります。つまり、報酬1を得る応答は非常に少なく、ほとんどの応答は0を得ることになります。

悪い方針を持っていて、行動をロールアウトして生成する場合、報酬のほとんどが0になります。勾配を見ると、基本的にゼロの勾配更新を行っていることになります。方針があまりにも悪く、報酬を全く得ることができない設定にある場合、推測できることは何でしょうか？勾配更新を全く行わず、行き詰まってしまうのです。

これは非常に悪い状況です。少なくとも教師あり学習では、何かに向かって更新することが保証されています。何かに向かって更新することは保証されています。しかし、強化学習とスパース報酬では、もはやそれが真実ではありません。

この問題は、方針が初期状態で非常に貧弱な場合に特に深刻になります。報酬を得られるだけの十分な性能がない場合、学習信号が全く得られず、改善の機会がないまま停滞してしまいます。教師あり学習では常に正解に向かって押し進められますが、強化学習では報酬がゼロの場合、どちらの方向に進むべきかの情報が全く得られません。

このスパース報酬の問題は、強化学習における根本的な課題の一つであり、後に説明するベースライン手法や報酬の設計において重要な考慮事項となります。報酬が得られない状況でも学習を継続できるような仕組みが必要となるのです。

3.4. スパース報酬における困難

ここで質問があります。「なぜデータセットが時間とともに変化するのですか？」という質問ですが、これは目的関数について考えてみてください。最適化を行おうとしているのです。各反復で勾配を計算し、パラメータを更新します。勾配の計算には応答をサンプリングしてから更新することが含まれます。

パラメータが異なるようになったので、次回応答をサンプリングする際には、新しいモデルから来るため、異なる可能性があります。複数の応答をサンプリングする場合、それらの応答は異なる分布からの異なるデータセットになり、開始時とは異なります。

データセットは時間とともに良くなることが期待されます。直感的に言えば、このスパース報酬があっても、簡単な質問のいくつかを正しく解くことができ、何らかの報酬を得ることができる限り、モデルを更新することができ、モデルがそれらの例を超えて汎化することを期待できます。

次の反復では、より難しい質問をサンプリングして解く際に、正解を得る応答がいくつか得られるでしょう。これで、データセットにはより高い報酬とより高い報酬を持つものが時間とともに含まれるようになります。

これは、ペアワイズ選好を使用し、報酬モデルを推定する人間フィードバックからの強化学習とは大きく異なります。報酬モデルは一般的にもう少し連続的です。すべての応答にどの程度良いかの数値を基本的に割り当てます。これは、正しいか間違っているかという検証可能な報酬設定とは大きく異なります。

この点を強調していますが、すべて強化学習であり、言語モデルの範囲内でも、PPOのような同じアルゴリズムを使用することもありますが、直感やハイパーパラメータの設定方法、モデルの調整方法は異なる可能性があります。

4. ベースライン（Baseline）の導入と理論

4.1. ベースライン手法による分散削減

報酬がスパースであることに気づいたので、報酬が0の場合はパラメータを更新しないということですね。それは正しいです。なぜ報酬をマイナス1のようにして、少なくともそれらの間違った応答から遠ざけるようにしないのでしょうか？

これは、ベースラインを見るときに自動的に起こることです。これは単純な単純方針勾配で、報酬に対して更新しているだけだからです。報酬だけを使うよりもはるかに良いことをお見せします。

単純方針勾配は高ノイズと分散の問題があることを述べました。方針勾配手法における重要なアイデアは、ベースラインと呼ばれるものを使用することです。期待報酬を実際に計算できれば、非常に良い結果が得られるでしょう。しかし、それはできません。

代わりに不偏推定量を使用します。これは通常、期待値を取り除き、サンプリングし、期待値を取り除くことを意味します。これは不偏推定量ですが、その分散は非常に高くなる可能性があります。

高分散がどのようなものかを理解するために、玩具の例を挙げてみましょう。2つの状態、つまり2つのプロンプトがあるとします。S1とS2です。S1から2つの可能なアクションがあります。A1は報酬11を与え、A2は報酬9を与えます。状態S2では、A1は報酬0を与え、A2は報酬2を与えます。

S1は基本的により高い報酬を与え、S2はより低い報酬を与えます。もちろん、最適な方針はS1でA1を選択し、S2でA2を選択することでしょう。S1がA2に行くことは望ましくありません。しかし、この9は実際にはS2よりも大きいことに注意してください。

S1を本当に簡単な質問として、S2をより難しい質問として考えることができます。何かが高い報酬を得たからといって、それに対して積極的に更新すべきだというわけではありません。単純な勾配更新を行っている場合、S1からA2を選ぶかもしれません。これは素晴らしいと思うでしょう。9倍の勾配を得ることになります。そして、S2、A2を見ると、それは報酬2しかないと言うでしょう。そのため、それをあまり押し上げません。

実際、全体像を見れば、それは局所的にはあまり意味がないことは明らかです。期待値においては、すべての状態とアクションを見れば、数学はすべて成り立つことを強調したいと思います。しかし、すべてを見てそれを得る必要があります。

4.2. 最適ベースラインの理論的導出

ベースラインの背後にある主要なアイデアは、期待報酬を最大化する代わりに、B(S)と呼ばれるベースライン関数を差し引くということです。つまり、期待報酬からベースラインの期待値を差し引いた値を最適化します。

この手法の美しさは、この量が方針πに依存しないということです。これを展開すると、P(S)とπ(a|S)の積分を持つことになりますが、aについての積分は1になります。したがって、これは方針に全く依存しません。もちろん、期待値Rを最適化することは、期待値R - この値を最適化することと同じです。なぜなら、これは単なる定数だからです。これがベースラインの全体的なアイデアです。

最適化問題を保持し、この新しい目的に対して単純方針勾配を実行すると、基本的にSをサンプリングし、Aをサンプリングし、この差を見ることになります。これがすべての可能な関数B(S)について有効であることに注意してください。B(S)がAに依存しない限り、引数にないので、Aに依存できません。これが有効です。

ここで質問は、すべての可能な関数B(S)の中で、どれを使用すべきかということです。この2状態例を再び見て、いくつかの直感を提供しましょう。初期方針がすべてのSとAについて一様分布であり、方針の勾配が初期的に1であると仮定します（今はそれを無視してください）。

勾配の分散を見ると、11を得ることもあれば、9を得ることもあり、0を得ることもあり、2を得ることもあり、分散は5.3になります。S1に対して10、S2に対して1となるベースラインを定義したらどうなるでしょうか。ベースラインをこれらの報酬値から差し引きます。S1に対しては10を差し引き、S2に対しては1を差し引きます。すると、ベースライン分散ははるかに少なくなります。わずか1.1です。

単にベースラインを差し引くことで、分散を5から1に削減しました。これは期待値における最終結果に影響を与えませんが、非常に良い結果です。

すべての可能な関数の中で、どれを使用すべきかについて数学を行うと、実際には非常に素晴らしい閉形式解があることがわかります。これは1パラメータモデルに対して書かれています。多次元の場合は共分散があると思います。これは、この微分の2乗とRの期待値を、Rなしの同じ式で正規化したものです。

一般的に、これは高次元の場合、特に計算が面倒です。この項目は何らかの共分散になるからです。通常、人々がすることは、このようなものを無視して、ベースラインをS与えられた期待報酬に等しく設定するということです。これは最適ではありませんが、良いヒューリスティックです。これも計算できません。期待値を持つものは何でも計算できません。推定することしかできません。しかし、これはベースラインがどうあるべきかについての良い指針となります。状態が与えられた場合の期待報酬です。

4.3. アドバンテージ関数との関係性

要約すると、単純方針勾配がありました。任意のB(S)に対して有効なこのベースラインを導入できます。そして、これが良い選択であると思われる結論に達しました（これを取得できれば）。この特定の選択は、アドバンテージ関数との関係があります。

強化学習では、通常、価値関数を持ちます。これは状態が与えられた場合の期待報酬です。そして、Q関数があります。これは状態が与えられ、特定のアクションを取った場合の期待報酬です。ここで、QとRが同じであることに注意してください。なぜなら、結果報酬を仮定し、aがすべてのアクションを含んでいるからです。一般的には、Rはその状態からの単一の報酬ではなく、その状態からのリターンになります。しかし今のところ、この2つは同じです。

アドバンテージ関数は、アクションを取った場合に得られる報酬と、Sから可能なアクションで平均した場合の期待値の差として定義されます。特に、これはアクションAを取ることが、ベースラインに従う、つまり方針に従うよりもどれだけ良いかを測定しています。ベースラインは曖昧ですが、方針に従って進むことと比較しています。

これまで話してきたこのヒューリスティック形式に等しいBを見ると、μ(S)を差し引くベースライン報酬は、アドバンテージと同じです。このベースラインの選択があれば、アドバンテージを最適化することと同じであると解釈できます。

これは、このベースラインが何をしているかについてのいくつかの直感を与えるためです。一般的には、これらの期待値を正確に計算することはできないため、これから逸脱することになるでしょう。何か他のことを行うことになります。

4.4. 2状態例による具体的説明と分散削減効果

この2状態例をもう一度詳しく見て、ベースラインの効果を具体的に理解しましょう。S1とS2という2つの状態があり、S1からはA1で報酬11、A2で報酬9が得られます。S2からは、A1で報酬0、A2で報酬2が得られます。

初期方針がすべてのSとAについて一様分布であり、方針の勾配が初期的に1であると仮定します（今はその詳細は無視してください）。勾配の分散を計算すると、時には11を得て、時には9を得て、時には0を得て、時には2を得るため、分散は5.3になります。

ここで、S1に対して10、S2に対して1というベースラインを定義してみましょう。このベースラインをそれぞれの報酬値から差し引きます。S1に対しては10を差し引き、S2に対しては1を差し引きます。すると、S1のA1では11-10=1、A2では9-10=-1となり、S2のA1では0-1=-1、A2では2-1=1となります。

この調整後のベースライン分散を計算すると、1.1という非常に小さな値になります。単純にベースラインを差し引くことで、分散を5.3から1.1へと大幅に削減することができました。これは期待値における最終結果には影響を与えませんが、学習の安定性という観点では非常に重要な改善です。

この例は、適切なベースラインを選択することで、どれだけ学習の分散を削減できるかを具体的に示しています。より低い分散を持つことで、より早い収束が期待できるため、これは非常に強力な手法です。ベースラインの力について、具体的な感覚を得ていただけたでしょうか。

5. GRPO（Group Relative Policy Optimization）アルゴリズム

5.1. 言語モデル設定におけるGRPOの自然な動機

少なくともこの例では、分散を削減する何らかのベースラインを定義できることを示しました。これにより、ベースラインの力について具体的な感覚を得ることができたでしょう。実際に最適なベースラインを使用するべきかどうか疑問に思うかもしれません。

数学を行うと、実際には非常に素晴らしい閉形式解があることがわかります。しかし、これは一般的に高次元では計算が面倒で、この項目が何らかの共分散になるためです。そのため、通常人々が行うことは、これらの項目を無視して、ベースラインを状態が与えられた期待報酬に等しく設定するということです。

この説明の多くは、GRPOアルゴリズムに基づいています。来年はこのスライドを更新する必要があるかもしれません。ここでの特定の選択を超えて一般化しようとしています。

GRPOは、Tatsuが前回述べたように、興味深い系譜を持っています。PPOがあり、その後PPOとGRPOがありますが、GRPOはPPOの簡素化です。通常のアルゴリズムとは対照的に、シンプルから始めて複雑性を増していくのではなく、逆のアプローチを取っています。

しかし、GRPOが2017年頃にPPOが導入された時ではなく、2024年に存在する理由は、言語モデル設定が、GRPOを動機づける自然な構造を提供するからだと思います。ロボットが歩行しようとする古典的なRL設定では、GRPOを自然に実行することは実際にはできないと思います。

特に重要なのは、言語モデリング設定では、プロンプトがあり、そのプロンプトから多数の応答を生成できることです。これにより、本質的にベースラインを計算するための自然なグループ構造が得られます。これは、報酬の平均となります。全体のポイントは分散を最小化することであり、グループは自然な比較セットです。

これが「相対的」である理由です。グループに対して相対的です。すべてのロールアウトが異なって見える場合、自然なグループ構造がない場合、GRPOは実際には意味をなしません。何か他のものを見つける必要があり、その何か他のものは一般的に価値関数になる傾向があります。価値関数は、すべての可能な状態とアクションを集約します。

この場合、LM設定のため、すべてを考慮せずに、すべての可能な応答にわたる経験的推定があります。

5.2. グループ構造を活用した相対的最適化

言語モデル設定におけるGRPOの核心的な特徴は、プロンプトから複数の応答を生成することで生まれる自然なグループ構造を活用することです。同一のプロンプトに対して複数の応答を生成すると、これらの応答は自然にグループを形成し、相互比較のための理想的なセットとなります。

このグループ構造により、ベースラインの計算が非常に直接的になります。具体的には、各グループ（同一プロンプトからの応答セット）内での報酬の平均を計算することで、そのプロンプトに対するベースラインが得られます。この平均は、そのプロンプトに対する現在の方針の性能を表す自然な基準点となります。

分散最小化という全体的な目標において、このグループは自然な比較セットを提供します。各応答の報酬を、同じプロンプトから生成された他の応答の平均報酬と比較することで、その応答が相対的にどの程度良いかを評価できます。これが「相対的」と呼ばれる理由です。絶対的な報酬値ではなく、グループに対する相対的な性能を基準とするからです。

この相対的なアプローチは、古典的なRL設定では実現が困難です。例えば、ロボットの歩行のような問題では、各ロールアウトが根本的に異なり、自然なグループ構造が存在しません。そのような場合、価値関数のような、すべての可能な状態とアクションを集約する手法が必要になります。

しかし、言語モデル設定では、同一プロンプトからの複数応答という自然なグループ化により、すべてを考慮する必要なく、現在のプロンプトに対するすべての可能な応答の経験的推定を得ることができます。これにより、計算効率と学習効果の両面で大きな利点を得ることができるのです。

5.3. PPOとの系譜関係と簡素化のアプローチ

GRPOの興味深い特徴の一つは、その系譜にあります。通常のアルゴリズム開発では、シンプルなものから始めて複雑性を増していくのが一般的です。しかし、GRPOは全く逆のアプローチを取っています。PPOがあり、その後GRPOが登場しましたが、GRPOは実際にはPPOの簡素化なのです。

この逆の流れは非常に珍しく、アルゴリズムが通常辿る進化とは対照的です。多くの場合、研究者は基本的なアルゴリズムから始めて、徐々に機能を追加し、複雑性を高めていきます。しかし、GRPOの場合は、より複雑なPPOから出発して、不要な部分を取り除き、本質的な部分のみを残すという簡素化のプロセスを経ています。

この簡素化が可能になったのは、言語モデル設定が提供する特有の構造によるものです。PPOが2017年頃に導入された当時と比較して、2024年のGRPOは言語モデリングの文脈において、より自然で効率的な解決策を提供できるようになりました。

GRPOが2024年に存在する理由は、言語モデル設定がGRPOを動機づける自然な構造を提供するからです。古典的なRL設定、例えばロボットが歩行しようとする問題では、GRPOを自然に実行することは実際には困難です。しかし、言語モデルの場合、プロンプトから複数の応答を生成するという自然なグループ構造があるため、GRPOのアプローチが非常に適切になるのです。

この簡素化のアプローチは、アルゴリズム設計において、特定の応用領域の特性を活かすことで、より効率的で理解しやすい手法を開発できることを示している良い例と言えるでしょう。

5.4. 疑似コードによるアルゴリズム概要

ここで、GRPOアルゴリズムの疑似コードを提示します。実際のPythonコードについては、すぐ後で詳しく見ていきますが、まず全体的な構造を把握するために、アルゴリズムの概要を示しておきます。

疑似コードでは、GRPOの基本的な流れが明確に表現されています。外側のエポックループがあり、その中で応答の生成、報酬の計算、デルタの算出、そして方針の更新が行われます。このアルゴリズムの構造は、先ほど説明したグループ構造を活用した相対的最適化の概念を具体的に実装したものです。

重要な点は、同一プロンプトから複数の応答を生成し、それらをグループとして扱うことで、グループ内での相対的な比較を可能にしていることです。また、古いモデルとの重要性比率の計算や、KLペナルティの適用なども含まれており、PPOの核心的な要素を保持しながら簡素化されていることがわかります。

このアルゴリズムの詳細については、実際のPythonコードを通して、各ステップがどのように実装されているかを具体的に見ていくことになります。疑似コードは全体的な流れを理解するための出発点として、ここに示しておきます。実装の詳細や数学的な計算については、次のセクションで詳しく解説していきます。

6. 実装例：数字ソートタスク

6.1. タスク設定（n個の数字のソート）

それでは、より深く掘り下げるために、実際のコードを見ていきましょう。簡単なモデルと簡単なタスクを定義し、課題5のように見えるかもしれないコードを実際に歩いて行き、うまくいけばいくつかの実行を行います。

タスクを定義する必要がありました。私のノートPCでトランスフォーマー言語モデルを実行することは、高性能なノートPCを持っていないため、実現可能ではありませんでした。そこで、私のノートPCで実際に非常にシンプルなモデルを訓練できるような、十分に簡単なものが必要でした。

そこで定義したシンプルなタスクが、n個の数字のソートです。プロンプトはn個の数字であり、応答はうまくいけばソートされたn個の数字です。これは非常に基本的で理解しやすいタスクですが、強化学習の原理を学習するには十分な複雑性を持っています。

このタスクを選択した理由は、計算資源の制約だけでなく、強化学習の概念を明確に示すことができるからです。ソートという明確な正解がある問題により、報酬関数の設計や学習の進行を直感的に理解することができます。また、入力と出力の関係が明確であるため、モデルの学習過程を追跡しやすいという利点もあります。

このシンプルなタスクを通して、複雑な言語生成タスクで使用されるのと同じ強化学習の原理を理解することができ、より大規模な問題への応用の基礎を築くことができます。

6.2. 報酬関数の設計選択肢

環境の定義を完了するために、報酬を定義する必要があります。報酬は、応答が正解のソート済み基準値にどれだけ近いかを捉えるべきです。

ここで、強化学習における興味深い側面の一つを実際に目の当たりにします。それは、報酬を異なる方法で定義できるということです。例えば、ソートされていれば1、そうでなければ0という報酬を定義することができます。これはおそらく最終的に求めているものです。

しかし、スパース報酬の問題を思い出してください。何もしない方針から始める場合、ほとんどの場合0の報酬を得ることになり、実際にはあまり進歩を遂げることができません。そこで、部分的な評価を与える報酬を定義してみましょう。

強化学習における報酬設計は、学習の成功に決定的な影響を与える重要な要素です。単純なバイナリ報酬（0/1）は直感的で最終目標を明確に表現しますが、学習初期の段階では十分な学習信号を提供できません。一方、部分的評価を提供する報酬は学習を促進しますが、意図しない行動を奨励する可能性もあります。

このトレードオフを理解することは、効果的な強化学習システムを設計する上で不可欠です。異なる報酬設計が学習過程にどのような影響を与えるかを具体的に見ることで、より大規模で複雑なタスクにおける報酬設計の原理を理解することができます。

6.3. バイナリ報酬（0/1）vs 部分信用報酬

最も直接的な報酬設計は、応答が完全にソートされていれば1、そうでなければ0というバイナリ報酬です。これは私たちが最終的に求めているものを正確に表現しており、直感的で理解しやすい設計です。

しかし、このバイナリ報酬には重大な問題があります。先ほど説明したスパース報酬の問題が発生するのです。何もしない、または非常に貧弱な方針から始める場合、ほとんどすべての生成された応答が0の報酬を受け取ることになります。これでは学習信号が得られず、実際にはあまり進歩を遂げることができません。

この問題を解決するために、部分的な信用を与える報酬を定義することを検討しましょう。部分信用報酬の考え方は、完全に正しくない応答であっても、正解に近づく要素があれば、それに対して何らかの正の報酬を与えるというものです。

これにより、学習の初期段階でも何らかの学習信号を得ることができ、方針は徐々に改善されていくことが期待できます。例えば、完全にソートされていなくても、いくつかの数字が正しい位置にある場合や、部分的にソートされている部分がある場合には、それに応じた報酬を与えることで、学習プロセスを支援することができます。

しかし、部分信用報酬にも注意すべき点があります。過度に寛大な部分信用は、モデルが局所最適解に陥る原因となる可能性があります。適切なバランスを見つけることが重要となります。

6.4. 位置マッチング報酬

最初の部分信用報酬として、応答が基準値と一致する位置の数を返す報酬を定義します。具体的には、基準値（プロンプトをソートしたもの）を見て、応答が基準値と一致する位置の数を数えるだけです。

コードは次のようになります。基準値を取得し、応答と基準値が一致する位置の数を単純にカウントします。これは非常に直接的なアプローチです。

具体的な例を見てみましょう。正しい答えは[0, 1, 2, 3]で、これは4つの位置すべてが一致するため、報酬は4になります。一方、[0, 2, 1, 3]のような応答で、実際にはタスクを解決していない場合でも、運良く2を2番目の位置に配置したため、報酬1を得ることができます。

また、[2, 1, 2, 3]のような応答もあります。これも問題を解決していませんが、実際に努力していると見なすことができ、0が正しい位置にあるため、やはり報酬1を得ます。

しかし、この報酬設計には問題があります。[0, 2, 1, 3]と[2, 1, 2, 3]はどちらも大きく間違っているにもかかわらず、両方とも報酬1を受け取ります。直感的には、[0, 2, 1, 3]の方が正解により近いように思えますが、この報酬関数では両者を区別できません。

この例は、単純な位置マッチング報酬でも部分的な学習信号を提供できる一方で、応答の品質を十分に区別できない場合があることを示しています。より洗練された報酬関数が必要かもしれません。

6.5. 包含報酬 + 隣接ペア報酬

より多くの部分信用を与える別の報酬を定義してみましょう。ここで私が行うのは、プロンプトに現れる各トークンに対して、それが応答に現れる場合に1ポイントを与えることです。つまり、少なくとも入力にあるトークンを出力していることです。あまり多くを求めているわけではありません。

この特定の例では、包含報酬として4を得ます。そして、応答内の隣接するペアがソートされている場合、各隣接ペアに対して1ポイントを与えます。この例では3つのペアがあり、隣接ペアがすべてソートされているため3ポイントです。報酬は合計で7になります。

注意深く見ていると、この報酬には実際に抜け穴があることに気づくでしょう。しかし、それは皆さんに見つけていただきましょう。

さて、この非常に間違った答え[2, 1, 2, 3]は報酬3を得ます。そして、この答え[0, 2, 1, 3]は報酬6を得ます。なぜなら、本当に最善を尽くしているからです。

我々は強化学習アルゴリズムに対して多くの部分信用を与えています。この報酬設計により、完全に間違った応答であっても、正解に向かう要素があれば適切に評価されるようになります。包含報酬は基本的な要件（入力トークンの使用）を評価し、隣接ペア報酬は局所的なソート品質を評価します。

この二重の評価システムにより、学習アルゴリズムはより細かい段階的な改善を認識し、報酬を得ることができます。しかし、先ほど言及した通り、この報酬関数には設計上の抜け穴が存在する可能性があり、これは報酬設計の複雑さを示しています。

一般的に、我々は2番目の報酬関数を使用していきます。この報酬関数により、学習プロセスがより効果的に進行することを期待しています。

6.6. 報酬設計における抜け穴の存在

注意深く見ていると、この報酬には実際に抜け穴があることに気づくでしょう。しかし、それは皆さんに見つけていただきましょう。

この言及は、報酬設計における根本的な課題を示しています。どんなに注意深く設計された報酬関数であっても、設計者が意図しない行動を奨励してしまう可能性があります。これは強化学習において「報酬ハッキング」と呼ばれる現象です。

包含報酬と隣接ペア報酬を組み合わせた設計においても、このような抜け穴が存在する可能性があります。モデルは真にソートを学習するのではなく、報酬を最大化するための別の戦略を発見するかもしれません。例えば、同じ数字を繰り返し使用したり、特定のパターンを悪用したりすることで、実際のソート能力を向上させることなく高い報酬を得る方法を見つける可能性があります。

このような抜け穴の存在は、報酬設計が単なる技術的な実装の問題ではなく、深い思考と反復的な改善を必要とする設計課題であることを示しています。実際の強化学習システムを構築する際には、報酬関数を継続的に監視し、意図しない行動パターンが現れた場合には修正する必要があります。

この問題は、より大規模で複雑なタスクにおいてはさらに深刻になります。報酬設計における慎重さと、潜在的な抜け穴に対する警戒心は、効果的な強化学習システムを構築するための重要な要素なのです。

7. 簡素化されたモデルアーキテクチャ

7.1. 固定長前提での実装

タスクは明確になりました。これが環境です。次に、このタスクを解決するためのモデルを定義する必要があります。そこで、本当にシンプルなモデルを定義することにします。

プロンプトと応答の長さは固定されており、同じ長さであると仮定します。例を反復処理している際に、動的な処理を行うものがありましたが、それは単に扱いが面倒だったので、簡素化しました。

この固定長の前提により、実装が大幅に簡素化されます。通常の言語モデルでは、異なる長さの入力と出力を扱う必要があり、これがパディング、マスキング、動的バッチ処理などの複雑さを導入します。しかし、今回の実装では、すべてのプロンプトと応答が同じ長さであることを前提とすることで、これらの複雑さを回避できます。

固定長の設定は、特にソートタスクにおいては自然な選択です。n個の数字をソートする場合、入力もn個、出力もn個となるため、長さが一致するのは論理的です。この前提により、テンソルの形状管理が単純になり、バッチ処理が効率化されます。

実際のプロダクション環境では、この固定長の制約は現実的ではない場合が多いですが、教育目的および概念実証のためには、この簡素化により強化学習の核心的な概念に集中できるという大きな利点があります。動的長処理の複雑さに気を取られることなく、方針勾配やベースラインなどの重要な概念を理解することに集中できるのです。

7.2. 位置情報の独立処理

位置情報を捉えるために、個別の位置パラメータを使用します。明らかに、位置はここでは重要な要素です。ソートにおいては位置が明らかに重要であるからです。

このアプローチでは、各位置に対して独立したパラメータを持ちます。つまり、位置1用のパラメータ、位置2用のパラメータ、位置3用のパラメータというように、各位置が固有の学習可能なパラメータセットを持つことになります。

この設計選択は、ソートタスクの本質的な特性を反映しています。最小値は最初の位置に、最大値は最後の位置に配置されるべきであり、各位置は特定の役割を持っています。位置ごとに独立したパラメータを持つことで、モデルは各位置の特定の要件を学習できます。

例えば、第1位置のパラメータは「最小値を見つける」ことを学習し、第2位置のパラメータは「残りの中で最小値を見つける」ことを学習し、以下同様に続きます。これにより、各位置が持つべき特定の機能を明示的に学習することができます。

この位置特化型のパラメータ化は、通常の言語モデルで使用される位置エンコーディングとは異なるアプローチです。通常の位置エンコーディングは汎用的な位置情報を提供しますが、ここでは各位置が特定のタスクを持つという前提のもと、より特化した学習を可能にしています。

この設計により、モデルはソートタスクに特有の位置依存の関係性を効果的に学習できることが期待されます。

7.3. 非自己回帰的デコーディングの採用

もう一つ行うことは、応答の各位置を独立してデコードすることです。つまり、これは自己回帰モデルではありません。シーケンスをエンコードして、すべてのトークンを個別に出力するだけです。

一般的に実生活で行いたいことではありませんが、投機的デコーディングなどの一部の場面では、限定的な用量でこれを行うことが役立つ場合があります。しかし、これによりコードが大幅にクリーンになります。なぜなら、自己回帰生成が非常に複雑になる部分だったからです。

この設計選択は、実装の複雑さを大幅に削減します。通常の自己回帰的な言語モデルでは、各ステップで前のトークンの生成結果を考慮して次のトークンを生成する必要があります。これには、逐次的な生成プロセス、注意機構における因果マスキング、そして各ステップでの状態管理が必要になります。

一方、非自己回帰的なアプローチでは、入力シーケンス全体をエンコードした後、すべての出力位置を並列に予測できます。これにより、推論時間の短縮と実装の単純化という二つの利点を得ることができます。

確かに、このアプローチには制限があります。各位置の予測が他の位置の予測と独立してしまうため、出力間の依存関係を適切にモデル化できない可能性があります。しかし、ソートタスクにおいては、適切なエンコーディングができていれば、各位置がどの値を持つべきかは入力から決定可能であるため、この制限は大きな問題にならないと期待されます。

このように、教育目的と実装の簡素化のために、実用性とのトレードオフを行っているのです。

7.4. 埋め込み・エンコーディング・デコーディングの構造

モデルの構造について説明します。embedding_matrix、encode_weights、decode_weightsがあります。これらがフォワードパスを通して、どのように動作するかを説明する方が理解しやすいでしょう。

フォワードパスを見ていきましょう。一般的にこの記法を使用して、ここのテンソルの次元を示します。バッチ次元があり、これは例の数とプロンプトの数です。そして位置次元があり、これは明らかに私がいる位置です。応答を生成するつもりです。これは推論です。

まず、プロンプトをモデルに通してlogitsを取得します。これにより、各プロンプトと各位置に対してトークン上の分布が得られます。具体的な動作を見てみましょう。

プロンプトをこの次元に埋め込みます。そして、プロンプト位置ごとの行列を使用して変換します。そして、それを折りたたみます。einsum を使用して、バッチ位置次元1を持ちます。そして、この重みは、すべての位置に対してdim1からdim2への変換を行います。最終的にバッチdim2になります。位置を合計し、dim1を合計しました。

そして、そのベクトルを各プロンプトに対して取得した後、各位置に対してこの行列を適用し、ベクトルを取得します。最後に、各位置のプロンプトに対してベクトルが与えられたら、それを語彙上のlogitsに変換します。

かなりシンプルです。私が作り上げたシンプルなモデルです。実際に有用な何かであるかはわかりませんが、このおもちゃの例には適していました。

このアーキテクチャは、エンコーダ・デコーダ構造の簡素化されたバージョンと見ることができます。入力シーケンスをエンコードし、そのエンコードされた表現から各位置を独立してデコードするという流れになっています。

8. 実装の詳細とコード解説

8.1. 応答生成とサンプリング

これでlogitsが得られました。そして、torch.multinomialが何かフラットになったものを必要とするという事実を扱うための細工があります。基本的に、これをバッチ×位置×語彙に平坦化します。応答をサンプリングします。これにより、バッチ位置試行数が得られ、この次元を試行と呼ぶことにします。そして、基本的にそれらを再配置して、すべてのプロンプト、すべての試行に対して、例のシーケンスを取得できるようにします。

この部分で一時停止して、皆がついてきているかを確認しましょう。これは通常、VLMを呼び出して推論を行う場所です。しかし、非常にシンプルなモデルであるため、ここでそれを行っているだけで、すべてが行列演算に過ぎません。

応答は非常に近くなるでしょう。同じlogitsからサンプリングしているからです。応答は非常に近くなるでしょう。そのため、確実に似たようになります。しかし、言語モデルからサンプリングした場合でも同じことが言えます。唯一の違いは、言語モデルは自己回帰的で、これは独立しているということです。

温度を変えることもできるでしょう。温度を変更できます。様々なことができます。アルゴリズムに忠実であろうとしています。

この実装では、logitsからのサンプリングプロセスが明示的に示されています。torch.multinomialを使用するため、テンソルの形状を適切に変更する必要があります。バッチ×位置×語彙の3次元テンソルを2次元に平坦化し、サンプリング後に再び適切な形状に戻すという処理が行われます。

重要な点は、同一のlogitsから複数の応答をサンプリングすることで、自然にグループ構造を形成していることです。これらの応答は確率的にサンプリングされるため多様性を持ちますが、同じ分布から生成されるため、相互比較に適したグループを構成します。

この段階では、各プロンプトに対して複数の候補応答が生成され、次のステップで報酬評価に進むための準備が整います。

8.2. 報酬計算の実装

応答を取得できるので、これらすべての応答に対して報酬を計算できます。これは基本的に通り抜けるだけです。すべてのプロンプトとすべての応答に対して、先ほど見た報酬関数を呼び出すだけです。ここではあまり興味深いことはありません。

申し訳ありませんが、この部分は少し長くなります。おそらく、ランダムシードを固定したと思っていましたが、一般的には報酬にもう少しばらつきが欲しいところです。とにかく、報酬がすべて3になってしまいました。

これは他の部分の興味をそぐことになりますが、それでも、ここでの計算を進めていきます。

報酬計算のプロセス自体は比較的単純です。各プロンプトと応答のペアに対して、事前に定義した報酬関数を適用するだけです。実装では、バッチ処理を活用して効率的に計算を行っています。

興味深いのは、この例では報酬がすべて同じ値（3）になってしまったという点です。これは実際の強化学習の実験でもよく起こることで、ランダムシードの設定や初期条件によって、期待していたよりも多様性が少ない結果が得られることがあります。

通常であれば、異なる応答に対して異なる報酬値が得られることを期待しますが、この状況でも後続のアルゴリズムの動作を理解する上で有益です。特に、すべての報酬が同じ場合のベースライン計算やデルタ計算がどのように動作するかを見ることができます。

実際の応用では、報酬の分散がより大きくなることが期待されますが、この例でもアルゴリズムの基本的な動作原理を理解することは可能です。報酬計算が完了すると、次のステップであるデルタの計算に進むことができます。

8.3. Δ（デルタ）の計算バリエーション

compute_deltasという関数があり、これは報酬を取得して、更新に使用するデルタに変換します。フレームワークは、ここに多くの選択肢があるということです。その中のいくつかは、課題で探索することになります。

このcompute_deltas関数は、強化学習アルゴリズムの核心部分の一つです。報酬をどのように処理してデルタに変換するかによって、学習の挙動が大きく変わります。この関数では、複数の異なるアプローチが用意されており、それぞれが異なる学習特性を持っています。

課題では、これらの異なる選択肢を実際に試してみることで、各手法がどのような場面で有効なのか、どのような特性を持つのかを実体験することができます。理論的な理解だけでなく、実際の実装と実験を通して、これらの手法の違いを深く理解することが重要です。

フレームワークとしては、報酬からデルタへの変換において、素の報酬をそのまま使用する方法、中心化を行う方法、正規化を含む方法、さらには最大値フィルタリングを行う方法など、様々なバリエーションが考えられます。

それぞれの手法には理論的な根拠があり、特定の状況において優れた性能を発揮します。これらの選択肢を理解し、適切に使い分けることが、効果的な強化学習システムを構築するための重要なスキルとなります。

次に、具体的な各バリエーションについて詳しく見ていきましょう。

8.4. 生報酬使用

例えば、delta equals rewardsを返すだけで、報酬をそのまま使用することができます。これが最もシンプルなアプローチです。

この生報酬使用は、naive policy gradientに対応する最も基本的な手法です。報酬値をそのままデルタとして使用するため、追加的な処理や変換は一切行いません。実装は極めて単純で、delta = rewardsという1行のコードで表現されます。

この手法では、高い報酬を得た行動はより強く強化され、低い報酬を得た行動はより弱く強化されます。報酬が0の場合、その行動に対する更新は全く行われません。これは、先ほど説明した単純方針勾配の理論そのものを実装したものです。

生報酬使用の利点は、その単純さと理論的な明確さです。報酬の意味がそのまま学習信号に反映されるため、理解しやすく、デバッグも容易です。しかし、欠点として、報酬のスケールや分布に敏感であり、特にスパース報酬の場合には学習が困難になる可能性があります。

また、異なるプロンプトに対する報酬の絶対値を直接比較することになるため、先ほどの2状態例で説明したような問題が発生する可能性があります。簡単な問題で得られた中程度の報酬が、難しい問題で得られた低い報酬よりも強く強化されてしまうという現象です。

それでも、この生報酬使用は理論的基礎を理解する上で重要であり、より複雑な手法と比較するためのベースラインとして価値があります。

8.5. 中心化報酬

報酬を中心化することもできます。各プロンプトのすべての応答にわたって平均を計算できます。これがこのコードが行っていることです。そして、平均を差し引くだけで、中心化された報酬が得られます。

これは先ほどの質問への回答となります。報酬が1と多数の0のように見える場合、平均は例えば0.1のようになります。つまり、それを差し引くと、多数のマイナス1と、1よりわずかに下回る何かになります。したがって、それらの負の例に対してもすべて更新を実行することになります。

中心化報酬は、ベースライン手法の具体的な実装の一つです。各プロンプト（状態）に対して生成された複数の応答のグループ内で平均を計算し、それを各応答の報酬から差し引きます。これにより、グループ内での相対的な性能が学習信号となります。

この手法の重要な特徴は、絶対的な報酬値ではなく、同じプロンプトに対する他の応答との相対的な比較に基づいて学習が行われることです。例えば、すべての応答が高い報酬を得た場合、中心化後はそれらの違いのみが学習信号となります。逆に、すべての応答が同じ報酬を得た場合、中心化後はすべてのデルタが0となり、そのプロンプトに対しては更新が行われません。

この設計により、簡単な問題で得られた中程度の成功よりも、難しい問題での相対的な成功がより適切に評価されるようになります。また、スパース報酬の問題も緩和され、報酬が0の応答であっても、他の応答との比較において負の学習信号を受け取ることで、そのような行動から離れるように学習されます。

中心化報酬は、GRPOアルゴリズムの基本的な構成要素であり、グループ構造を活用した相対的最適化の核心部分を実装しています。

8.6. GRPO正規化（標準偏差による正規化）

そして、GRPOで行うこの処理があります。報酬を中心化し、その後標準偏差で割り、ゼロで割ることがないように小さな値を加えます。それを返します。

注目すべき点の一つは、すべての報酬が5である場合に何が起こるかということです。例えば、rewardsがすべて5だとします。そうすると、多くの更新を行うことになります。中心化報酬はすべて0になります。つまり、そのサンプルに対して更新を行わないことを意味します。

これは興味深いことです。方針があらゆるものに対して同じ報酬を生成している例があるとしましょう。実際にその例に対して更新を行わないことになります。その直感は、使い方によって意味をなすかもしれないし、そうでないかもしれませんが、直感としては勾配がないということです。

そのグループ内での相対比較という観点では、ある例を他の例よりも優先する理由がないのです。そのため、棄権して、他の例が何らかの信号を与えてくれることを期待します。

そして正規化は、すべての報酬が例えば10であるか、すべての報酬に100を掛けるかした場合、正規化報酬は報酬のスケールに対して不変であることを意味します。これは良い特性だと思います。

GRPO正規化の重要な特徴は、報酬の絶対的なスケールに依存しないことです。報酬がすべて1000倍されても、正規化後の値は同じになります。これにより、異なる報酬関数や異なるタスク間での一貫した学習挙動を期待できます。

また、すべての報酬が同じ値の場合に更新が行われないという特性は、計算効率の観点からも有益です。そのようなケースでは、学習に有益な情報がないため、計算リソースを無駄に使うことを避けることができます。

この正規化により、学習の安定性と一貫性が向上し、異なる報酬スケールに対してロバストなアルゴリズムを実現できます。

8.7. 最大値フィルタリング

楽しみのために、論文では行わなかった別の処理もあります。各バッチの最大値ではない報酬をゼロアウトすることもできます。

ここでのアイデアは、強化学習では、過度の部分信用を与えると、方針がそれに固着し、より高い報酬を与えるものではなく、低くぶら下がっている果実を追いかけることがあるという局所最適解に陥ることがよくあるということです。

そこで、最大報酬を得ていない場合は、それを望まないと言うことができます。すべてか無かの考え方です。

この最大値フィルタリングは、部分信用報酬の潜在的な問題に対処するための積極的なアプローチです。強化学習において、モデルが真の最適解を学習するのではなく、部分的な成功に満足してしまい、局所最適解に陥ってしまうことがあります。

例えば、ソートタスクにおいて、完全にソートするよりも部分的にソートする方が安定して中程度の報酬を得られる場合、モデルは完全なソートを学習することを諦めてしまう可能性があります。このような状況では、部分信用が学習を阻害する要因となってしまいます。

最大値フィルタリングでは、各バッチ（同一プロンプトからの応答グループ）内で最高の報酬を得た応答のみから学習し、それ以外の応答からは学習しません。これにより、モデルは常に最良の性能を目指すよう促され、中途半端な解に満足することを防ぐことができます。

しかし、この手法にもトレードオフがあります。学習信号が大幅に削減されるため、学習速度が遅くなる可能性があります。また、報酬にノイズがある場合、偶然高い報酬を得た低品質な応答から誤った学習をしてしまうリスクもあります。

それでも、部分信用報酬の弊害が顕著な場合には、この最大値フィルタリングが効果的な解決策となる可能性があります。

9. 重要な実装上の注意点

これまで実行してきたことは、多数の応答を生成し、報酬を計算することです。そして、これらの更新を提供できるデルタが得られました。次に、もう一つの部分が必要です。それは応答の対数確率です。

なぜなら、方針勾配において、デルタ掛ける対数方針の勾配があるからです。この部分もかなり直接的です。これをモデルに通し、logitsを対数確率に変換します。そして、プロンプトはバッチ×位置のみであり、応答にはそこに余分な次元があるため、いくつかの操作があります。

そこで、これらの対数確率をより高い次元のテンソルにアップキャストします。そして、応答を使用して対数確率にインデックスを付けます。応答は基本的に、すべてのバッチ試行位置に対して、取得する必要がある対数確率へのインデックスを指定します。これはバッチ試行位置×語彙であり、これはインデックス付きのバッチ試行位置です。それによりバッチ試行位置が得られます。

これにより、モデルから返されるlogitsは、すべての位置とプロンプトについて、すべての語彙にわたる分布を提供します。そして今、私は特定の応答に対する対数確率を持っています。これらは私が得た特定の応答の対数確率です。

この段階で重要な実装上の注意点がいくつか浮上してきます。特に、強化学習特有の複雑さとして、複数のモデルバージョンを同時に扱う必要があることが挙げられます。現在のモデル、古いモデル、そして参照モデルといった異なるバージョンのモデルから得られる対数確率を適切に管理し、勾配計算において正しく処理する必要があります。

また、テンソルの形状管理も重要な要素です。バッチ、試行、位置という複数の次元を持つテンソルを扱うため、各操作において形状の整合性を保つことが不可欠です。特に、応答テンソルを使った対数確率のインデックシングは、実装において注意を要する部分です。

9.1. 勾配計算における凍結パラメータの重要性

パラメータを凍結するというアイデアに間奏を入れて確認しましょう。後でGRPOで、これらの比率を見ることになります。これは、状態が与えられたアクションの確率を、他のモデルで割るというアイデアに関連しています。p_oldを通して微分しないということが本当に重要です。

簡単な例を挙げてみましょう。単一のパラメータwがあり、それが確率を駆動するとします。これを方針と考えてください。そして、この特定の反復では同じものである古い値もあります。

比率を計算してバックワードパスを行うと、勾配は何になるでしょうか。pをp_oldで割っているので、比率は1になり、1の勾配は0です。これは明らかにあまり役に立ちません。

この問題を適切に解決する方法は、通常通りpを持ち、定数として扱いたいものはno_gradでラップすることです。これにより値を取得できますが、完全な計算グラフは取得できません。そして、それで割ります。これで勾配はゼロではなくなります。

これは強化学習において非常に重要な実装上の注意点です。教師あり学習とは異なり、強化学習では複数の異なるパラメータバージョンに依存する値があり、それらの中には古いパラメータや定数として扱われるべきものが含まれています。

もしp_oldを通して微分してしまうと、実際には最適化しようとしている目的関数とは異なるものを最適化することになってしまいます。p_oldは固定された基準点として機能するべきものであり、現在の更新ステップにおいては変更されるべきではありません。

torch.no_grad()を使用することで、計算グラフからその部分を切り離し、値のみを取得して定数として扱うことができます。これにより、理論的に正しい勾配計算を実装できます。この細心の注意が、強化学習アルゴリズムの正確な実装において不可欠となります。

9.2. 古いモデルの扱いとno_grad()の使用

この問題を適切に解決する方法は、通常通りpを持ち、定数として扱いたいものは何でもno_gradでラップすることです。これにより値を取得できますが、完全な計算グラフは取得できません。そして、それで割ります。これで勾配はゼロではなくなります。

この実装の詳細は、強化学習における理論と実装の整合性を保つために極めて重要です。no_grad()コンテキストを使用することで、PyTorchに対して特定の計算を勾配計算グラフから除外するよう明示的に指示できます。

古いモデルp_oldは、重要性比率の計算において分母として機能しますが、現在の最適化ステップにおいては固定された参照点として扱われるべきです。もしno_grad()を使用せずにp_oldを計算に含めてしまうと、勾配が分子と分母の両方に流れ、結果として勾配がキャンセルされてしまいます。

具体的な実装では、古いモデルのパラメータを使って対数確率を計算する際に、with torch.no_grad():ブロック内でその計算を行うか、あるいは計算済みの対数確率をdetach()メソッドで計算グラフから切り離します。これにより、古いモデルの出力は純粋に数値としてのみ使用され、勾配計算には影響しません。

この処理を正しく実装することで、PPOやGRPOで使用される重要性比率が理論的に正しい挙動を示すようになります。逆に、この処理を怠ると、アルゴリズムが期待通りに動作せず、学習が進まなかったり、不安定になったりする可能性があります。

強化学習においては、このような微妙な実装詳細が学習の成否を左右することが多いため、特に注意深く実装する必要があります。

9.3. 重要性比率計算時の微分制御

強化学習では、教師あり学習を行うときとは異なり、何が定数で何がそうでないかについて少し注意する必要があります。古い方針を取得し、それを定数だと言うことができます。そして、その表現がそれに依存しない限り、つまりそれを通して微分していない限り、すべて問題ありません。

これはまた、もしサンプリングを行い、更新を実行している場合、その方針の古いコピーを保持しなければならないということも意味します。なぜなら、そのものが変化している場合、実際にはもはや定数ではなくなるからです。そして、実際には最適化していないという奇妙な設定に陥る可能性があります。

重要性比率π(a|s)/π_old(a|s)の計算において、π_oldは理論上固定された基準点として機能する必要があります。しかし実装上は、学習プロセス中にモデルのパラメータが継続的に更新されるため、π_oldを適切に「凍結」することが重要になります。

具体的には、重要性比率を計算する際に使用するπ_oldの対数確率は、現在の最適化ステップが開始される前の時点でのモデルから計算されたものでなければなりません。もしπ_oldが現在の最適化によって変化してしまうと、理論的な定式化との整合性が失われ、アルゴリズムの収束性や安定性に問題が生じる可能性があります。

実装においては、古いモデルの完全なコピーを保持するか、あるいは対数確率の値のみを事前に計算して保存しておくかのいずれかの方法を取ることができます。後者の方がメモリ効率的であることが多いため、実際の実装では対数確率の値を計算して保存し、それをdetach()で計算グラフから切り離して使用するアプローチがよく採用されます。

このような微妙な制御が、強化学習アルゴリズムの正確な実装において不可欠であり、理論と実装の間の橋渡しをする重要な要素となっています。

10. GRPO損失関数の実装

10.1. クリッピングメカニズム

この間奏をもって、GRPO損失の計算に重要です。古いモデルとの古いチェックポイントを想像してください。この古いモデルを使用して、応答の対数確率を計算します。それが古い対数確率を与えます。クリップされていないバージョンをスキップします。

これはGRPO損失です。クリップされたバージョンを見ていきましょう。対数確率を取得し、それを古い対数確率で割ります。これは定数であることを覚えておいてください。実際に自分のアドバイスに従っていません。古い対数確率をno_gradでラップしていませんが、それをどう行うかは分かっています。

この比率を見て、それにデルタを掛けます。単純なものと比較すると、対数確率にデルタを掛けるだけです。これは基本的に同じことですが、古い対数積でそれを割ったことを除いて、これは定数です。そのため、勾配をスケーリングしているだけです。

しかし今、別の部分があります。これは私がクリッピングを行う部分です。この比率を計算する最初の理由は、1からイプシロンと1プラスイプシロンの間で勾配をクリップするためです。比率があまり異常にならないようにするためです。そして、これらのクリップされた比率にもデルタを掛けます。そして最小値を取り、それを返します。報酬について話しているので損失に変換するための負の符号があります。

クリッピングメカニズムは、PPOおよびGRPOアルゴリズムの核心的な要素です。重要性比率π(a|s)/π_old(a|s)が極端な値を取ることを防ぐために、この比率を[1-ε, 1+ε]の範囲内にクリップします。

クリッピングの目的は、方針更新の幅を制限することです。比率が1+εを超える場合（新しい方針が古い方針よりもその行動を大幅に優遇する場合）、または1-εを下回る場合（新しい方針がその行動を大幅に軽視する場合）、更新の大きさは制限されます。

実装では、クリップされていない項とクリップされた項の最小値を取ります。これにより、更新がクリッピング範囲内にある場合は通常の更新が適用され、範囲外にある場合は更新の大きさが制限されます。この設計により、学習の安定性を保ちながら効果的な方針改善を実現できます。

10.2. 重要性比率の計算と制約

重要性比率π(a|s)/π_old(a|s)の計算において、π_oldは定数として扱われることを覚えておいてください。実際には自分のアドバイスに従っておらず、古い対数確率をno_gradでラップしていませんが、それをどう行うかは分かっています。

この比率を計算する主な理由は、更新がクリッピング範囲内にある場合には標準的な更新を得るためです。しかし、比率が範囲外にある場合には、更新の大きさが1マイナスεと1プラスεによって制限されます。

重要性比率の計算と制約は、方針の急激な変化を防ぐための重要なメカニズムです。新しい方針π(a|s)と古い方針π_old(a|s)の比率が1に近い場合、これは方針があまり変化していないことを意味し、通常の更新が適用されます。

しかし、この比率が大きく1から逸脱する場合、方針が大幅に変化していることを示します。比率が1+εを超える場合、新しい方針がその特定の行動を古い方針よりもはるかに高く評価していることを意味します。逆に、比率が1-εを下回る場合、新しい方針がその行動を大幅に軽視していることを意味します。

このような極端な変化は学習の不安定性を引き起こす可能性があるため、クリッピングによって制約を課します。クリッピングされた比率にもデルタを掛け、元の項とクリッピングされた項の最小値を取ることで、安全な更新幅を保証します。

この制約により、方針は段階的に改善され、大幅な方針変更による学習の破綻を防ぐことができます。εの値は通常0.1から0.2程度に設定され、この値によって許容される方針変更の幅が調整されます。

10.3. KLペナルティの理論と実装

追加の正則化を提供するKLペナルティもあります。簡単な数学の演習をしてみましょう。2つの分布間のKLの定義を思い出してください。それは最初の左の分布からサンプリングし、左割る右の対数です。QオーバーPにマイナス符号を付けて書き直します。

KLペナルティを行いたい場合、これを直接使用できます。しかし、KLを推定したい場合、期待値を取り除いて不偏推定量を得ることができます。実際には、QオーバーP マイナスログQオーバーP マイナス1を行う、この特定の推定量の方が分散が低いことが判明しています。

少し奇妙に見えますが、これが同一であることを確認できます。QオーバーPの期待値は1だからです。そのため、この部分は単に1です。1を引くと0になります。そのため、この元の項だけが残ります。数学は成り立ち、内部の方がKLのより良い推定値を与えます。

KLペナルティは、新しい方針が参照方針から大きく逸脱することを防ぐための正則化手法です。理論的には、KL発散KL(π||π_ref)を方針損失に加えることで、方針の変化を制約します。

標準的なKL発散の推定では、E_π[log π - log π_ref]を使用しますが、これは高い分散を持つ可能性があります。代替として、E_π[π/π_ref - log(π/π_ref) - 1]という形式を使用することで、より安定した推定が可能になります。

この代替形式の数学的正当性は、期待値E_π[π/π_ref] = 1という性質に基づいています。π/π_ref項の期待値は常に1になるため、この項から1を引いても期待値は変わりません。しかし、この変換により推定量の分散が削減されるため、実用的な利点があります。

多くの場合、期待値の推定を求める際には、単純にナイーブな手法を使用するのではなく、不偏または時にはバイアスのかかった推定量でも、分散を削減するものを見つけようとします。そのため、内部を書き換えて分散を削減しようとするのです。

10.4. 分散削減のための数学的工夫

この数学的工夫の背景には、統計学における基本的な原理があります。同じ量を推定する複数の方法がある場合、数学的に等価であっても、実際のサンプリングベースの推定では異なる分散を持つ可能性があります。

KL発散の推定において、標準形式E_π[log π - log π_ref]と変形式E_π[π/π_ref - log(π/π_ref) - 1]は数学的に同等です。しかし、有限サンプルでの推定において、後者の方が一般的により安定した結果を提供します。

この現象は、項の組み合わせ方が推定量の分散に影響を与えるためです。π/π_ref項と-1項の相互作用により、極端な値がキャンセルされる傾向があり、結果として分散が削減されます。

このような数学的工夫は、強化学習における多くの推定問題に適用できます。重要度サンプリング、ベースライン減法、制御変量など、すべて同じ原理に基づいています：数学的等価性を保ちながら分散を削減する。

実際の実装では、これらの分散削減技法により、学習の安定性が大幅に向上します。特に、サンプル効率が重要な強化学習において、このような細かな最適化が学習の成功を左右することがあります。理論的な正しさと実用的な安定性を両立させるために、このような工夫が不可欠となっています。

11. 完全なアルゴリズムの統合

11.1. 外側エポックループと内側ステップループ

KLペナルティの簡単な実装について説明します。これはかなり直接的です。注意すべき唯一のことは、最後の次元について合計しているが、平均を取っているということです。つまり、語彙について合計しているが、バッチ試行と位置について平均を取っています。

これまでの要素がすべて揃ったので、実際のアルゴリズムに必要な構成要素をまとめてみましょう。特定の固定モデルが与えられた応答を生成します。応答から報酬とデルタを計算します。GRPOと仲間たちの場合、これらはモデルに依存しません。応答だけの関数です。

このシステムのアーキテクチャについて考えてみると、報酬が非常にシンプルな場合もあります。単なる一行の正確一致のようなものです。しかし、報酬にエージェントが環境を実行し、あらゆるクレイジーなことを行うことが含まれる場合もあります。そのため、これは高価または安価な操作になる可能性がありますが、実際のモデルとは独立しています。ただし、判定者としてLMを持っている場合は、それは別のモデルです。

同時に、応答の対数確率を計算し、対数確率とここで得たデルタから損失を計算できます。クリップまたはクリップしない、正規化またはしない、といった選択肢があります。そして勾配ステップを実行します。

アルゴリズムの構造には、推論が高価であることを考慮した重要な設計があります。応答を生成し、それに基づいて複数の勾配ステップを実行したいと考えています。この内側のループは、基本的に同じ応答セットに対して複数のステップを実行することです。

推論は計算コストが高いため、一度応答を生成したら、それらを最大限活用したいのです。そのため、外側の反復では新しい応答を生成し、内側のループではその同じ応答セットを使用して複数の最適化ステップを実行します。これが基本的なアイデアです。

11.2. 3つのモデルの管理（現在・古い・参照モデル）

KLペナルティを使用している場合、追加の要素があります。実際にはモデルを凍結し、それを参照として使用してそれに対して正則化します。そうでなければ、応答をサンプリングします。報酬を計算します。使用したいバリエーション、フレーバーに応じてデルタを計算します。

KLペナルティを実行している場合は、参照モデルの下で対数確率も計算する必要があります。そして、何らかのクリッピングを実行している場合は、現在のモデルの下で対数確率も計算する必要があります。そして、応答に関して多数のステップを実行します。

このアルゴリズムが書かれている方式は、実際にはGRPOコードとは少し異なります。コードでは実際に3つのループがあります。私は2つしか持っていません。なぜなら、参照モデルを少し頻度を下げて更新し、この部分も実行していないからです。そのため、いくつかの実装の詳細がありますが、うまくいけば、これがどのようなものかの大まかな形を理解できるでしょう。

実際には3つのモデルがあります。KL正則化を行う参照モデルがあります。そして、現在のモデルと古いモデルの間の重要度比率を計算するために使用している古いモデルがあり、これも凍結しています。そして、オンラインで更新している現在のモデルがあります。

3つのモデル管理は、GRPO実装における重要な複雑さの一つです。各モデルは異なる役割を果たし、異なる更新頻度を持ちます。現在のモデルは毎ステップ更新され、古いモデルは内側ループの開始時に現在のモデルのスナップショットとして設定され、参照モデルはさらに低い頻度で更新されます。

この3層構造により、方針の急激な変化を防ぎながら、効果的な学習を実現します。参照モデルは長期的な安定性を提供し、古いモデルは短期的な方針変化を制御し、現在のモデルは実際の学習を行います。

各モデルの役割を理解し、適切に管理することが、安定した学習のために不可欠です。

11.3. メモリ効率化のための実装テクニック

参照モデルに関する厄介な点の一つは、実際にモデル全体のコピーを保存する必要があることです。これはメモリを2倍にすることができます。古いモデルは実際には少し優れています。なぜなら、コードを見ると、実際に古いモデル全体をコピーする必要がないからです。

多数の応答を生成し、それらの応答に対する対数確率を計算し、対数確率を保存するだけで済みます。なぜなら、内側のループで同じ応答を扱っているからです。

そのため、モデル全体のコピーを保存する必要はなく、対数確率を保存するだけで済みます。これは、参照モデルよりもメモリ効率が良いアプローチです。

この実装テクニックは、強化学習における重要な最適化の一例です。参照モデルは完全なモデルコピーを必要とし、これはメモリ使用量を実質的に2倍にします。大規模な言語モデルの場合、これは重大な制約となる可能性があります。

一方、古いモデルについては、より効率的な解決策があります。古いモデルの役割は重要性比率の計算において分母を提供することですが、内側のループでは同じ応答セットを使用するため、事前に対数確率を計算して保存することができます。

具体的には、内側ループの開始時に、現在の応答セットに対する対数確率を計算し、それらの値を保存します。その後の内側ループの反復では、これらの保存された値を使用するだけで済みます。これにより、古いモデルの完全なコピーを保持する必要がなくなります。

この最適化により、メモリ使用量を大幅に削減できるだけでなく、計算効率も向上します。対数確率の計算は一度だけ行われ、その後は単純な数値として使用されるためです。このような実装上の工夫が、実用的な強化学習システムを構築する上で重要な要素となります。

11.4. KL正規化の複数レベル構造

このアルゴリズムが書かれている方式は、実際にはGRPOコードとは少し異なります。コードでは実際に3つのループがあります。私は2つしか持っていません。なぜなら、参照モデルを少し頻度を下げて更新し、この部分も実行していないからです。

KL正規化における複数レベルの構造は、異なる時間スケールでの方針制御を可能にします。私の実装では、参照モデルの更新頻度を意図的に下げています。これは、参照モデルが長期的な安定性を提供するべきものだからです。

実際のGRPOコードでは、より複雑な3層ループ構造が採用されています。最外層は参照モデルの更新、中間層は応答の生成と古いモデルの設定、最内層は同一応答セットに対する複数の最適化ステップです。

私の簡素化されたバージョンでは、参照モデルの更新を外側のエポックループに統合し、更新頻度を調整することで、実装の複雑さを削減しています。この簡素化により、核心的な概念を理解しやすくしながらも、アルゴリズムの本質的な機能は保持されています。

複数レベルのKL正規化により、短期的な方針変化（古いモデルとのクリッピング）と長期的な方針安定性（参照モデルとのKLペナルティ）の両方を制御できます。これは、学習の安定性と効率性のバランスを取るための重要な設計選択です。

実装の詳細は異なりますが、異なる時間スケールでの正則化という基本概念は同じです。この多層的なアプローチにより、方針の急激な変化を防ぎながら、効果的な学習を実現することができます。

12. 実験結果と学習曲線の分析

12.1. 100エポック実験の結果

これをまとめるために、実際にいくつかの実験を実行しました。そこで、私が提示した同じコードを実行します。100エポック、エポックあたりのステップ数10で実行し、この学習曲線を見ることができます。

学習曲線を詳しく見ていきましょう。エポック0、ステップ0では、このプロンプトがあります。応答として多数の内容を生成します。それらをスコア付けし、報酬を計算し、デルタを計算します。この場合、それは報酬と同一です。そのため、3のものを2のものより少し多く更新することになります。

同じプロンプトでも同じことが起こります。これらすべての応答に対して更新を行うことになります。報酬がすべて3であっても更新します。下にスクロールして何が起こるかを見てみましょう。

最終的に、報酬3を得ていることがわかります。しかし、これはソートとしてはあまり良くありません。短い答えです。数字を生成していますが、それらはプロンプトにある数字に近いものの、実際にはソートしていません。最後にどのように行ったかを見てみましょう。

それほど優秀ではありません。実際に他の例も見ていません。そのため、ここで何が起こるかを見るのが楽しみです。

100エポック実験の結果は、素の報酬を使用した場合の典型的なパターンを示しています。学習は進行していますが、完全なソート能力の獲得には至っていません。これは、単純方針勾配の限界と、適切なベースライン設計の重要性を浮き彫りにしています。

モデルは入力数字を出力に含めることは学習していますが、正しい順序での配置は十分に学習できていません。これは、報酬設計における部分信用の効果と限界を示す興味深い例でもあります。

12.2. 生報酬vs中心化報酬の比較

中心化報酬を使用したこの実行を見てみましょう。平均報酬が高くなっていることがわかります。つまり、2ではなく3を超えているので、有望です。この実行を見てみましょう。

ここで注意してください。いくつかの例を生成します。報酬は2と3です。しかし、中心化を行っているため、報酬3を持つものすべてに向かって押し、報酬2を持つものから押し離しています。これが中心化の動作です。

すべて同じであれば、中心化は実際にはノーオペレーション（何もしない）になります。以前は更新を実行していましたが、それは愚かなことだったと思います。なぜなら、1、2、3をソートしている場合を考えると、ここではすべての応答が等しく悪いからです。これらに向かって更新することはあまり意味をなさないかもしれません。

最後に向かって、これがどのように行ったかを見てみましょう。まだそれほど素晴らしくはありませんが、少し高い報酬を得ています。おそらく、これをもう少し調整する必要があります。しかし、少なくとも正しい数字を得ることで報酬を得ています。そして0、1は最もソートされていないわけではありません。ここでは順列を得ているようです。そして、ここでは行き詰まっているだけだと思います。この時点で、すべてのデルタが0であることがわかります。そのため、このバッチではより多くの訓練が実際には役に立ちません。

しかし、再生成すれば、新しいサンプルが得られ、更新できるかもしれません。

中心化報酬の効果は明確に現れています。生報酬使用時と比較して、平均報酬が2から3を超えるレベルまで向上しており、これは学習の改善を示しています。

中心化のメカニズムも実際に機能していることがわかります。報酬2と3の応答があるケースでは、報酬3の応答に向かって更新し、報酬2の応答から離れるように更新されています。これにより、相対的に良い応答が強化され、相対的に悪い応答が抑制されます。

特に重要な観察は、すべての応答が同じ報酬を得た場合の動作です。この場合、中心化後のデルタはすべて0になり、更新が行われません。これは計算効率の観点から合理的で、学習に有益な情報がない状況では無駄な計算を避けることができます。

最終的な結果を見ると、完全なソートには至っていませんが、改善は見られます。特に、正しい数字の使用や部分的な順序付けが観察され、生報酬のみの場合よりも良い結果を示しています。行き詰まりが発生する場合でも、新しいサンプルを生成することで学習を継続できる可能性があります。

12.3. 学習初期の行動パターン

エポック0、ステップ0での具体的な学習初期の行動を詳しく見てみましょう。このプロンプトがあり、応答として多数の内容を生成します。それらをスコア付けし、報酬を計算し、デルタを計算します。この場合、それは報酬と同一です。そのため、3のものを2のものより少し多く更新することになります。

学習の最初期段階では、モデルの生成する応答は非常にランダムで、ソートタスクとはかけ離れたものとなります。しかし、この段階でも報酬関数により何らかの評価が与えられ、その差異が学習信号として機能します。

同じプロンプトに対しても同様のことが起こります。すべての応答に対して更新を行うことになります。報酬がすべて3であっても更新します。これは生報酬使用時の特徴で、絶対的な報酬値に基づいて更新が行われるため、相対的な比較が行われません。

初期段階での応答生成パターンを見ると、モデルはまだソートの概念を理解しておらず、プロンプトにある数字を何らかの形で出力しようとする傾向が見られます。これは、包含報酬の設計が初期学習において適切に機能していることを示しています。少なくとも入力数字を出力に含めるという基本的な要件を学習し始めているのです。

しかし、隣接ペア報酬に関してはまだ効果的に活用できておらず、順序付けの学習は進んでいません。これは、複雑なタスクにおいて、異なる報酬成分が異なる学習段階で効果を発揮することを示す興味深い例です。

学習初期の行動パターンは、後の段階での改善の基盤となる重要な要素を含んでいます。完全に正しくはないものの、正解に向かう方向性を示す要素があることで、継続的な学習が可能になっているのです。

12.4. 部分報酬による局所最適解の問題

部分報酬は二重の刃であることがわかります。なぜなら、4ポイントを与えているからです。それは良い報酬ですが、まだ問題を完全に解決していません。報酬設計で注意深くあるべきだと思います。

最終的な結果を見ると、モデルは部分的な成功を収めているものの、完全なソート問題の解決には至っていません。これは部分報酬設計の根本的なジレンマを浮き彫りにしています。

具体的な例を見ると、モデルは正しい数字を得ることで報酬を得ており、0、1の配置も完全にソートされていないわけではありません。しかし、完全なソート能力の獲得には達していません。これは、部分報酬が学習の初期段階では有効である一方で、高度なスキルの習得においては制限となる可能性があることを示しています。

特に問題となるのは、モデルが部分的な成功に満足してしまい、より困難だが最適な解決策を追求するインセンティブを失ってしまうことです。4ポイントという相対的に高い報酬を安定して得られる戦略を発見した場合、モデルはそこで学習を停止してしまう傾向があります。

また、行き詰まりの状況も観察されます。すべてのデルタが0になる時点では、そのバッチでのさらなる訓練は効果がありません。このような状況では、新しいサンプルを生成することで学習を継続する必要がありますが、部分報酬の設計によっては、新しいサンプルでも同様の局所最適解に陥る可能性があります。

この問題は、報酬設計において、学習の促進と最終目標の達成のバランスを取ることの困難さを示しています。適切な部分報酬の設計は、強化学習システムの成功に重要な要素であることが明らかになります。

13. 実験からの重要な気づき

13.1. 損失曲線監視の意味のなさ

注目すべき点の一つは、これらの損失曲線を見ると、これは良く見えるが、報酬が上がっているにもかかわらず、なぜこれがとても悪く見えるのかということです。

これは、損失を最小化することがここでは少し嘘であるという私の発言に戻ります。時間をかけて測定できる一つの損失関数を最小化しているわけではないからです。応答のセットが時間とともに変化しているため、同じ損失について参照点がないのです。検証セットで損失を測定することもできますが、報酬しかない場合、報酬に頼ることしかできません。

モデルが生成しているものに対してのみ損失があることを考えてみてください。損失は、モデルが生成するものに対してのみです。そのため、それは自己循環的なものです。

この観察は、強化学習における評価の根本的な困難を浮き彫りにしています。教師あり学習では、固定されたデータセットに対する損失を継続的に監視することで、学習の進行を追跡できます。しかし、強化学習では、学習データ（生成される応答）が方針の改善とともに変化するため、一貫した損失関数が存在しません。

各エポックで計算される損失は、その時点でのモデルが生成した特定の応答セットに対してのみ有効です。次のエポックでは異なる応答セットが生成されるため、損失値を直接比較することに意味がありません。これは「自己循環的」な問題で、評価対象（応答）と評価者（モデル）が同一であるために生じます。

この問題は、強化学習において報酬がより信頼できる進捗指標である理由を説明しています。報酬は生成された応答の質を絶対的基準で評価するため、時間を通して比較可能な指標となります。一方、損失は方針との相対的関係を表すため、方針が変化すると基準点も変化してしまいます。

この理解により、強化学習システムの監視においては、損失曲線よりも報酬曲線により注意を向けるべきであることがわかります。損失の改善が必ずしも性能の向上を意味しないのです。

13.2. 応答セット変化による参照点の不安定性

応答のセットが時間とともに変化しているため、同じ損失について参照点がないのです。検証セットで損失を測定することもできますが、報酬しかない場合、報酬に頼ることしかできません。

この参照点の不安定性は、強化学習における評価の根本的な挑戦です。各学習ステップで新しい応答セットが生成されるため、前のステップとの直接的な比較ができません。教師あり学習のように固定されたテストセットが存在しないため、一貫した評価基準を維持することが困難になります。

検証セットでの損失測定という代替案も提案されましたが、これにも限界があります。固定された検証セットがあれば、時系列での比較は可能になりますが、強化学習設定では通常、そのような固定セットは利用できません。特に報酬のみが利用可能な環境では、外部の基準となるデータセットを構築することが困難です。

この不安定性により、学習の進捗を監視することが複雑になります。損失値の変動が学習の改善を意味するのか、単に応答セットの変化による見かけ上の変動なのかを区別することができません。同様に、損失の悪化が実際の性能低下なのか、より困難な応答への挑戦の結果なのかも判断が困難です。

このため、強化学習においては報酬による評価がより信頼できる指標となります。報酬は応答の絶対的な品質を測定するため、応答セットが変化しても一貫した評価基準を提供します。方針が改善されれば、平均報酬の向上として観測でき、これは応答セットの変化とは独立した真の進捗指標となるのです。

13.3. 部分信用報酬の両刃性

部分信用報酬は二重の刃であることがわかります。なぜなら、4ポイントを与えているからです。それは良い報酬ですが、まだ問題を完全に解決していません。報酬設計で注意深くあるべきだと思います。

部分信用報酬の両刃性は、この実験を通じて明確に現れています。一方では、部分信用は学習の初期段階において重要な役割を果たします。完全に正しくない応答であっても、正解に向かう要素があれば報酬を与えることで、スパース報酬の問題を回避し、学習を促進することができます。

しかし同時に、部分信用は予期しない副作用をもたらします。モデルが4ポイントという相対的に高い報酬を得られる戦略を発見した場合、完全な解決（満点）を目指すよりも、この部分的成功に満足してしまう傾向があります。これは人間の学習においても見られる現象で、「十分に良い」解決策に安住してしまい、最適解への探求を停止してしまうのです。

この問題は、報酬関数の設計における根本的なジレンマを浮き彫りにします。学習を促進するために部分信用を与えすぎると、局所最適解に陥るリスクが高まります。一方、部分信用を控えめにすると、学習初期の信号不足により学習自体が停滞してしまいます。

実験結果からも、この両刃性が実際に現れていることがわかります。モデルは入力数字を適切に使用し、部分的な順序付けも学習していますが、完全なソート能力には達していません。これは部分信用報酬が初期学習を支援した一方で、最終的な目標達成を阻害している可能性を示唆しています。

この観察から、効果的な強化学習システムを構築するためには、学習段階に応じて報酬構造を調整したり、カリキュラム学習的なアプローチを採用したりすることが重要であることがわかります。

13.4. 中心化による無意味な更新の回避

中心化の重要な利点の一つは、学習に有益でない状況での無駄な更新を自動的に回避することです。すべての応答が同じ報酬を得た場合、中心化後のデルタはすべて0になり、そのプロンプトに対しては更新が行われません。

この動作は計算効率の観点から非常に合理的です。すべての応答が等しく悪い（または等しく良い）場合、それらの間に優劣がないため、どの応答を強化し、どの応答を抑制すべきかという情報がありません。このような状況で更新を行うことは、ランダムな方向への方針変更を促すことになり、学習にとって有害である可能性があります。

生報酬を使用していた初期の実装では、このような状況でも絶対的な報酬値に基づいて更新が行われていました。これは「愚かなこと」として言及されているように、学習効率を阻害する要因となっていました。同じプロンプトに対するすべての応答が等しく不適切である場合、それらすべてに対して正の更新を行うことは、方針を改善するどころか、むしろ混乱を招く可能性があります。

中心化により、このような無意味な更新が自動的に回避され、計算リソースが有効な学習信号がある場面に集中されます。これは、特に大規模な学習において、効率性と学習品質の両面で重要な改善をもたらします。

また、この機能により、学習アルゴリズムは自然に情報価値の高いサンプルに焦点を当てるようになり、より効果的な学習が期待できます。

14. 強化学習の課題と展望

14.1. ラベル付きデータの限界超越の可能性

まとめに移りましょう。強化学習について、ポップアップして言うと、モデルが実際に人間の能力を上回ることを可能にする鍵であるため、本当にエキサイティングだと思います。なぜなら、ラベル付きデータは、ラベル付きデータで提示された行動を模倣するまでしか到達できないからです。

モデルが測定できれば、最適化できると思います。報酬がある場合です。ご覧のように、この並べ替えの例でも、最適化は困難である場合があります。しかし、おそらくより大きな問題は、ハッキングできない報酬をどのように設計するか、一般化可能な環境をどのように設計するかです。これはかなり活発な調査分野だと思います。

強化学習が持つ根本的な可能性は、人間が作成したラベル付きデータの限界を超えることにあります。教師あり学習では、モデルは人間が提供したラベルや例を模倣することしかできず、本質的に人間のパフォーマンスレベルに制限されます。これは模倣学習の根本的な制約です。

しかし、強化学習では、明確に定義された目的関数（報酬関数）がある限り、モデルは自ら探索し、試行錯誤を通じて人間が発見していない解決策を見つけることができます。これは「測定できれば最適化できる」という原理に基づいています。人間が直接教えることのできない複雑なタスクであっても、適切な報酬関数を設計できれば、モデルは独自に最適解を発見する可能性があります。

この可能性は、特に複雑な問題解決、創造的なタスク、または人間の直感では扱いきれない高次元の問題において重要です。例えば、数学的証明、薬物発見、複雑なゲーム戦略などの分野で、AIが人間の専門家を上回る成果を出すことが期待されています。

ただし、この可能性を実現するためには、適切な報酬関数の設計と、学習環境の構築が不可欠です。これらが適切に設計されれば、強化学習は人間の知識と能力の境界を押し広げる強力なツールとなり得るのです。

14.2. 報酬ハッキングと環境汎化の根本的課題

おそらくより大きな問題は、ハッキングできない報酬をどのように設計するか、一般化可能な環境をどのように設計するかです。これはかなり活発な調査分野だと思います。

報酬ハッキングは、強化学習における最も深刻な課題の一つです。モデルは与えられた報酬関数を最大化しようとしますが、設計者が意図した行動ではなく、報酬関数の抜け穴や盲点を悪用して高い報酬を得る方法を発見してしまうことがあります。

この問題は、私たちのソートタスクの実験でも実際に観察されました。報酬関数に「抜け穴があることに気づくでしょう」と言及したように、どんなに注意深く設計された報酬でも、予期しない最適化経路が存在する可能性があります。モデルは真のソート能力を学習するのではなく、報酬を最大化するための別の戦略を発見するかもしれません。

環境の汎化可能性も同様に重要な課題です。訓練環境で良好に動作するモデルが、実世界の多様で予測不可能な状況において同じレベルの性能を維持できるかは不明です。環境設計において、訓練時の分布と実際の使用環境の分布の間にギャップがある場合、モデルは期待通りに機能しない可能性があります。

これらの課題は相互に関連しています。報酬ハッキングを防ぐためには、より包括的で堅牢な報酬関数が必要ですが、そのような報酬関数を設計することは、環境の複雑性と多様性を考慮すると非常に困難です。また、特定の環境に過度に特化した報酬設計は、汎化能力を損なう可能性があります。

現在、これらの問題に対処するための研究が活発に行われており、憲法的AI、報酬モデリング、対話的学習など、様々なアプローチが探索されています。しかし、根本的な解決策はまだ見つかっておらず、継続的な研究と革新が必要な領域となっています。

14.3. スケーリングと分散システムの複雑性

最適化の部分について、並べ替えはそれほど難しくありません。私のノートPCで数秒間実行しただけなので、素晴らしさを期待すべきではないと思います。方針勾配フレームワークは概念的に明確だと思います。期待報酬を書き下し、ベースラインを差し引き、それは同じことです。そして、その報酬またはアドバンテージの推定値を見つけようとするだけです。

実際には話す時間がなかった一つのことで、重要だと思うのは、RLシステムの構築とスケーリングが、事前訓練よりもはるかに複雑だということです。

その理由は、推論を行う必要があり、推論はそれ自体が複雑な問題だからです。また、複数のモデルを管理する必要があります。そのため、訓練している方針があり、PPOがある場合は批評家があります。推論があり、推論ワーカーがある場合は、推論を実行するためにモデルをそこに送る必要があります。エージェント環境がある場合は、環境の立ち上げが必要です。

その上、π_oldとπ_refも持つ必要があります。そのため、保持する必要がある複数のモデルがあります。そして、その上で、すべてを並列および分散で実行し、すべてを歌って踊らせる必要があります。そこで行うべき作業がたくさんありますが、この授業ではそれについて話す時間がありません。

強化学習システムのスケーリングと分散実装は、事前訓練とは比較にならないほど複雑です。事前訓練では、基本的に単一のモデルを大量のデータで訓練するだけですが、強化学習では複数の相互依存するコンポーネントを協調させる必要があります。

まず、推論システムの複雑性があります。強化学習では、応答生成のために継続的に推論を実行する必要があり、これは計算集約的なプロセスです。推論ワーカーを別途管理し、モデルの重みを適切に配布し、生成された応答を収集するシステムが必要です。

次に、複数モデルの管理があります。現在訓練中の方針、PPOを使用する場合の価値関数（批評家）、重要性比率計算用の古いモデル、KL正則化用の参照モデルなど、同時に複数のモデルを保持し更新する必要があります。これらのモデル間での一貫性とバージョン管理は重要な技術的課題です。

環境との相互作用も複雑性を追加します。報酬計算が外部システムや複雑な評価プロセスを含む場合、これらのコンポーネントも分散システムの一部として管理する必要があります。

さらに、これらすべてを並列化し分散実行する必要があります。異なるプロンプトでの並列応答生成、複数のモデル更新の同期、分散環境での一貫した状態管理など、技術的な挑戦は多岐にわたります。

このため、実用的なRLシステムの構築には、機械学習アルゴリズムの理解だけでなく、分散システム設計の専門知識も必要となります。

14.4. 複数モデル管理の運用上の困難

複数のモデルを管理する必要があります。そのため、訓練している方針があり、PPOがある場合は批評家があります。推論があり、推論ワーカーがある場合は、推論を実行するためにモデルをそこに送る必要があります。エージェント環境がある場合は、環境の立ち上げが必要です。

その上、π_oldとπ_refも持つ必要があります。そのため、保持する必要がある複数のモデルがあります。そして、その上で、すべてを並列および分散で実行し、すべてを歌って踊らせる必要があります。

複数モデル管理の運用上の困難は、強化学習システムの実装における最も複雑な側面の一つです。事前訓練では単一のモデルを管理すればよいのに対し、強化学習では同時に複数の異なる役割を持つモデルを協調させる必要があります。

具体的には、まず現在訓練中の方針モデルがあります。これは実際に学習が行われる中心的なモデルです。PPOを使用する場合は、さらに価値関数を推定する批評家モデルが必要になります。これらは異なる学習率や更新スケジュールを持つ可能性があります。

推論システムとしては、応答生成専用の推論ワーカーが必要です。これらのワーカーは最新の方針モデルの重みを受け取り、効率的にバッチ処理された推論を実行する必要があります。モデルの重みを推論ワーカーに配布し、生成された応答を収集するシステムも必要です。

さらに、π_old（古いモデル）とπ_ref（参照モデル）の管理が加わります。これらは異なる更新頻度を持ち、メモリ効率化のための特別な考慮も必要です。π_oldについては完全なモデルではなく対数確率のみを保存する最適化も考慮する必要があります。

環境コンポーネントも管理対象です。報酬計算や環境との相互作用を行うシステムが必要で、これらも分散環境で効率的に動作する必要があります。

これらすべてのコンポーネントを「歌って踊らせる」、つまり協調して動作させることは、複雑な分散システム設計の課題となります。バージョン管理、同期、障害処理、リソース管理など、多くの運用上の問題が発生します。

15. 講義のまとめ

15.1. 方針勾配フレームワークの概念的明確性

方針勾配フレームワークは概念的に明確だと思います。期待報酬を書き下し、ベースラインを差し引き、それは同じことです。そして、その報酬またはアドバンテージの推定値を見つけようとするだけです。

方針勾配の理論的基盤は、数学的に非常に明確で理解しやすい構造を持っています。まず期待報酬E[R]という明確な目的関数から出発し、これを最大化するために勾配を取るという自然なアプローチを採用します。

ベースラインの導入も理論的に完全に正当化されます。任意の状態のみに依存する関数B(S)を差し引いても、期待値は変化しないため、最適化問題は同等のまま保たれます。しかし、この単純な操作により分散が大幅に削減され、学習の効率が向上します。

このフレームワークにおいて、すべての手法の本質は同じです。期待報酬からベースラインを差し引いた量（アドバンテージ）の推定値を求め、それを用いて方針を更新するということです。PPO、GRPO、その他の方針勾配手法はすべて、このアドバンテージの推定方法や更新の制約方法が異なるだけで、基本的な原理は共通しています。

この概念的明確性により、様々なアルゴリズムの違いを理解し、新しい手法を開発する際の理論的基盤を提供します。数学的に厳密でありながら直感的に理解可能なこのフレームワークは、強化学習理論の美しい例の一つといえるでしょう。

理論の明確性により、実装上の選択肢（デルタの計算方法、クリッピングの有無、正規化の手法など）が、すべて同一の理論的枠組み内でのバリエーションであることが理解できます。

15.2. 実用的なRL システム構築の複雑さ

実用的な強化学習システムの構築は、理論的理解とは大きく異なる複雑さを持ちます。方針勾配の数学は明確で美しいものですが、実際にスケールするシステムを構築することは全く別次元の挑戦となります。

まず、推論システムの複雑性があります。推論はそれ自体が複雑な問題であり、強化学習では継続的に推論を実行する必要があります。推論ワーカーの管理、モデル重みの配布、バッチ処理の最適化など、多くの技術的課題が存在します。

次に、複数のモデル間の協調が必要です。現在の方針、古いモデル、参照モデル、さらにPPOを使用する場合は価値関数など、同時に複数のモデルを管理し、それらの間で一貫性を保つ必要があります。これは単一モデルの事前訓練とは比較にならない複雑さです。

環境との相互作用も加わります。報酬計算、環境のセットアップ、外部システムとの統合など、機械学習以外の多くのコンポーネントが関わってきます。これらすべてを分散環境で効率的に動作させる必要があります。

さらに、すべてを並列化し分散実行する必要があります。異なるコンポーネント間でのデータフロー、同期、障害処理、リソース管理など、分散システム設計の専門知識が不可欠となります。

この複雑さにより、強化学習の実用化には、アルゴリズムの理解だけでなく、システム設計、分散コンピューティング、インフラ管理など、幅広い技術的専門知識が必要となります。理論と実践の間のギャップが、事前訓練よりもはるかに大きいのが強化学習の特徴といえるでしょう。

15.3. 事前学習との比較における困難さ

RLシステムの構築とスケーリングが、事前訓練よりもはるかに複雑だということです。その理由は、推論を行う必要があり、推論はそれ自体が複雑な問題だからです。また、複数のモデルを管理する必要があります。

事前学習と強化学習の複雑性の違いは根本的なものです。事前学習では、基本的に単一のモデルを大量の静的データで訓練するという比較的単純なパラダイムです。データは固定されており、訓練プロセスは予測可能で、スケーリングの課題は主に計算リソースとデータ並列化に関するものです。

一方、強化学習では動的で相互作用するシステムを構築する必要があります。データ（応答）は学習過程で継続的に生成され、システムの状態が常に変化します。これにより、静的な事前学習では発生しない多くの複雑性が生じます。

推論の必要性は特に大きな違いです。事前学習では、モデルの重みを更新するだけで済みますが、強化学習では各学習ステップで推論を実行して新しい応答を生成する必要があります。推論は計算集約的であり、レイテンシの制約もあるため、効率的な推論システムの構築が不可欠となります。

複数モデルの管理も事前学習にはない複雑さです。現在の方針、古いモデル、参照モデル、場合によっては価値関数など、異なる役割を持つ複数のモデルを同期させ、一貫性を保つ必要があります。これらのモデル間でのバージョン管理、メモリ効率、更新スケジュールの調整など、多くの技術的課題が発生します。

さらに、環境との相互作用、報酬計算、分散協調など、機械学習以外の多くのシステムコンポーネントが関わります。これらすべてが、事前学習と比較して強化学習システムの構築を格段に困難にしているのです。

15.4. 今後の発展方向への示唆

そこで行うべき作業がたくさんありますが、この授業ではそれについて話す時間がありません。しかし、興味がある場合は、確実に送ることができるポインタがあります。それで終わりです。次回お会いしましょう。

強化学習の今後の発展方向は多岐にわたり、理論と実装の両面で重要な課題が残されています。まず、アルゴリズム面では、より効率的で安定した方針勾配手法の開発が継続されるでしょう。GRPOがPPOの簡素化として登場したように、言語モデル特有の特性を活用した新しいアプローチが生まれる可能性があります。

報酬設計の根本的課題も重要な研究領域です。報酬ハッキングを防ぎ、真の目標と整合する報酬関数を設計することは、実用的なAIシステムの安全性と効果性にとって不可欠です。憲法的AI、人間の価値観との整合、対話的学習などのアプローチが今後さらに発展すると期待されます。

システム面では、分散強化学習システムの効率化と簡素化が重要な課題となります。複数モデル管理の複雑さを軽減し、推論とトレーニングの統合をより効率的に行う手法の開発が求められています。

また、教育的観点から、強化学習の複雑さをより理解しやすく伝える方法も重要です。理論の美しさと実装の複雑さのギャップを埋めるための教材や実習環境の整備が、この分野の発展に寄与するでしょう。

さらなる学習リソースとして、Chelsea's deep RL classなど、専門的な強化学習コースが参考になります。これらのリソースにより、より深い理解と実践的なスキルを身につけることができます。

強化学習は人間の能力を超える可能性を秘めた分野であり、今後も継続的な研究と革新が期待される重要な領域となるでしょう。

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 17: Alignment - RL 2

For more information about Stanford's online Artificial Intelligence programs visit: https://stanford.io/ai To learn more about enrolling in this course visit: https://online.stanford.edu/courses/cs336-language-modeling-scratch To follow along with the course schedule and syllabus visit: https://stanford-cs336.github.io/spring2025/ Percy Liang Associate Professor of Computer Science Director of Center for Research on Foundation Models (CRFM) Tatsunori Hashimoto Assistant Professor of Computer Science View the entire course playlist: https://www.youtube.com/playlist?list=PLoROMvodv4rOY23Y0BoGoBGgQ1zmU_MT_

youtu.be

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 17: Alignment - RL 2