※本記事は、Stanford CS336 Language Modeling from Scratchの講義「Alignment - RL 1」の内容を基に作成されています。講義の詳細情報およびコース全体の情報は https://stanford-cs336.github.io/spring2025/ でご覧いただけます。スタンフォード大学のオンラインAIプログラムについては https://stanford.io/ai をご参照ください。本記事では、講義の内容を要約しております。なお、本記事の内容は講師の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講義動画をご視聴いただくことをお勧めいたします。
講師紹介
- Percy Liang: スタンフォード大学コンピュータサイエンス学部准教授、基盤モデル研究センター(CRFM)ディレクター
- Tatsunori Hashimoto: スタンフォード大学コンピュータサイエンス学部助教授
コース全体のプレイリストおよび関連情報については、Stanford CS336の公式ページをご参照ください。
1. RLHF(強化学習による人間フィードバック)の復習
1.1 DPOアルゴリズムの概要と実装
今日の講義は先週火曜日の講義の続きとなるポストトレーニング講義の第2回目です。まず先週の講義で残った内容であるRLHFの部分を完了させてから、過去6ヶ月ほどの間に起こった新しいエキサイティングな分野である検証可能な報酬からの強化学習について話していきます。この手法は現在の推論モデル界隈を支配している技術の根幹となっています。
検証可能な報酬を用いた数学的なRL内容に入る前に、まずRLHFの復習から始めましょう。これは先週火曜日の講義の最後数スライドの非常に簡潔な復習です。
私たちが実現したいのは人間フィードバックからの強化学習であり、これはペアワイズの選好データを観測する設定です。つまり、2つの応答のうちどちらがより良いかという情報を得て、この選好データに対する何らかの潜在的な報酬を最大化する言語モデル政策を得ることが目標です。
もし皆さんが覚えているなら、DPOはこの強化学習目的を最適化することを可能にするアルゴリズムです。この目的は困難です。なぜなら言語モデル、つまり政策が、この期待値の底部に位置しているからです。単に言語モデルの下での尤度を最大化するのではなく、言語モデルからサンプリングしているのです。
この問題を解決するために、もし皆さんが導出を覚えているなら、政策クラスがすべての関数の集合であるという非パラメトリックな仮定を行います。そして報酬を政策の比として書き直し、それをBradley-Terry目的に代入します。つまり、私たちは、暗示される報酬が観測するペアワイズ選好の確率を最大化するような政策を見つけるのです。
これは素晴らしい手法です。なぜなら、これは基本的に一種の代替的にパラメータ化された目的での教師あり学習となり、それは良いものだからです。DPOの更新は以下の形式を持ちます。DPOが約1年前にしばらくの間世界を席巻した理由は、この非常に美しい形式で書けるからです。
具体的には、ベータ(正則化パラメータ)によって乗算される勾配ステップを取ることになります。そして報酬推定が間違っている時により高い重みを持つことになるため、暗示される報酬が正しくない時により多く更新することになります。その後、良い例の尤度を増加させ、悪い例の尤度を減少させます。
先週の講義で言ったように、強化学習アルゴリズムは本質的に良いものを上重みし、悪いものを下重みすることに帰着することが多いのです。そして微妙な点は、何が良いものなのか、そしてどの程度上重みするかを決定することにあります。これは特定の選択の一つです。そして他にも様々なことが起こることを見ていきます。
DPOはしばらくの間非常にうまく機能しました。本質的に、すべてのオープンモデルのリリースは、ポストトレーニングにDPOの何らかの変種を使用しています。そしてそれはPPOと比較して動作させることが非常に簡単だからです。
1.2 SimPOとその他のDPO変種
しばらくの間、DPOは本当に支配的なアプローチでした。その後、アスタリスクPOという巨大な論文の洪水がありました。基本的に、誰もがDPOの変種を考案したがったため、数十もの論文が出されました。あまりにも多くの論文があるため、この大きな海のような論文群を全て網羅することは価値があるとは思いません。
私は2つの変種について言及します。必ずしもそれらが正しいものだと思うからではなく、DPOスタイルのポストトレーニングの限界を本当に押し上げている人々によって最近使用されているものだからです。
一つはSimPOです。SimPOは非常にシンプルな修正、または2つのシンプルな修正を行います。最初の一つは、応答の長さによって更新サイズを正規化することです。この長さによる正規化というテーマは後で再び現れることになります。そして彼らが行うもう一つのことは、単純に参照を取り除くことです。
したがって、今や我々は、私たちがしていることが政策の比を見ているというDPOの数学的議論を失いました。しかし、これはより純粋に良いものを上重みし悪いものを下重みするもののように見えます。その根本的な動機の下では、SimPOは完全に問題ありません。
参照政策の除去を行わない他の変種もあります。長さ正規化DPOと呼ばれる、単に長さで正規化するだけのものを人々は行ってきました。これら2つの形式、つまり長さ正規化を伴うDPOとSimPOは、AI2の人々がTulu 3を行った際に非常に広範囲にわたって試行されたものです。
1.3 RLにおける実験結果の条件依存性
ここで一旦立ち止まって重要な概念的な、いや、概念的ではなく重要な実証的なポイントについて述べたいと思います。強化学習において、発見の多くは特定の設定に非常に依存しているということです。つまり、実行する環境、持っているベースモデル、実行しているポストトレーニング選好によって、かなり異なる結論を得ることになります。
これの一例として、AI2の人々は本当に優れたポストトレーニング実証研究を数多く行ってきました。彼らはDPOとPPOを比較した研究を行い、PPOがDPOよりも優れていることを発見しました。おそらくそれがオンポリシーであることが理由です。そして彼らは、まさにDPOからPPOへのギャップとしてこのジャンプを示しました。
その後の研究であるTulu 3では、SFTをより良い方法で行うと、実際にはそれがPPOとDPOの両方の利得を全て食い尽くすことを発見しました。つまり、これらのどちらも実際には利得を得られません。そして唯一より良い結果を示すのは、おそらく正規化を伴うDPOでした。これはかなり異なる結論です。
もちろん、この左と右の論文の間では多くのことが異なっていますが、一方が間違っていて他方が間違っているということではありません。本当に言いたいことは、一つの論文に基づいてこれらのことについてあまりにも一般化された結論を読み取ることには注意すべきだということです。これは重要な注意点です。
この後でPPOについて話し、後でGRPOについて話すときでさえも、単一の実験結果を必ずしも絶対的なものとして受け取るべきではありません。
2. RLHFの課題と限界
2.1 過最適化(Overoptimization)現象
RLHFについて終える前に、2つの重要なことについて話したいと思います。そのうちの1つは、今日の講義全体の動機付けになると思うので重要です。
最初のことは過最適化です。ある意味では、これは単により派手な名前を付けた過学習に過ぎません。しかし、これは非常に重要な用語だと思います。なぜなら、これが本質的に述べていることは、政策をどんどん最適化していく、つまりこのx軸をどれだけRLを行ったかと考えてください、最初は報酬がどんどん上がっていきます。しかし最終的には、人間の選好に基づいて適合させた報酬モデルが実際の人間の選好から乖離していくのです。そしてより多く最適化すればするほど、最終的には乖離していくのです。
実際には何も良くなっていません。最適化はしているけれども、実際には報酬を改善していないのです。この過最適化というものは、基本的にRLHFのあらゆる場所に現れます。これは非常に大きな問題です。そしてこれが一種の懸念事項なのです。
過最適化は、人間の選好の雑音性や複雑性のために多くの方法で起こる現象です。私の学生たちが行った研究では、基本的に人間の選好に対してRLHFを行い、雑音のあるAIフィードバックの版に対してRLHFを行い、そして雑音のない人間フィードバックの版に対してRLHFを行いました。
その結果、人間と雑音のあるAIフィードバックについては明確な過最適化現象を見ることができますが、クリーンで雑音のないAIフィードバックについてはそれほど見られませんでした。
したがって、ポストトレーニングを行う場合、測定したプロキシ報酬でモデルをより良くより良く訓練しても、人間の選好勝率の観点では必ずしもより良くより良いモデルを得られるわけではない、左のようなカーブを見ることを期待すべきです。
2.2 モデルの校正(Calibration)の悪化
もう一つのことは重要な補足ですが、RLを行う際には、私が言ったように、もはや確率的世界にいないということです。教師あり微調整を行っている時や事前訓練を行っている時は、何らかの分布に対して確率的モデリングを行っていることが非常に明確です。何かに対して分布マッチングを行っているのです。しかしRLHFでは、それはすべて単なる政策なのです。必ずしも根本的な分布があるわけではありません。
これがどのように現れるかというと、しばしばはるかに校正の悪いモデルを得ることになります。多くの異なる論文にわたる多くの結果が、RLHFモデルは、特に温度1において、はるかに過信的な行動を示すことを明らかにしています。
これはAnthropic論文の一つからのものです。これはGPT-4のリリースからのものだと思います。これは私のポスドクの一人が行った論文からのものです。これらすべてのケースにおいて、本質的に、RLHFモデルははるかに校正が悪いのです。
おそらくそれは問題ないでしょう。なぜなら校正は投入している報酬の一部ではないからです。そのため、これは設計通りなのです。しかし、生成モデリングの背景からこの分野に入ってくる場合、これらのモデルを校正された確率的モデルとして考えることには非常に注意すべきです。そうしたくなるかもしれませんが、そうすべきではありません。
3. 検証可能な報酬によるRL(RL from Verifiable Rewards)
3.1 人間フィードバックからの移行の動機
ここまで、RLHFやこれらすべてのことについて話してきました。実際に、ちょっと止まります。RLHFについて最後の質問があれば、話題を完全に切り替える前に答えます。なぜなら、検証された報酬からのRLに一瞬で完全に話題を変更するからです。
これで、RLHFとこれらすべてのことを考えてきました。実際、私は話を止めます。これまでの内容は、ChatGPT 3.5のその時代のモデルについて話してきました。そして今、o1と新しい推論スタイルのモデルの一群について話したいと思います。
そこに到達する方法は、次のように考えることです。私たちには今、この非常に強力なツールがあります。ポストトレーニングに使用できる強化学習ツールがあります。そして最初の直感は、真の目的が一つあり、その目的は人々がボットを好きになるかどうかだと言うことでした。そして、私たちが真に気にかける真の目的を最適化すれば、それだけで十分だということです。
それは非常に困難であることが判明しました。人間の承認はハッキングしやすいのです。大規模で収集するのが困難です。過最適化やこれらすべての種類の問題を見るように、大規模でのRLは困難なのです。
一方で、RLが実際に支配してきた領域、AlphaGoやAlphaFoldのようなものに目を向けることができます。そしてそれらの領域を見ると、私たちが本当に必要としているのは、真の報酬を知っているドメイン、そしてそのような真の報酬を非常に迅速かつ効率的に大規模で評価できるドメインだと言えるかもしれません。そして、もしそれができれば、過去の強化学習からのすべての成功を言語モデリングに活用することができるのです。
これが私たちが今採用している全体的な考え方です。私たちは構築したツールを持っているので、今度は同じツールを使用する非常に異なる方法に適用しましょう。RLでの成功からインスピレーションを得ています。
3.2 AlphaGoやAlphaFoldからの学び
今日は2つの部分に分けて話します。最初の部分は、この一番上にあるアルゴリズム的な部分です。異なるアルゴリズムについて話します。まず、長さの都合で先週の講義からカットしたPPOについてより詳しく話します。そして、PPOをある意味でより簡単なバージョンであるGRPOに変換します。そして、これらの目的とGRPOの様々な実装の詳細について話し合い、GRPOの複数の標準的な変種に到達します。
それを完了した後、3つの大きな推論モデル訓練の事例研究を通して歩いていきます。パート1の後、パート2で起こっていることすべてを理解するために必要なすべてのツールを持つことになるからです。そしてパート2を行った後、少なくともこれら3つの中国のオープンLLMがどのように作られたかを理解することになります。
私たちはこれらのRLアルゴリズムをPPOが適用される設定に本質的に適用したいと考えています。PPOは報酬がある一般的なRL設定に非常によく適用されますが、複雑な実装は望みません。そしておそらくより重要なことに、価値モデルを取り除きたいのです。PPOを本当に実装しようとすると、それは実際に非常に迷惑です。なぜなら価値モデルは通常、政策と同じくらい大きいからです。
つまり、GPUメモリの観点から、言語モデルの2倍のコストを支払うことになります。では、なぜDPOを使用できないのでしょうか。DPOは、Bradley-Terry比較のようなペアワイズ比較に適しています。数学の問題に強化学習を行い、答えが正しいかどうかをチェックしたい場合のようなことを行いたい場合には、それほど良くありません。そこには本質的にペアワイズ構造がないのです。
したがって、おそらくDPOは素晴らしくありません。DPOは元々、ある意味でオフラインアルゴリズムでもあります。最初に一連のペアを収集し、その後それらでモデルを更新するだけです。反復することでオンラインにすることもできますが、それは通常人々がDPOを適用する方法ではありません。
4. PPO(Proximal Policy Optimization)の詳細
4.1 政策勾配からPPOへの発展
これで新しいホットネス、つまりGRPOについて話すことになります。そのためには、私がやりたくなかったことですが、GRPOが存在する理由を理解するためにはPPOに戻らなければなりません。
PPOとは何でしょうか。少なくとも私のPPOの心的モデルでは、最もシンプルなものから始めて、ゆっくりと確実にPPOへと下がっていきます。
最もシンプルなもの、先週の講義で言及したのは、政策勾配です。左側では、政策pテータの下での期待報酬を最適化したいと思います。そして勾配降下法を通してそれを最適化するつもりです。その対象の勾配を取ると、その方程式の右辺を得ます。これが政策勾配です。現在の政策の下での報酬の期待値です。そして報酬zの符号に応じて確率を増加または減少させる勾配ステップを取ることになります。うまくいけば、これは分かりやすいでしょう。
これに馴染みがない場合は、その政策勾配の導出がどのように起こるかについて復習することができます。
ここで考えたい2つのことがあり、それらはある種非効率的です。最初のことは、これを純粋にオンポリシーと呼ぶかもしれないものです。強化勾配が動作する方法では、pテータからサンプリングしなければならず、その後、それらのサンプリングされた例についてすぐにステップを取ります。
したがって、勾配ステップを取りたいたびに、報酬を計算しなければなりません。そしてロールアウトを行わなければなりません。課題5で理解することになりますが、RLの費用のかかる部分はロールアウトです。実際に言語モデルを実行してサンプルを得る必要があり、それは遅いのです。
Percyの推論講義から、それは非常に複雑であることを知っています。それは非常に扱いにくいです。より頻繁にサンプリングしたくありません。一度ロールアウトを行い、一度サンプリングを行い、その後それらのロールアウトについて複数の更新を取りたいのです。
これがTRPOと呼ばれるものを動機付けます。pテータからの更新を取る代わりに、更新が古くなることを許可したいと思います。したがって、私が行うことは、ここの下にあるこのベース分布であるpテータoldからサンプリングしますが、それでも有効な政策勾配を得ることです。
どうすればそれができるでしょうか。重要度サンプリング補正と呼ばれるものを行うことができます。そして、古いものから離れすぎて、クレイジーな報酬推定を得ないように、政策を古いものの近くに保つことができます。非常にシンプルなアイデアです。少しオフポリシーからオンポリシーへの修正を行うだけで、TRPOと呼ばれるものを得ます。
このAオブtは、Rオブzの低分散バージョンです。アドバンテージ推定についてはそれほど詳しく話すつもりはありません。
PPOはシンプルな追加ステップです。これを超えて、KL発散を行う代わりに、アドバンテージをクリップするだけだと言います。そしてこれは自然に政策を近く保つことを強制します。なぜなら、あまりにも遠くに行くと、より高くより高い報酬を得ることができなくなるからです。これらの報酬は1マイナスイプシロンまたは1プラスイプシロンでクリップされるだけです。収集できる報酬の量に上限があるため、RLアルゴリズムが政策を現在のものと本当に異なるものにするインセンティブはありません。これがこのアイデアのソフトバージョンと考えることができます。
4.2 PPOの実装の複雑さ(37の実装詳細)
PPOは非常に成功した強化学習アルゴリズムであり、多くの異なる場所で使用され、非常に小さなRL環境で使用されています。OpenAI DOTAボットで使用され、そのような実際のRLタスクで非常にうまく機能します。ああ、そうです、ビデオがありました。それを忘れていました。見てください、走り回ることができます。
概念レベルでは、それほど複雑ではありません。PPOのOpenAIドキュメントを見ると、かなりシンプルに見えます。上に挙げたその方程式、このPPO-Clip目的が見えます。そして本当に、おそらく少し複雑なのは、このAオブtが実際に価値関数と呼ばれるものを使用して計算されることです。
したがって、本質的に期待報酬を計算するための第2のニューラルネットワークが必要で、それがある意味で勾配の分散を低減するために使用されます。すべてのRLの詳細に再び入るつもりはありませんが、ここで重要な実装の違いは、この価値関数が必要であることです。そしてそれは一瞬でここで重要になります。
しかし、実際のPPOは理論のPPOとは非常に異なる獣です。そして、「PPOの37の実装詳細」というブログ投稿があるなら、非常に悪い時間を過ごすことになります。その37すべてを知りたくありません。
そしてこのブログ投稿には、PPOの異なる変種の巨大で長いリストがあり、それらすべてがRLベンチマークで異なるスコアを持っています。そして、PPOで実装詳細がなぜ重要かについて書かれた論文全体があり、本当にめちゃくちゃにすると、もはや政策勾配を正しく計算していないのに、実際にはより良く動作するという内容です。実装詳細を見ると、PPOはある種クレイジーな場所です。
実際に実装詳細を見る必要があります。PPOがこの講義のポイントではないので、迅速に行います。しかし、皆さんがこのポストトレーニング空間で必ずしも作業してこなかった理由を理解してもらいたいのです。なぜ人々はPPOの代替手段をこれほど気にするのでしょうか。それはこのようなことのためです。PPOはうまく機能しますが、ある種の獣なのです。
これは一つの例です。RLHF再実装の初期の頃から、これはかなり標準的なPPOの実装をどのように行うかを説明する素敵な図だと思います。この図はかなり厄介です。
RLHFのための報酬モデルがあります。期待報酬を追跡することになっている価値モデルがあります。一般化アドバンテージ推定があります。それが何であるかさえ説明していません。そしてそれが政策言語モデルに入り、政策勾配更新を行うことになります。PPOが機能するためには、このすべての機械が適所に配置される必要があります。
4.3 PPO実装における具体的なコード例と課題
数年前になりますが、実際の実装を見てみましょう。私の学生と私はPPOのような算法の再実装を行い、他の人々も使用しています。これがある程度テストされた実装です。これが良い実装だと言っているわけではありません。Volcano Engineや他のものからのより最新の実装は、おそらくもう少しうまく動作するでしょう。しかし、課題でGPUを書く際に、構造がこの側面の一部を反映するであろうため、すべての異なるコンポーネントを案内したいと思います。すべてのRLアルゴリズムは、似たような種類の外側ループを持っています。
これを見ると、PPOステップは言語モデルでの標準勾配更新ステップと非常に似ています。これが外側ループです。私たちが行うことは、一連のロールアウトを取得することです。一連のロールアウトを取得したら、私たちが行うことは、いくつかの損失を計算することです。その後、後方とクリップノルムを持つ勾配ステップを取るだけです。それで終わりです。
非常に威圧的でない、RLの外側ループは通常は問題ありません。損失計算も基本的に同じことです。おそらく後ろの皆さんには小さいでしょう。しかし、これを見ると、価値関数の損失を計算している1つのブロックがあります。
PPOは価値関数と政策の両方を持っているので、それらを同時に更新しなければならないことを覚えていてください。価値関数がどれほど実際のリターン、つまり我々が見た報酬に近いかを計算しています。価値関数は分散削減を提供することになっているため、それらを近く保ちたいのです。そして、PPOで更新することになる実際の報酬があります。そして、クリッピング定数1マイナスイプシロン1プラスイプシロンがあります。
このコードは文字通り、これをコピーしているだけです。ハイパーパラメータの直感を与えるために、典型的なcliprangeはここで0.2のようなものかもしれません。つまり、古い政策と新しい政策の間の尤度比で、本質的に0.8から1.2まで行くことが許可されることになります。
ロールアウトは物事が厄介になり始める場所ですが、これは本質的に推論を呼び出すだけです。左側は現在の政策からロールアウトをサンプリングすることだけで、その後サンプルのlogprobsを評価して、右に移ります。そして何が見えるでしょうか。唯一の微妙な点は、価値、報酬、政策が異なるトークナイザーを持つ可能性があることです。そのためトークン化を行う必要があります。しかし、それ以外は、ロールアウトをモデルに送り込むだけです。
この時点で、このコードを見て、「OK、それは問題ない。これはそれほどひどくない」と言います。しかし、物事が少しトリッキーになり始める場所は、まず、報酬シェーピングを行わなければならないことです。それはどういう意味でしょうか。
少し後退すると、言語モデルに対する強化学習の観点から奇妙なことの1つは、RL的な観点から考えると、技術的にはある種の文脈的バンディットです。文脈的バンディットとは何でしょうか。文脈的バンディットとは、入力を得て、取ることができる一連の可能なアクションがあり、すぐに報酬を得るものです。言語モデリングでは、プロンプトを得ます。出力を与えることができ、すぐに報酬を得ます。状態遷移はありません。環境探索はありません。この複雑性のどれもありません。
ここでの報酬シェーピングは、RLアルゴリズムにとってより学習しやすいものを与えるために、本質的にトークンごとの損失を構築することです。PPOとGRPOの両方で実際に起こることは、あなたが実装することになりますが、KL項、つまり私たちが適用している正則化は実際にはトークンごとに計算される一方で、実際の真の報酬、つまりタスクを完了したかどうかのようなものは、最後のトークンで計算されるということです。
つまり、正則化のためのトークンごとの報酬と、成功かどうかのための最後の単一の端末報酬があることがわかります。
何が動作しないのでしょうか。ああ、そうです。これは少し面白いです。基本的に、トークンごとのKLペナルティのみを追加しています。しかし、再び、これはこれらの面白いPPO実装の1つです。ここの2行目、これは実際の真のKL計算です。しかし、この数値が負になると、数値的に不安定になります。そして実際にそれにかなり頻繁にぶつかることがあります。そのため、これは0でクランプされます。log尤度比を0でクリップすると、それはもはやKLではありませんが、KLの何らかの近似です。
5. GRPO(Group Relative Policy Optimization)
5.1 PPOからGRPOへの簡素化
損失関数について話しました。更新ステップはどうでしょうか、特に報酬関数に関して。それは他のものと同じでしょうか。良いポイントです。更新について言ったように、この外側ループでは、実際に通常の勾配ステップを取るだけです。つまり、コードの観点では、通常の勾配ステップを取ることと何ら変わりはありません。
しかし、ここで起こっていることは、ある意味で、政策勾配方程式に戻りましょう。これを書き下すと、これはRzかけるpテータzです。これは、Rzかけるlogpテータzのθに関する勾配を取ることと同じです。これは重み付き損失であり、その後勾配を取ります。
そして技術的に、もし本当の勾配を取っているなら、pテータにも勾配を取るべきですが、そうしません。暗黙の勾配停止があります。つまり、この内側の損失を計算し、それをautogradに送り込むと、政策勾配に対して正しいステップを得ることができます。課題でもそれを行う必要があります。そして、その素早い説明が明確でない場合に備えて、何が起こっているかを説明する小さなチュートリアルがあります。
最後に、説明しなかった一般化アドバンテージ推定と呼ばれるボックスがあるため、最も厄介だと思う部分があります。政策勾配を持つときはいつでも、勾配の分散がしばしば非常に高いのです。そのため、できる限り多くの分散削減を行いたいのです。報酬と直接勾配を掛ける代わりに、以下のAオブt量、これは本質的に割引アドバンテージ推定、それはRL用語ですが、これが適切な代替物であることを示すことができます。
そしてPPOが行う非常に異なることの1つは、λとγを調整してバイアスと勾配の分散をトレードオフできるこのアドバンテージ推定を使用することです。面白いことの1つは、価値関数を維持し、これらすべての量を推定するこの実装の複雑さの迷惑さにもかかわらず、γ=λ=1を選ぶことができ、これはこの全体をベースライン化された政策勾配に基本的に削減します。つまり、Rマイナス暗示価値を取るだけです。そしてそれもうまく動作します。
あなたにこれを通して行かせたポイントは、PPOの実装詳細の多くは、それが外側ループRLであり、勾配を取るだけでもあるという点でシンプルでもあり、同時に迷惑でもあるということです。これらすべてのクリッピングを行う必要があります。一般化アドバンテージ推定で何をするかを考える必要があります。価値推定を訓練するために何をするかを考える必要があります。
しかし、報酬モデルや負のKL報酬を含む全体的に増加する報酬を期待し、それらが下がることを期待します。これは再び、文脈的バンディットなので、クレイジーなRLのようなものではなく、かなり合理的な訓練カーブを見ることを期待します。
PPOについて説明しました。それは一種の駆け足ツアーでしたが、うまくいけばAのコンテキスト、PPOとは何か、Bのそれを動作させるのが時々少しトリッキーであることを理解してもらえたと思います。これが多くの人々にPPOの代替手段を見つけようと動機付けています。
私たちがやりたいことは、本質的にこれらのRLアルゴリズムをPPOが適用される設定に適用することです。PPOは報酬がある一般的なRL設定に非常によく適用されますが、複雑な実装は望みません。そしておそらくより重要なことに、価値モデルを取り除きたいのです。PPOを本当に本当に実装しようとすると、実際に非常に迷惑です。なぜなら価値モデルは通常政策と同じくらい大きいからです。
したがって、GPUメモリの観点から、言語モデルの2倍のコストを支払うことになります。では、なぜDPOを使用できないのでしょうか。DPOはBradley-Terry比較のようなペアワイズ比較によく適しています。数学の問題に強化学習を行い、答えが正しいかどうかをチェックしたい場合のようなことを行いたい場合には、それほど良くありません。本質的にペアワイズ構造が存在しないのです。
だからおそらくDPOは素晴らしくありません。DPOは元々、ある意味でオフラインアルゴリズムでもあります。最初に一連のペアを収集し、その後それらでモデルを更新するだけです。反復することでオンラインにすることもできますが、それは通常人々がDPOを適用する方法ではありません。
そこで今、新しいホットネス、私が思うGRPOが登場します。
5.2 グループベースの優位性推定
GRPOは実際に、動機と実際の実装の両方において、非常に非常にシンプルです。概念的に始める場所はPPOです。非常に似た部分で始めます。このクリッピングのことを考えます。非常に似た方法で政策更新について考えます。しかし、私たちが行うことは、本当に複雑な一般化アドバンテージ推定を取り除き、完全に取り除いて、はるかにはるかにシンプルなものに置き換えることです。
そのはるかにシンプルなものとは何でしょうか。アドバンテージを置き換えることになります。以前はこのGAA的なものでした。リターンの合計で、価値関数がそこにありました。代わりに、このスライドの下部にあるこの方程式3になります。
これは何でしょうか。応答iのアドバンテージは、応答iが受け取る報酬から、私のグループ内の応答の平均を引いたものに等しいです。グループとは何かを一瞬で定義しますが、その後グループ内の報酬の標準偏差で割ります。つまり、これはグループ内の報酬のz-scoreです(z-scoreが何かを知っている場合)。
では、グループとは何でしょうか。グループは、私たちの言語モデルRLにとって、ある意味で非常に自然なオブジェクトです。入力質問があります、この数学問題を解いてくださいと言いましょう、それがグループです。そして、多くの異なる候補応答があります。大文字のG個の異なる応答があり、それらがすべて私の単一グループ内の応答です。
良い点は、考えてみると、おそらく問題はより難しいか易しいかです。いくつかの数学問題は他よりもはるかに難しいです。そのため、私の他のサンプルが受け取る平均報酬は、私自身にとって自然なベースラインです。
そして人々は、まさにこれらの種類のアルゴリズムを探求してきました。leave one outを用いた強化学習、つまり、leave one outを用いた政策勾配を調べると、これはleave one outベースラインの動作であり、右ここにある標準偏差部分を除いたものです。
私は真実について疑問に思っていました。あなたがここで話していることについてです。つまり、質問のバッチがあり、それに対する答えがあり、それらが報酬を受けるということでした。つまり、各答えは1つのユニークな質問にのみ対応するのか、それとも複数の質問に対して同じ質問の複数の軌跡を行っているのでしょうか。
各質問に対して複数の答えを行います。そしてそれがこれにおいて分散削減を得る方法です。複数の異なる質問と、各質問に対する複数の答えがあります。それがこれを理解する方法でしょうか。
いいえ。各質問Qに対して、GRPOは出力のグループをサンプリングします。これはバッチ化されていません。通常、これを実際に行う場合、複数の質問があり、各質問に対してG個の応答があり、それらが一緒にベースライン化されることになります。
質問をまたいでは、政策が一緒に更新される以外は、ベースライン化や相互作用は実際にはありません。つまり、ベースラインは同じ質問内でのみ行われています。そしてそれがベースラインが意味をなす理由です。質問が難しいか易しいかであり、その報酬の平均は、ある意味で質問の難易度を捉えており、そのやつを引き算しているのです。
5.3 GRPO実装の簡潔性
もう一つのことです。これは楽しい注記で、これが楽しくクールだと思うので言及します。このDKLは、多くのKL発散計算を見たことがあるなら、実際に少し非標準的です。なぜなら、自然なKL発散推定は、一連のサンプルを取り、その後log比の平均を計算するからです。それがここのこの内側の項です。
しかし、GRPOからのこの1つは、実際にこれら2つの追加項を持っています。πref over πθの比を持ち、このマイナス1を持っています。そして、πθに関してこの期待値を取ると、これは単にここのこの1とキャンセルされることを自分で納得させることができます。
つまり、これはこのKL発散推定の分散を削減する制御変量スキームです。これはクールです。なぜなら、おそらく皆さんはサンプルからKL発散を推定する必要があるかもしれないからです。この方程式2は、まったく同じものを推定するためのわずかに良い方法です。
そしてGRPOは本当に素敵です。ああ、最後の注記が一つあります。1ステップだけを取っている場合、つまり純粋にオンラインの場合を行っている場合、このクリッピングのものはすべて消えて、政策勾配を行っているだけです。政策勾配は、良いものを上重みし、悪いものを下重みすることだけで、勾配に掛ける報酬がこのAオブiです。つまり、単一の例について複数のステップを行わない、真にオンラインの場合では、信じられないほどシンプルなアルゴリズムなのです。
GRPOの実装には複数の異なるリポジトリがあります。私が使用したいくつかを含めて、このスライドにコピーして置いたこの1つを含めて、いくつかを指すことができます。しかし基本的に、あなたが思う通りの方法で行われるとだけ言えます。
外側ループでは、各ロールアウトの報酬を計算します。各グループについて報酬の平均と分散を正規化します。KL項を計算します。この場合はシーケンスごとですが、これはより重い実装では完全に正しくありません。そして損失について勾配更新を行います。
これは、ここにある損失計算の1つの例です。そしてアドバンテージ計算は、PPOの場合とは異なり、本当に本当にシンプルです。これは、私が示した方程式とほぼ正確に一行ずつ対応しています。
方程式に示されていない1つの小さな違いだけがあります。ほとんどすべてで行うように、標準偏差で割っているため、数値的に爆発しないように1eマイナス4の小さなfudge factorを追加します。そして課題でもこれを行う必要があります。GRPO設定に小さなイプシロンを追加する必要があります。
6. GRPOの理論的課題と修正
6.1 標準偏差による除算の問題
これはどの程度うまく機能するでしょうか。GRPOはかなりうまく機能します。これは元のDeepSeek数学論文からのものです。そして後でDeepSeek R1の結果に照らしてこのプロットとこの結果を見ることは興味深いので、後でこれに戻ります。
彼らは本質的に、2つの微調整ベースの手法であるRFTとオンラインRFTを示しています。これは、私が言うならば、かなり弱いベースラインです。あなたが行っていることは、正しい答えを得る例のみを見ていることです。この場合は数学を行っているので、正しい答えを得る例のみを得て、正しい答えを得た自分の出力について微調整し、微調整で正しい答えを強化しています。
結果レベルの報酬でGRPOを使用したもの、つまり正しいか正しくないかの答えのみを得るものが黄色です。青いものは、あなたの推論の各ステップを見て、そのためにグレードを与えるシステムを得たプロセスレベルの報酬です。そして彼らは、おそらくプロセス報酬の方が良いと論じています。これについては後でもう少し話します。しかし、いずれの場合でも、GRPOが機能し、かなりうまく機能することがわかります。
基本的なGRPO部分について質問はありますか、詳細やアルゴリズムで実際に何が起こっているかについて深く考える前に。良い。
では、GRPOとPPOの違いと、私たちが行ったことと何が違うかについて考えてみましょう。つまり、本当に、私が言っていたように、1つの違いしかありませんが、それは本当に重要な違いです。アドバンテージ推定子をこのもの、つまり報酬の平均またはz-scoreと置き換えることです。
では、政策勾配定理または政策勾配結果に戻って、この結果について考えてみましょう。政策勾配更新を取るとき、何ができるでしょうか。数スライド戻ります。この非常に上部のスライドに、政策勾配があります。これは行うことができる最も基本的なRLアルゴリズムです。報酬でlog確率勾配を乗算する勾配を取ります。
これは常に行うことが許可されている数学的等価性です。では、私ができるもう一つのことは、ベースライン化と呼ばれるものです。この報酬zを取って、実際にはz自体に依存しない任意の定数、実際には任意の確率変数を引くことができます。そしてこれは依然として有効な政策勾配になります。
このベースライン化というものは本当に重要です。なぜなら、あなたが行おうとすることは、この期待値でより低い分散を与える定数を引くことだからです。これがベースライン化と呼ばれています。そして、ここに行くと、それはSutton and Bartoで調べることができる古典的な結果です。彼らは、政策勾配があると言っています。政策全体で合計するとb of Sは0になるので、任意のベースラインb of Sを引くことができます。これは問題ありません。常にベースライン化できます。
しかし、このAオブiを見てみましょう。これはベースラインでしょうか。平均を引いています。そして、他のすべての報酬はRオブiに依存していないため、それはベースラインです。つまり、おそらくそれは問題ありません。つまり、技術的には、この記法にはRオブIが含まれていますが、それを除去すれば、それは有効なベースラインです。
しかし、本当に奇妙なことが一つあります。ここで標準偏差で割っていることです。これは、Sutton and Bartoでのこの導出に従って、本当に許可されているようには見えません。そしてそれは問題であることが判明しました。
GRPOとその動作を再分析した人々は、基本的に、GRPOには少なくとも数学的に少しおかしい2つのことがあると論じています。最初のことは、この標準偏差による除算です。今あなたに話したように、これはベースラインが単に私の描画とは独立したゼロ平均変数を引くことでよいという契約を破ります。
そしてGRPOが行うもう一つのこと、私が以前に提示したときに見過ごしたのは、実際に報酬を出力の長さで割っていることです。そしてそれは、政策勾配定理に従って、これは自然に現れることではないので、それも少し奇妙です。
6.2 長さ正規化の悪影響とCoTの長大化
GRPOアルゴリズムのかなり興味深い研究を行った著者たちは、おそらく我々はこれら2つのことを取り除くべきだと論じました。そしてもしそうすれば、実際にははるかに短い出力長とより高い報酬を得ることができ、はるかに長い応答を持つことはありません。
これらの2つの修正のそれぞれについて、これらの結果を注意深く話し合いましょう。そして、これらについて話すことで、RLアルゴリズムがどのように機能するかについての直感を得ることを願っています。
まず、標準偏差について話したいと思います。これは何をしているかがおそらくやや明白です。方程式をここでハイライトしているときの方が話しやすいと思うからです。アドバンテージを標準偏差で割っています。
それはどういう意味でしょうか。標準偏差が小さいとき、報酬が増幅されることになります。標準偏差が小さいときに、そのグループを最適化することがより重要になります。そして標準偏差が小さいのはいつでしょうか。問題が簡単すぎるか難しすぎるときです。なぜなら、それが報酬が全て0か全て1のときだからです。
つまり、簡単すぎるか難しすぎる問題を上重みする標準偏差項にバイアスがあるのです。著者たちは、これが収束を遅くすると論じています。おそらく真実でしょう。少なくとも、それは確実に政策勾配の有効性を破ります。
2番目のこと、微妙ですが同様に興味深いのは、長さ正規化です。では、ここで何が起こっているかを見てみましょう。GRPO報酬の前に、この長さ正規化があります。それは何をするのでしょうか。
私のモデルが質問を間違えた場合、私はここで負の報酬を受けているので、最善のことは応答を本当に本当に長くすることです。そして答えが正しい場合、最善のことは答えを短くして正の報酬を最大化できるようにすることです。
つまり、これが実際に行うことは、可能な限り積極的にバイアスをかけるモデルを生成することです。モデルが答えを正しく得ることができないと思う場合、可能な限り長い応答を生成するだけです。これは、モデルに与える非常に非常に悪いインセンティブです。
そして、これを修正すると、何が起こるかというと、GSM8Kなどのさまざまな玩具タスクで、同じくらい良い報酬を得ることができます。赤いものが修正版ですが、出力長はどんどん成長し続けることはありません。ある時点で安定します。
そして、これらの本当に長いCoTのいくつかが、GRPO的なもので人々が見ているものが、これらのモデルの性能に本質的に必要な長いCoTというよりも、実際にはこれらの実装の詳細と選択の結果である可能性があるという、非常に興味深い観察のクラスがあります。そして、それは非常に興味深いと思います。完全に証明されたクラスの仮説ではありませんが。
6.3 Dr. GRPOによる修正案
なぜ標準偏差で割るのが悪いのかという質問について、私の理解を確認するためです。非常に簡単な場合や非常に難しい場合では、実際にそれらを積極的に更新したり重み付けしたりしたくないということですね。
そうです、これは民俗定理的な領域に入っていきます。しかし、実際にいくつかの論文がこの民俗理論について話すので、言及します。RLアルゴリズムに本当にやらせたいことは、ある程度うまくできる問題を取得することです。いくらかの報酬を得ることができるが、それらを解くのがあまりにも簡単ではない問題です。
つまり、適切なレベルの難易度をモデルに与えるカリキュラム効果があります。そして、その標準偏差を最大化している場合、それは間違った方向です。あなたは本当に既に全て知っているか、あなたにとって解くにはあまりにも困難な極端なものを最大化しているのです。
クールです。これでGRPOアルゴリズムについて終わります。うまくいけば、今皆さんは全て慣れ親しんでいるでしょうし、これら3つの論文すべてについて今日話す背景を持っていると思います。R1、Kimi 1.5、そしてQwen 3です。
7. 推論モデルの訓練事例研究
7.1 DeepSeek R1
7.1.1 R1-zeroの制御実験
R1とK 1.5は、ほぼ同時に出てきたので、かなり興味深いと思います。悲しいことに、R1だけが巨大なソーシャル、何と呼ぶのでしょうか、反響を得ました。しかし、これらの両方は実際に、LLMを用いて数学やその他のことに対するRLベースの推論を行う方法を示しています。そして、それらが同時代的であるため、同じ問題に取り組む2つのほぼ並行した方法を見ることができます。どの点が似ていて、どの点が異なっているか、などです。これは素晴らしいことです。
Qwen 3は最新のリリースです。そして、彼らはR1のアイデアのかなり興味深い変種を行っています。また、R1にはないある種の新しいトリックも持っており、特に推論モデルの推論効率に興味がある場合、見るべき非常に興味深いものだと思います。
R1から始めましょう。R1は、arXivの論文が社会現象全体を立ち上げたという意味で驚くべきだと思います。あなたの指導教員に、あなたのarXiv論文が決して重要ではないと言わせてはいけません。これは、NVIDIAの評価額のほぼ5億ドルを失わせました。あなたも、いつの日かそのような波を引き起こすことができるかもしれません。
R1は、多くの点でo1レシピのすべての質的特性を、非常にシンプルな方法で複製するため、かなり注目に値すると思います。私が話し、皆さん全員に理解してもらいたい主要な特性について説明します。
最初のことは、OpenAI o1が設定した性能目標を達成することです。皆がこの推論モデルについて本当に興奮していました。これは非常にエキサイティングです。2番目のことは、複製可能なだけでなく、さらに重要なことに、非常にシンプルなRLレシピを開いたことです。探索はありません。プロセス報酬モデルはありません。
当時、多くの人々が推論モデルを得るためにはこれらすべての複雑な部品が必要だと思っていたと思います。R1は、そのどれも必要ないことを本当に示しています。そして最後に、教師あり微調整とRLの相互作用について多くの興味深い洞察があり、それは引き続き本当に重要だと思います。
R1の出発点は、DeepSeekMathの上に構築することです。そして実際に、私が示したGRPOの方程式のいくつかは、DeepSeekMathからのものです。そこで彼らは元々、PPOのより単純な、またはよりシステム効率的な変種として、GRPOを提案しました。彼らにとって実際に最も重要な部分は、価値モデルを取り除きたかったことでした。それは周りにあるのが本当に迷惑だからです。
しかし、非常に興味深いことの1つは、彼らが実際にこの黄色い線、結果監督に行くことです。これは実際にはDeepSeekMathで最高性能のモデルではありません。このセクションの最後で再びそれについて話します。
R1のすべての異なる部分について歩いていきます。R1ゼロから始めます。これは制御設定として考えています。R1ゼロは非常に純粋な形のRL学習です。基本的に、何らかのRLHFや指示調整を行う前の、事前訓練プラス中間訓練されたモデルを取り、それを数学RLループに投入します。そして、それがどの程度うまくいくかを見つけようとします。
詳細はこうです。どのように強化学習を行うのでしょうか。一連の数学的なタスクがあります。データは公開されていません。ベースモデルとしてDeepSeek V3を取ります。そして報酬には2つの形式があります。1つは精度報酬です。つまり、数学の問題を正しく得たかどうかです。正しいかそうでないかです。報酬は二進法です。
フォーマット報酬があり、これは基本的にモデルにCoTを思考タグ内に置くことを強制します。思考開始、思考終了タグです。そして、これらの長いCoTが使用されるようにモデルを持ちたい場合、これは重要です。
フォーマット報酬は重要でないことのように感じられます。しかし、多くの論文から、そして多くの人々と話すことから、明らかにそれは、この推論RL全体を実際に機能させるためのかなり重要な部分です。これを行った後、彼らがしていることは、ベースモデルの上でRLを行うことだけです。特に派手なことはありませんが、結果はかなり印象的です。
長いCoT微調整や他のようなことを行わずに、彼らが既に持っていたモデルの上でいくつかのRLを行うことで、OpenAI o1にかなり近い性能を得ています。そして、R1ゼロについて彼らの論文で本当に興味深いと述べている2つのことがあります。そして、R1ゼロで何が起こっているかを注意深く検証することが重要だと思うので、これについて話したいと思います。
最初に彼らが言うことは、モデルにこれらの検証可能な報酬でRLを行わせるだけで、CoTの長さがかなり予測可能に増加することが非常にクールだということです。そして、論文で私が必ずしも同意しないコメントでは、彼らはそれがより難しくより難しい問題をより難しくより難しく考えることによって解決することを学んでいるようなものです。まあ、たぶんです。
彼らはまた、バックトラッキングのような現象を学ぶことがクールだと指摘しています。彼らはこれをaha momentと呼んでいます。RL訓練がモデルにこれらの種類の創発的洞察を与えることができることが素晴らしいということについて、公共の議論で多くのことが言われていると思います。
私はあなたをGRPOの修正について話した論文、GRPOの修正について話していたものに紹介します。そして正直に言うと、これらの両方が特に興味深い現象ではないという、かなり良い興味深い議論があると思います。まず、彼らは長さがバイアスのある目的のために上がるだけで、本質的に興味深いオブジェクトだからではないと論じています。
2番目に、彼らは、DeepSeek V3を一連の数学問題で実行するだけでも、時々「aha、これができる」や「あれができる」のようなものを出力すると論じています。これはRLから生じる深く新しい現象ではないかもしれません。
これらの両方は、より最近の証拠を考えると、R1ゼロについて創発的で特別なものは何もないかもしれないが、実際にはうまく機能しているという信頼できるもののようです。それは良い数学モデルです。
7.1.2 R1の完全パイプライン(SFT→RL→後処理)
R1ゼロは研究設定として考えることができます。制御されたモデルを取り、その上で制御されたこと、つまり数学RLを行っています。そして良いモデルが出てきます。しかし、世界に出荷する本当に強いモデルを構築しようとしている場合、ここでは行いません。基本的に、可能な限り最高のモデルを得るためにできることはすべて行うつもりです。
では、そのより制限のない設定では何を行うのでしょうか。おそらく教師あり微調整をいくらか挿入するでしょう。いくつかの非公開ソースからCoTを取り、RLを行う前にDeepSeekモデルでそれについて微調整するでしょう。
そしてそれを行った後、モデルが他のことを何もできないこの数学の専門家のようになることは望みません。そのため、人々が通常これらのモデルを使用したい他のすべてのタスクを行えることを確認するために、その上に通常のポストトレーニングパイプラインを適用するつもりです。これがパイプラインの違いです。
そして、パイプライン内とRL内の両方での主要な違いは、長いCoTを行う方法をRLから始めることなくモデルに知らせようとするSFT初期化を行うことです。モデルが単一の言語でチェーン・オブ・ソートを維持することを確実にするために言語一貫性報酬を追加し、その後最後に二次RF段階を行います。
これは非常に理にかなっています。強化学習のような高度なことを何かしたいときはいつでも、おそらく少しの教師あり微調整から始めるでしょう。そして、DeepSeek R1のような推論モデルや長いCoTモデルにおいても、これがそのケースです。長いCoT教師あり微調整データから始めて、その後RLを行います。
彼らがこのデータをどこから入手したか、このデータが何であるかの説明は、非常に非常に曖昧なままであることを指摘します。R1論文を読む限り、CoTデータがどこから派生したのか、それをどのようにフィルタリングしたのか、本当に分からないのです。
これの主張された利点は、モデルをCoTする、つまり、長い英語のCoTでモデルをSFTすると、これは解釈可能性の利点を与えるということです。RLを行う際、奇妙な文字化けを得るつもりはありません。開始したこれらのより解釈可能なCoTに近いモデルを保つつもりです。そしてそれはユーザーにとって良いでしょう。数学モデルを使用している際、それが進むにつれてその推論を見ることができれば素晴らしいでしょう。
追加のこととして、SFT初期化を行う際、大量のデータを使用します。しかし、本当に興味深いことの1つは、多くのモデルにとって、これらの種類の長いCoTデータでのほんの少しのSFTでも良いということです。
Percyと協力した私の学生の何人かが行ったことは、基本的にGemini 2.0 Flash Thinkingから一連の長いCoTを取り、Qwen 2.5を微調整することでした。そして、おそらく驚くことに、わずか1,000例で、少しの長いCoT微調整だけで本当に本当に高い数学ベンチマーク精度を得ます。
私は、これらの両方が、ベースモデルが既に多くの思考能力を持っており、あなたがしていることは単にモデルからそれらを引き出し抽出することを指している本当に重要なことだと思います。そしてその後、もちろん、指示調整とRLHFパイプラインと同様に、RLを行うつもりです。SFTでモデルを設定した後、RLを開始して、探している報酬をモデルに実際に最適化させます。
7.1.3 言語一貫性報酬の必要性
RL部分は基本的にR1ゼロと同じです。大きな違いはありませんが、言語一貫性損失を追加するという小さな違いがあります。私はこの注記がかなり興味深いと思います。これは小さな注記ですが、とにかく説明します。彼らが基本的に言うのは、訓練プロセス中に、モデルにRLをさせるだけなら、実際にCoTが言語混合することを発見したということです。言語を切り替えるのです。
そして、推論モデルで遊んでいる人を多く見たことがあるなら、インターネット上でGrok 3が突然CoTで中国語に切り替わるのは奇妙だという投稿を見たことがあります。
そして、これは、モデルを積極的にRLすると、実際に単一言語に留まるよりも言語混合する自然な傾向があるという種類のものと一致しています。そのため、実際に単一言語に保つには追加の報酬が必要です。
そして最後に、数学や他の検証可能なドメインでRLを行った後、基本的に通常のポストトレーニングを重ねます。そのため、指示調整を行い、その後ペアワイズ選好調整を行います。
彼らは、証明を書くなどの検証不可能なタスクでの推論データと、素敵なエッセイを書くなどの非推論データを組み合わせるSFT段階を行います。そして、彼らは答えが正しいかどうかについて自分のモデルを判定者として使用します。これらは検証可能ではないため、彼らは自分のモデルを判定者として使用します。
そして、彼らはDeepSeek V3で使用したのと同じSFTデータセットを持っています。そして最後に、RLHFについて、彼らは実際にRLHFにもGRPOを使用します。これは素晴らしいことです。すべてに同じRLアルゴリズムを使用しているのです。そして、彼らは基本的にV3 RLHFパイプラインに従うだけです。このポストトレーニング部分については、本当に異なることは何もありません。
7.1.4 蒸留実験の成功
どの程度うまく機能するのでしょうか。非常に非常によく機能します。皆さんの多くもおそらくこれを経験したと思います。R1は、非常にシンプルなレシピでo1の性能を全面的にマッチさせたため、多くの点でショックでした。これを説明する際、皆さんのどなたも特に驚くべきことを見つけなかったと思いますが、結果は雄弁に物語っています。
英語タスクでは、基本的にo1と並ぶかマッチしています。これらの異なるタスク全体で本当に全面的にです。コードモデルでは少し劣っていますが、これらすべての異なるタスクで本当に非常に近いです。
R1論文が示した最後のことは、これらの大きな大きなモデルを他のモデルに蒸留できるということです。大きなDeepSeek R1を取り、それらのチェーン・オブ・ソートを取ります。彼らの場合、ほぼ100万のチェーン・オブ・ソートを取り、その後それらのチェーン・オブ・ソートでQwenを微調整します。そして、ベースモデルと比較して、実際に数学性能で大きな押し上げを得ます。32Bモデルでは、このタスクで50%の性能しか得られませんでした。
そのため、このタスクで25%プラスの押し上げを得ます。これはかなり驚くべきことです。
7.1.5 PRM(プロセス報酬モデル)とMCTSの失敗
そして最後に、R1からの2つの、私が思うに興味深く良い観察があります。そして科学的に、おそらくこれがR1の最大の貢献だったと思います。R1は3つの科学的貢献があったと思います。その1つは、GRPOを用いたアウトカムベース報酬が機能することを示したことです。これは肯定的な証明です。
そしてR1には他に2つの否定的結果貢献もありました。それらはR1レポートの最後の部分に含まれています。そして彼らは基本的に、2つのことをかなり広範囲にわたって試したが、そのどちらもo1のようなものを複製するのに全く役に立たなかったと言っています。それらはPRMとMCTSでした。
少し詳しく説明すると、PRMは基本的にプロセス報酬モデルです。これらは証明で中間報酬を与えることができるシステムです。つまり、モデルがチェーン・オブ・ソートを与えているとき、PRMはこの中間のステップで間違っていると言うことができるでしょう。そして明らかに、それははるかに豊富で非常に強力な形のフィードバックです。
RLアルゴリズムはPRMを本当に本当に良く使用することができます。しかし残念ながら、そもそもPRMを得ることも非常に困難です。そしてR1のDeepSeekMathの人々は、しばらくの間PRMをする道を歩んでいました。そして彼らは、これはアウトカムベース報酬ほどうまく機能しないと結論付けました。そしてこれまでのところ、アウトカムベース報酬がこれらのモデルを構築する方法であり続けると思います。
2番目のことで、本当にまだうまくいっていないと思うのは、探索ベース手法です。多くの人々が推論に対する探索ベースアプローチに興味を持っていたと思います。これまでのところ、少なくとも、それはRLやアウトカムベース報酬と同じ方法でうまくいっていません。
それは、この宇宙で最強のベースラインとシステムのままです。
R1について、彼らの設定や他の発見について質問はありますか。はい。グラント... PRMは... GRPOとPRMは2つの異なるものです...
ああ、はい。そうです。良い。申し訳ありませんが、私はそれに言及すると言ったのに言及しませんでした。それは完全に私の責任です。そうです、まさに。特にPRMについて、DeepSeekMathで彼らがPRMの強さに非常に確信していたことは、本当に興味深く示唆的だと思います。これはPSを持つこの青い線です。そして、R1で彼らはこのアプローチ、DeepSeekMathで機能していたアプローチが本当にR1では機能しないと結論付け、アウトカムベース報酬に行ったのです。私の約束をそこで思い出させてくれてありがとうございます。
はい。CoTが理解しやすさのためなのか、それとも性能にどのような影響を与えるのかについて私の理解は...
そうです。それはここのこの注記にあります。彼らは基本的に、言語一貫性実験を除去すると、モデルの性能の劣化をもたらすが、人間にとってより読みやすいCoTを持つ方が好ましいので、とにかくそれを入れると言っています。それは興味深いトレードオフです。
CoTが忠実であるかどうかについて多くの研究がありました。そしてそれらは真に忠実ではないことを知っています。しかし、AIMEで半パーセントポイントの追加性能よりも、わずかにより忠実なCoTを持つ方が良いかもしれません。
はい。最後に翻訳... しかし、読むことを気にかけるなら...
翻訳や他の種類の後処理を行って、CoTをより良くすることができると確信しています。そしてある意味で、OpenAIやこれらの他のベンダーがCoTを要約する努力を非常に似たものと考えることができるでしょう。なぜなら、生のCoTはおそらくはるかに混乱しており、その後おそらくそれを合理化するからです。
それは1つの方法であり、解釈可能性を得るための効果的な方法だと思います。しかし、何らかの形で、生のCoTが監視とより近い解釈可能性にとって非常に重要だと美的に信じるなら、このようなものが欲しいと本当に思います。
7.2 Kimi K1.5
7.2.1 データセット構築戦略
今度はKimi K1.5に移りましょう。そして、なぜこれを研究するのでしょうか。R1とK1.5がリリースされた時のタイムスタンプを見ると、それは同時代的です。そして非常に似た結果を達成しています。アウトカムベース報酬でRLを行っています。同じアルゴリズムは使用していません。異なる詳細と異なる興味深い洞察を持っています。そして、何が同じで何が異なるか、そしてこのプロセスでどの部分が重要かもしれないかを学ぶことができます。
話を始める前に、ヘッドライン結果を示すだけです。これがKimi K1.5で、ここの濃い青のバーです。OpenAI's o1を次に高いバーとして見ることができます。つまり、一連の重要なタスクでo1を打ち負かすかマッチさせています。そして彼らは基本的にR1と似たことを行います。SFTを行い、RLを行います。異なるRLアルゴリズムを持ちますが、RLを行います。
彼らはまた、データセット構築についてもう少し詳しく説明します。そして、これは実際にQwen 3で後で使用されます。そのため、議論する価値があります。
データについて話しましょう。Percyが以前に言ったように、おそらくデータはパイプライン全体で最も重要なものです。そのため、大規模訓練論文で人々が彼らのデータキュレーション戦略について話すときは、常に注意を払うべきです。
そしてKimi 1.5はデータセットをキュレートするためにいくつかのことを行います。最初に行うことは、異なるドメイン間でバランスを取ろうとすることです。基本的に数学問題を異なるドメインと分野で分類するための自動化された、推測するに、LLMベースのタグ付けシステムを持っています。そして、これらの間でバランスを取って、異なるドメイン間で多様性を得ようとします。
彼らは、これらが検証可能であっても、多肢選択と真偽問題を除外します。なぜなら、これらはハッキングするのが簡単すぎる、またはランダムに推測するには簡単すぎると論じるからです。そのため、彼らはregexやLLMのようなもので評価できる検証可能な答えで、短いものだけを探しています。
そして、これはおそらくここのキュレーションで最も興味深い部分です。彼らが行うことは、推論を行わないモデル、彼らのSFTモデルを取ることです。そして、このモデルに10個の答えを生成させ、合格率をその例を含めるかどうかを決定するために使用します。そして、彼らが後の選択戦略に使用する正確なものは、best of 8に失敗する例のみを選択することです。
つまり、8回中1回でも正しく得ることができれば、簡単すぎるとして除外されるのです。
SFTデータはR1と似ており、記述が非常に少ないです。誰がそれをどこから得たかわかりません。彼らは、いくつかのプロンプト・エンジニアリングを行うとだけ言っています。つまり、明らかに他の何かから蒸留されたのですが、それを何から蒸留したかは本当にわかりません。
7.2.2 独自のRL算法とDPO様アプローチ
RLアルゴリズムについて話しましょう。Kimiのものはある種興味深いです。異なるバリエーションです。実際にはある意味でDPOにより近いですが、私が非常に認識できるアルゴリズムになってしまいます。つまり、これをRLアルゴリズムの収束進化として考えることができます。
一番上から再び始めます。これは我々の古典的な目標で、データセットからサンプリングしています。我々の政策からサンプリングしています。報酬を最大化したいのです。ベース政策から離れすぎたくないのです。つまり、これがKL正則化項です。
もしDPOの導出を覚えているなら、非パラメトリック仮定を行います。π星は最適政策が任意の関数だと言います。これは、報酬がlog正規化項に加えて政策の比として書けることを意味します。これはDPOで行ったのと全く同じことです。
そして今、DPOでは、これらの報酬を取り、Bradley-Terry選好関数に代入しました。ここではそれがありません。ペアワイズ選好を行っていないので、実際にそのステップを取りません。
代わりに、この方程式を書き下し、最適政策については、ここで等式を持つことになることを知っていると言います。つまり、我々が行うのは、これを差にして、その上に二乗損失を追加することだけです。左側と右側を二乗損失を追加することで近づけようとします。これは行うべき合理的なことです。人々は以前にこのようなことを行っています。
そして、これが我々の損失を与えます。これは基本的に、最適政策に対して等式であるべきものの右側と左側を近づけようとしています。これは少し異質に見えるオブジェクトか、少なくとも最初は異質に見えるかもしれません。しかし、勾配を取ると、GRPOとよく似て見えます。政策の勾配があります。これが政策勾配のものです。そして、ベースライン報酬があります。
そして実際に、ベースライン報酬とは何でしょうか。私のバッチ内でRを平均しているだけです。つまり、ここで、これは実際に異なることを行っています。これは私が思うバッチ上の正規化定数です。しかし、GRPOと本質的に似たような種類のベースライン化を行っています。そして、政策を近く保つために、クリッピングを行う代わりにlog損失正則化の少し異なる二乗を持っています。
ズームアウトすると、ここで何が起こっているでしょうか。GRPOと非常に似ており、この最初の部分はベースライン損失ですが、標準偏差のものは起こっていません。2番目の部分は、GRPOで起こるクリッピングに類似していますが、クリッピングを行う代わりに、政策を明示的に正則化しています。
つまり、この政策勾配のものと適切なベースライン化、そして正則化のように見える何かがある限り、機能するRLアルゴリズムを得ることができることを、うまくいけば見ることができるでしょう。
7.2.3 推論コスト制御のための長さ報酬
Kimiの人々が行うもう一つのこと、そしてある意味でこれはR1の人々よりも先見的であったか、彼らがこれをより正しく得たと思うのですが、彼らは推論モデルを出荷する場合、本当に気にかけることは推論コストだということを理解していることです。
そして推論コストを気にかける場合、CoTの長さを制御しようとした方が良いです。本当に長い思考チェーンを持つと、それはあなたかあなたのユーザーに大量のお金がかかることになります。そのため、本当に長いCoTを祝う代わりに、Kimiの人々は、性能を高く保ちながらCoTを可能な限り圧縮したいと言っています。
そして彼らは、ここにあるこの長さ報酬のようなものを持っています。彼らが行っていることは、各バッチについて、最大と最小の長さを見ています。そしてλがあり、λは大まかに、バッチ内の長さの範囲のどこにいるかのようなものです。つまり、プラス0.5の場合、本当に短く、マイナス0.5の場合、本当に長いです。そして報酬は、基本的に答えを正しく得るときはいつでもλになります。
つまり、答えが正しい場合、この範囲の非常に最短端にいるように自分自身にインセンティブを与えることになります。一方、答えが間違っている場合、この長さ報酬の下の部分にいることになり、これはロールアウトの範囲の中心より短いCoT長にインセンティブを与えることを意味します。
これは私にとって、正直に言うと、やや風変わりな損失ですが、この損失のダイナミクスを理解することができます。つまり、正しい答えを可能な限り短くするようにインセンティブを与えています。そして間違った答えは平均的になるようにインセンティブを与えられているため、間違った答えを短くするための強い最適化圧力はありません。
この長さのものについての最後の注記は、Kimiの人々は、この報酬を訓練の早い段階で追加すると、基本的にモデルに、私は局所最適にいる、答えを正しく得られない、私にできる最善のことはCoTを本当に短くすることだ、と言わせるため、RLを停滞させることを理解したということです。そしてその局所最適から抜け出すことができないのです。
そのため、彼らは実際に最初に少しの制約のないRLを行い、その後でこの長さ報酬を追加しました。
7.2.4 RLインフラストラクチャの課題
彼らはまた追加のコード詳細を持っています。これらのもののどれくらいが必要か重要かわかりませんが、彼らは実際に全体のカリキュラムを設定しています。基本的に難易度ラベルを割り当てています。つまり、データセット、トップダウンで、手動で、またはLLMを通して、難易度ラベルに注釈を付けます。
そして、簡単から難しいという順序でそれらを行います。そして進むにつれて、1マイナス成功率に比例して問題をサンプリングします。つまり、100%成功している場合、その質問を二度とサンプリングしません。そして報酬については、基本的に、コードについては、グラウンドトゥルース解答を持つ問題を取り、一連のテストケースを生成します。
そして数学については、基本的に、グラウンドトゥルース、人間が書いた答えをLLM出力と比較するために使用される報酬モデルを使用します。検証可能報酬ケースでこれを行うのは驚くべきことですが、SymPyを使用したり他の人々が行ったようなregexを使用する代わりに、Kimiの人々は実際に等価性チェックを行うためにモデルを使用します。彼らは問題を抱えているようには見えません。
報酬モデルは非常に非常に正確です。なぜなら、それが本当に行っていることは高度な文字列マッチングだからです。
Kimi論文について本当に素晴らしいことの一つは、彼らがRLを行う際に生じるインフラ問題についても話していることです。他のRL推論論文でシステムについて実際に話しているのを見たことがないと思います。そのため、彼らがこれについて、これが何であるか、これのレイアウトが何であるかについて話しているのを見るのは素晴らしいことです。
課題5で、RLでロールアウトのようなものを実装する際に、これの非常にミニバージョンを扱う必要があります。しかし、ここで一つ注記したいのは、なぜRLを効率的にするのがそんなに難しいのかということです。多くの点で、RL中に通常のプリトレーニングよりもGPUを完全に活用するのが難しいです。
そして私が思う理由は、ロールアウトが関わっているからです。つまり、シーケンスを生成しなければなりません。そして、シーケンスを生成するときはいつでも、推論が遅いという意味で遅いだけでなく、この他の問題もあります。RLから推論に切り替えたり戻ったりしなければならないということです。そして、データをRLワーカーに渡し、RLワーカーがモデルの重みを推論サーバーに渡し、その逆も行う必要があります。つまり、起こりうるすべてのこのメッセージパッシングがあります。
そして最後に、これは長いCoTモデル特有のものです。しかし、本当に長いCoTを持つと、バッチが非常に非常に不均一になることがあります。そのため、何らかの賢い方法でそれを処理しなければなりません。
そして、Kimiの人々はこの比較的素敵で、しかしかなり標準的なことを行います。RL更新を行うように割り当てられた異なるワーカーを持ち、推論を行うように割り当てられた異なるワーカーを持っています。
そして基本的に、重みを推論ワーカーに渡すことができ、推論ワーカーが基本的にRLワーカーのためにデータセットを作ることができるメッセージパッシングを持っています。そして皆さんが持つことになるのと同様の種類の設定をほぼ持っています。彼らは推論にvLLMを使用しています。
そして彼らは、ダミー重みを持つvLLMを持たなければならず、一つのワーカーから別のワーカーに重みを渡すことの複雑さのためにそれを殺さなければならないという非常に高度なことも行います。
7.3 Qwen 3
7.3.1 少量データでのRL(3,995例)
Kimiについて、最終的にQwen 3で終了する前に質問はありますか。Kimiの中でのRL設定について詳細で疑問に思っていたのですが、訓練中にロールアウトを行う際のロボット、推論はvLLMによって行われるということですね。そうです。そしてパラメータを更新すると、モデルを更新するにつれて、それをvLLM推論ワーカーに同期することになります。そしてそれがこのためのものです。
そうです。このプロセスの最も迷惑な部分、少なくとも現在のライブラリでは、本質的にRL重みを取ってvLLMに入れるそのステップだと思います。vLLMに重みの組を押し込むためにNCCL集合呼び出しを使用することを許可することになっている実験的なAPIがあります。
実際に課題でそれを使用することを考えていました。しかし、成熟するには文書化されていないパラメータが多すぎます。そしておそらく来年の反復では、これは実際にかなり成熟した技術になるでしょう。しかし今のところ、多くの人々がやることは、ダミー重みでvLLMを開始し、重みがその後vLLMの上のハックで何らかの方法でメモリにロードされ、各反復で、GPU メモリを完全に解放できることを確認するためにvLLMをしばしば破棄するということだと思います。
LLMのためのRLはまだかなり新しいと思います。つまり、インフラストラクチャーのサポートは少し未熟なままですが、おそらく1年後には実際にずっと良くなると思います。
後ろの質問はい。精度報酬とその他の報酬があります。それらをどのように組み合わせることになっているのでしょうか。つまり、異なる報酬をどのように組み合わせるのでしょうか。これはRLの、完全にブラックマジックではありませんが、本当にRLマジックの1つだと思います。重みを調整するだけです。すべての場合で、すべての報酬が単に足し合わされるだけですが、重みと一緒に、そして重みは下流性能を最大化するために経験的に決定されます。
特にフォーマット報酬のようなものについては、それらをシェーピングまたは代理報酬としてほぼ考えることができます。フォーマット報酬について必ずしも本当に気にかけているわけではありません。答えを得るタグ内で良い長いCoTを得るための手段により多くのものです。
クールです。最後に話したいのはQwen 3です。そしてありがたいことに、Qwen 3はクラスの終わりの前に彼らのレポートをリリースしました。それを含めることができます。そして、これは推論のためのRLモデルの最も最新で現代的なものが出てきたと思います。そして、彼らが以前の研究の上にどのように構築してきたか、どこを変更したか、そして実際にかなり興味深いスケーリングとデータ結果があり、それらは新しくユニークであることがわかります。
全体的な絵は、R1とKimiが行ったものと非常に似ています。つまり、Qwenは基本的に彼らのベースモデルを取ります。彼らは長いCoT SFT段階を行います。これがここの最初の段階です。彼らは推論RLを行います。後で話すthinking mode fusionと呼ばれる変わったことを行います。そして彼らはRLHF RLを行い、その後それが彼らが出荷するモデルです。
もちろん、彼らはその後さまざまな方法でそれを蒸留しますが、今のところそれを忘れることができます。つまり、R1で見たものです。RLHFは推論の後に来て、その後蒸留がその後に来ます。そして、我々は多くのプレイブックを既に知っています。つまり、実際にこれをかなり迅速に行うことができます。
Kimiと同様に、彼らは基本的にbest-of-nを使用して難易度でデータをキュレートします。つまり、RLされていないベースモデルが、n回サンプリングすれば既に答えることができる場合、それを除去することができます。彼らはまた、検証データに似すぎているものを除去するいくつかの汚染除去を行います。
そして彼らは、初期SFTデータについて、基本的に彼らの初期SFTセットを手動でフィルタリングします。長いCoTについて、推測しているのか実際に正しく得たのかを手動でフィルタリングします。
Qwen 3 RLの結果について経験的に本当に興味深いことの1つは、彼らが実際にこのRLを3,995例でのみ行っていることです。これはこれを行うには非常に少ない例数です。そして彼らはRLプロセスからかなり良い利得を得ています。
そしてこれを、検証報酬でのRLが非常に効率的であると見ることもできます。これを過去の多くのサンプル効率結果に類似していると考えることもできます。人々は、非常に少数のサンプルでモデルを指示調整できることや、非常に少数のサンプルで長いCoTを蒸留できることを示してきました。
しかし、それは必ずしもそれがスケールし続けないことを意味するわけではありません。本当にわからないのです。しかし、これが示すのは、非常に少数の例でも、時々RLを行うことができることであり、これは驚くべきでクールなことです。
7.3.2 思考モード融合(Thinking Mode Fusion)
では、彼らが行うQwen固有の新しいことは何でしょうか。彼らが行うことは、この思考モード融合と呼ばれるものです。これは興味深いと思います。フィールドやさまざまなトレンドが向かっている方向は、推論の制御にあると思います。
つまり、彼らが望むのは、思考モデルと非思考モデルの両方を同じ単一のパラメータセット内に持つことです。では、何を行うのでしょうか。RLでモデルを訓練した後、思考ができるモデルを持っています。そして今度は、2つのうちの1つを行うためにもう一度微調整するつもりです。
thinkタグを持つデータで微調整し、その後通常のCoTのことを行うつもりです。そして、このデータを自分自身から得ることができます。元の思考モデルがこれを生成できます。または、no_thinkタグを持つことができ、その場合、すぐに答えを出力すべきです。そして、この場合、no_thinkが何を意味するかを知り、すぐに答えを出力しようとするために、モデルを教師あり微調整しなければなりません。
そして、この訓練を行う興味深い副作用の1つ、thinkタグとno_thinkタグを持つようにモデルを訓練すると、モデルが思考を続けていて、思考プロセスを終了したい場合、実際に特別な文字列で思考プロセスを終了できることを発見しました。
「ユーザーの限られた時間を考慮して、今すぐ直接考えることで解決策を与えなければなりません」、その後nthinkタグ、その後正確に答えを与えます。つまり、これは彼らが思考トークンの最大数をより精密に制御できる制御ノブを与えます。
そして、これは単一のモデルからかなりクリーンなテスト時間スケーリングを与えます。そして彼らは最大思考予算を設定できます。そしてもちろん、無限大への非常に最大は単に元の思考モデルです。しかし、彼らは左に早期終了でき、思考トークンを持つことができ、それでも非常に初期にはそれほど悪くないかなり優雅な劣化を得ることができます。非常に良い性能を得ることができます。
7.3.3 推論とRLHFのトレードオフ
Qwen 3もまた、推論RL段階、思考モード融合段階、一般RL段階で性能を提供する素晴らしいアブレーションを行います。そして私にとって非常に興味深いことの1つは、最初の2つの行のセット、一般タスクと指示追従のものを見ると、推論RLが助け、思考モード融合が助け、もちろんRLHFもここで引き続き助けています。このレジームではすべてが助けています。
しかし、数学やSTEM性能を見ると、思考の場合では、一般RLが性能を悪化させ、非思考の場合では、それが性能を助けます。つまり、上の一般的な指示追従を最適化するのか、それとも下の数学とコーディングを最適化するのかで、少なくともある程度のトレードオフが実際にあるようです。
そしてそれらは出現している興味深い特性です。そして、将来のモデルがどういうわけかこれらのトレードオフを回避する方法を見るのは素晴らしいでしょう。
8. 総括と今後の展望
8.1 検証可能報酬RLの有効性
すべてを総合すると、我々の最初の動機は、RLは非常に強力だと言うことでした。RLHFドメインで言語モデルとRLを行うことができることを理解しましたが、ノイズの多いペアワイズ選好を永遠にヒルクライミングすることはできません。
そこで1つの解決策は、報酬ハッキングができないドメインを選択して、それに向かって行くことです。狭いドメインでのRLは1つの良い解決策です。そしてGRPOは1つの非常にシンプルなアルゴリズムです。そして、うまくいけば皆さんは皆、いくつかの良いベースラインを持つ政策勾配を行うだけで、これらすべての種類の検証可能報酬ドメインでRLを可能にするという感覚を持っているでしょう。
そして最後に、実際に多くの成功したレシピがあり、うまくいけば今、何が共通で何が異なるか、どの実装トリックが重要かを見てきました。
8.2 実装の簡素化の重要性
PPOの複雑性からGRPOの簡潔性への移行は、実装の簡素化がいかに重要であるかを示しています。PPOには37もの実装詳細があり、価値関数、一般化アドバンテージ推定、複雑なクリッピング機構など、多くの複雑な要素が必要でした。これに対してGRPOは、本質的に「良いものを上重みし、悪いものを下重みする」という強化学習の本質を維持しながら、はるかにシンプルな実装を実現しました。
特に重要なのは、価値モデルの除去です。PPOでは政策と同じ大きさの価値モデルが必要で、GPUメモリの観点から言語モデルの2倍のコストを支払う必要がありました。GRPOはこの問題を解決し、グループ内の報酬の平均と標準偏差を用いた簡単なベースライン化により、同等の性能を達成しました。
純粋にオンライン(1ステップ)の場合、GRPOはクリッピングも不要となり、単純な政策勾配に還元されます。この簡潔性により、研究者や実践者がより容易にアルゴリズムを理解し、実装し、修正することが可能になりました。
8.3 狭いドメインでのRLの成功パターン
数学やコーディングなどの検証可能な分野におけるRLの一貫した成功は、明確なパターンを示しています。これらの狭いドメインでは、真の報酬を迅速かつ効率的に大規模で評価できるという共通の特徴があります。数学では答えの正誤が明確に判定でき、コーディングでは実行可能性とテストケースの通過によって性能を測定できます。
このような環境では、AlphaGoやAlphaFoldで見られたような強化学習の成功を言語モデリングに持ち込むことができました。人間の選好のような主観的で雑音の多い報酬とは対照的に、これらの検証可能な報酬は過最適化の問題を大幅に軽減します。
R1、Kimi K1.5、Qwen 3の全てが、このアプローチでOpenAI o1に匹敵する性能を達成しました。重要なのは、これらがすべて比較的シンプルなレシピを使用していることです。探索アルゴリズムや複雑なプロセス報酬モデルは必要ありませんでした。アウトカムベース報酬とGRPOのようなシンプルなアルゴリズムの組み合わせで十分でした。
この成功パターンは、スケーラブルな真の報酬評価の重要性を浮き彫りにしています。狭いドメインに焦点を当てることで、強化学習の力を効果的に活用でき、人間フィードバックの限界を回避できるのです。今後、このアプローチが他の検証可能なドメインにも拡張され、より多くの分野で推論能力を持つモデルの開発が進むと考えられます。