2025-03-08 AI Engineer Summit 2025: エージェントの進化を切り拓く強化学習革命

出展元

https://youtu.be/JIsgyk0Paic?si=RY8misIhs6U3Kftc

初回調査日

Sep 1, 2025 4:43 AM

キーワード

強化学習エージェント開発ルーブリック・エンジニアリングテストタイム推論

※本記事は、2025年ニューヨークで開催されたAI Engineer Summit 2025のAgent Engineering Session Dayで行われた、Will Brown氏による講演「Reinforcement Learning for Agents」の内容を基に作成されています。AI Engineer Summitの詳細情報は https://ai.engineer でご覧いただけます。次回イベントであるAI Engineer World's Fairは2025年6月3-5日にサンフランシスコで開催予定で、チケットは https://ti.to/software-3/ai-engineer-... にて購入可能です。本記事では、講演の内容を要約しております。なお、本記事の内容は講演者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講演動画をご視聴いただくことをお勧めいたします。

登壇者紹介：Will Brown氏 ニューヨーク市を拠点とする機械学習研究者。Morgan StanleyのMachine Learning Research groupのメンバーとして、主に言語モデルと系列予測に関するプロジェクトに従事している。コロンビア大学でコンピュータサイエンスの博士号を取得し、Christos Papadimitriou氏とTim Roughgarden氏の共同指導を受けた。ペンシルベニア大学では学部（コンピュータサイエンス＋哲学）と修士課程（データサイエンス）を修了。AWS、Two Sigma、MongoDB、AmFamにおいて研究およびエンジニアリング職の経験を持つ。

1. 発表の背景と現在地：LLMからエージェントへの進化

1.1 発表者紹介と現在のLLM状況

Will Brown：皆さん、こんにちは。Rickさんと AI Engineerカンファレンスの全チームの皆さんに、この機会を設けていただき、私を招待していただいたことに感謝いたします。私はWill Brownと申します。Morgan Stanleyで機械学習研究者をしております。本日は、強化学習、つまりRLがエージェントにとって何を意味するのかについて、私の考えをお話しさせていただきたいと思います。

私はしばらくの間、コロンビア大学で大学院生として、主にマルチエージェント強化学習の理論研究に従事していました。そしてここ数年間は、Morgan Stanleyで言語モデル関連プロジェクトの幅広い分野に携わってきました。その中にはエージェントのように見えるものもありますが、本日はそれについて詳しく触れるつもりはありません。

また、私はX（すべてのアプリ）でも比較的活発に活動しており、これが後ほどこの講演で関連してまいります。この講演は、おそらく会議の他の講演とは少し性格が異なると思います。本番環境に展開するものについてではありませんし、確実に機能し、明日すぐに実行すべき実証済みの科学やベストプラクティスについてでもありません。

これは、私たちが向かう可能性のある方向性についてのお話です。そして私は、より広範な研究コミュニティで起きているいくつかの動向を統合するストーリーをお話しし、これらのトレンドが指し示している可能性のある方向について推測を行い、また私自身の最近のオープンソース研究についてもご紹介したいと思います。

この講演の目標は、皆さんが計画を立て、強化学習が何を意味するのか、それがエージェントにとって何を意味するのかを理解し、エージェントエンジニアリングループの一部として強化学習を含む可能性のある未来に最善の準備をしていただくことです。

では、現在私たちはどこにいるでしょうか。私たちが扱うほとんどのLLMは、本質的にチャットボットです。ここでOpenAIの5段階フレームワークについて考えるのが有用だと思います。私たちはチャットボットでかなりの成功を収めました。推論モデルでも順調に進展しているようです。これらは質問応答に優れたモデルです。インタラクティブな問題解決に非常に役立ちます。私たちには01、03、R1、Grok 3、Geminiなどのモデルがあり、これらは長時間の思考に本当に優れています。

そして私たちは、これらすべてをどのようにして、レベル3のエージェントにするかを理解しようとしています。これらはアクションを取るシステムです。これらはより長期的で、より困難で、より複雑なことを行うシステムです。現在、私たちがこれを実現する傾向にある方法は、これらの基礎となるチャットボットや推論LLMへの複数の呼び出しを連鎖させることです。

そして私たちはプロンプトエンジニアリング、ツール呼び出し、評価など多くのことを行い、モデル自身が使用するツールを提供し、人間をループに含めます。そして結果はかなり良好です。私たちができることは数多くあります。そしてAGIについて私たち全員が想像している、角を曲がったところにあると感じる多くのことがありますが、私たちはまだ、これらのシステムが私たちの想像するAGIが本当に行うであろうことを、それに伴うであろう自律性の程度まで実行する段階には達していません。

1.2 エージェントとパイプラインの区別と現状分析

Will Brown：エージェントとパイプラインを区別することが有用だと考えます。Barryさんの先ほどの講演は、これを枠組み化する良い方法だったと思います。私はパイプラインという用語を使って、Barryさんがワークフローと呼んだものを包含するつもりです。そして私は、これらは本当にかなり低い自律性の度合いを持つシステムだと考えます。そして、これらの決定ツリーを決定するために必要な工学的作業量は非常に重要で、一つのアクションや呼び出しが別のものにどのように流れるかを決定し、プロンプトをどのように洗練するかを決定するために必要です。

そして、エージェント分野での成功アプリケーションの多くは、非常にタイトなフィードバックループを持っているようです。そして、これらをエージェントと呼ぶかパイプラインと呼ぶかに関わらず、これらはユーザーがある種のインターフェースと相互作用するものです。ユーザーは何をするかを伝えます。そのシステムは何らかの処理を行い、比較的迅速に結果を返します。

Cursor、WindSurf、Repletのような統合開発環境があり、そして本当に困難な質問応答に優れた検索ツールがあり、おそらく何らかのウェブ検索や研究機能が統合されています。しかし、現在では一度に10分以上自律的に作業を行うエージェントはそれほど多くありません。

Devon、Operator、そしてOpenAIのDeep Researchが、より自律的なエージェントの方向性のように感じる3つとして本当に思い浮かびます。そして私たちの多くは、これらをもっと作るにはどうすればよいかと疑問に思っているかもしれません。そして従来の常識は、「より良いモデルを待てばよい」というものです。より良いモデルが利用可能になれば、私たちはそれらを使用でき、良い状況になるでしょう。

しかし、強化学習の伝統的な定義と、そこでエージェントが何を意味するかに注目することも重要だと思います。これは目標を持って環境と相互作用する何かというアイデアです。そしてその目標とシステムは、システムとの繰り返しの相互作用を通じて、時間をかけてその目標でより良い成果を上げる方法を学習するように設計されています。

そして私は、これが私たちの多くが手動で行っているか、本当にそれを実行するツールを持っていない何かだと考えます。つまり、私たちが望む呼び出しを行うように設定されたシステムがあり、パフォーマンスが70%程度である場合です。そして私たちは多くのプロンプトチューニングを行い、それを90%まで向上させたいのですが、それを実現するモデルがないか、モデルが成功を得るのに苦労している場合、私たちの前進する道筋は何でしょうか。

2. モデル開発の課題と強化学習の台頭

2.1 従来手法の限界と新たな方向性

Will Brown：モデルのトレンドという観点から、これについてあまり多くの時間を費やすつもりはありませんが、事前学習は少なくとも資本に対して収穫逓減を示しているようです。私たちはまだ損失が下がっているのを見ていますが、新しい技術が必要だという感じがします。

人間のフィードバックからの強化学習は、フレンドリーなチャットボットを作成するには素晴らしい手法です。しかし、それは継続的により賢く、より賢く、より賢いモデルの最前線で私たちを押し進めているようには実際には見えません。

私たちは合成データについて多く話します。そして合成データは、より大きなモデルをより小さなモデルに蒸留するのに素晴らしいと考えます。本当に小さなモデルで本当にパフォーマンスの高いものを持つことができます。しかし、それ自体では、私たちがループに検証や拒否サンプリングやこれらの手法を組み込まない限り、大規模な能力が継続的に向上し続けるブレークスルーのようには見えません。そして、それは本当に私たちを強化学習の世界に導きます。

ここで、これは01モデルやR1でテストタイム推論のスケーリングを実現した技術のようです。それは手動でキュレートされた人間のデータを必要とすることによるボトルネックがありません。そして、それは実際に機能するようです。

私たちは皆、約1ヶ月前にDeepSeekがR1モデルと論文を世界に公開したときに注目したと思います。そして、これは本当にエキサイティングでした。なぜなら、これは01のようなシステムをどのように構築するかを本当に説明した最初の論文だったからです。私たちは推測といくつかの噂を持っていましたが、彼らは本当にこの種の推論を行うことを学習するためにモデルに必要なアルゴリズムとメカニズムを詳細に説明しました。

そして、それは本質的にただの強化学習であることが判明しました。モデルにいくつかの質問を与え、正しい答えを得ているかどうかを測定し、うまくいったことをより多く行い、うまくいかなかったことをより少なく行うというフィードバックを与えるこのメカニズムを回すだけです。

そして、最終的に見ることになるのは、01やR1のようなモデルからの長い思考の連鎖が、実際にこれの副産物として現れるということです。それは、モデルが10,000トークンの推論ステップのようなデータを与えられたように手動でプログラムされたものではありませんでした。これは、それが良い戦略だったので、モデルが実行することを学習したものでした。そして強化学習の核心は、本当に問題を解決するための良い戦略を特定することです。

また、オープンソースモデルが大きな方法で復活しているようです。オープンソースコミュニティに多くの興奮があります。人々は01プロジェクトの複製努力に取り組んでおり、また01からより小さなモデルにデータを蒸留しようとしています。

2.2 DeepSeek R1の革新とテストタイム推論の解明

Will Brown：私たちは皆、約1ヶ月前にDeepSeekがR1モデルと論文を世界に公開したときに注目したと思います。そして、これは本当にエキサイティングでした。なぜなら、これは01のようなシステムをどのように構築するかを本当に説明した最初の論文だったからです。私たちは推測といくつかの噂を持っていましたが、彼らは本当にこの種の推論を行うことを学習するためにモデルに必要なアルゴリズムとメカニズムを詳細に説明しました。

また、オープンソースモデルが大きく復活しているようです。オープンソースコミュニティに多くの興奮があります。人々は01プロジェクトの複製努力に取り組んでおり、また01からより小さなモデルにデータを蒸留しようとしています。

3. 強化学習の基本原理とエージェントへの応用

3.1 強化学習の核心メカニズムと実装例

Will Brown：では次に何が起こるでしょうか。これはエージェントとどのように関連するでしょうか。強化学習がどのように機能するかを少し理解しておくと有用だと思います。

重要なアイデアは、探索と活用です。つまり、物事を試し、何が機能するかを確認し、機能したことをより多く実行し、機能しなかったことをより少なく実行することです。そして、この画像で実証されているこのフィードバックループでは、モデルがテストケースを通過するコードを書くことになっている課題を見ることができます。そして私たちは、正しい言語を使用すること、フォーマットなどに対応する報酬を与え、最終的にテストケースが通過しているかどうかを確認します。

そして、これは事前にキュレートしているデータでトレーニングするようなものではなく、モデル自体に知らせる数値的な信号の一種です。これは合成データロールアウトをモデルに実行させ、これらのロールアウトからスコアを確認し、それがモデルにフィードバックされるということです。

そして、皆さんの中には聞いたことがあるかもしれないGRPOアルゴリズムは、DeepSeekが使用したアルゴリズムです。研究する本当に重要な新しいアルゴリズムであるという意味での技術的なブレークスルーというよりも、非常に概念的に単純だと思いますし、強化学習が何を意味するかについて考える良い方法だと思います。

そしてアイデアは本当に、与えられたプロンプトに対してn個の完了をサンプリングするということです。それらすべてをスコア付けし、より高いスコアを持つものにより類似するようにモデルに伝えます。

これはまだ、単一ターンの推論モデルの非エージェント的な世界の中にあります。そして、今後の課題は、これらのアイデアをより強力で、よりエージェント的で、より自律的なシステムに拡張する方法についてです。しかし、それが実現可能であることは私たちには分かっています。

3.2 高度なエージェントシステムへの展開と課題

Will Brown：OpenAIのDeep Researchは、それがどのように機能するかについて私たちが答えを知らない多くの質問をまだ抱えていますが、彼らはそれがエンドツーエンドの強化学習だったと私たちに伝えています。

そして、これはモデルが大きな論文を合成するために、インターネットの異なる部分をブラウジングしたりクエリしたりする潜在的に最大100の異なるツール呼び出しを行っているケースです。そして、多くの人々の直感的なチェック意見に対して、非常に印象的に見えると思います。しかし、それはまた、リポジトリで作業したり、困難なソフトウェアエンジニアリングタスクを解決させたりすることができないという意味でのAGIでもありません。

そして人々は、分布外のタスクや、100の非常に手動な計算でテーブルを埋めたい場合のようなことで、それが少し苦労することを逸話的に発見しています。そしてそこで苦労する可能性があります。そして、一方では強化学習が新しいスキルとより多くの自律性のための大きなブレークスルーのようですが、これまでのところ、ただすべてを実行することができ、あらゆる種類の問題を解決する方法を知っているエージェントを私たちに与えたものではありません。

しかし、それはモデルにスキルを教え、特定のスキルでより良い成果を上げる方法をモデルに学習させるための前進の道であり、特に環境とツールと検証との組み合わせにおいてです。

そして、私たち自身でこれを実行するためのインフラストラクチャは確かに存在します。その多くはまだRLHFスタイルです。つまり、それは人間のデータから結合されて報酬モデルになった報酬信号を持つ一種の単一ターン相互作用についてです。

そして、もしRLエージェントが私たちのシステムの一部になることを望むなら、私たちはGPTやCloudなどにフックして、ファインチューニングで私たち自身でこの種のモデルをトレーニングさせてくれる大きな研究機関から本当に良いAPIサービスを得るかもしれません。しかし、私たちにはまだこれらの選択肢が本当にありません。OpenAIは彼らの強化ファインチューニングフィードバックをある種予告していますが、それはまだマルチステップツール呼び出しではありません。

4. 実践事例：個人実験から見えた可能性

4.1 1ファイルPythonコードによる実証実験

Will Brown：それでは、先を見据えて計画を立てることを考える価値があると思います。このエコシステムはどのように見えるでしょうか。そして、これにはコスト、モデルをどれだけ小さくできるか、タスクを横断して汎用化するか、良い報酬と良い環境をどのように設計するかなど、多くの未知の質問があります。そしてここには多くの機会があります。

オープンソースのインフラストラクチャ、構築し成長し、ベストプラクティスが何になるのか、正しいツールが何になるのかを決定する多くの余地があります。また、このエコシステムをサポートするツールを構築できる企業も、彼らがすでにファインチューニングの世界にいるかどうかに関わらずです。この種のエージェント的なRLをサポートするサービス、そしてリテラルなRLという意味でモデルをトレーニングするのではなく、プロンプトレベルで物事について考えることも価値があると思いますが、私たちができる自動化のあらゆる種類があります。

DSPIを使用したことがある場合、私はそれが信号を持っているというフレーバーでRLに隣接している種類だと思います。そして、いくつかの下流スコアを改善することに基づいて、私たちの基礎となるシステムを改善するためにそこからブートストラップできます。

今、数週間前に私が書いた単一のPythonファイルについてのストーリーを共有したいと思います。これはR1が公開された後の週末でした。そして私は論文を読んでいて、それが本当に興味深いと思いました。私たちはまだNvidiaの株価クラッシュをそれほど経験していませんでした。そして、私はいくつかの実験で遊んでいました。

私はHuggingFaceからGRPOアルゴリズムを持つトレーナーを取得していて、非常に小さな言語モデルであるLlama 1Bに数学問題のいくつかの推論を実行し、そして答えを提供することをさせていました。そして私はかなり単純なシステムプロンプトから始めて、モデルが何をするかを見るためにそれをトレーニングしていました。

そして私はスコアリング関数がどのように見えるべきかという点で、報酬を手動でキュレートしていました。そして私はそれをツイートしました。そこで私はモデルがある種の自己修正を行っているように見える例を持っていました。そして精度が良くなることと同様に、フォーマットに従うことを学習した後、応答の長さが最初に下がることを示しました。

そして、それはより長い思考の連鎖を利用してその推論を実行することを学習するにつれて、再び上昇します。そして、これは最初に複製したものではありませんでした。私は本当にそれを真の複製と呼ぶつもりはありません。それは最も複雑なものからは程遠く、実際に多くの人々の想像力を掴んだと思います。そしてそれは一種の話題になりました。

4.2 ルーブリック・エンジニアリングの概念と実践

Will Brown：そして、その後の2週間で、それは独自の生命を持つようになりました。多くの人々がそれについてツイートし、それをフォークして修正を加え、Jupyterノートブックで実行できるものにして、よりアクセスしやすくし、それについてブログ投稿を書いていました。そして、それは私には興味深いものでした。なぜなら、私にとっては、この種の興奮のレベルに値するもののようには感じられなかったからです。

しかし、人々の想像力を掴んでいたのは、それが1つのコードファイルだったということだと思います。それは本当に単純で、非常にユーザーフレンドリーで魅力的な方法で修正を促していました。私が「ルーブリック・エンジニアリング」と呼びたいものです。

そして、ここでのルーブリック・エンジニアリングのアイデアは、プロンプトエンジニアリングに類似して、モデルに強化学習を実行させるために、それは何らかの報酬を得ることになりますが、この報酬は何であるべきでしょうか。最も単純なバージョンでは、それは質問を正しく答えたか間違って答えたかのようなものです。aがbに等しいかのようなものです。

しかし、これを超えて実行できることはもっとたくさんあります。そして、単一のコードファイルがこれの例を公開したと思います。特定のタグを正しく取得した場合、プラス1ポイントを与えるように、このXML構造に従うことでモデルにポイントを与えることができます。まだ間違った答えである整数の答えを持っているが、フォーマットが整数の答えであるべきだということを学習した場合、そのためにいくつかのポイントを得ます。

そして、ここには創造的になり、私たち自身のために物事が機能しているかどうかを知るための下流評価だけでなく、モデル自体がそれが機能しているかどうかを知り、さらに進んでより多くのトレーニングを実行するためのフィードバックとしてそれを使用できるようにするルールを設計するための多くの余地があります。

そして、これは非常に初期の段階です。私たちが知らないことがたくさんあり、創造的になり、探索し、物事を試すための多くの機会があると思います。LMSを使ってこれらのルーブリックを設計する、DSPIのようなフレームワークでこれらのルーブリックやプロンプトを自動調整する、スコアリングシステムの一部としてLMジャッジを組み込むなどです。

そして、報酬ハッキングは非常に注意すべき問題だと思います。アイデアは、使用している報酬モデルが実際に目標を捕捉していることを確実にしたいということです。そして、モデルが本質的に騙して、実際のタスクを学習することなく、最終的に超高い報酬を得る他の何かを実行する種のバックドアを持たないことです。

5. 高度なRL実装とAI開発の未来像

5.1 次世代ルーブリック設計と技術統合

Will Brown：そして、これに続いて、私は実際に人々が使用しているのを見た教訓から学び、単なる1つのコードファイルを超えた実際のプロジェクトに対して、もう少し堅牢で使用可能なものを作ろうとしてきました。そして、これは非常に最近の取り組みでした。これは明日すべての問題に使用するように私が皆さんに伝えているものではありませんが、これらの物事をより簡単に試し、これについてのいくつかの質問に答えるのに潜在的に人々を助けるであろう、私のオープンソース研究コードを実行する私の試みだと思います。

そして、これが本当にそうであるのは、マルチステップ環境内でRLを実行するためのフレームワークです。そして、ここでのアイデアは、私たちの多くがAPIモデルを使用するためのこれらの素晴らしいエージェントフレームワークを構築しているということです。そして、希望は、既存の環境とフレームワークを活用して、実際にRLを実行することができるということです。

そして、ここでのアイデアは、モデルがプラグインする環境のものを作成するだけで、重みやトークンについて心配する必要がないということです。相互作用プロトコルを書くだけで、これがトレーナーに送られます。そして、この環境を構築すると、それを実行させるだけで、いくつかの報酬を与えると、時間をかけてより良くなることを学習するモデルを持つことができます。

5.2 RL時代のAIエンジニアリング展望

Will Brown：結論として、RL時代におけるAIエンジニアリングがどのようになるかについて話したいと思います。これはすべてまだ非常に新しいものです。私たちが投げかけるタスクに対して、既製のAPIモデルがただ機能するかどうかは分かりません。そうなるかもしれません。そうならないかもしれません。

私がそれらが完全な解決策ではないかもしれない理由の一つは、プロンプトにスキルを含めることが本当に困難だということです。プロンプトに知識を含めることはできます。しかし、私たちの多くが何かを試すとき、初回でそれを完璧にすることはなく、少しの試行錯誤が必要です。そして、モデルもこのようであることが事実のようで、モデルは何かでより良くなり、本当にスキルを試行錯誤によって習得します。

そして、これはDeep Researchのような、これらのより高い自律性エージェントに対して、これまでに見た最も有望なブレークスルーでした。ファインチューニングはまだ重要かもしれません。そして、多くの人々がしばらくの間ファインチューニングを軽視していたと思います。なぜなら、オープンモデルが最前線から十分に遅れていたため、プロンプトされた最前線モデルAPIが、より小さなファインチューンされたモデルを単純に打ち負かそうとしていたからです。

私は今、オープンソースとクローズドソースのギャップが、これがそれほど懸念されないほど十分に近くなっているのを見ていると思います。多くの人々が彼らのプラットフォームでオープンソースホストモデルを使用しています。そして、また、RLの最も真の版で、DeepSeekがR1モデルに対して実行したもの、OpenAIがDeep Researchについて話したことは、いくらかの強化学習を実行することを必要とします。

ここには多くの課題があります。私たちが答えを知らない多くの研究質問があります。しかし、過去数年間AIエンジニアリングを実行することから私たちが学んだこれらのスキルが非常に直接的に翻訳される多くのことがあると思います。それは、環境とルーブリックを構築する課題が、評価とプロンプトを構築する課題とそれほど異なるものではないということです。

私たちにはまだ良いモニタリングツールが必要です。私たちが構築したいエージェントの種類をサポートする企業とプラットフォームと製品の大きなエコシステムが必要です。ですから、私たちが実行してきたすべてのことが不可欠になると思いますし、私たちが真の自律エージェントやイノベーター、または言語モデルによって駆動される組織のようなものを実現するために、もう少し強化学習を実行しなければならない世界に到達する場合を考えて、少し先を見ることは価値があります。

それはどのように見えるでしょうか。私たちは見つけるでしょう。