※本記事は、UC Berkeley准教授のSergey Levine氏による講演「Robotic Foundation Models」の内容を基に作成されています。本講演は、国際電気通信連合(ITU)が50以上の国連パートナーと共催し、スイス政府と共同開催するグローバルプラットフォーム「AI for Good」のディスカバリーイベントとして実施されました。講演の詳細およびアーカイブは https://www.youtube.com/watch?v=0YE9q8awQoc でご覧いただけます。本記事では講演の内容を要約・再構成しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈についてはオリジナルの講演動画をご視聴いただくことをお勧めいたします。
1. イントロダクション――なぜロボット基盤モデルが必要か
1.1 LLMの限界――物理世界には介入できない
Levine: 皆さんの多くは、大規模言語モデルが可能にしてきた能力についてよくご存知かと思います。AIアシスタント、プログラミングツール、ウェブ検索など、私たちが日常的に使えるツールとして広く普及しています。そこで、ふと思ったことはないでしょうか。「この大規模言語モデルに、家でやってほしいことを頼めたら便利なのに」と。たとえば「家を掃除して、洗濯物を畳んで、夕食を作って」と頼んだとしましょう。実際にGeminiにこの質問をぶつけてみると、返ってくるのは「忙しい夜になりそうですね」という言葉だけです。もちろん、大規模言語モデルは身体を持ったシステムではありませんから、せいぜいバーチャルアシスタントとして機能するに過ぎず、制御できるのはあくまで仮想的なものに限られます。では、もし同じ種類の汎用的な能力を物理的なシステム――つまりロボットに持たせることができたら、どうなるでしょうか。「家を掃除して、洗濯物を畳んで、夕食を作って」とロボットに頼んだら、ロボットが実際にそれをやり遂げてくれる。そんな世界を目指せないか、というのが今日お話しする出発点です。
1.2 ロボティクスが普及しなかった根本原因――応用ごとの個別R&D問題
Levine: ロボティクスは、物理的な形態において、経済や私たちの生活の多くの分野を本当に変革する可能性を秘めています。物流の自動化、家庭内作業、農業、医療など、人間が手で行っていることの多くは機械で代替できるはずです。さらに言えば、経済的に成立しないか労働力が不足しているために人間がまだやっていないこと――たとえば高齢者の介護なども――ロボットが担える可能性があります。それにもかかわらず、ロボットシステムの広範な普及が実現してこなかった最大の理由は何か。それは、ある特定のロボット応用を本当に解決しようとすると、その応用だけのために巨大なR&D体制を構築しなければならず、さらにその上に製品化のための体制も別途必要になるという構造的な問題です。ハードウェアの製造、カスタムソフトウェアの開発、動作のプログラミング、適切なモーションプランや安全機構の設計など、膨大な要素が絡み合います。ロボットハードウェアとしてはこれらすべてを実現する技術が数十年前から存在していたにもかかわらず、現実世界への大規模な展開が進んでこなかったのは、まさにこの問題のためです。
1.3 目指す姿――汎用ブレインによるあらゆるタスクへの対応
Levine: では、この問題を根本から解決するにはどうすればいいか。私が今日お話ししたい核心的な問いは、「あらゆるロボットがあらゆるタスクをこなせるような汎用ブレインを構築できるか」ということです。もしそれが実現できれば、物理的にはずっと前から可能だったはずの多くの応用が、実際に実行可能になります。しかも、同じ基本的なソフトウェアプラットフォームで。主なアイデアは、多種多様なタスクと多種多様なロボットで訓練されたジェネラリストポリシーを開発し、私たちが実現したいダウンストリームの応用に汎化させる技術を作ることです。約1年半前、私はPhysical Intelligenceという会社でまさにこの種のシステムを作り始めました。学術研究と産業の両面で積み重ねてきた長年の研究を基盤に、かなりのところまで到達することができました。
1.4 LLMがNLPにもたらした「汎用性の恩恵」との対比
Levine: 私がこの話をLLMから始めたのには理由があります。このアイデアの核心は、大規模言語モデルが自然言語処理にもたらした変化と密接に対応しているからです。かつて自然言語処理においても、各応用ごとに非常に異なる専用の技術スタックを構築する必要がありました。機械翻訳をやりたければ機械翻訳専用の技術スタックを一から作り、要約をやりたければ要約専用の技術スタックを作る、という形でした。しかし今や、大規模言語モデルはジェネラリストな自然言語処理能力を提供しており、同じ基盤技術ですべてのドメインに対応できます。ここで描くアナロジーは明快です。同じ種類の「汎用性の恩恵」が、ロボット基盤モデルを構築できさえすれば、ロボット技術の広範な応用展開をも可能にしうる、ということです。
1.5 本講演の三つの柱――モデル・データ・汎化性
Levine: これを実現するために理解しなければならない主要な課題は三つあります。第一は「モデル」、すなわち物理的なスキルを実際に学習できる機械学習システムとは何か、その基盤となるモデルの実体は何かという問いです。これは学術研究者が研究時間の大半を費やしているテーマでもあります。第二は「データ」、つまりこれらのシステムを実際に何で訓練するのかという問いです。ロボット基盤モデルの性能にとって絶対的に重要な要素であり、しっかりと議論する必要があります。第三は「汎化性」、すなわち実際に構築したモデルが、実用上必要とされる幅広いタスクに本当に対応できるのかを評価・理解できるかという問いです。この三つの柱に沿って、今日の話を進めていきたいと思います。
2. モデルアーキテクチャ:LLMからVLAへの進化
2.1 LLMの基本原理――トランスフォーマーによるテキストトークン予測
Levine: まずモデルについてお話しします。これはおそらく今日の講演の中で最も技術的に高度な部分ですが、できるだけ高いレベルで説明します。ロボット基盤モデルの基盤となる機械学習技術がどこから来ているのかを理解する価値は十分にあると思います。大規模言語モデルから出発し、視覚言語モデル(VLM)へ、そして現代の視覚言語行動モデル(VALA)へと、どのように発展してきたかを順を追って説明します。大規模言語モデルとは、本質的にはテキストの未来のトークンを予測するトランスフォーマーニューラルネットワークです。大まかに言えば、「穴埋め問題を解くモデル」として捉えることができます。前半部分のテキストを与えると、訓練データに基づいて確率的に後半部分を生成します。これは非常にシンプルなレシピですが、驚くほど強力です。たとえば前半が「質問」であれば後半は「回答」であるべきだということを学習できます。大規模言語モデルは現代の機械学習技術において実質的に二つの役割を果たしています。一つはウェブ上の膨大な知識を単一のニューラルネットワークに蒸留する手段として、もう一つはAIアシスタントや質問に答えるマシンそのものとして機能するという役割です。私たちがここで関心を持つのは前者です。LLMをAIアシスタントとして使うのではなく、ロボットシステムのコントローラを構築するための知識の基盤として活用するわけです。
2.2 VLM(視覚言語モデル)への拡張――画像エンコーダの追加
Levine: LLMはテキストしか解釈できません。これを視覚的な観測も処理できるように拡張したものが、視覚言語モデル(VLM)です。VLMは古典的には、LLMを土台として、画像をLLMと同じ表現空間に埋め込む別のニューラルネットワークを訓練することで構築されます。LLMはテキストを特定の埋め込み空間、つまりテキストの連続的な表現に変換します。VLMでは画像もその同じ空間に埋め込まれます。これによって、かつては大規模言語モデルだったものが、画像も解釈できる視覚言語モデルへと生まれ変わります。これはGemini、GPT-5など現代のマルチモーダルな大規模言語モデルがどのように機能しているかの本質的な基盤でもあります。これらはすべてこの原理に基づいています。
2.3 第1世代VALA――Q&A方式によるロボット制御とその限界
Levine: 視覚言語モデルをロボットの制御にも使いたい場合は、さらに出力側も拡張する必要があります。VLMの出力は依然としてテキストです。ロボットを制御するためには、ロボットアームに適用すべき制御信号を出力できる追加の出力モダリティが必要になります。第1世代の視覚言語行動モデル(VALA)はこの問題をかなり素朴な方法で解決しました。ロボット制御を本質的に一種の質問応答問題として扱い、質問はロボットへの命令(「Tシャツを畳んで」など)、回答はロボットアームに適用すべき制御値を表す数値の列として出力するというアプローチです。これはLLMやVLMに蓄積された知識をロボット制御に転用する上で合理的な方法でしたが、高度に流動的で高周波かつ巧みなロボット制御には適していませんでした。なぜなら、生の数値をそのまま文字として出力するというのは、スケーラブルなレシピとは言えないからです。
2.4 第2世代VALA――視覚野と運動野の統合アーキテクチャ
Levine: 現代の第2世代VALAは、VLMのアプローチを鏡のように映した設計になっています。VLMでは画像を処理するための追加のニューラルネットワークコンポーネント(画像エンコーダ)が付加されました。第2世代VALAでは同様に、行動を処理するための追加のニューラルネットワークコンポーネント(行動デコーダ)が付加されます。直感的に言えば、画像エンコーダが一種の「視覚野」だとすれば、行動デコーダはLMバックボーンに付加された一種の「運動野」です。このコンポーネントは通常、拡散モデルまたはフローマッチングの変形版で訓練されます。これらの機械学習技術は連続的な分布の処理に適しており、テキストのような離散値ではなくロボットの制御信号のような連続値を扱うのに向いています。端的にまとめると、第2世代VALAのレシピは、VLMが視覚野をLMバックボーンに接続したのと同じように、運動野をLMバックボーンに接続するものです。こうして第2世代VALAは、モーター制御に特化できる専用の連続値出力機構を備えることになります。
2.5 Pi0モデル――第2世代VALAの最初の実装
Levine: 第2世代VALAの一例が、冒頭の動画でお見せした洗濯物折り畳みタスクを実行したモデル、Pi0です。Pi0は実質的に最初の第2世代VALAであり、複数の画像を処理してLMバックボーンに入力し、拡散モデルの変形版であるフローマッチングを使って連続的な行動を出力します。約1年前に開発したこのモデルは、7種類の異なるロボットシステムから収集したデータと、インターネットから取得したオープンソースのロボティクスデータセットおよびロボット専用ではないが視覚・言語理解を与えるWebデータを合わせて訓練されています。訓練後のモデルはロボットの直接制御に使うこともできますし、高品質なPost-trainingデータを用いて特定の難易度の高いタスクに適応させることもできます。これはLLMの訓練手順と完全に対応しており、Pre-training段階で幅広い知識と理解をモデルに与え、Post-training段階でユーザーが実際に解きたい問題に対してその知識を使う方法を教える、という構造です。
2.6 Pi0.5モデル――高レベル推論(Chain-of-Thought)との統合
Levine: それから約1年が経過し、VALAはかなり進歩しました。以前は画像入力と言語コマンドを受け取り、連続的な行動を出力するだけでしたが、二番目の動画でキッチンの清掃をしているロボットに使われた現代のVALA、Pi0.5モデルでは、タスクのセマンティクスをより適切に捉えるための追加機構が組み込まれています。十分に高度な低レベルのモーター制御が実現できたとき、次のボトルネックは場面のセマンティクスを理解し、望ましい環境でどのように行動すべきかを合理的に決定する内部プランを生成することになるからです。Pi0.5では高レベルの推論と低レベルの制御を統合しています。Pre-trainingはnext token predictionという標準的なパラダイムに従いますが、訓練データにはテキスト、画像、バウンディングボックス、その他のコンピュータビジョンタスクのWebデータに加え、専用のトークナイゼーションで離散化されたロボット行動データも含まれています。Post-training段階では、先ほどの運動野に加えて高レベル推論のための新たな機構が統合されます。この高レベル推論は、GPT-5やGeminiといった現代の思考モデルが行うChain-of-ThoughtやThinkingと類比できるものです。モデルは場面を観察してユーザーのコマンド(「寝室を掃除して」など)を受け取ると、直接行動を出力するのではなく、中間ステップの予測をテキストで生成します。たとえば「この環境で寝室を掃除するには、まず枕を拾うべきだ」といった具合に、モデルは自分自身に語りかけます。そして最低レベルまで掘り下げた時点で「低レベルの行動が決まった。運動野であるAction Expertに送って、枕を拾うという行動を連続的な制御信号に変換させよう」という形になります。これが多くの現代の視覚言語行動モデルが採用しているアーキテクチャの大枠であり、タスクの実行方法をセマンティックにテキストでプランニングし、それを専用のAction Expertによって低レベルの行動に落とし込む、という設計です。
3. データ戦略:Pre-trainingとPost-trainingの設計
3.1 データはモデルと同等に重要――基本的な考え方
Levine: もちろん、これはニューラルネットワークの設計に過ぎません。これをすべて機能させるためには、適切な種類のデータで訓練する必要があります。NLPやコンピュータビジョンなど他の分野からも分かるように、データはこれらのシステムの性能にとって絶対的に重要です。ニューラルネットワークの設計と同等に重要なのです。
3.2 Pre-trainingデータの設計思想――多様性と網羅性の重視
Levine: 約1年前に開発したオリジナルのPi0モデルは、7種類の異なるロボットシステムから収集したデータで訓練されました。私たちの研究室で収集したデータに加え、インターネットから取得したデータも使用しています。Webデータにはロボティクス専用のオープンソースデータセットと、ロボット向けに設計されたわけではないものの視覚・言語理解をモデルに与えることができるデータセットが含まれます。Pre-trainingデータの総量は約10,000時間のロボットデータです。非常に多様なデータであり、多種多様なロボットから収集されています。重要なのは、このデータは必ずしも質の高い行動ばかりではないという点です。良いデータと悪いデータが混在しており、その目的はロボットが対処しなければならないかもしれないさまざまな状況の幅広さを示すことにあります。Pre-trainingの目的は、幅広い知識と理解をモデルに与えることです。つまりすべての知識を学ぶ段階です。
3.3 Post-trainingデータの設計思想――高品質・狭域データによる特化
Levine: Post-trainingデータは、Pre-trainingとは対照的に、概ね数十時間規模の、特定タスクへ特化した高品質なデータです。洗濯物の折り畳みや箱の組み立てといったタスクに焦点を当て、そのタスクを正しく実行するためにロボットが示すべき一貫した戦略を示します。Post-trainingのデータは高品質ですが狭域であり、タスクをうまく実行するための一貫した戦略を示します。Post-trainingの目的は、その知識をどのように使うかをモデルに教えることです。Pre-trainingで獲得した知識を踏まえた上で、「ではその知識を使って、ユーザーが解きたい問題を実際に解くにはどうするか」を教える段階です。
3.4 Pre-trainingとPost-trainingの相補的関係――失敗からの回復習得
Levine: ここで重要なのは、Post-trainingの良質なデータだけで訓練することは、単独では機能しないという点です。ロボットが失敗したとき、狭域なPost-trainingデータではほとんど見られないような非常に異常な状況に遭遇します。しかしPre-trainingで多様なデータを学習していれば、そのPre-trainingデータが実際にその範囲の状況をカバーしており、ロボットがどのようにリカバリすべきかを教えてくれます。つまりPre-trainingとPost-trainingは相補的な関係にあり、両者が揃って初めてシステム全体が機能します。Post-trainingデータが高品質で一貫した成功戦略を示す一方、Pre-trainingデータは失敗状況からの回復を担保するという役割分担です。タスクが比較的シンプルであれば、少量のデータで新しいタスクや新しいロボットプラットフォームに対して非常に効率的にPost-trainingを行うことも可能です。
3.5 Pi0.5のデータ構成――Webデータ・HL指示・Verbal Instruction・複数ロボットの統合
Levine: Pi0.5のPre-trainingデータ構成は、Pi0よりもさらに複雑になっています。テキスト、画像、バウンディングボックス、その他のコンピュータビジョンタスクを含むWebデータ、そして専用のトークナイゼーションで離散化されたロボット行動データを組み合わせて、すべてのモダリティを理解するよう訓練します。Post-training段階では、運動野に加えて高レベル推論のための新たなコンポーネントが統合されます。データの種類も多岐にわたります。高レベル指示データ(HL)は、画像とロボットへの命令をペアにしたセマンティックなデータです。Verbal Instructionsは、ロボットがうまくいかなかった環境に入って、タスクをステップバイステップで言語的に教えるデータです。たとえば「このキッチンを片付けるには、まず電子レンジを閉めて、次にお皿を持ち上げて、シンクに置いて」という形で逐一指示を与えます。Webデータは画像キャプションや視覚的質問応答といった形式で取り込まれています。これらのデータソースの組み合わせがPi0.5の性能を支えており、後述のアブレーション実験でそれぞれの寄与が確認されています。
3.6 モバイルロボットデータわずか3%での汎化――Foundation Model事前学習の威力
Levine: Pi0.5のデータ構成で特に注目すべき点があります。実際にこのモデルのテストに使ったのはモバイルロボットでしたが、そのモバイルロボットのデータはデータセット全体のわずか3%に過ぎませんでした。モバイルロボットは比較的高価であり、データ収集が困難だからです。ここには重要な示唆があります。従来のロボット学習のパラダイムでは、データは実際に展開されるプラットフォームで直接収集するのが一般的でした。しかしロボット基盤モデルを非常に多様なデータセットで訓練する場合、このモバイルロボットのような全く新しいタイプのプラットフォームでさえも、非常に少量のデータで対応できることが実際に示されました。広範なデータでPre-trainingされたモデルがすでに物理的なインタラクションについてかなり良い理解を持っているため、わずか3%のデータしか含まれていないにもかかわらず、モバイルロボットはかなり幅広いスキルを習得することができました。これはロボット基盤モデルが新しいロボットプラットフォームへの広範な展開を可能にするという大きなポテンシャルを示すものです。
3.7 LLMの訓練レシピとの対比――Pre-training → SFT → RLへの展望
Levine: ロボット基盤モデルが目指す次のステップを理解するために、通常の基盤モデルの訓練とロボット基盤モデルの訓練を並べて比較することが助けになります。LLMやVLMといった通常の基盤モデルの訓練レシピは、この時点でかなり明確に定義されています。Webからの多様なデータを使うPre-training段階と、高品質データによるSupervised Fine-tuningと、多くの場合は人間フィードバックからの強化学習(RLHF)またはより頻繁には検証器を用いた強化学習(RL with verifiers)を使うPost-training段階から構成されます。同様のアプローチが将来的にはロボット基盤モデルにも実用的になりうると考えられます。ロボット基盤モデルも非常に多様なデータでPre-trainingされ、その後高品質なデモンストレーションデータと強化学習の両方でPost-trainingされることで、最高レベルの性能を達成できるようになるかもしれません。VALAを強化学習で訓練することは現在も最先端の研究領域ですが、強化学習アルゴリズム自体は非常に洗練されてきており、具体的な実験結果については後のセクションでご紹介します。
4. 実験結果と主要な発見・気づき
4.1 洗濯折り畳みタスク――衣類の多様な初期配置への対応
Levine: まず洗濯物の折り畳みタスクについてお話しします。このタスクでは、ロボットがバスケットから衣類を取り出して折り畳みます。異なる衣類アイテムを折り畳むことができ、複数のアイテムが存在する場合はスタックにして折り畳むこともできます。また、異なるロボットプラットフォームでも実行可能です。テーブルの前に立つモバイルロボットでも同様のタスクをこなせています。完璧ではなく時折ミスをすることもありますが、重要なのはPre-training・Post-trainingのレシピによって、ミスをした場合のリカバリの仕方もモデルが学んでいるという点です。乾燥機から衣類を取り出すといった動作も可能です。このタスクを選んだ理由は、こうしたタスクに存在するバリエーションが非常に膨大だからです。ロボットが工場で行うような初期状態が厳密に管理されたタスクとは異なり、衣類の初期配置は極めて多様であり得ます。つまりロボットはこれらのアイテムが取り得るあらゆる配置に対応できる汎化可能なポリシーを本当に必要としているのです。
4.2 【創発的発見】意図しない擾乱リカバリ行動の出現
Levine: このレシピの非常に興味深い点の一つは、外乱からのリカバリを学習する能力です。これは私たちが当初意図したものではありませんでした。モデルを訓練した後、さまざまな方法で外乱を与える実験を行いました。たとえばMichaelがショートパンツを折り畳もうとしているロボットのテーブルに別の衣類を投げ込むと、ロボットはそれをバスケットに戻す必要があると判断します。これはモデルに意図させたものではありませんでした。しかし大量の多様なデータから学習する過程で、モデルはLLMが創発的な能力を獲得するのとまったく同じように、こうした種類の行動を自然に獲得したのです。さらに多くの外乱の例を試しました。Michaelがロボットに干渉しても、いずれのケースでもロボットはその外乱から回復するために何か合理的なことを行います。これは実世界でのロボット展開にとって本当に重要なことです。家庭や病院やオフィスビルといったオープンワールドの環境では、予期しないことが必ず起こります。絶対にミスをしないロボットを作ることは不可能かもしれませんが、ミスを修正して回復できるロボットがあれば、そうした状況に実際に対処できるのです。
4.3 ダンボール箱組み立てタスク――接触ダイナミクスと誤把持からの回復
Levine: Pi0を新しいタスクにFine-tuningした例として、このモデルをPre-trainingに存在しなかったタスクに適応させる実験を行いました。タスクは平らに畳まれたダンボール箱を持ち上げて完全に組み立てるというものです。研究者のSurajnireが未折り畳みの箱をロボットの前に置き、ロボットが折り畳み始めます。これは非常に複雑な動作です。ロボットが多くのミスをすることが実際に確認できます。時に誤った把持をしたり正しく折り畳めなかったりして、そこからリカバリする必要があります。箱を正しく折り畳むためにはテーブルに押しつけて固定しなければならないため、物理的にも非常に難しいタスクです。これは機械学習なしには実質的に不可能な種類の動作です。伝統的なロボットのモーションプランニング手法では対応できません。変形可能な箱のモデリングの難しさと、このタスクを実行するために必要な物理的な複雑さと接触ダイナミクスの両方の理由からです。このタスクはさまざまな初期条件でも機能します。この最初の研究から約1年が経過しており、その後ポリシーを改善してより高い習熟度で実行できるようになっています。
4.4 Pi0.5による未知の家でのキッチン清掃――学習環境外への汎化実証
Levine: Pi0.5では高レベル推論と低レベル制御を統合しています。これによって、より長い時間軸の問題に対応できるようになりました。Pi0.5モデルが寝室を清掃するビデオをご覧いただきました。アイテムの数によっては10分から最長30分かかる非常に時間的に延長されたタスクです。すべての洗濯物アイテムをバスケットに入れ、ゴミを片付け、ベッドを整えるといった作業が必要です。この種の作業にはモデルが何をしているかを通じて高レベルの推論が必要です。このビデオで特に興味深いのは、このテストが訓練データには一度も登場しなかった家で実施されているという点です。これはまさにジェネラリストロボットに求めるものですが、この研究が出るまでは実際にうまく達成されたことがなかったことでもあります。Pi0.5がPi0と異なる主な点は、タスクの中間段階が何であるべきかについて言語で内部的な思考を持つことで、より長い時間軸の行動を追跡し続ける能力です。
4.5 汎化性能の定量評価――100拠点訓練で直接訓練と同等の成功率を達成
Levine: Pi0.5で理解したかったことの一つは、Pi0.5が全く新しい家に汎化できる可能性です。サンフランシスコ周辺の家々で訓練を行いました。合計100の場所で訓練し、訓練には見られなかった新しい環境、つまり全く新しい家でいくつかのタスクの性能をテストしました。グラフを見ると、性能は異なる数の場所で訓練した後にどのように変化するかが分かります。性能はおよそ60から100の家で訓練したあたりから頭打ちになり始め、100の家に達すると約80%の成功率になります。これは実はそれほど高くはなく、この数字をより高くするためにまだやるべき作業があります。しかしここで重要な問いは、この成功率・汎化数値が、実際にデプロイ先の場所で直接訓練した場合に得られるものにどれだけ近いかということです。この上限は100%とは限りません。システムには他の技術的な限界があるからです。上限はテストの家で直接データを収集して訓練した場合に何が起こるかです。それが緑のバーで示されています。テスト環境では訓練されていない黄色の曲線が、テスト環境で直接訓練されたモデルの信頼区間内の性能に実際に一致しています。つまり汎化という面では、汎化能力はここで頭打ちになっています。もちろんこれは次の問いを開きます。どうすれば80%から100%に上げられるのか。それについては講演の後半でお話しします。
4.6 【重要な実験結果】Foundation Model初期化なしでは性能が半減
Levine: もう一つ測定したのは、汎化の実験と同じものを行った場合に何が起こるかですが、汎化の際に汎用ロボット基盤モデルを初期化として使わない場合、つまりこれらの異なる家のモバイルロボットデータだけで訓練したらどうなるか、ということです。これは実際にかなり悪い結果になりました。たとえテスト環境で直接訓練するというズルをしても、基盤モデルの初期化を使わない場合(薄い緑のバー)、性能は基盤モデルを使った場合の半分です。そして基盤モデルの初期化を使わず訓練の家だけで訓練してテストの家では訓練しない場合、性能は極めて低くなります。つまりこれが示しているのは、確かに汎化能力は同一ドメイン内での訓練から得られるものに匹敵するが、それは多様なデータセットで訓練されたロボット基盤モデルを実際に使う場合に限られるということです。多くの異なるロボットプラットフォームで多くの異なる場所での、その多様なデータセットからの訓練が必要なのです。
4.7 アブレーション実験――HL指示・Verbal Instructions・Webデータの各寄与
Levine: 高レベル推論、つまりPi0.5モデル内部の思考からの限界的な利益も測定しました。比較されているさまざまな手法がありますが、簡単にまとめると、黄色で示された左端のバーが完全なPi0.5モデルです。HLはHighLevelの略で、訓練に高レベルデータを含めることを意味します。VIはVerbal Instructions、つまりロボットをタスクに通して歩かせる追加データです。WDはWebデータ、画像キャプションや視覚的質問応答のようなもののためのWebから取得したデータです。黄色のバーより右の異なるバーは、特定のコンポーネントを除いたモデルのアブレーションです。HL指示なし(No HL)、ロボットをタスクに通して歩かせるVerbal Instructionsなし(No VI)、Webデータなし(No WD)を意味します。これらのアブレーションのそれぞれがモデルの性能を相当程度低下させることが分かります。
4.8 【意外な発見】暗黙的HL――テスト時に推論しなくても訓練時の思考データが効く
Levine: 興味深いベースラインは左から2番目の薄い緑のバーで、Implicit HLとラベルされています。これは本質的に全く同じデータミックスで訓練されているが、テスト時には実際に思考を実行しないモデルです。つまり基本的には思考するよう訓練されているが、テスト時には思考しないよう求められています。興味深いことに、これは2番目に優れたモデルです。つまり利益の多くは、テスト時に使用されなくても、そのような言語コマンドをすべて訓練に含めることから実際に得られているということです。もちろんテスト時にそれらを使えばさらに良くなりますが、これはモデルがそのセマンティクスを本当に理解して、そこから知識を転移させていることを示しています。
4.9 Verbal Instructionsによる改善――行動監督なしの言語コーチングだけで性能向上
Levine: Pi0.5モデルのもう一つの興味深い点は、モデルが物理的なインタラクションについて十分に高度な理解を獲得したとき、さらに高レベルの監督のみでさらに改善できるということです。私たちが行ったことの一つは、Verbal Instructionsと呼ぶデータを組み込んだことです。本質的に、ロボットがうまくいかなかった環境に入って、タスクをステップバイステップで言語的に教えます。「このキッチンを片付けるには、まず電子レンジを閉めて、次にお皿を持ち上げて、それをシンクに置いて」というように。この一連のVerbal Instructionsは、ロボットがそうでなければ失敗するような新しい家でロボットを成功させるのに実際にしばしば十分でした。さらに、それらのVerbal Instructionsを訓練データに含めたとき、追加の行動監督なしで新しい家でのロボットの性能が実際に向上しました。これは非常に興味深い結果です。なぜならモデルが物理的なインタラクションで十分に優れていれば、人が言葉でスキルをコーチングされることで上達するのと同じように、高レベルの監督のみを通じてさらに改善できることを示しているからです。ロボット基盤モデルを持つことのパワーを改めて示す結果です。これらの基盤モデルを持てば、さらなる改善も容易になります。高レベルの監督を処理できるからです。
4.10 Astrobotヒューマノイドへの少量データ転用実験
Levine: これらのモデルを他のロボットプラットフォームに適応させる取り組みも行っています。Astrobotというヒューマノイドロボットを開発している会社との実験です。Pi0モデルをAstrobotのロボットに対してこのロボットプラットフォームからの適度な量のデータを使ってFine-tuningしました。このロボットはモデルのPre-trainingデータで見られたものとは完全に異なるにもかかわらず、ロボットはかなり高度なタスクを実行することができました。このビデオはロボット基盤モデルのポテンシャルをよく示しています。モデルが対象のロボットでPre-trainingされていなくても、Pre-trainされたロボット基盤モデルを適応させることで新しいロボットプラットフォームへのコントローラ取得が可能になります。これは他の企業がロボットハードウェアで革新し、Pre-trainされたロボット基盤モデルを適応させることでそのハードウェアのコントローラを迅速に取得できるようにする可能性を示しています。
4.11 強化学習実験――PCBチップ挿入を数十分の実機学習で習得
Levine: 強化学習を使って行ったいくつかの最近の実験の結果をご紹介します。左のビデオでは、ロボットがPCBボードにチップを挿入することを学習しています。これは実際に数回のデモから始まるリアルタイムの学習プロセスを示しています。最初の数分ではロボットは概してタスクに失敗します。しかし学習が進むにつれて、目の前でチップをボードに挿入することを徐々に学んでいく様子が見えます。すでにしばしばチップをPCBボードに挿入できており、約10分後には一貫してこれを実行できるようになっています。もちろん一度そのスキルを習得すれば、好きなだけ使えます。これが特に興味深いのは、視覚的観測からの強化学習は従来、シミュレータで何百万回もの試行を必要とする非常にコストのかかる技術と考えられていたからです。しかし現代の強化学習手法――この場合はSURLという手法――ではわずか数十分でこのタスクを学習できます。これを可能にする要因はいくつかあります。強化学習アルゴリズムの進歩が一つの大きな要因です。効率性を高める他の要因には、人間のループ介入の組み込みがあります。右のビデオでは2台のFrankaロボットがタイミングベルトをギアに取り付けることを学習しています。画面が赤くなると、専門家ユーザーが実際にリアルタイムでロボットの動作を修正してミスの修正方法を教える専門家による介入があります。これらの追加の修正は強化学習に組み込まれます。ロボットは単純にそれらを模倣するだけでなく、一種のコーチングとして使って自分の行動を改善します。強化学習アルゴリズムが学習できる動作の種類も多岐にわたります。タイミングベルトの取り付け、ジェンガブロックを塔から除去するためにロボットがムチを使う非常にダイナミックなスキル、卵のフリップ、IKEA家具の組み立てを人が行う際のアシストなど、さまざまなスキルがあります。
5. Q&Aセッション:主要な議論と未解決課題
5.1 観測可能性(Observability)――意図通りに動いているかをどう知るか
司会(Martinez Roer): 最初の質問です。VALAの観測可能性についてどうお考えですか?意図通りに動いているかどうかをどうやって知ることができるのでしょうか?
Levine: これは非常に微妙な問いです。一般的に言って、機械学習システムを構築して、それがあらゆる設定で確実に機能することを保証するのは非常に難しいことです。実際、多様な環境で自律的なロボットを制御することを意図したあらゆる種類のシステムを構築して、常に機能することを保証することは困難です。私が目指すべきと思うのは、二つの本質的な要素を持つシステムを構築することです。一つ目は常識的な理解であり、それは高レベルなセマンティック推論から来るものです。予期しないことが起きたとき、モデルは少なくとも何か奇妙なことが起きていると理解して、セマンティックに合理的な方法で反応できるべきです。たとえばロボットが洗濯物を折り畳んでいるときに猫がテーブルに座ったとしましょう。ロボットはその状況にどう対処するか分からないかもしれません。タスクを成功させることはできないかもしれませんが、少なくとも何か異常なことが起きていると理解して、停止すべきだと、状況が解決するまで待つべきだと、あるいは何か合理的なことをすべきだと分かるべきです。基盤モデルは世界の良好な視覚的理解を持っているため、これに対する非常に強力なツールを与えてくれます。猫がテーブルに乗っている写真をGeminiやGPT-5に見せて「この状況でロボットは何をすべきか」と聞けば、おそらく何か合理的なことを教えてくれます。それをVALAを通じてロボットシステムに転移させることができれば、常識を通じてその種の堅牢性が得られます。二つ目は、実際にタスクを成功させるという方向性により関連することですが、システムがミスから学んで改善できるよう構築する必要があります。これこそが強化学習技術が本質的に重要な理由です。100%の時間でゼロショットで目標環境で成功できるシステムを完全に得られなくても、ミスをしたとき、それを訓練に組み込んでより良くなれるべきです。これは非常に難しい問題であり、現在の研究の最前線にあります。しかし強化学習技術はそこまで到達できると思います。
5.2 人間動画データの活用限界――テニス学習の比喩による解説
司会(Martinez Roer): 次の質問です。ロボット訓練サンプルの代わりに人間データで訓練するにはどうすればいいでしょうか?人間の行動をロボットの行動に複製するためのレイヤーが必要になるかもしれません。
Levine: これは非常に良い質問で、ロボット研究者たちが長い間非常に関心を持ってきた問題です。ロボットデータはそれほど豊富ではない一方、人間の動画ははるかに入手しやすい。では人間の動画をどうロボット学習に適切に組み込むか、という問いです。これは複雑な問いで、私自身の意見はこうです。人間の動画だけで動作するロボット学習システムを構築することは非常に難しいと思います。人間でもそれはできないでしょう。テニスが上手くなりたいとして、テニスを練習する代わりにテレビでテニスを観るだけとしましょう。タスクの構造について何かを学べるかもしれません。「ああ、これが使うべき戦略なのか」と学べるかもしれません。しかしテレビで観るだけでテニスの達人になることはできません。でも、もしテニスをプレイして練習して、その上でテレビで観ればどうでしょうか。今度は異なる情報源をまとめてより上手くなることができます。ロボット学習システムで人間の動画を活用する鍵は、ロボットデータを使った基盤を確立した非常に良いロボット基盤モデルを構築して、その上でそれらが人間の動画を監督としてより上手く活用できるようにすることだと思います。テニスプレイヤーが自分自身の練習からの根拠のある知識の基盤を既に持った上でテニスを観ることで学べるのと同じように。基本的なメッセージとしては、本当に良い基盤モデルを構築しましょう、ということです。その上に積み重ねれば、こうした他の監督ソースを活用するのがより良くなるからです。
5.3 ナビゲーションへのVALA適用――合成ラベリングと言語追従性能
司会(Martinez Roer): 屋外ナビゲーションアプリケーションにVALAを試してみましたか?
Levine: 非常に良い質問です。この講演で説明した実験はマニピュレーションに完全に焦点を当てたものです。洗濯物を畳むといったタスクには、本当に良い代替手法がないため、現代のロボティクスで最も困難なフロンティアの一つだからです。しかし私たちはナビゲーションにもVALAを試しました。その設定では非常に良く機能しました。ナビゲーション向けのVALAモデルで本当にエキサイティングなことの一つは、素朴な方法で得られるよりもはるかに豊かな言語追従能力を与えられることです。実際に、ドライビングや歩道ロボットのようなドメインからナビゲーション用のデータセットを、人間が提供した言語ラベルなしに取得して、GeminiやGPT-5のような既存のVLMで合成的にラベルを付け、VALAモデルにFine-tuningすることができます。するとかなり高度な言語追従性能が実際に得られます。私の学術研究室UC Berkeleyから、Naryyaki Hiroが著者の最近の研究でOmniDriveというものがあります。ナビゲーション向けVALAに興味がある方にはぜひチェックしていただきたいです。かなり良い結果が出ています。NvidiaのNilaというものもあり、これも非常に興味深いです。非常に活発な研究領域です。
5.4 タスク完了の検知方法――現状の限界と高レベル推論による展望
司会(Martinez Roer): タスクの終了をどのように指定しますか?その情報を訓練データに含めますか?含める場合はどのようにしますか?
Levine: これまでのところ、あまり洗練された方法では行われていません。この発表でお見せしたすべてのタスクでは、実際にはロボットはタスクを終えたときに腕を休止位置に戻すよう単純に訓練されています。モデル内にそれを明示的に検知するものは何もなく、データの中で腕がタスクの最後に休止位置に戻っているため、そうするというだけです。しかしこれは現実的なデプロイメントにとって本当に良い一般的な解決策ではありません。現実的なデプロイメントではロボットは多くのことを求められるかもしれません。そのため何かを終えたときを理解して次のタスクに移る必要があります。これは高レベル推論の同じメカニズムを活用することで対処できます。高レベル推論プロセスがセマンティックなステップを出力するのと同じように、自分自身のステップを評価することもできます。これは私たちが実験したことですが、まだ発表した研究はありません。今後の研究として取り組んでいます。
5.5 【意外な発見】Cross-Embodiment汎化――素朴なゼロパディングで十分に機能
司会(Martinez Roer): ロボットが固定型、移動型、空中、海洋といった異なるドメインを越えてどのように学習できるかについてはどのようにお考えですか?基盤モデルを通じてこれがどのように可能になるでしょうか?
Levine: 最初に異なる形態をまたいだシステムに取り組み始めたとき、これはおよそ3年前でRTXプロジェクトから始まりましたが、異なる形態を扱うために専用のシステムと専用のニューラルネットワークアーキテクチャを開発する必要があると思っていました。しかし過去数年間で実際に分かったことは、非常に素朴なアプローチでも実際にはかなりうまく機能するということです。少し驚きでしたが、振り返ってみれば理にかなっているかもしれません。ニューラルネットワークが異なる環境や異なるオブジェクトに汎化できるのと同じように、異なるロボットの形態にも汎化できるのです。Pi0とPi0.5モデルは実際には何も巧みなことをしていません。ロボットのすべての行動を単一のベクトルに連結し、存在しない行動はゼロでパディングして、モデルに入力するだけです。行動空間をセマンティックに関連する方法で分解するという点でより洗練された研究の余地は確かにあると思います。しかしこれまでのところ、それが実際に大きな障害になるとは分かっていません。
5.6 長期タスクとメモリ――分布シフト悪化という構造的課題
司会(Martinez Roer): 長い時間軸のタスクは一般的に非マルコフ的であり、ロボットがそのような観測に直面したときに混乱することを観察しました。VALAがどのように対処できるとお考えですか?
Levine: これは非常に高度な質問です。少し文脈を説明すると、ある種の告白として申し上げると、この講演でお見せしたすべてのポリシーにはメモリがありません。つまり現在のタイムステップを観測するだけで、実際にはそこにどのように至ったかを追跡していないのです。ロボットのポリシーにメモリを組み込むことは実際に大きな課題でした。方法はあり、不可能では決してないですが、難しくする理由の一つがあります。技術的なレベルで対処しなければならない最大の課題の一つは、分布シフトと呼ばれるものです。分布シフトとは、訓練中にモデルに見られる入力の分布がデプロイ中に見られるものと一致しないことを意味します。なぜ一致しないのか。デプロイ中はロボットが自分自身の行動を選択しているため、訓練中にはそのミスが存在しなかったため見られなかったような状態に遭遇するからです。メモリを組み込むとこの問題が悪化します。メモリを組み込むと、単一の観測のレベルでの分布シフトと、履歴のレベルでの分布シフトの両方に対して脆弱になります。履歴のレベルでは分布シフトを経験する方法がはるかに多くあります。そのためメモリを使うこと、つまり履歴を使うことは、汎化がうまくいくロボットのポリシーを得ることを実際にはより困難にします。これは現在も活発な研究領域です。この領域では非常に良いアイデアが出されていますが、この問題を軽減しながらロボットシステムにメモリをうまく組み込む方法をコミュニティがまだ完全に解明したとは言えない進行中の研究領域です。今年か来年には大きな進展があるかもしれませんが、まだ未解決の問いです。
5.7 3D理解の必要性――創発か明示的設計かというML界の根本論争
司会(Martinez Roer): 3Dセマンティック理解はロボットアプリケーションに基盤モデルを使う上で重要だとお考えですか?人間や多くの動物は両目を持ち、この世界の3D認識を形成します。
Levine: 非常に興味深い質問です。この問いは機械学習における非常に長年の議論の核心に触れています。学習モデルにおける理解が創発的なものかどうか、あるいは人間が指定した帰納的バイアスから来るものかという問いです。私がお見せした現在のモデルはすでに暗黙的な3D理解を持っているかもしれません。複数のカメラビューを使って世界で行動する方法を学習しているからです。お見せしたすべてのポリシーは3つのカメラビューを使用しています。各手首に1つずつと、ベースに1つです。原理的にはこれは3D構造を推定するのに十分ですが、モデルのアーキテクチャの設計やモデルの訓練には実際には3D構造が明示的にエンコードされていません。つまり創発的かもしれないし、そうでないかもしれません。ML界での議論は、ある種の構造が重要だと分かったとき、それを手動でシステムに組み込もうとすべきか、それともシステムが自力で理解できるような種類のデータを提供すべきかという問いをめぐっています。これについて詳しく知りたい方には、Richard SuttonのBitter Lessonというエッセイをチェックすることをお勧めします。特定の種類の構造を組み込みたくない理由についていくつかの示唆を議論しています。もちろんすべてのルールには例外があります。たとえばコンピュータビジョンでは畳み込みニューラルネットワーク(CNN)が長年非常に成功しており、CNNは特定の種類の不変性を組み込んでいると言えます。3D世界の構造はネットワークに不変性として組み込まれるべきものかどうか、私には分かりません。しかし明確にどちらかとは言えないと思います。なぜなら、必要なデータを提供しながらネットワーク自身に理解させることが、手動で指定するよりも良く機能することがあるからです。
5.8 小型モデルの役割――迅速なイテレーションとスケーリング則の活用
司会(Martinez Roer): 物理世界への小型言語モデルの研究の方向性、実現可能性、実用的な用途についてどうお考えですか?参入障壁を下げてより多くのイノベーションを促進するという目標もあります。
Levine: 興味深い質問です。私が言えることはこうです。産業規模のモデルについて研究したい場合でさえ、非常に十分なリソースを持つ会社に勤めていても、迅速にイテレーションできることは非常に重要です。つまり小型モデルで作業して科学的に関連性があり統計的に有意な答えを導き出せることは、この分野の進歩に不可欠だと思います。アクセシビリティと科学の民主化に関心があるかどうか、あるいは単に進歩を重視してリソースの制限をあまり気にしないかどうかにかかわらず、小型モデルを使って実行可能な結論と大規模でも成立する結論を導き出す方法を理解することは本当に本当に重要です。スケーリング則が基盤モデルの研究に大きな影響を与えた主な理由はまさにこれです。小規模から答えを導き出してそれらの答えを大規模で使うことができるツールだったからです。本番品質の最強のシステムについて、より小さなモデルがそうした能力を達成するのを見るようになるのか、それとも本番環境に展開したいときは最大のモデルを使いたいという状況が引き続き続くのか、私には分かりません。最近の研究は両方に向けてポジティブな兆候を示しています。小型モデルが非常に有能になっているのを見る一方、より大きなモデルがさらに有能になっているのも見ています。どちらに転ぶか分かりませんが、ある意味ではそれを解決する必要はないかもしれません。とにかく小型モデルの使い方が上手くなる必要があります。それが迅速に研究して進歩する方法だからです。そして結局同様に強力になるなら、なおさら良いことです。
5.9 ナビゲーションとマニピュレーションのデータ転移実験
司会(Martinez Roer): ナビゲーションとマニピュレーションの両方に同じVALAを使うことについてどのようにお考えですか?
Levine: 非常に興味深い質問です。数年前にStanford大学のJonathan Yangが主導した研究を行いました。まさにこの問いを検討したもので、歩道ロボットや自動運転車といったロボットナビゲーション設定からのデータとロボットアームからのデータを取り込み、両方の監督ソースを組み合わせることが実際に性能を向上させるかどうかを系統的に検討しました。実際に大きな違いをもたらすことが分かりました。Visual Servoingを伴うマニピュレーションタスクの転移を改善するのに成功したのです。オブジェクトを把持するときは常に、グリッパーをオブジェクトに向けて動かすVisual Servoingタスクを行っていることになります。ナビゲーションデータはその汎化を改善するのに実際に非常に役立ちました。理にかなっています。なぜならナビゲーションデータははるかに幅広い傾向があるからです。モバイルロボットを持つと、世界のはるかに多くを見ることになります。そのような種類のデータから学べる基本的なパターンは、本質的に自分の行動によって空間を通じた動きがどのように影響を受けるかということです。Visual Servoingをより上手く行いたければ、それについての理解が向上することは役立ちます。ただし、この種の転移がVisual Servoingを超えて、たとえば物理的インタラクションについても何かを学べるかどうかについては今後の研究課題です。それほど明確ではなく、将来の研究領域だと思います。
5.10 速いタスクと遅いタスクへの対応――適応的推論頻度という未解決課題
司会(Martinez Roer): もう一つの質問は、速いタスクと遅いタスクという異なるタイプのタスクにどう対処するかです。タスクによっては反射的な応答が必要なものもあります。VALAはどのようにしてこれを達成できるのでしょうか?
Levine: お見せした実験では、高レベルの推論は単純に固定した時間間隔で実行されています。だいたい2秒ごとにロボットが新しいセマンティックコマンドを生成するような形です。ご指摘は完全に正しく、たとえば速い反応を必要とするタスクでは、モデルが激しく考えるべき時と素早い反応に頼るべき時を動的に判断する必要があるかもしれません。LLMで適応的にどれだけ考えるかを決定するために使われてきたのと同様のアイデアが、ここにも適用できると思います。非常に興味深い領域で、そのような速い反応が求められるタスクはたくさんあります。しかしこれは現在の研究の最前線にあると思います。
5.11 【実験的発見】微細操作における視覚エンコーダの限界と必須の再学習
司会(Martinez Roer): ネジや針のような小さなオブジェクトに関連する微細なマニピュレーションタスクを知覚する際の基盤モデルの限界についてはどうでしょうか?
Levine: これは実際に少し厄介な問題です。技術的に特別な答えは持っていませんが、一つの証拠をご紹介できます。この研究を行っていたとき、私たちのモデルは既存のオープンソースのVLMをベースにしており、事前訓練済みの画像エンコーダを使っています。従来、VLM向けの画像エンコーダは自己教師あり学習の目的関数やセマンティックなCLIPの目的関数の変形版で訓練されています。VLMに取り組む研究者たちは伝統的に、これらのビジョンエンコーダを微調整することが役立つこともあるが、多くの場合、自己教師あり学習やCLIPで訓練されたビジョンエンコーダはすでにVQAや画像キャプションといったベンチマークで起こるセマンティックな多くのタスクに対して非常に優れているということを発見しています。ロボティクスのタスクでは、コンピュータビジョン研究者の経験とは対照的に、エンコーダをエンドツーエンドで微調整することが絶対的に不可欠であることが分かりました。この証拠は実際に、これらのビジョンエンコーダにおける空間的理解が洗練されたロボット制御に必要なレベルには達していないことを示唆しており、おそらく小さなオブジェクトの問題はその一例です。将来的にこれがどのように対処できるかという点では、より高い解像度の画像を扱うという力技的なアプローチが常にあります。手首搭載カメラは実際には非常に役立ちます。ハードウェア的なハックですが、大きな違いをもたらします。将来的にはフォベエーションのようなより洗練された手法も開発されるかもしれません。ただし具体的に言えることは、コンピュータビジョンでセマンティックタスク向けに開発されたビジョンエンコーダはこれらのロボット問題には最適ではないおそらく、ということです。
5.12 計算資源と持続可能性のトレードオフ
司会(Martinez Roer): これらの大型モデルが必要とする膨大な計算資源についてどのようにお考えですか?ロボット基盤モデルの訓練においてイノベーションと持続可能性のバランスをどのように取るかについてどのようなお考えをお持ちですか?
Levine: これは複雑な問いです。特に巧みな答えは持っていません。課題であることは確かで、推論の実行コストだけでなくR&Dのコストも考慮に入れると特に課題です。本番環境では、モデルを動かすコストは事前に計算できます。しかしR&Dには多くの異なるモデル設計を通じてイテレーションすることが必要で、それも膨大な計算資源を必要とします。課題だと思います。ロボットの問題がそれを容易にするとは思いません。むしろ難しくします。なぜならロボティクスはより複雑なシステム、より複雑な訓練手順を必要とする非常にマルチモーダルな問題だからです。課題であることは確かで、非常に慎重に考えるべき課題だと思います。残念ながらその課題をより小さな課題にするようなツールは持っていません。
6. 今後の展望――ロボットが現場で自律的に改善する未来
6.1 次のブレークスルー――実業務中の自律的改善アルゴリズムの確立
司会(Martinez Roer): 最後の質問です。毎日この研究に取り組んでいるLevine教授の視点から、真の人間とロボットのリアルタイムでの実世界でのコラボレーションを実現するために、次に来るブレークスルーは何だとお考えですか?
Levine: 良い質問ですね。この分野で次に来ると予測する最も重要なステップの一つは、ロボットが実際の業務中に直接改善できるようにする、堅牢で信頼性の高いアルゴリズムの確立だと思います。そのような手法の萌芽はすでに存在しています。しかしシステムの観点から言えば、Pi0.5のような最大規模のモデルを訓練する手法は、依然として低レベルの行動という形式での非常に厳格な監督に強く依存しています。
6.2 監督形式の転換――低レベル行動監督から自然な監督(成果・フィードバック・言語)へ
Levine: 成果からの自然な監督、人間のフィードバックからの監督、ロボットに話しかける誰かの言語からの監督、こうしたものを非常にうまく活用できるようになったとき、私たちはロボット展開の次のフェーズへと移行できると思います。そのフェーズでは、ロボットは使われれば使われるほど良くなっていきます。そのための多くのピースは今まさに揃いつつあると思います。しかしまだ未解決の課題があります。低レベルの行動監督という厳格な形式から脱却し、より自然な形の監督へと移行すること、これが次の大きな技術的転換点だと考えています。
6.3 使われるほど賢くなるロボット――ロボット自身がデータ生成源になる未来
Levine: この点が非常に重要な理由があります。ロボットがデプロイメントを通じて、自分自身が積み重ねる経験を通じて良くなり始めると、私たちの周りにはますます多くのロボットが見られるようになります。そうなったとき、ロボット自身がますます主要な訓練データのソースになっていきます。訓練データの観点で考えると、現在の私たちはインターネット上のデータに非常に依存しています。しかしロボットが至るところに展開されれば、ロボット自身が継続的にリアルな世界のデータを収集し続けることになります。
6.4 インターネットデータの時代を超えて――物理世界の実体験が主要な訓練源となる展望
Levine: 数年後、私たちは2020年代初頭を振り返って、「AIシステムがインターネット上のデータで訓練されていた時代があったなんて不思議だ」と思うかもしれません。実世界をリアルにデータ収集し続ける身体を持つシステムがこれほど多く存在するのに、なぜわざわざインターネット上のデータを使っていたのか、と。物理的なインタラクション、視覚情報、人間との実際のやり取り、こうしたものは21世紀初頭に人々がインターネット上に載せた情報よりも、はるかに豊かな監督のソースです。それは身体を持つシステムにとって、世界がどうあるかをそのまま映し出したものだからです。物理世界の実体験こそが、次世代のロボット基盤モデルにとっての主要な訓練源になる。そういう未来が来ると思っています。そしてそれは本当にエキサイティングな未来だと思います。
6.5 残された課題――99.99%信頼性・長時間タスク・人間フィードバックからの効率的学習
Levine: もちろん、まだ多くの研究が必要です。現時点でのロボット基盤モデルの実世界への汎化は、想定よりも近いところまで来ています。すでに全く新しい家に汎化できるシステムを実現しています。しかし性能をさらに向上させること、本当の意味で実用的な展開に耐えうる99.99%の信頼性を達成すること、非常に複雑で長い時間軸のタスクを解けるようにすること、そして人間のフィードバックや介入からより効率的に学習できるようにすること、これらはいずれもまだ未解決の重要な課題です。基盤モデルというアプローチ自体の有効性はすでに示されています。あとはこれらの課題を一つひとつ解決していくことで、ロボットが私たちの生活の中に自然に溶け込んでいく未来がきっと実現できると確信しています。
司会(Martinez Roer): Levine教授、本当にありがとうございました。ロボット基盤モデルについての深い洞察を共有していただき、大変光栄でした。まだまだ多くの質問が寄せられています。AIロボティクス探求シリーズの今後のイベントでも、AIとロボティクスが人類の最大の課題のいくつかをどのように解決できるかを引き続き探求していきます。またAI for Good Global Summit 2026、2026年7月7日から10日にかけて開催予定のイベントでも、身体を持つAIとロボティクスシステムが主要なトピックとなります。Levine教授、ぜひスピーカーとしてご参加いただければ幸いです。
Levine: ありがとうございました。皆さんのご注目と洞察に満ちた質問に感謝します。
