※本記事は、Vincent Vanhoucke氏によるAI for Good Webinars「The future of robots for good: The quest for embodied AI」の内容を基に作成されています。動画の詳細情報は https://www.youtube.com/watch?v=fPEChRFiqwE でご覧いただけます。本記事では、動画の内容を要約しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈についてはオリジナルの動画をご覧いただくことをお勧めいたします。
登壇者:Vincent Vanhoucke氏(Senior Director Robotics, Google)、モデレーター:Aleksandra Faust氏(Senior Staff Research Scientist and Autonomous Agents Research Lead, Google AI)。AI for Good Webinarsの詳細およびネットワーキングコミュニティへの参加は https://aiforgood.itu.int をご覧ください。また、関連情報は #aiforgoodwebinars #RoboticsforGood でもご参照いただけます。
1. セッション概要と登壇者紹介
1-1. AI for Goodプラットフォームとロボティクス・プログラミングトラックの位置づけ
Gile: 皆さん、こんにちは。国際電気通信連合(ITU)のGile Martinez Roaです。本日はAI for Goodのキーノートセッション「The future of robots for good: The quest for embodied AI」にご参加いただき、ありがとうございます。本セッションは2023年のAI for Goodにおける最初のキーノートであり、AIを活用したロボットが人間の可能性を解放し、国連の持続可能な開発目標(SDGs)の達成を支援する方法を探る「ロボティクス・プログラミングトラック」の一環として開催されます。AI for Goodは、ITUが40の国連姉妹機関と連携し、スイスと共同で主催する、行動志向・グローバル・インクルーシブな国連プラットフォームです。本日は優れたパネリストの方々にご登壇いただいておりますが、参加者の皆さんにもライブビデオウォール機能を使って質問やコメントを積極的に投稿していただき、双方向性の高いセッションにしていただければ幸いです。
1-2. モデレーター(Alexandra Faust)および講演者(Vincent Vanhoucke)の紹介
Gile: それでは、本日のモデレーターをご紹介します。Google BrainのシニアスタッフリサーチサイエンティストおよびAutonomous Agents Research Leadを務めるAlexandra Faustさんです。Alexandraさん、よろしくお願いします。
Alexandra: ありがとうございます、Gileさん。皆さん、こんにちは。本日の講演者をご紹介できることを大変光栄に思います。Vincent Vanhouckeさんとは長年にわたってご一緒させていただき、多くのことを学ばせていただきました。Vincentさんは、GoogleのDistinguished ScientistおよびSenior Director of Roboticsを務めていらっしゃいます。また、現在第6回を迎えるRobot Learning Conference(CoRL)の共同創設者として、その執行委員会の会長も務められています。これまでの研究は音声認識・深層学習・コンピュータビジョン・ロボティクスと、人工知能と機械学習の幅広い分野に及んでおり、Udacityでの深層学習講義シリーズは10万人以上の学生に受講されています。スタンフォード大学で博士号を取得されており、本日は非常に充実した講演が期待されます。Vincentさん、どうぞよろしくお願いします。
2. 講演の目的:フィジカル・アシスタンスへの挑戦
2-1. GoogleのAI応用と物理的支援技術の必要性
Vincent: ありがとうございます、Alexandraさん。皆さん、本日はお集まりいただきありがとうございます。Googleはこれまで、AIのパイオニアとして国連の持続可能な開発目標の達成に向けた新しいAI活用の方法を模索し続けてきました。本日私がお話ししたいのは、その中でもやや投機的な性格を持つ取り組み、すなわち「物理的支援」という問題に正面から取り組む試みです。Googleはこれまでデジタル領域での支援において世界的な役割を果たしてきましたが、私たちはさらに一歩踏み込んで、現実の物理世界における支援も実現できないかと考えるようになりました。つまり、人々が日常生活の中で行う物理的な活動をロボットによってサポートできないか、という問いです。
この問いが切実な理由は、現実の数字が示しています。今日、世界人口の約10%が何らかの障害を抱えて生活しています。そして障害の有無にかかわらず、私たちは人生のどこかの時点で、病気やその他の要因によって身体的な能力に制限を抱える局面を必ず経験します。こうした状況に置かれたすべての人々が、自分の生活環境の中で適切な支援を受けられるようにするための技術を構築できないか、それが私たちの根本的な動機です。
2-2. 本講演で扱う三つの技術的課題の概観
Vincent: この大きな目標を実現するにあたって、私たちが直面している技術的な課題は多岐にわたります。本日の講演では、その中から特に重要な三つの課題に絞ってお話しします。第一は、ロボットが人間の生活空間の中を安全に移動・ナビゲートするという課題です。第二は、ロボットに対して自然言語で指示を与え、それをロボットが理解して実行するという課題です。そして第三は、現実世界における物体の操作、すなわちマニピュレーションという課題です。これら三つはいずれも、ロボットが人間の日常環境に溶け込んで物理的な支援を提供するために欠かせない能力であり、現時点でもなお大きな研究上の挑戦を伴うものです。それぞれについて、私たちがどのようなアプローチを取り、どこまで到達しているかを順を追ってご説明します。
3. 課題①:人間空間における安全なナビゲーション
3-1. 単純な衝突回避から社会的規範の遵守へ
Vincent: ロボットのナビゲーションという問題を最も単純な形で捉えるならば、「何にもぶつからないこと」に尽きます。もしそれだけが求められるのであれば、従来のロボティクス技術で比較的直截に対処できる問題定義であり、すでに合理的な解答が存在します。しかし、ロボットが人間中心の環境、すなわち人々が生活し、働き、行き交う空間の中で動作することを想定した場合、問題はより高次のレベルで考えなければなりません。
人間の環境では、物が絶えず動かされ、ロボットはそれらを避けながら移動する必要があります。さらに重要なのは、その空間には社会的な存在としての人間がいるという点です。人々はロボットを含む周囲のエージェントがどのように振る舞うべきかについて、暗黙の期待を持っています。そして究極的には、ロボットが人間と真に協調して動作するためには、人間の意図や欲求・好みを理解し、それと整合した形で動くことが求められます。こうした人間との相互作用を理解し、人間の目標に沿ってナビゲートするという高次の課題こそが、私たちが本質的に取り組むべき問題です。
3-2. 行動予測モデルの実装と実証例
Vincent: こうした能力をロボットに持たせるために、私たちが取り組んできたのが行動予測(behavior prediction)を活用したアプローチです。具体的には、ロボットが周囲の人々の姿勢や視線の方向、現在の動作を認識・解釈し、その人物の位置や軌跡が今後どのように変化するかをモデル化する仕組みです。これにより、ロボットは単に今そこに人がいるという事実を認識するだけでなく、その人が次にどう動くかを予測した上で自身の行動を決定できるようになります。
具体的な実証例を二つご紹介します。一つ目は廊下のシナリオです。二人の人物が廊下を並んで歩きながら会話をしている場面を想像してください。単純に「衝突しないこと」だけを目標とするロボットであれば、その二人の間に割り込もうとするかもしれません。しかし社会的文脈を理解するロボットは、会話中の二人の間に入り込むことが社会的規範に反することを認識し、たとえ遠回りになったとしても迂回路を選択します。左側に示す衝突回避のみを目標とするロボットと、右側に示す社会認識型のロボットを比較すると、後者は人物が近づく前の段階で十分なスペースを確保するために動作を調整し、相手がスムーズに通り過ぎられるよう配慮していることがわかります。
二つ目は出入口のシナリオです。ロボットが通路を通り抜けようとしている場面で、そのまま進むと人の通行を塞いでしまう状況です。社会認識を持たないロボットはそのまま進行しますが、周囲の人間の動きを認識するロボットは自らドアの外に退き、人々が先に通過できるよう道を譲ります。こうした一見些細に見える相互作用を正確に実現することが、ロボットが人間中心の環境に溶け込むために不可欠であり、同時に非常に難易度の高い技術的挑戦でもあります。
4. 課題②:自然言語による指示理解
4-1. 自然言語の曖昧さと文脈依存性という根本的困難
Vincent: ロボットに対して自然言語で指示を与えるという問題は、過去1年間における私たちの非常に重要な研究テーマの一つです。自然言語というものは本質的に、非構造的で曖昧であり、文脈に強く依存しています。例えば「この箱を少し左に動かして」という指示を考えてみてください。「少し」とはどの程度なのか。「左」とはどの方向を基準にした左なのか。「この箱」とはどの箱なのか。あるいは「この本を積み重ねて、あそこに置いて」という指示であれば、「あそこ」がどこを指すのかは文脈なしには判断できません。こうした曖昧さは人間同士のコミュニケーションでは完全に自然なものですが、ロボットが理解できる形式に落とし込もうとすると、非常に大きな挑戦となります。私たちはこの問題に対して三つの異なるアプローチを取っており、それぞれの考え方の幅をご理解いただくためにご紹介します。
4-2. アプローチ①:LLMによるコード生成
Vincent: 第一のアプローチは、大規模言語モデル(LLM)の近年の進歩を活用するものです。LLMは、高レベルの自然言語による記述からそれを実行するプログラムコードを生成する能力において、非常に高い性能を発揮することが示されています。この「言語をプログラミング言語に変換する」能力をロボティクスに応用できるのではないかと考え、私たちは積極的に実験を重ねてきました。
具体的には、ロボットに自然言語でコマンドを与え、LLMがそのロボットの行動方針(ポリシー)を記述するコードを生成するという仕組みです。ただし、指示の解釈はロボットが置かれた環境の文脈に依存するため、環境内の物体を認識するためのオブジェクト検出機能や、「積み重ねる」といった概念をコードとして表現するための基本的なプリミティブ操作群を整備した上で、LLMがそれらを組み合わせてコードを生成できるように設計する必要があります。
実証例として、限られた環境下での非常に高レベルな指示への対応が挙げられます。例えば「色が一致しないブロックをボウルの中に入れて」という指示は、非常に高い抽象度の意味論的判断を含んでいますが、ロボットはこれをLLMが生成したコードとして実行し、対応する物理的な動作に変換することができます。このアプローチが持つ大きな意義は、プログラミングの知識を持たない人であっても、自然言語でロボットにプログラムを書かせることができるという点にあります。ロボット利用のアクセシビリティを根本から引き下げる可能性を持つアプローチです。
4-3. アプローチ②:ランダム行動動画へのレトロスペクティブな言語ラベリング
Vincent: 第二のアプローチは、全く異なる発想に基づいています。まず、人々にロボットと自由に遊んでもらいます。特定の目的を持たせず、思いつくままにランダムな動作をロボットに行わせてもらうのです。次に、その様子を録画した動画を別の人に見せて、「この動作は自然言語でどう表現されますか?」と事後的に言語ラベルを付けてもらいます。こうして、物理的な動作と自然言語の記述がペアになったデータセットが大量に生成されます。
このデータを用いて、自然言語の指示を入力として受け取り、それに対応する物理的な動作を出力するモデルを学習させます。驚くべきことに、このアプローチは非常に良好な結果をもたらしました。私たちはこの手法を用いて、ロボット動作への自然言語ラベル付けをスケーラブルに行えるシステムを構築しました。このモデルはテキスト入力とロボットの視覚的な観測情報の両方を考慮した上で、リアルタイムに動作を出力します。
実証例として、「黄色いブロックの間に緑の星を押し込んで」という指示に対し、ロボットがリアルタイムに意味論を解釈して対応する動作を実行する様子が確認されています。また、「ブロックを並べて」「角に分類して」「スマイリーフェイスを作って」といった非常に高レベルな概念的指示に対しても、低レベルの制御・計画とデータ駆動型アプローチを組み合わせることで、ロボットがスマイリーフェイスを構成したり、ブロックを整列・分類したりすることができています。音声コマンドによるリアルタイム制御が可能である点も、このアプローチの大きな強みです。
4-4. アプローチ③:LLMによるプラン仮説生成とロボット能力に基づくスコアリング
Vincent: 第三のアプローチは、LLMを「プランの仮説生成装置」として活用するものです。LLMに対して「ロボットがXをするにはどうすればよいか、ステップごとに示せ」と問いかけると、複数の実行可能なシナリオを提示してくれます。例えば「ロボットがコーヒーを入れるにはどうすればよいか」と問うと、「隣のスターバックスに行って注文する」「キッチンに行ってコーヒーメーカーを探す」「コーヒーメーカーのボタンを押す」といった複数の選択肢が返ってきます。これらはいずれもモデルの観点からは妥当な答えですが、実際にロボットが実行できるかどうかは別問題です。
そこで私たちが取り組んだのが、ロボット自身が自分の能力を理解し、LLMが生成した各プランを「自分にとっての実現可能性」の観点からスコアリングするという仕組みです。例えば「スターバックスまで車で行けるか?」おそらく無理です。「近くにキッチンがあれば行けるか?」状況によっては可能です。このように各選択肢を評価し、最も実現可能性の高いプランを選択して実行します。さらにこのプロセスを再帰的に繰り返すことで、ロボットが実行可能な長期的な行動計画が構築されます。
アーキテクチャとして整理すると、左から「自然言語入力」→「LLMによる複数仮説の生成(リンゴを見つける、コーラを見つけるなど)」→「ロボットが文脈を踏まえて自らの能力を推定する価値関数によるスコアリング」→「最終的なプランの選択と実行」という流れになります。実証例として、「コーラをテーブルにこぼした。どうする?」という曖昧な意味論的指示に対して、ロボットがコーラの缶を見つけ、それを拾い上げ、ゴミ箱まで運んでほぼ正確に投棄するという一連の行動を自律的に実行できることが確認されています。このように長期的な計画を自然言語から立案・実行するアプローチは、非常にスケーラブルかつ汎用的であり、これまで不可能だった新たなロボット能力を切り拓くものとして私たちは大きな期待を寄せています。
5. 課題③:現実世界における物体操作(マニピュレーション)
5-1. 非制御環境でのマニピュレーションの難しさと大規模データ収集実験
Vincent: ナビゲーションと自然言語理解についてある程度の手応えが得られてきた一方で、現時点で最も未解決の課題として残っているのが、現実世界における物体操作、すなわちマニピュレーションです。これはロボティクス研究において長年にわたって中心的な研究テーマであり続けてきた問題です。工場のような高度に制御された環境でのマニピュレーションについては、以前から合理的な解決策が存在しています。しかし、まったく制約のない環境、つまり一般家庭や医療施設のような場所でのマニピュレーションとなると、問題の難易度は根本的に異なります。
その難しさの核心は、現実世界の多様性にあります。ロボットが扱わなければならない物体の形状・重さ・素材・表面の性質はほぼ無限に近いバリエーションを持ちます。例えば透明な物体はカメラでの認識が本質的に難しく、どのように把持・操作するかは非常に難易度の高い問題です。また、物体が滑りやすかったり、想定した位置からずれていたりする場合には、ロボットが自らの動作をリアルタイムで修正する能力が必要になります。これは人間であれば無意識に行っていることですが、ロボットに実装するのは容易ではありません。さらに、バナナがどのくらいの重さを持ち、どのように扱えば物理的に現実的な操作ができるか、といった物理特性の推論もまた別の課題として立ちはだかります。
こうした課題に対して私たちが採ったアプローチは、データ駆動型の学習です。プログラムで網羅しきれないほど膨大な物体の多様性や操作のバリエーションに対応するためには、ロボットが実際の経験から学ぶ以外に有効な方法はないと考えたからです。そのために私たちが数年前に構築したのが、複数のロボットが日々ひたすら物体の把持(グラスピング)を試み続けるという大規模なデータ収集環境です。ロボットたちはあらゆる種類の物体を対象に把持を試み、成功・失敗の結果を記録し続けることで、学習のためのデータを自律的に生成し続けます。この取り組みから大きな進展が得られており、初期のベースラインポリシーと比較して、新しいアプローチははるかに効率的かつ高速で、多様な物体に対してより高い把持成功率を達成しています。また、物体を特定の場所に向けて投擲し、ビンに収める動作においても、ビンの位置や物体の形状・動力学特性に対して自律的に適応するロボットの実装に成功しています。
5-2. 実験から得られた知見:データ量よりもデータの多様性が決定的
Vincent: この一連の研究を通じて、私たちが得た最も重要な知見の一つが、データの「量」よりも「多様性」こそが性能を決定するという洞察です。私たちはもともと「データが多ければ多いほどモデルの性能は向上する」という仮説を持っており、実際にデータ量を増やすと性能が向上することは観察されました。しかし実験の過程で、データ量をほぼ変えずに多様性を意図的に削減した場合、すなわちデータセットの中から多様性に最も貢献しているデータを取り除いた場合、性能が非常に急速に低下することを発見しました。
この知見は、マニピュレーションモデルを学習させる際の問題の捉え方を根本から変えるものでした。どれだけ多くのデータを集めるかという量の問題よりも、いかに多様なデータを収集するかという質・構成の問題こそが中心的な課題であるという認識に至ったのです。この洞察は、データ収集の方針を見直し、より少ないデータでより高い性能を実現するための新たなアプローチへの道を開くものであり、今後の研究の方向性を大きく規定するものとして私たちは大きな期待を寄せています。
モデルのアーキテクチャとしては、「何をすべきか」という指示入力と、ロボットが観測した一連の画像入力を受け取り、把持・操作のための具体的な動作を出力する比較的複雑なニューラルネットワークを採用しています。このネットワークは3ヘルツ、つまり0.33秒に1回のペースで継続的に動作し、視覚入力と行動結果をリアルタイムに反映しながら動作を適応的に調整し続けます。これが現時点における私たちの最先端モデルであり、手持ちのデータで何が可能かを探索するための基盤となっています。もちろんすべての問題を解決したとは到底言えませんが、新たな問いへのアプローチ方法と、これまでにない可能性の扉が開かれていることは確かです。
6. 質疑応答①:ロボットの形態・医療応用・文化差と個人の好み
6-1. 擬人化ロボット(ヒューマノイド)の是非と「道具」対「エージェント」論
Alexandra: Chris Zelinskiさんから、生き物に似せた外見を持つ擬人化ロボットについてどのようにお考えかというご質問をいただいています。Vincentさん、いかがでしょうか。
Vincent: 非常に興味深い問いです。まず純粋に機能的な観点から言えば、ロボットが人間の生活空間で動作することを想定した場合、人間の形態を持つことには合理的な理由があります。私たちの生活環境は人間のために設計されています。階段を上り、ドアを開け、引き出しを操作し、人間向けに設計された道具や物体を扱う、そのすべてにおいてヒューマノイド型のフォームファクターは自然な出発点となります。
しかし研究者としての視点、そして商業的な実用化の観点から見ると、人間の形態は極めて複雑です。人間は非常に多くの自由度を持っており、それと同等のダイナミクスおよびキネマティクスを持つロボットを構築することは、コスト面でも工学的な要件の面でも非常に厳しいものがあります。ロボットは壊れやすくなりがちですし、必要なパワー密度や強度を確保するための工学的要件は非常に厳しく、商業的に実用的なシステムを作ることは容易ではありません。そのため、フルヒューマノイドよりも少し単純でありながら同等の能力を持つフォームファクターを模索したいという誘惑が生まれます。
ここには普遍的なジレンマがあります。ロボット研究者には人間のようにあらゆることができる汎用ロボットを作りたいという志向がある一方で、実際に市場で成功したロボットを見てみると、洗濯機や食洗機がその代表例です。これらは人間とはまったく異なる形をしていますが、社会に広く普及しています。この緊張関係は今後も消えることなく、最終的には経済性がどのフォームファクターが市場で生き残るかを決定することになるでしょう。
一方でご質問の核心は、SophiaのようなAIロボットへの言及も含め、ヒューマノイドかどうかという以上に「人間に似せた外見のロボット」という点にあると理解しています。ここでは「道具としてのロボット」対「エージェントとしてのロボット」という哲学的な問いが浮かび上がります。自然言語で対話できるロボットが実現しつつある今、ロボットをより人間らしく擬人化したいという誘惑は強くなります。しかし同時に、アンキャニーバレー(不気味の谷)の問題や、人間に非常に近い振る舞いや外見を持つロボットへの人間の心理的反応という難しい問題も伴います。私個人の立場としては、たとえ自然言語でやり取りできるロボットであっても、「道具としてのロボット」という視点の方が好ましいと考えています。人間を中心に据え、テクノロジーを人間の目的達成のために奉仕するものとして設計するという姿勢を大切にしたいのです。ロボットが個々の人間にとって実際に役立つ存在になれるよう、形態にかかわらずまず能力そのものを磨くことこそが、今解くべき本質的な科学的課題だと思っています。
6-2. 医療分野への5〜10年以内の影響予測
Alexandra: Ann Bushさんから、今後5年および10年でロボットが医療分野にどのような影響を与えると思うかというご質問をいただいています。
Vincent: 5年というのは、私たちが取り組んでいる研究のスパンからすると非常に短い時間です。その前提でお答えすると、近い将来において最も大きなインパクトが期待されるのは、医療施設内での物品搬送です。病院や医療施設の中では、物をある場所から別の場所へ運ぶという作業に膨大な人的リソースが費やされています。単純にA地点からB地点へ物を運ぶだけの作業に人間の時間を使い続けることは、決して良い人材活用とは言えません。こうした搬送業務をロボットが担うことで、医療従事者がより高度な業務に集中できるようになるという意味で、短期的に最も現実的かつ意義深い応用領域だと考えています。
やや長い時間軸で見ると、患者へのアクセス支援という領域でのインパクトも期待されます。例えばロボットに指示を出して患者のもとに必要な物品を届けたり、患者が周囲の物を操作するのを補助したりすることは、比較的近い将来に実現可能な領域だと思います。さらにその先として、患者の移動補助や入浴介助など身体に直接触れる支援へのロボット活用を望む声は多くあります。しかしながら、人間の身体に直接触れ、物理的に操作することを伴う領域は、安全面の要件が他のすべてに優先され、問題の難易度が根本的に異なります。この領域が今後5年で大きく変化することについては、私は慎重な見方をしています。ただし、この分野の進化は今日非常に速く、私自身の過去の予測はあまり当たってきませんでしたので、断言はできません。
6-3. 文化差・個人の好みへの適応とロボットの社会規範学習
Alexandra: ロボットが家庭や医療現場など非常に個人的な領域に入り込んでいくにあたって、文化的な違いや個人の好みについてはどのようにお考えでしょうか。またMarcus Backさんからは、ロボティクス・フォー・グッドの文脈においてデジタル倫理の観点で最も重要な点は何かというご質問もいただいています。
Vincent: 個人の好みという問題は、ロボットが人間と真に関わり合う段階に入った瞬間から、すべての中心的な課題として浮かび上がります。深い相互作用を伴わない社会的ナビゲーションの段階でさえ、ロボットが人間中心の環境に存在するだけで、多くの問いが生じます。その一例が廊下での追い越し方向です。ロボットの横を通り過ぎるとき、右側から抜けるべきか左側から抜けるべきか。これは私たちが普段意識することはありませんが、社会によって異なります。車が右側通行の国では右から、左側通行の国では左から抜けようとする傾向があります。こうした些細な違いが、ロボットの存在が環境にシームレスに溶け込むかどうか、あるいは非常に煩わしいものになるかどうかを左右します。
また、同じロボットでも、それが置かれる環境によって求められる振る舞いは大きく異なります。オフィス環境では他のエージェントが同じ空間で活動することが当然の前提となっていますが、自宅はあくまでも自分の空間です。ロボットがそこで邪魔をするようであれば、すぐに苛立ちの原因になってしまいます。
こうした人間の好みをプログラムで明示的に定義しようとすることには根本的な限界があります。私たちは人間の好みを完全には理解していませんし、好みは文脈によって変化し続けます。だからこそ機械学習というパラダイムが非常に有望だと考えています。人間の好みをデータから導き出す、つまり実際の人間が実際の環境でどう振る舞うかという観察データから暗黙的な好みを学習し、それをモデル化するアプローチです。プログラマーが明示的に定義しなくても、データがその好みを内包しているのです。実際の人間の観察データを取り込み、そこから学習することができれば、真に人間の好みを体現し、それを尊重するロボットを実現できるという方向性に、私は大きな希望を持っています。
7. 質疑応答②:倫理・経済・技術的課題
7-1. 労働市場への影響と「人間中心設計」の重要性
Alexandra: ロボットが医療分野に入り込んでいくことで、理学療法士や看護師といった職種への影響が生じるという観点から、労働市場への影響と倫理的な含意についてコメントをいただけますか。
Vincent: これは非常に重要な問いです。人々がより多くのことをより良く、より速くできるようにする技術は、どれも両刃の剣になり得ます。人々の生活を豊かにする方向にも使えますし、人々の生計を脅かす方向にも使えます。そしてその結果は、技術開発の時点では完全にコントロールできるものではなく、実際にどのように応用されるかに大きく依存します。
しかし私たちが技術開発の段階でできることがあるとすれば、それは「人間が主導権を持ち続ける」技術を作ることに集中するという姿勢だと思います。社会的ナビゲーションの例で考えてみましょう。ロボットが社会的文脈を無視した動き方をするならば、「ロボットを使うか人間を使うか」というゼロサムの選択を迫ることになります。ロボットの経済性が人間より優れていると判断された場合、ロボットが環境を占有し人間が排除されるという結果を生みかねません。しかしロボットが社会的な振る舞いを身につければ、人間とロボットの共存が可能になり、職場環境をより人間にとって友好的なものにしながら、ロボットを活用する多様な方法が生まれます。
自然言語インターフェースもまた、同じ文脈で重要です。言語対応のロボットを誰の前にでも置けば、技術的なスキルや事前のトレーニングなしに、誰でもロボットと対話し価値を引き出すことができます。現状ではロボットを操作するためには一定の技術的スキルと専門的な訓練が必要であり、それは均等には普及していません。もしそれを完全にシームレスにできれば、あらゆる人にとってのアクセシビリティと機会が根本的に広がります。私たちの目標は、ロボットを活用できる機会をより幅広い人々に開き、それによって社会全体の状況を改善することにあります。
7-2. ロボットの価格・普及可能性と規模の経済の現状
Alexandra: John Cassadinさんから、ロボットが一般大衆にとって手の届く価格になることは現実的かどうか、またロボットは所有されるのか、レンタルされるのか、あるいは社会サービスとして提供されるのかというご質問をいただいています。
Vincent: ロボットの経済性は、率直に言って非常に厳しい現実があります。ロボットは非常に高価であり、複雑なアクチュエーションを伴うシステムのコストは圧倒的な存在感を持ちます。しかし過去10年間のトレンドを見ると、ロボットのコストは劇的に低下してきています。今日では非常に高性能なロボットアームが1万ドル以下で入手できますが、これは5年から7年前には考えられなかったことです。この方向での進歩の速度は目を見張るものがあります。
とはいえ、広範な普及という観点から見ると、コストはまだ大きな障壁であり続けるだろうと思います。結局のところ、より幅広い大衆市場への普及が実現するまでは、規模の経済は到来しません。世界に設置されているロボットの総数は、一般の人々が想像するよりもはるかに少ないのが現実です。自動車や他の消費財が達成したような規模の経済には、まだ到達していません。所有・レンタル・社会サービスのどの形態が主流になるかについては、最終的にはどのビジネスモデルが経済的に成立するかによって決まっていくと思います。
7-3. 動画からのスキル学習・アノテーション課題・LLMのグラウンディング
Alexandra: Dennisさんから、YouTubeの動画を使ってロボットにスキルを学習させることは可能かというご質問をいただいています。
Vincent: 非常に興味深い問いです。現在多くの研究者がこのアプローチに取り組んでいますが、答えをそのまま「イエス」とは言い切れない状況です。ただ近年において興味深い進展があります。テキストと画像のあらゆるウェブ上のデータから学習した大規模なファウンデーションモデルが台頭しており、これらはロボット向けに特化して訓練されたものではありませんが、状況認識において非常に優れた能力を示しています。これらのモデルを活用することで、ロボットが周囲の世界を解釈し、推論するための基盤として間接的に機能させることが可能です。つまり、動画や画像といった他のモダリティのデータが、ロボットにとって有用な形に変換されているのです。一方で、YouTubeのような動画から人間の動作を直接観察してスキルを学ぶという研究は今非常に活発ですが、これがうまく機能しているとは今の時点では自信を持って言えず、有望な兆しはあるものの、決定的な証拠にはまだ至っていないというのが正直なところです。
Alexandra: Jamronさんから、マニピュレーションにおけるアノテーションの課題と、自己学習対人手アノテーションのアプローチについてお聞きしたいというご質問をいただいています。
Vincent: マニピュレーションにおけるアノテーションの最大の問題は「成功判定(success detection)」にあります。ロボットが指示されたことを実際にやり遂げたかどうか、人間であれば一目瞭然であっても、これを自動化することは非常に困難です。物体が本当にロボットのグリッパーに収まっているか、操作中に何かが倒れていないかといった判断を自動的に行うことは、微妙な意味論的判断を要し、データ収集をスケールさせる上での大きな障壁になっています。現状では高品質なデータを確保するために人手によるデータ収集を多く行っており、コストはかかるものの比較的良好なスケーラビリティを示しています。より自動化されたデータ収集を実現するために、ロボットを環境に展開して反復的にオンライン学習を行うアプローチの研究が盛んに行われていますが、その場合には自己アノテーションが必要となり、これもまた非常に難しい問題です。
Alexandra: 最後に、Mark Suttonさんから、大規模言語モデルがショートカットを取ったり自律的に現実世界のモデルを構築したりするという議論に関連して、現実世界とのインターフェースを持つAIロボットがそのプロセスを加速させるのではないか、またAIがブラックボックスになることへの懸念についてご質問をいただいています。
Vincent: 非常に良い問いです。私はむしろ正反対の方向に希望を持っています。ロボティクスが大規模言語モデルを現実世界に接地(グラウンディング)させ、事実性を与えるために役立つのではないかと期待しているのです。今日の大規模言語モデルが抱える問題は、そのすべての知識がウェブ上のデータに由来しており、現実世界と接続するものが何もないという点にあります。これは根本的な問題ではなく、現在の構造上の副産物だと思っていますが、そのモデルはあなた自身の現実とは接続されていません。モデルはカップとは何かを一般的に理解していますが、あなたのカップ、つまりあなたの特定の状況に固有の性質は知らないのです。一般論だけで推論するモデルは、能力不足に陥るか、あるいは個別の状況を知らないがゆえに事実と異なることを作り上げてしまいます。ロボットやエージェントを通じて大規模言語モデルを現実世界に接続することで、欠けているグラウンディングを補い、文脈認識・事実性・物理法則の理解、そして今日のウェブ上に存在する仮想的な世界像ではなく、あなたの実際の現実世界の理解へとつながっていくことを私は強く期待しています。
Alexandra: Vincentさん、本日は貴重なお時間と洞察に満ちたお話をいただき、本当にありがとうございました。参加者の皆さんにも素晴らしい質問をたくさんいただきました。またこのセッションを企画・運営してくださった主催者の皆さんにも感謝申し上げます。
Vincent: こちらこそ、ありがとうございました。大変充実した議論ができたことを嬉しく思います。
Gile: Vincent さん、Alexandraさん、そして参加者の皆さん、本当にありがとうございました。AI for Goodのプログラムでは引き続き多くのロボティクス関連セッションをご用意しておりますので、ぜひご確認ください。引き続きニューラルネットワーク内でのネットワーキングをお楽しみください。
