※本記事は、AIフォー・グッド(AI for Good)ウェビナー「Computer Vision for the Next Generation of Autonomous Robots」の内容を基に作成されています。本ウェビナーは、ITU(国際電気通信連合)が主催し、国連の持続可能な開発目標(SDGs)の推進を目的とするAIフォー・グッド・プラットフォームの一環として開催されました。ウェビナーの詳細情報およびその他のセッションについては、AI for Good Summit 2023(https://aiforgood.itu.int/summit23/ )でご覧いただけます。
登壇者は以下の通りです。モデレーターのKaren A. Panetta氏はTufts University School of EngineeringのDean for Graduate Educationを務めています。講演者としてAlexander Wong氏(University of WaterlooのCanada Research Chair)、Peter Corke氏(Queensland University of TechnologyのDistinguished Professor)、Luca Carlone氏(MITのAssociate Professor)、Katarina Fradiakiová氏が登壇しました。
本記事では、ウェビナーの内容を要約・整理しております。なお、本記事の内容は登壇者の見解を正確に反映するよう努めていますが、要約や解釈による誤りが生じている可能性もありますので、正確な情報や文脈についてはオリジナルの動画(https://www.youtube.com/watch?v=_XxVknqI1wk )をご覧いただくことをお勧めいたします。また、AIフォー・グッドのコミュニティプラットフォーム「Neural Network」(https://aiforgood.itu.int/neural-network )もあわせてご参照ください。
1. セッション概要と登壇者紹介
1-1. AIフォー・グッド・プラットフォームの趣旨とモデレーターによる問題提起
Gil Martinez: 本日は、ITU(国際電気通信連合)が主催し、40の国連関連機関との連携のもとスイスと共同で開催するAIフォー・グッド・ウェビナーへようこそ。AIフォー・グッドは、国連の持続可能な開発目標(SDGs)を推進するためのAIの実践的な応用を探り、そのソリューションをグローバルに展開することを目的とした、行動志向の包括的なプラットフォームです。本日のセッションは、AIが人間の可能性を引き出し、SDGs達成に貢献する方法を探るロボティクス・プログラミング・トラックの一環として、「次世代自律ロボットのためのコンピュータビジョン」をテーマに開催します。参加者の皆さんには、ライブビデオウォール機能を積極的にご活用いただき、質問やコメントを通じてインタラクティブなディスカッションを盛り上げていただければ幸いです。
Karen Panetta: 本日のモデレーターを務めるTufts大学工学部大学院教育学部長のKaren Panettaです。今日、人工知能はあらゆる分野において支配的な存在となっています。私たちの生活の中には、健康管理から日常のあらゆる場面に至るまで、無数のセンサーが組み込まれており、膨大なデータが絶え間なく生み出されています。こうした大量のデータと多種多様なセンサーを、どのようにして人類の利益のために活用するか、そしてそれをいかに真実性と説明可能性をもって提供するか、これが私たちに課された本質的な問いです。本日のパネルには、まさにこの問いに真正面から取り組む世界トップクラスの専門家が集結しています。
1-2. 各登壇者の紹介
Karen Panetta: 最初の講演者は、Queensland University of Technology(QUT)の特別教授、Peter Corke博士です。Peter博士は、ロボットのハンドアイ協調という、まさに人間とロボットの能力の境界線に位置するテーマについてご講演いただきます。続く二人目の講演者は、マサチューセッツ工科大学(MIT)の准教授、Luca Carlone博士です。Luca博士には、カメラをはじめとする視覚センサーの情報を高速に処理し、自律ロボットが安全かつ信頼性高く動作するための知覚・ナビゲーション研究についてお話しいただきます。三人目は、3D知覚とロボット操作、そして言語理解を専門とするKatarina Fradiakiová博士です。ロボットが少数の実演から操作スキルを学ぶための最先端のアーキテクチャと、訓練データを自動的に生成する手法についてご紹介いただきます。そして四人目は、カナダのWaterloo大学にカナダ研究講座を持ち、人工知能と医療画像を専門とするAlex Wong博士です。Alex博士には、生成AIを活用した信頼性の高いコンピュータビジョンの実現と、製造業における実応用についてお話しいただきます。
2. ロボットのハンドアイ協調(Peter Corke)
2-1. 人間の身体的知性とロボットの能力格差——チェスと駒つかみのパラドックス
Peter Corke: コンピュータビジョンをロボット制御に応用するというこの研究領域は、7つの十年にわたる長い旅路です。本日は、その中でも特に「ロボットのハンドアイ協調」という一つの問題に絞ってお話しします。
まず、AIが得意とすることと苦手とすることの間にある、非常に興味深い非対称性についてお話しします。1997年、コンピュータはチェスにおいて人間を超えました。私たちが長い間、人間の知的営みの頂点と信じてきたチェスというゲームで、機械が人間を上回ったわけです。ところが一方で、幼い子供であれば誰でもできる「チェスの駒を手でつかむ」という動作は、ロボットにとって今なお非常に難しい課題です。特定の駒を特定の状況でつかむよう工学的にプログラムすることは不可能ではありませんが、そのシステムは汎化性能が著しく低い。駒が透明な素材で作られていたり、異なる形状であったりすれば、工学的に設計されたシステムはほぼ確実に失敗します。ところが幼い子供は、そのような変化に難なく対応できます。純粋に知的な活動においてはAIが非常にうまく機能する一方で、AIが物理世界と接触する場面では、私たちはいまだに大きな壁に直面しているのです。
2-2. ハンドアイ協調が人間のスーパーパワーである理由
Peter Corke: 私がハンドアイ協調を「人間のスーパーパワー」と呼ぶのには理由があります。人間は日常の中で、このスーパーパワーを驚くほど自然に発揮しています。自動車を運転するドライバーは、視覚情報をステアリングホイールの角度やアクセルの踏み込み量へとリアルタイムに変換しています。クリケットの打者は、動的に変化するボールの軌道を予測し、的確なタイミングで手を動かします。そして私が特に好きな例として、針の穴に糸を通すという動作があります。人間はこれを、針のポーズを数学的に推定したり、糸のポーズを計算したりするような複雑な手続きなしに行います。ただ、二つのものが合わさるように手を動かすだけです。ロボットが同じことをやろうとすると、依然として非常に不格好で、非効率で、複雑な処理が必要になります。
このような具体例が示すのは、ハンドアイ協調とは単なる「物をつかむ動作」ではなく、視覚情報を身体動作へと流動的かつ即時に変換する能力全体を指しているということです。この能力をロボットが獲得できれば、私たちが長年夢見てきた「真に役立つ汎用ロボット」に大きく近づくことができます。私の研究室では長年にわたってこのハンドアイ協調問題に取り組んでおり、次のセクションではその具体的なアプローチと実験的な知見をご紹介します。
3. Corkeらの研究アプローチと実験的知見
3-1. ニューラルネットワークによる到達・把持合成(2016年〜)
Peter Corke: 私たちの研究室では、ハンドアイ協調問題に対してまずシンプルな「到達動作」、すなわちロボットがある対象物に向かって腕を伸ばすという動作から取り組み始めました。2016年に行った研究では、視覚情報を入力として受け取り、ロボットの関節速度を直接出力するニューラルネットワークを構築しました。これは当時としては新鮮なアプローチであり、視覚と動作を直接結びつけるエンドツーエンドの学習の初期的な試みの一つです。
続いて、把持そのものに取り組みました。ここで開発した生成ネットワークは、深度画像(デプス画像)を入力として受け取り、約30分の1秒、つまり毎秒30回のペースで、把持すべき位置とロボットのグリッパーの指の向きを直接出力します。従来の把持アプローチの多くは、対象物の3Dポーズを推定し、そこから把持計画を立てるという間接的な手順を踏みます。しかし私たちのシステムは、そのような中間的な推定ステップを挟まず、センサー入力から把持動作を直接合成します。毎秒30回という高頻度で把持位置を更新しながら、テーブル上の物体を次々と最も把持しやすいものから順に取り除いていく様子は、実験映像でも明確に確認できます。
ただし、このシステムには明確な限界がありました。使用していた深度センサーには視野角と動作距離の制約があり、センサーがテーブルに近づきすぎると「盲目」になってしまうのです。この制約が、次の研究課題、すなわち「どこから世界を見るのが最適か」という問いへとつながっていきました。
3-2. カメラ配置の最適化実験——フィンガーカメラの定量的検証
Peter Corke: カメラをどこに配置するかという問題は、一見シンプルに思えますが、ロボットの把持性能に対して非常に大きな影響を持ちます。従来のアプローチでは、カメラは環境の固定位置に設置するか、ロボットの手首に取り付けるかのどちらかです。しかしこれらの配置はいずれも、物体や環境の構造によって生じる遮蔽(オクルージョン)に非常に弱いという問題があります。
そこで私たちが提案したのは、「指先の近く、すなわち実際に把持が行われる場所にカメラを配置する」というアイデアです。直感的には合理的に思えますが、これが本当に従来の配置より優れているのかを定量的に示す必要がありました。私たちはそのために、ランダムな軌道を生成するメカニズムと物体を動かす仕組みを備えた物理的なベンチマーク環境を設計し、異なるカメラ配置を直接比較する実験を行いました。
実験の結果は明確でした。従来のカメラ配置では、ロボットが物体を追跡中に視野の外に出てしまうと、その時点で把持に失敗します。一方、指先付近にカメラを配置した場合、把持が実際に行われる場所を常に視野に収め続けることができるため、物体を見失うことがほとんどなく、把持の成功率が大幅に向上しました。この実験により、フィンガーカメラ配置の優位性を定量的かつ明確に示すことができました。さらにこの技術を、研究室で開発した動的リアクティブな計画フレームワークと統合することで、全身協調制御へと発展させました。ロボットが把持ステーションから搬送先へと移動する際の動作は、従来型のモーションプランナーの結果ではなく、全体として創発的に生じる振る舞いです。
3-3. 「動きながらの操作(Manipulation on the Move)」の開発と実証
Peter Corke: 物を拾い上げて別の場所に置くというピックアンドプレースの動作は、ロボットが日常的に求められる最も基本的な操作の一つです。しかし人間がこれを行う様子を観察すると、非常に流動的で途切れのない動きをしていることがわかります。それに対して、比較的最近のIROS(国際ロボット・知能システム会議)で公開されたロボットの映像を10倍速で再生してみると、ロボットの動作には長い停止時間が何度も挟まれていることがはっきりとわかります。これらの停止はほぼすべて、ロボットが視覚情報を取得し、それをもとに計画を立て、動作を実行し、また停止して再計画するという繰り返しによるものです。これは正直なところ、あまり知的に見えません。
私たちが目指したのは、「止まらずに物をつかむ」という直感的で高速な動作です。具体的には、移動ロボットがテーブルの脇を走り抜けながら、腕を伸ばして物体を把持し、そのまま移動を続けるという動作です。初期のシミュレーション実験では、テーブル上で動いている物体に向かって弧を描く軌道を計画し、ハンドアイ協調を用いてロボットのベースの動きによる誤差を補正しながら把持する様子を確認しました。その後の実機実験では、移動プラットフォームの前景に別の小型ロボットが動的な障害物として配置されている状況の中でも、テーブル上の赤いキューブを次々と停止せずに取り除いていく動作を実現しました。
この「動きながらの操作(Manipulation on the Move)」というコンセプトをさらに発展させた最近の成果では、非常に高レベルな指示への対応も可能になっています。たとえば「食器棚からペットボトルを取ってきて」という指示に対して、ロボットは棚の場所を認識し、扉を開け、棚の中に手を伸ばしてペットボトルをつかみ、指定された場所まで届けるという一連の動作を実行します。
3-4. 高レベル言語指示への展開と今後の課題
Peter Corke: ここまでお話しした研究の技術的な要件を整理すると、非常に柔軟な計画能力と、カメラなどの視覚センサーから得られるデータを処理するための適切なコンピュータアーキテクチャの組み合わせが不可欠です。視覚センサー、とりわけカメラはハンドアイ協調の中心的な役割を担っており、そこから得られる情報をリアルタイムで処理してロボットの動作に反映させる仕組みこそが、この研究の核心にあります。
一方で、今回の発表では十分に触れられなかった重要な課題があります。それは力情報と触覚情報の統合、すなわち「ラストナノメーター問題」です。カメラはグリッパーを物体のごく近くまで誘導することができます。しかし物体との接触が生じた瞬間、それまでの非接触状態から接触状態への移行が起こり、接触力が発生します。この接触力をいかに適切に扱うかが、良好なロボット把持性能を実現するための最後の、そして非常に難しい壁です。視覚だけでは届かないこの「最後の一歩」に、力・触覚センサーをどう組み合わせるかが、今後の研究における重要な方向性の一つです。
4. 認証可能な知覚と自律ナビゲーション(Luca Carlone)
4-1. 自動運転車の知覚システム失敗事例(2018〜2023年)
Luca Carlone: 私たちは今、ロボット工学が日常生活に実際の影響を与え始めているユニークな時代に生きています。自動運転車が一部の都市で走行し、数百万台のロボット掃除機が毎年販売され、倉庫では移動ロボットが物流を担い、精密農業や宇宙・海洋探査にもロボット技術が活用されています。こうした広範な応用が可能なのは、ロボットが多くの状況において人間より速く、安全で、コスト効率が高いからです。しかし同時に、大きな力には大きな責任が伴います。ロボットの展開が増えるにつれ、人々の近くで確実に動作することを保証しなければなりません。
知覚システムの失敗がいかに深刻な結果をもたらすか、いくつかの具体的な事例でお示しします。2018年3月、自動運転のUber車両が歩行者を検知できず、緊急バックアップドライバーへの警告も発しないまま、アリゾナ州で女性を死亡させました。同じく2018年、Tesla Model Xが道路左側のコンクリート製防護壁を検知できず、オートパイロットがそちらへ向かうよう判断し、搭乗者が死亡しました。さらに同年、非常によく知られた別の事例として、通常の状態であればニューラルネットワークが停止標識として正しく分類できるにもかかわらず、白黒のマーカーを標識の上に非常に巧みに貼り付けるだけで、ネットワークをだまして時速45マイルの速度制限標識と誤認識させることができるという攻撃手法が示されました。交差点でこのような誤りを犯すことがどれほど危険であるかは言うまでもありません。
残念なことに、こうした問題はその後も改善されていません。2022年2月にはTeslaの「ファントムブレーキ」問題が報告され、2023年8月にはCruiseの自動運転車が消防車に衝突するという事故が起きています。これらの失敗事例の多くは、車載の知覚システムおよびコンピュータビジョンシステムの不具合に起因しています。だからこそ、より頑健で信頼性の高い知覚システムを開発することが、私たちの研究グループの最も重要な動機の一つとなっています。
4-2. 認証可能アルゴリズムの概念と自己教師あり学習への応用
Luca Carlone: こうした背景から、私たちのグループが特に力を入れて取り組んできた研究の柱の一つが、「認証可能な(certifiable)知覚アルゴリズムおよびシステム」の開発です。安全が最優先される高信頼性アプリケーションのためのアプローチです。
認証可能なアルゴリズムとは何かを簡潔に説明します。たとえばシーン内の物体のポーズを推定するアルゴリズムがあるとします。通常のアルゴリズムは推定値を出力するだけですが、認証可能なアルゴリズムはそれに加えて、「この推定値は最適かつ正しい」という認証を行うか、あるいは「この推定は失敗している」という検出を行います。つまり、自分の推定が正しいかどうかを自ら判断できるアルゴリズムです。この実現には、モーメント緩和(moment relaxations)を含む新しい数学的なツールを活用しています。技術的な詳細には立ち入りませんが、こうした手法によって自動運転車向けの物体・車両検知においてより確実な動作を実現してきました。
さらにこの認証可能アルゴリズムの概念は、自己教師あり学習(self-supervised learning)とも非常に相性が良いことがわかりました。そのインサイトは非常にシンプルです。正しい推定と誤った推定を区別できるのであれば、正しい推定からだけ学習することができます。つまり、人間による監督なしに学習できるのです。これは自己教師あり学習を大きくスケールアップする可能性を持つ重要な発見です。
4-3. システムレベルの故障検出とDARPA地下環境チャレンジでの実証
Luca Carlone: アルゴリズム単体の改善にとどまらず、私たちはさらにシステムレベルの視点へと研究を発展させました。実際の自動運転車などの知覚システムは、複数の相互接続されたモジュールとアルゴリズムから構成されています。そのためアルゴリズム単体が正常であっても、システム全体として故障が生じることがあります。私たちはこのシステムレベルの複雑さに正面から向き合い、複雑なシステムにおけるランタイム監視と故障検出のためのツールを開発しました。
こうした研究成果は、オープンソースとして積極的に公開しています。私たちの研究室はSPARK Labといい、GitHubオーガナイゼーションを通じて多くのアルゴリズムを公開しており、GTSAMやMATLABなどの標準的なライブラリにも組み込まれています。
これらのアルゴリズムを実世界で実証する機会として、DARPAの地下環境チャレンジへの参加は特に大きな意味を持ちました。このチャレンジの目標は、捜索・救助活動などで遭遇するような地下環境での自律動作を実証することです。私たちはJPL(ジェット推進研究所)とチームを組み、3つのコンペティションのうち2つで1位と2位を獲得することができました。またFordおよびNVIDIAとの共同研究では、自動運転応用における認証可能アルゴリズムとシステムレベル監視の有効性を実証しました。さらに、私の学生の一人がDraperとの共同研究で開発したアルゴリズムが、Blue OriginのNew Shepherdロケットに搭載されて飛行するという、地形相対航法(terrain relative navigation)への応用も実現しました。これらの実績は、私たちの研究が単なる理論にとどまらず、実際の高信頼性アプリケーションにおいて機能することを示す重要な証拠です。
5. 人間レベルの場面理解に向けた研究(Luca Carlone)
5-1. SLAMを超えた空間知覚(Spatial Perception)の必要性
Luca Carlone: セクション4でお話しした認証可能な知覚システムの研究と並行して、私たちのグループが力を入れてきたもう一つの研究の柱が、人間レベルの場面理解、すなわち「空間知覚(Spatial Perception)」の実現です。
従来の移動ロボットが理解し実行できる命令は、「位置X、Y、Zに移動せよ」というような非常に低レベルのものに限られていました。これはロボットが主に環境の幾何学的な側面、つまり障害物の位置関係だけを把握しており、そこからどう目的地に到達するかを計算するにとどまっていたからです。しかし次世代のロボットに求められるのは、これをはるかに超えた能力です。たとえば「赤い建物の2階で生存者を探せ」とか「キッチンのテーブルにあるコーヒーを持ってきて」といった高レベルの命令を理解し実行できる能力です。
このような命令を処理するためには、ロボットはキッチンとは何か、コーヒーカップとは何か、そしてそこにどうやって到達するかを含む、複雑な外部環境のモデルを構築しなければなりません。ロボット工学において環境地図を作りながら自己位置を推定する技術はSLAM(Simultaneous Localization and Mapping)と呼ばれ、ロボット工学の基礎的な問題として長年研究されてきました。しかしSLAMが提供するのは基本的に幾何学的な地図にすぎません。私たちが主張したいのは、次世代のロボットにはSLAMを超えた空間知覚が必要だということです。その目標は、ロボットが探索する環境について、人間が持つような豊かな理解を形成することにあります。
5-2. Kimeraによるリアルタイム3Dセマンティックメッシュ
Luca Carlone: この目標に向けた最初の具体的な成果が、Kimeraというシステムです。Kimeraはカメラ画像を入力として受け取り、環境の3Dメトリック・セマンティックメッシュをリアルタイムで再構築します。「メトリック」とはシーン内の障害物の幾何学的な形状を正確に捉えることを意味し、「セマンティック」とはメッシュの各面にセマンティックラベル、つまりそれが何であるかという意味的な情報が付与されることを意味します。
実際の映像では、ロボットが環境を探索しながらリアルタイムでメッシュを構築していく様子が確認できます。黄色はキュービクル(仕切り付き作業スペース)、明るい緑色はソファ、濃い緑色は壁というように、異なる色が異なる種類の物体に対応しています。特筆すべきは、このシステムがCPU上で、つまり小さな計算予算でリアルタイムに動作するという点です。GPUのような高価な計算資源を必要とせず、実際のロボットへの搭載を現実的なものにしています。
5-3. 3D Scene Graph(Hydra)と次世代ロボットが目指す高レベル命令実行
Luca Carlone: Kimeraの成果をさらに発展させ、私たちはより複雑な地図表現へと研究を進めました。それが3D Scene Graph、すなわち3次元シーングラフです。このモデルでは、ロボットは環境のメトリック・セマンティックメッシュを理解するだけでなく、個々の物体やエージェントの存在を認識し、さらに部屋や建物といったより高次の構造についても推論することができます。
この3D Scene Graphをセンサーデータからリアルタイムで構築する最初のシステムとして、私たちはHydraを開発しました。実際の映像では、ロボットが環境を探索しながらメトリック・セマンティックメッシュを構築し、シーン内の物体を認識し、物体間の関係を把握し、そして自分が今いる部屋がキッチンであることを理解する様子が確認できます。このシステムは、従来の幾何学的な理解とSLAMの技術を、深層学習、グラフニューラルネットワーク、そして大規模言語モデルと橋渡しするものです。
これらの手法は複数の応用分野に展開されています。未知環境を探索するマルチロボットシステム、環境と相互作用・操作を行うシステム、人間の近くで動作するシステムなどです。中でも特に興奮しているのが、知覚技術を用いてドローンによる物体の積極的な把持(aggressive grasping)を実現したソフト空中操作(soft aerial manipulation)の研究です。ドローンが知覚システムに誘導されながら空中から物体を把持する様子は、私たちが目指す次世代の自律ロボットの姿を具体的に示すものです。
私たちが目指す自律システムの全体像を示すコンセプト映像があります。これは現在実現されているロボットの実映像ではなくコンピュータ描画ですが、目指すべき方向性を明確に示しています。小型ドローンが搭載カメラを使って障害物の間を軽々と飛行し、ビジョンベースのナビゲーションを実現しながら、互いに、そして環境と相互作用し、複雑な動作を実行する様子が描かれています。この映像が示す二つの核心的な要素、すなわちビジョンベースのナビゲーションと環境との相互作用、これこそが私たちの研究が目指すゴールです。認証可能な知覚アルゴリズムによる知覚システムの頑健性向上と、人間レベルの場面理解による複雑なナビゲーションとインタラクションの実現、この二つのアプローチを組み合わせることで、次世代の自律ロボットの実現に近づいていきたいと考えています。
6. 3D知覚アーキテクチャとロボット操作スキルの学習(Katarina Fradiakiová)
6-1. 2D画像を3D特徴マップに変換するアーキテクチャと自動運転との共通性
Katarina Fradiakiová: 私の発表は二つのパートから構成されています。まず前半では、ロボットの操作スキル学習、特に実演からの学習(learning from demonstration)のための3D知覚について議論します。後半では、その実演データの収集を自動化する方法についてお話しします。
現在どこまで来ていて、優秀なロボットを作るためにどれだけの距離が残っているかを考えると、映画『WALL-E』の主人公はリサイクル対象の物体を認識し、操作し、仕分けするという非常に高度な能力を持っていました。私たちの現在地はそこにはまだ届いていませんが、着実に近づいています。
3D知覚の必要性についてお話しします。通常の2D画像、つまりピクセルの集合は、カメラから見えている部分しか表現できません。たとえば猫の画像であれば、カメラに映っている面だけが見えており、残りの部分は隠れています。このような部分的な情報では、ロボットが物体を適切に操作するには不十分です。そこで私たちの研究室では、この2D画像を3D特徴マップに変換する微分可能なニューラルネットワークアーキテクチャを開発してきました。
この3D特徴マップは、X・Y・Zの座標空間上に広がるグリッドであり、各位置にシーンの内容を記述する特徴ベクトルが格納されています。これはLucaが紹介したマップと非常に似ていますが、私たちのアプローチはビュー予測(view prediction)による自己教師あり学習でエンドツーエンドに学習される点が異なります。各位置の特徴ベクトルはシーンの幾何学的特性と外観特性の両方を記述しており、2Dの畳み込みネットワークや2Dトランスフォーマーをトレーニングするのとまったく同じ要領で、エンドツーエンドで3D物体検出などのタスク向けにトレーニングできます。
ただし3Dマップには空間分解能という課題があります。物体の把持には非常に高い精度が求められるため、粗い分解能では不十分です。かといって解像度を上げると必要なメモリ量が爆発的に増加してしまいます。この問題に対して、特徴ベクトルを一つの格子点に保存するのではなく、XYZ座標を入力として特徴ベクトルを出力する関数として局所的にパラメータ化するというアプローチを採用しました。これにより、無限に連続した空間分解能を持つ3D特徴マップが実現できます。
移動するカメラを持つロボットが複数のカメラ画像から3Dマップを構築するのとまったく同じ方法で、垂直方向の次元を圧縮して2次元の鳥瞰図(Bird's Eye View:BEV)マップを生成することもできます。これはまさに現在の自動運転車で実際に使われているアーキテクチャです。実際、数年前のTeslaのプレゼンテーションで比較が示されていましたが、透視投影画像にラベルを付けてから融合するアプローチでは境界付近にアーティファクトが生じ、そこから直接走行することはできません。一方、画像を先に幾何学的に整合性のある形で融合してからBEVマップ上で予測を行うアプローチでは、車が実際に走行できる出力が得られます。現在の自動運転車はある意味で最も能力が高くインテリジェントなロボットであり、非常に幅広いオープンエンドな状況に対応できます。もっとも、そこには膨大なリソースが投じられており、残念ながら企業間の知識共有が不足していることによる無駄も多いわけですが。
6-2. ACT-3Dによる少数デモからの操作学習——空間同変性と実験結果
Katarina Fradiakiová: 自動運転でこれほどの成功が見られる3D知覚を、ロボットマニピュレーターに応用できないでしょうか。具体的には、非常に少数の実演から操作スキルを学習する、すなわちサンプル効率の高い学習を実現したいと考えました。少数の訓練例から非常に高い性能の操作ポリシーを得ることが目標です。
2023年のCoRL(Conference on Robot Learning)での発表を予定している研究として、私たちはACT-3Dと呼ぶアーキテクチャを開発しました。これは従来の最先端手法に対して大きな性能向上を達成しています。仕組みを説明します。まずタスクの言語指示と、複数台のカメラからの画像を入力として受け取ります。現在の実験では3台のカメラを使用しています。これらの画像をCLIPのような2D基盤モデルに通して2次元の特徴量を抽出し、それをセンサーの深度情報を使って3D空間に「持ち上げ」ます。これにより、占有されている各点に特徴ベクトルが付与された3D特徴クラウドが得られます。
次に、グリッパーが次のタイムステップでどこへ移動すべきか、すなわちエンドエフェクターの位置と向きを予測します。3次元空間には膨大な数の候補位置が存在するため、すべてを列挙することは現実的ではありません。そこで粗から細へのサンプリング(coarse-to-fine sampling)を採用しています。まずいくつかの点をサンプリングし、トランスフォーマーで融合します。これらを「ゴースト点」と呼びます。エンドエフェクターが存在する可能性が最も高い点の周辺をより密にサンプリングし、再度融合し、またサンプリングするという手順を繰り返して、最終的にエンドエフェクターの位置を特定し回転を予測します。
なぜ直接エンドエフェクターのパラメータを回帰するのではなく、この3Dアクションマップを通じて計算するのかというと、それが空間同変性(spatial equivariance)を与えるからです。シーンが平行移動または回転した場合、エンドエフェクターの予測も同様に平行移動・回転します。この性質によって、テスト時の平行移動・回転・異なるカメラ視点への汎化が可能になり、非常に少ない訓練データから学習できるようになります。この粗から細へのトランスフォーマーによって、ACT-3Dは無限の分解能を持つ3Dアクションマップを実現しています。
実験結果については、RLBenchという確立された操作ベンチマークで評価しました。標準的な難易度設定では従来手法より10%高い性能を示し、難易度の高い設定では従来の最先端手法が100件の実演を用いた場合の性能を、ACT-3Dはわずか10件の実演で上回るという結果が得られました。26%という絶対的な性能向上は、アーキテクチャにおける空間同変性の保持が、少数の実演からの学習においていかに重要であるかを端的に示しています。実世界においても、わずか数件の実演を与えるだけでモデルがタスクを実行できることを確認しており、テスト時に異なるカメラ視点へ汎化できるという点は従来手法には難しかったことです。これは粗から細へのサンプリングで同じ重みを共有するという設計上の選択が重要であることをアブレーション実験でも確認しています。
6-3. 拡散モデルとの統合による精度向上(+133%)
Katarina Fradiakiová: ACT-3Dの前のバージョンでは、エンドエフェクターの向きを回帰(regression)によって予測していました。しかし回帰はマルチモーダル、つまり複数の正解が存在する状況に対応できないという根本的な限界があります。たとえばある把持タスクにおいて、グリッパーが180度回転した二つの向きがどちらも有効な場合、回帰モデルはその中間の向きを出力してしまい、実際にはどちらの有効な解にも対応していない無効な予測をしてしまいます。
この問題を解決するために、私たちはACT-3Dのアーキテクチャに拡散モデル(diffusion model)の目的関数を組み合わせる拡張を行いました。拡散モデルはマルチモーダルな分布を自然に表現できるため、エンドエフェクターの位置だけでなく向きの予測においても複数の有効な解候補を適切に扱うことができます。この設計上の選択の結果として、向きの予測精度が133%という絶対的な大幅改善を達成しました。
この数字は非常に大きく、アーキテクチャの設計選択一つがいかに性能に直結するかを如実に示しています。3D知覚による空間同変性の保持と拡散モデルによるマルチモーダルな向き予測の組み合わせが、少数実演からの操作学習において現在の最先端を実現しているといえます。
7. データ生成の自動化:Generation-to-Simulation(Katarina Fradiakiová)
7-1. 生成AIによる3Dアセットの自動生成
Katarina Fradiakiová: コンピュータビジョンや自然言語処理の分野では、大規模なニューラルネットワークを膨大なデータセットで自己教師あり、あるいは弱教師あり学習させることによって、驚くべき性能向上が実現されてきました。しかしロボット工学においては、このようなスケールアップを可能にする大規模なデータセットが存在しないという根本的な問題があります。では、どうすれば良いのでしょうか。画像モデルや言語モデルを活用してロボット用の訓練データをスケールアップできないか、これが私たちの問いです。
この問いに答えるべく開発した最新の研究が「Generation-to-Simulation」、略してGen2Simと呼ぶフレームワークです。このフレームワークは三つのステップから構成されます。第一のステップは3Dアセットの生成、第二のステップは大規模言語モデルを用いたタスクの予測と分解、そして第三のステップはシミュレーション内での強化学習です。
まず3Dアセットの生成についてお話しします。私たちは物体中心の2D画像を入力として受け取り、それを3Dモデルへと「持ち上げ」ます。この処理にはスコア蒸留(score distillation)と呼ばれる手法を用いています。具体的には、パラメトリックな3Dモデルの様々な視点からのレンダリング画像を生成し、視点条件付き2D拡散モデルを使ってそれらの尤度を評価します。同時に、入力として与えられた画像との再投影誤差も最小化します。この二つの目的関数を組み合わせて最適化することで、ランダムな物体中心画像から3Dモデルを自動生成することが可能になります。
この手法を用いることで、食品操作など特定のドメインに必要な物体の3Dモデルを大量かつ多様に自動生成できます。さらに生成した3Dアセットに対して、大規模言語モデルに質量や物理パラメータを問い合わせることで物理シミュレーションに必要な情報を付与し、シミュレーター内でそれらの物体が現実的な挙動を示すようにすることもできます。人間が一つひとつアセットを設計したり、物理パラメータを手動で設定したりする必要がなく、このプロセス全体が自動化されています。
7-2. LLMによるタスク分解・報酬関数の自動設計と強化学習の実現
Katarina Fradiakiová: 3Dアセットが用意できたら、次はそのアセットを使ってロボットに何をさせるかを決め、学習させる必要があります。通常であれば、研究者がそれぞれのタスクについて報酬関数を手動で設計し、タスクをサブタスクに分解し、実演データを収集しなければなりません。これを無数の操作タスクについて行うことは現実的ではありません。そこで私たちはLLMを活用してこのプロセスを完全に自動化しました。
LLMへのプロンプトの構成はシンプルです。まずシミュレーター内に存在するアセットの種類とその部品構造を伝えます。次に利用可能なAPI関数の一覧を与えます。そして一つのアセットについてのみ、関連するタスクとそのタスク分解、そして報酬関数の例を提示します。たったこれだけのプロンプトで、LLMはその単一の例を他の無数のアセット、さまざまな形状や部品構造を持つアセットへと汎化し、それぞれのタスク分解と報酬関数を自動生成することができます。重要な点は、LLMをファインチューニングしているわけではないという点です。事前学習済みの大規模モデルをプロンプトによって操作するだけで、このような汎化が実現できます。
最後のステップは、自動生成された報酬関数を使ってシミュレーション内で強化学習を走らせることです。これにより、人間の介入なしにロボットがさまざまな操作タスクの解法を自動的に発見します。アセットの設計も、物理パラメータの設定も、タスクの定義も、報酬関数のプログラミングも、実演データの収集も、すべて不要です。プロンプトとシミュレーション内の強化学習だけで、ロボットはタスクを解く方法を学習します。
このGen2Simフレームワークが示す可能性は非常に大きいと感じています。ロボット学習における最大のボトルネックであったデータ不足という問題に対して、生成AIとLLMとシミュレーションを組み合わせることで、スケーラブルな解決策への道筋が見えてきました。この研究を実現してくれたAdam、Theo、Niko、Xian、そしてPushkalをはじめとする学生たちの貢献に心から感謝しています。
8. 生成AIによる信頼性向上とコンピュータビジョンの課題(Alex Wong)
8-1. 製造ロボティクスの三重の制約——多様性・リアルタイム・低消費電力
Alex Wong: 私の研究の中心にあるのは、持続可能な産業化と製造業の発展、そしてその分野でのイノベーションを促進するという目標です。次世代ロボティクスを実現するうえで、コンピュータビジョンの分野には現在どのような課題があるのか、これまでの登壇者が触れた点に加えて、私が特に重要だと考える三つの課題をお話しします。
第一の課題は、ロボティクス向けコンピュータビジョンのタスクが持つ膨大な多様性に対応しながら、高い信頼性と精度を実現する機械学習モデルを設計することの難しさです。製造業の現場では、物体の中心質量の検出、物体の境界の認識、物体同士の重なりの把握、把持点の特定——吸着グリッパーであればどこに吸着するか、指グリッパーであればどこをつかむか——といった複数のタスクを同時にこなす必要があります。さらにリアルタイム性能が求められ、しかもローエンドのハードウェア上で動作しなければならないという制約が加わります。この三つ——多様性、リアルタイム、低消費電力——を同時に満たすモデルを人間が手作業で設計することは非常に難しく、時間もかかります。
第二の課題は、これらの機械学習モデルを訓練するために必要な高品質なデータを取得することの難しさです。Katarinaも触れていましたが、深度センサー、RGBセンサー、触覚センサーなど多種多様なセンサーに対応し、あらゆる異なるシナリオやエッジケースを網羅するデータを収集することは、現実的に非常に困難です。
第三の課題は、私が特に強い関心を持っているテーマでもありますが、これらの機械学習モデルが実際にどのように動作しているかを理解することの欠如です。モデルが何を得意とし、何を苦手とし、どこに改善の余地があるのかを把握することが難しく、その結果として性能への信頼を築くことが非常に困難になっています。
8-2. 生成AIによるマルチタスクモデルの自動設計実験
Alex Wong: これら三つの課題に対して、私たちのグループが問いかけたのは「生成AIは助けになるか」という点です。生成AIがテキストの説明から写実的な画像を生成したり、大規模言語モデルで生成されたコンテンツが実際の人間の言葉と見分けがつかないほどのクオリティに達していたりするこの時代に、ロボティクスの文脈でも生成AIを活用できないかと考えました。私たちのGen AI for Goodイニシアチブの一環として、三つの方向性でこれを検討しました。すなわち、より強力で効率的なマルチタスクモデルの自動生成、合成データの自動生成、そしてAIの意思決定を定量的に説明する手法の自動生成です。
まず、生成AIによるマルチタスク機械学習モデルの自動設計についてお話しします。先ほど述べた通り、製造業のロボティクス向けコンピュータビジョンには6種類もの異なるタスクを同時にこなす必要があります。これを最適な性能でリアルタイムかつ低消費電力のシステム上で動作させるモデルを人間が手で設計することは、実際には非常に難しい作業です。そこで私たちは、こうしたマルチタスクの深層ニューラルネットワークを自動生成する生成AIシステムを構築しました。
実験の結果は非常に驚くべきものでした。生成AIアプローチによって自動生成されたニューラルネットワークは、人間が手作業で設計したものよりも動作が大幅に高速であり、非常に小型のエッジデバイスに収まるほど小さく、必要なメモリ量も少なく、しかもすべてのタスクにわたって性能が向上するという結果が得られました。速度、サイズ、精度の三つすべてにおいて、手作りのモデルを上回ったのです。このアプローチをさらに発展させ、異なる種類の機械学習タスクに対応するさまざまなモデルを生成する研究を現在も継続して進めています。
8-3. 合成データセット「MetaGraspNet」の構築と公開
Alex Wong: 次に、合成データ生成の取り組みについてご紹介します。Katarinaが紹介した手法と同様に、私たちも生成AIアプローチを用いて実世界の物体データと実世界のシナリオを生成することを試みました。私たちが構築したのはデジタルツインを活用したメタバース的なシステムです。数十万から数百万台もの異なる仮想カメラを配置し、生成されたアセットと組み合わせ、実世界の物理法則に基づいたシミュレーション内でさまざまなシナリオを大量に生成しました。
この取り組みの成果として構築・公開したのが「MetaGraspNet」と呼ぶデータセットです。ドイツのKIT(カールスルーエ工科大学)およびFestoとの共同研究として開発し、完全にオープンなデータセットとして公開しています。その規模は、82種類の物体カテゴリにわたる21万7千枚のRGB-D(カラーおよび深度)画像です。すべて実世界の物理法則に基づいてシミュレーション内で自動生成されているため、物体検出、モーダル・アモーダル知覚、キーポイント検出、操作順序、平行ジョーグリッパーおよび真空グリッパー向けの把持ラベルなど、すべてのアノテーションが自動的に付与されています。
さらに実世界への汎化を検証するため、完全にアノテーション済みの実世界画像2,300枚も含めています。シミュレーションで達成した性能が実際の現場でも通用するかどうかを検証するためです。データセットは難易度に応じて5段階のカテゴリに分けられており、ロボットシステムが時間をかけて段階的に学習・改善できるよう設計されています。また、未知の物体に対する汎化性能を評価するための未見物体データセットも含まれており、実際の現場では見たことのない新しい種類の物体や状況にAIがどれだけ適応できるかを評価できるようになっています。これにより、構築したAIが責任を持って、信頼性高く、頑健に動作することを保証する評価基盤としての役割を果たしています。
9. 定量的説明可能AI(XAI)のロボットへの応用(Alex Wong)
9-1. 「正しい理由で正解する」ことの重要性と定量的XAIの概念
Alex Wong: 現在の多くの機械学習システムは、訓練データを用いてモデルを学習させ、そのモデルが決定や推薦を出力するという構造になっています。しかしユーザーの側からすると、このプロセスは完全なブラックボックスです。なぜそのような決定を下したのか、なぜある物体をそう分類したのか、なぜある把持点を選んだのか、そしてどのような状況でAIは成功し、どのような状況で失敗するのか、こうした問いに答えることができません。誤りが生じた場合でも、なぜ間違えたのかがわからなければ、どう修正すればよいかもわかりません。
説明可能AI(XAI)の枠組みでは、モデルが単に決定を出力するだけでなく、なぜその決定を下したのかについての説明も提供します。しかし多くの既存のXAIアプローチはプロキシ的な説明、つまり間接的で定性的な説明にとどまっていました。私たちが取り組んでいるのは、これをさらに一歩進めた「定量的XAI」です。定量的XAIでは、AIが下した決定の理由だけでなく、その完全な定量的根拠も同時に提供されます。具体的には、どの要因がどれだけの重みでその決定に寄与したか、なぜ成功しなぜ失敗するのか、いつ信頼でき、どこに固有のバイアスや公平性の問題があるのか、そしてシステムがどれだけ頑健であるかが明らかになります。
具体例でお示しします。戦闘機とミーアキャットの画像を分類するニューラルネットワークがあるとします。定量的XAIを適用すると、戦闘機については機体前部と翼を見て、98.7%の確信度で戦闘機と判定したという説明が得られます。さらに、もしモデルがその注目領域を無視した場合、23.5%の確信度でパラシュートと判定してしまう可能性があるという定量的な根拠も示されます。実際にその注目領域を手で覆い、空の背景だけを見ると、パラシュートと判断しても不思議ではありません。ミーアキャットについては顔と胸部を見て97.4%の確信度でミーアキャットと判定しており、もし注目領域を無視すれば67.6%の確信度でダチョウと誤判定してしまうことも示されます。ミーアキャットの画像の注目領域を手で覆うと、草地の背景だけが残り、確かにダチョウと間違えても無理はないと納得できます。このように定量的XAIは、モデルが正しい理由で正解しているのか、あるいは間違った理由で正解しているのかを明確に区別することを可能にします。
9-2. 把持ロボットのDNNがロゴを見て誤判断していた実験的発見
Alex Wong: この定量的XAIをロボットの把持システムに応用した結果、非常に重要な実験的発見が得られました。私たちは把持ロボット向けの深層ニューラルネットワーク(DNN)が実際にどのように思考し、決定を下しているのかを理解するために、定量的XAIを用いて分析しました。
まず「二次説明可能性(second-order explainability)」と呼ぶアプローチを適用しました。データセット内のすべてのサンプルに対して定量的な説明を生成し、それを分析してモデルが苦手としている概念と得意としている概念のトレンドを把握するというものです。分析の結果、モデルの注目パターンによって異なるクラスターが可視化されました。
そこで明らかになった驚くべき事実があります。モデルが苦手としているケースのクラスターを調べると、ドリルの頭部や本体ではなく、ドリルに印刷されたロゴやテキストを主に見て把持の判断を下していることがわかったのです。一方、モデルがうまく機能しているケースのクラスターを調べると、ドリルのロゴやテキストが見えていない状況、つまりドリルの背面や先端の面を見ているときに、はるかに高い精度で判断できていることが確認されました。
この発見が意味することは非常に明確です。モデルは本来見るべき物体の形状や把持に関連する幾何学的特徴ではなく、ロゴという本質的には把持とは無関係な情報を手がかりにして判断を下していたのです。把持性能の低下の原因が、ロゴへの過剰な注目にあるとわかったのです。
9-3. XAIによる改善サイクル——説明・再訓練・性能向上
Alex Wong: この発見を踏まえて、私たちは次のステップとして、モデルがロゴやテキストに注目しないよう制約を加えた上で再訓練を行いました。その結果、把持性能が大幅に向上しました。これは説明可能AIが単にモデルへの信頼を高めるだけにとどまらず、モデルそのものを実際に改善するための強力なツールになり得ることを示す明確な証拠です。
この一連のサイクル——AIの説明を得る、問題のある注目パターンを特定する、その知見をもとにモデルを改善する——こそが、私たちが推進している説明可能AIの実践的な価値です。AIシステムの内部で何が起きているかを理解しなければ、改善することはできません。そして製造業や医療などの高信頼性が求められる現場においては、「なぜそう判断したのか」を説明できないシステムは、どれほど高い精度を示していても、本当の意味で信頼することはできません。
まとめると、生成AIはロボティクス向けコンピュータビジョンにおける信頼性の高い高性能システムを実現するための非常に強力なツールです。マルチタスクモデルの自動設計、大規模な合成データの生成、そして定量的な説明可能性の提供という三つの側面において、生成AIがもたらす恩恵はその課題をはるかに上回ります。私たちのVision and Image Processing研究グループ、Darwin AI、そしてKITおよびFestoとの共同研究者たちとともに、この研究をさらに前進させていきたいと思います。
10. パネルディスカッション:センサーの未来とモデルの効率化
10-1. カメラ対LiDAR・Radarのセンサー比較と相補的活用
Karen Panetta: 各講演で視覚センサーの重要性について繰り返し触れられてきましたが、世界の一部の交通機関当局は「BluetoothやLiDAR、Radarがあれば視覚センサーは不要になる」という見解を示しています。一方でロボティクスにおいて視覚がいかに重要かは皆さんの発表からも明らかです。センサーの未来についてどのようにお考えでしょうか。
Luca Carlone: Elon MuskがLiDARベースのアプローチは失敗すると発言したことは記憶に新しいですが、まずロボティクスや自動運転で使われる主要なセンサーを整理しておきましょう。LiDARとRadarは距離を計測するセンサーです。視覚、すなわちカメラは外観を計測するセンサーであり、単眼カメラの場合は深度情報を直接取得することはできませんが、非常に豊富な情報を持っています。そしてほとんど語られることがないながらも実際のアプリケーションには必ずと言っていいほど搭載されているのが、慣性計測装置(IMU)です。私たちのスマートフォンにも搭載されており、加速度や回転を計測する非常に普及したセンサーです。
これらのセンサーの性質を比較すると、LiDARはアクティブセンサーであり環境に光を投射するため、暗闇や自然光のない状況でも機能します。あらゆる環境条件下での動作が可能という点で非常に強力です。一方カメラは非常に豊富な情報を持ちますが、そこから洞察を引き出すことは容易ではありません。また暗所や低照度条件ではカメラの性能は大幅に低下します。つまりこれらのセンサーは本質的に相補的な性質を持っており、どのセンサーが最良かを一概に言うことはできません。重要なのは、特定のアプリケーションに対してどのセンサーが最適かを理解することです。コスト、消費電力、性能のトレードオフを踏まえ、アプリケーションのどの側面を優先するかによって最適な選択は変わります。たとえば安価な家庭用ロボットを作るなら、3D LiDARのコストを負担することは難しいかもしれず、安価なカメラを選ぶ方が合理的でしょう。一方、自動運転であれば乗客の安全とコストをトレードオフするわけですから、追加のセンサーに投資することが正当化されます。
また「人間は目二つで運転できるのだから、カメラだけで自律走行できるはずだ」という議論についても触れておく必要があります。この議論には根本的な論理的誤謬があります。私たちがAIに使っているアルゴリズムの種類と計算方式が、脳が実行しているものと同じだという前提を置いていますが、それは非常に大きな仮定です。さらに人間の目は現在私たちが使っているカメラと比べて、ダイナミックレンジや多くの特性において格段に優れています。
Katarina Fradiakiová: 私はカメラを強く支持します。現在TeslaはカメラのみでAI処理を行っています。カメラの大きな利点は、センサーそのものの価値はそこから何を抽出できるかにかかっているという点です。何百万・何十億もの画像で事前学習された素晴らしい2D基盤モデルが無償で手に入る現在、カメラから得られる情報の活用可能性は飛躍的に高まっています。カメラは安価であり、私のスマートフォンには何台も搭載されており、いたるところに存在しています。2027年頃には自動運転車が十分に安全になるという予測を業界の専門家から聞いたことがありますが、私自身すでに自分の親族の命が車の自動ブレーキシステムによって救われた経験があり、人間より早い段階で自動運転車が人間より安全になることを確信しています。ただし、安全性は絶対的な尺度ではなく、人間の運転と比較してどれだけ安全かという相対的な尺度で判断すべきです。さらに今の議論はすべて良好な天候条件を前提にしており、悪天候時にどうなるかという問題は依然として残っています。
Peter Corke: 私はElon MuskやKatarinaと同様に、カメラセンサーだけで車を運転することが可能であるという存在証明が既にあると考えています。現在はまだ人間と同等には遠く及びませんが、これは数年以内に解決される問題だと思います。安全な自動運転車の実現は避けられないことだと私は考えています。
Alex Wong: 自動運転の話題は非常に華やかですが、完全自動運転でなくても既に多くの恩恵を享受できていることを忘れてはなりません。運転支援システム(ADAS)はすでにAIコンポーネントを持ち、安全性の向上に貢献しています。また私はカナダ出身ですが、吹雪で外が真っ白になり大粒の雪が降り続けているような状況では、私たちが使い慣れているセンサーの多くは正常に機能しません。そのような特定の状況においては、人間が介入できる能力が非常に価値を持ちます。段階的に技術を積み上げながらソリューションに近づいていくアプローチが重要であり、その過程で得られる技術の恩恵も大きいと思います。
10-2. TinyML・Efficient ML運動とエッジデバイスへの展開
Karen Panetta: 次のテーマに移りましょう。遅延やレイテンシ、そしてエッジデバイスへの展開という観点から、将来のAIモデルはどのような姿になるとお考えですか。数百万のパラメータを持たないAIが実現可能になり、コスト効率が高く信頼性のある生成AIをエッジデバイスで動かせるようになるでしょうか。
Peter Corke: 将来のモデルがパラメータ数という観点でどうなるかを論じることは、あまり意味がないかもしれません。しかし推論時間の特性については確かに語れることがあります。特に私が重視しているのはエネルギーコストです。現在私たちは非常に高価で電力消費の大きいハードウェア上で動作させていますが、フィールドに展開するためには推論が超高速で、かつ最小限のエネルギーで実行できなければなりません。非常に希望が持てる兆候として、現代のスマートフォンにはニューラルエンジンチップが搭載されています。この技術が今後急速に発展していくことは間違いないでしょう。私にとってこれは非常に有望なサインです。
Alex Wong: Peterの言う通りです。モデルの側からもう一点加えると、TinyMLあるいはEfficient MLと呼ばれる大きな動きがあります。より優れたモデルを設計し、コスト効率が高くエネルギー効率の良いエッジデバイスに適合させようという試みです。私たちの研究でもお話しした通り、生成AIを活用してより優れたモデルそのものを設計するというアプローチも、このローエンドデバイスへの適合という課題に対して有効な手段の一つになり得ます。推論の高速化とエネルギー効率の向上、そしてモデルの小型化という三つの方向性が、エッジデバイスへの展開を現実のものにするための鍵となるでしょう。
11. パネルディスカッション:自動運転の安全性と実現時期
11-1. 現在の統計的コストと技術水準の現在地
Karen Panetta: 自動運転の安全性と実現時期について、聴衆からも多くの質問が寄せられています。専門家の皆さんが自動運転車はいつ完全に自律化され、安全になると考えているかをお聞きしたいと思います。
Peter Corke: 安全性の問題は最も重要な論点です。LucaとKatarinaも触れていましたが、現状の統計は非常に厳しいものがあります。現在の人間による運転では、年間100万人が死亡し、1億人が負傷しています。つまり現在の運転方式のコストは既に壊滅的なレベルにあります。私はElon MuskやKatarinaと同様に、カメラセンサーだけで車を運転することが可能であるという存在証明が既に示されていると考えています。現時点ではまだ人間と同等には遠く及びませんが、これは10年以内、おそらくはるかに短い年数で解決される問題だと思います。安全な自動運転車の実現は不可避だと私は確信しています。
Katarina Fradiakiová: 私は2027年という予測を業界の非常に詳しい専門家から聞いています。安全性については、絶対的な尺度ではなく人間の運転と比較した相対的な尺度で考えるべきだというのが私の立場です。どれだけ人間より安全であればよいかという基準は、社会の道徳的な価値観や法的な枠組みによって異なります。人によっては人間の2倍、10倍、あるいは100倍安全でなければ公道に出すべきではないという考えもあるでしょう。私自身はすでに自分の親族の命が車の自動緊急ブレーキによって救われた経験があります。私自身も日常的に駐車や狭い道での運転でぶつけてしまうことが多い人間なので、車が人間より早い段階で安全になることを確信しています。ただし現在の議論はすべて良好な天候条件を前提にしており、悪天候時の性能については依然として不確実性が残っています。
11-2. レベル5完全自律走行は「いつ」より「どこで」の問題
Luca Carlone: 私はこの問いに対して、少し異なる視点を提供したいと思います。完全自律走行の実現は「いつ」の問題ではなく、「どこで」の問題だというのが私の見方です。
すでに局所的な展開という意味では、今日この瞬間に答えは出ています。サンフランシスコに行けば自律走行タクシーに乗ることができますし、特定のエリアではTeslaのオートパイロットを信頼して使用することもできます。こうした限定的なエリアでの完全自律走行は、既に現実のものとなっています。
一方で、たとえば私の故郷であるイタリアのどこでも介入なしで走行できるようなレベル5の完全自律走行が実現するかという問いに対しては、今後10年以内には難しいと考えています。少し悲観的に聞こえるかもしれませんが、理由は明確です。自動運転におけるコーナーケース、つまり例外的な状況への対応は、ロボットに対して汎用的な知覚能力と汎用的な推論能力を要求することとほぼ同義です。今後5年以内に非常に幅広い知覚能力と複雑な推論能力がロボットに備わると信じるのであれば、楽観的な予測も成り立ちます。しかしそう信じない限り、完全自律走行の実現時期についてはより慎重な見方をせざるを得ません。もちろん楽観的な予測が外れることを願っていますが、これが私の現時点での率直な見解です。
Alex Wong: 私からは二点コメントします。一点目は、完全自動運転は非常に華やかな目標ですが、そこに至らなくても運転支援システム(ADAS)がすでに多くの恩恵をもたらしているという点です。段階的に技術を積み上げながら完全自律走行という目標に近づいていくアプローチは、その過程で得られる恩恵も大きく、非常に価値ある方向性だと思います。二点目は、私がカナダ出身であることと関係しますが、吹雪で外が真っ白になり大粒の雪が降り続けているような状況では、私たちが通常使っているセンサーの多くは正常に機能しません。Lucaが指摘した「どこで」という問いとも関連しますが、特定の天候条件や地理的条件においては、人間が介入できる能力が依然として非常に重要な価値を持ちます。マルチモーダルなアプローチ、すなわち適切な問題に対して適切なセンサーを組み合わせることと、必要な場面での人間の介入能力の確保が、現実的な安全性を担保するための鍵だと考えています。
12. パネルディスカッション:信頼性・説明可能性・評価指標
12-1. 自動運転システムの誤った推論根拠を暴いた実験事例
Karen Panetta: AIの信頼性と説明可能性について議論を深めたいと思います。自動運転車をはじめとするAIシステムが安全に運用されることはもちろんですが、それだけでなく、私たちを誤誘導したり、実際に害を及ぼしたりしないようにするためにはどうすればよいでしょうか。信頼性と説明可能性の重要性について、どなたかお話しいただけますか。
Alex Wong: 私の研究の中心テーマの一つが、まさにこの信頼性と説明可能性です。説明可能AIを活用してAIモデルへの深い理解を得るうえで最も重要なことの一つは、モデルが正しい理由で正解しているかどうかを確認することです。たとえば呼吸器疾患の診断AIが「肺の石灰化やすりガラス状の陰影があるからこの診断を下した」と説明できるのであれば、それは信頼に足ります。しかし私が特に強く主張したいのは、正しい決定を正しい理由で行っているかどうかだけでなく、正しい決定を間違った理由で行っているケースを発見することの重要性です。それこそがシステムが見かけほど優秀ではない部分を明らかにするからです。
具体的な事例をご紹介します。自動運転システムの評価において、ステアリングのRMSE(二乗平均平方根誤差)が素晴らしく美しい値を示していました。数値だけ見れば、ほぼ完璧な性能に見えます。しかし説明可能AIを使ってそのシステムがどのように意思決定を行っているかを調べたところ、驚くべき事実が判明しました。そのシステムは道路をまったく見ていなかったのです。交通標識も見ていませんでした。道路のルールについては何も学習していませんでした。ではなぜ優れたステアリング性能を示していたのかというと、システムが行っていたのは障害物を識別してそれを回避しようとすること、ただそれだけでした。本質的には逆バンパーカーゲームをプレイしていたのです。この戦略が通用する状況では確かにうまく機能しますが、その根拠は「障害物に衝突しないよう避けているだけ」というものです。これをもって「この車は完全に安全です」と販売されたとしたら、あなたは少し躊躇するはずです。これこそが説明可能AIと信頼性評価が持つ本当の価値を示す事例です。システムが実際にあなたの期待通りに機能しているかどうかを、深いレベルで理解するために不可欠なのです。
12-2. 不確実性の定量化——ベイズ深層学習と共形予測
Karen Panetta: 聴衆からの質問として、深層学習モデルから従来のモデルにおける状態推定や信念伝播のような形で不確実性を導出することはできるのでしょうか、という問いが来ています。Lucaがうなずいていましたので、お答えいただけますか。
Luca Carlone: 二つのアプローチが思い浮かびます。一つ目はベイズ深層学習(Bayesian Deep Learning)です。これはニューラルネットワークの重みから出力に至るまでを確率的に推論し、不確実性を伝播させるアプローチです。ニューラルネットワークの出力を確率論的に扱うというこの枠組みは、まさに状態推定や信念伝播の考え方をニューラルネットワークに組み込んだものであり、「Bayesian deep learning」というキーワードで調べることをお勧めします。
二つ目は共形予測(Conformal Prediction)と呼ばれる、近年非常に注目を集めているフレームワークです。従来のアプローチではモデルが「これは猫である」という単一の出力を返しますが、共形予測ではモデルが複数の候補を出力し、「正解はこれらの候補のうちのいずれかである」ということを高い確率で保証します。つまり不確実性を単一の予測に押し込めるのではなく、候補の集合として表現し、そのいずれかに正解が含まれることを統計的に保証するという発想です。「conformal prediction」というキーワードで調べていただくとよいでしょう。現時点ですぐに思いつくのはこの二つですが、他にも多くのアプローチが存在することは確かです。
12-3. 評価指標の重要性とベンチマーク進化史
Karen Panetta: パフォーマンス指標の重要性についてお話しいただけますか。RMSEのような指標がよく使われますが、研究者としては「それが本当の性能を反映しているのか」という疑問を常に抱えています。将来のシステムを適切に評価するうえで、指標はいかに重要で、今後どうあるべきでしょうか。
Peter Corke: 指標は本当に重要です。特に深層学習システムが主流となっているこの時代においては。学習システムの性能は一般にある特定の精度の数値として評価され、私たちはその数値で前の論文を上回ることを競い合って論文を発表しています。コンピュータビジョンが深層学習と出会って以来の15年間における素晴らしい進歩は、指標によって非常に強く牽引されてきました。IoUなどの指標が本当に正しい指標であるかどうかについては議論の余地がありますが、指標の利点は進歩を測定可能にし、進歩そのものを推進することにあります。
私自身の専門領域であるマニピュレーション、すなわちロボットによる物体のピッキングについて言えば、5〜7年前には把持動作の適切な指標は何かということが大きな議論になっていました。人々はさまざまな指標を試みましたが、最終的に定着したのは非常にシンプルなものでした。それは「1時間あたりに実際に物体をピックアップできた回数」です。産業界が本当に気にするのはそこだということです。アルゴリズムの詳細などまったく関係なく、1時間に何個の物体をピックアップできるか、これが根本的な生産性の指標であり、非常に測定しやすいものです。この指標が定着して長く続いているのは、シンプルであり、かつロボットシステムの経済的価値に直接結びついているからです。
Katarina Fradiakiová: Peterの言う通りで、コンピュータビジョンはこれまで一連のベンチマークを経て発展してきました。私がこの分野に入った当時のベンチマークはETHのデータセットで、わずか5つのカテゴリしかありませんでした。それからPascalデータセットが登場し、1万〜2万枚の画像と20カテゴリになりました。続いてImageNetが100万枚の画像で登場し、さらにCOCOはマスクアノテーションを加えてより細かい評価を可能にしました。この流れでは、ラベルとアノテーションがどんどん増えていきました。ところが現在、私たちは弱教師あり学習(weak supervision)の時代に入っており、画像とキャプションだけ、あるいは弱いアノテーションやバウンディングボックスの自動生成といった手法が主流になりつつあります。
12-4. シミュレーション評価と実世界評価の乖離問題
Katarina Fradiakiová: コンピュータビジョンと比較したとき、ロボティクスのベンチマークには固有の難しさがあります。コンピュータビジョンであれば、モデルを開発してベンチマーク上で走らせれば数値が得られ、他と比較できます。しかしロボティクスはそれほど単純ではありません。
取れる手段は二つあります。一つはシミュレーションで評価することです。しかしシミュレーション環境の構築そのものが一つの研究課題であり、布や水、ケーブルの差し込みといった操作のシミュレーションをどう忠実に再現するかは非常に難しい問題です。もう一つは実世界で評価することですが、DARPAが行ったように、同じテストベッドを使って複数のチームがロボットを使って実際のタスクをこなすという形式は、スケーラブルではなく反復も困難です。
その結果、現状では「アルゴリズムをシミュレーション上でテストする」という評価と、「Sim-to-Real転送のために学習環境のスケールアップと拡張を行う、あるいは実世界だけで学習して自前のデータセットで結果を示す」という実用化の評価が、まったく別の問題として存在しています。さらに産業界はアカデミアがアクセスできない大規模なテストベッドを持っており、自動運転ではこの格差がさらに顕著です。技術が成熟してきたことで、アカデミアの研究がもはや実際のテストベッドなしには競争できないほどになってきているのです。この問題に対する明確な解決策を私はまだ持っていませんが、ロボティクスのベンチマークは現在進行形で解決が求められているオープンな研究課題です。
Karen Panetta: まさにその通りで、私自身がデータベースを自分で作り始めたのも、既存のベンチマークでアルゴリズムを評価しようとしたときに「カテゴリが5つしかない」とか「実世界の応用に即していない」という壁にぶつかったからです。皆さんのご意見はまったくその通りだと思います。
13. パネルディスカッション:人間知覚とロボット知覚の収束・AIと教育
13-1. アンキャニーバレーの知覚・言語版という比喩と次世代アーキテクチャへの期待
Karen Panetta: 今日の議論の中で繰り返し出てきたテーマが、人間の知覚とロボットの知覚をいかに近づけるかという問いです。レイテンシを減らし、人間と同じ速さで考え、推論できるロボットを実現するためには何が必要でしょうか。ロボットを人間のデジタルツインとして、人間の思考や行動をロボットの中に再現しようとする未来についてどうお考えでしょうか。
Luca Carlone: この問いに関連して、非常に興味深い考え方をご紹介したいと思います。それは「アンキャニーバレー(不気味の谷)」という理論です。ロボットが人間とかけ離れた見た目をしているうちは、私たちはあまり怖さを感じません。しかしロボットが人間の外見に近づくにつれて、私たちがそのロボットに抱く親近感は一度急激に下がり、強い不気味さや恐怖を感じる「谷」が生まれます。そしてさらに人間に近づいて完全に人間と区別がつかなくなると、再び親近感が上昇するという理論です。
私はこれと同じ現象が、知覚と言語の領域でも起きていると考えています。AIが提供するものを私たちは過剰に読み込むようになっており、AIの検出結果や出力に対して実際以上の意味を見出してしまっています。しかしこれらのシステムは、私たちが完全には理解していないような形で失敗します。私たちはまだ人間レベルの知覚には到達していませんが、十分に近づいてきたために「知覚と言語のアンキャニーバレー」に入り込んでいる状態です。これはAIが実際の能力以上に信頼されてしまうという非常に重要なリスクを示唆しています。
次世代の知覚アーキテクチャについても一つ仮説をお話しします。私が確信を持っているわけではありませんが、コンピュータビジョンのアーキテクチャが現在とは根本的に異なるものへとジャンプする可能性があると考えています。人間の脳は大量のデコードと、いわゆるレンダリングを行っています。感覚入力から知覚への符号化(エンコード)が行われた後、脳はレンダリングと生成を行い、フィードバックを受け取り、再び符号化・復号化を繰り返します。ところが現在の知覚アーキテクチャは純粋なフィードフォワード型、すなわち符号化だけで構成されています。生成モデルをうまく動作させられなかったからです。しかし今や研究者たちは生成的な画像生成モデルをうまく機能させることができるようになりました。そうなると、毎フレームをゼロから符号化して膨大な計算コストをかける代わりに、既に構築した3Dシーンをレンダリングして変化が生じた部分だけを更新するという、符号化と復号化を組み合わせたアーキテクチャへと移行する可能性があります。これが私が期待する次世代アーキテクチャの姿です。
13-2. ロボット協働における自然な振る舞いの重要性
Peter Corke: ロボットを人間のデジタルツインとして実現するという観点で、私が特に気になっていることをお話しします。ロボットの「振る舞い」が人間にとって直感的であることの重要性です。
たとえばあなたの隣のデスクや生産ラインや農場で一緒に働くロボットの同僚がいるとしましょう。そのロボットに対してあなたが一定の期待を抱くのは当然のことです。その期待が裏切られたとき、私たちは非常にストレスを感じます。私が特に問題だと思っているのは、突然の予期せぬ動作と、突然の長い停止です。ロボットが突然フリーズして長い時間動かなくなり、また突然起き上がって動き出すという挙動は、一緒に作業する人間にとって非常に大きなストレスになります。これはコンピューターのキーボードが反応しなくなったときに思わず強く叩きたくなる感覚と同じで、人間はシステムが通常どのように振る舞うかに対して強い期待を持っており、それが満たされないと苛立ちを覚えます。
ロボットが人間と真に協働できる存在になるためには、このような予期せぬ動作や停止を排除し、流動的で一貫した自然な振る舞いを実現することが不可欠です。技術的な性能指標を追いかけるのと同時に、このような「人間との共存における自然さ」もロボット研究の重要な評価軸として認識されるべきだと考えています。
Luca Carlone: コンピュータビジョンにとっての「ChatGPTの瞬間」はいつ来るか、という問いとも関連しますが、アンキャニーバレーの議論で述べたように、私たちは既にその途上にいると思います。Peterが指摘する「ロボットの振る舞いの自然さ」という問題は、単に技術的な問題にとどまらず、人間とロボットの関係性の根幹に関わる問題です。ロボットがある程度人間に似てきたからこそ、私たちはロボットに対してより高い期待を持ち始めており、その期待に応えられない場合の落差がより大きく感じられるようになっているのです。
13-3. データリテラシーからAIリテラシーへ——原理的教育の必要性
Karen Panetta: AIと教育について議論を移しましょう。次世代のリーダーや学生たちが、モデルの作り方だけでなく、本当に正しい問いを立てられるように育てるためには何が必要でしょうか。バイアスや誤りについての報道が増える中で、AIを教育にどう活用すべきでしょうか。
Alex Wong: 大学の教育者として私たちが今取り組み始めているのは、データリテラシーの向上からさらに進んで、AIリテラシーの教育です。かつては誰もAIをまったく信用しませんでした。ところが今や「ChatGPTがそう言ったのだから正しいはずだ」という思考が広まっています。現状の大規模言語モデルを真実と知識の唯一の源として使うことには大きなリスクがあります。一方でAIは、私たちの作業を補助するコパイロットとして非常に有用な場面も多くあります。私たちが学部生以上のあらゆる層の学生、さらにはエグゼクティブ層に対しても伝えようとしているのは、今のAIが何を得意とし、何を苦手とするのかを正しく理解することです。そうすることで、AIが本当に役立つ場面では最大限に活用し、適していない目的には使わないという判断ができるようになります。
Luca Carlone: 教育について私が言いたいことは、エンジニアリングの教育を考えると、私たちは方程式や公式や原理を教えますが、学生に公式を暗記させることに本来はあまり重きを置いていません。私たちが伝えようとしているのはマインドセット、すなわちエンジニアリング設計にどうアプローチするか、システムをどう設計するか、安全性についてどう考えるかという思考の枠組みです。AIの教育においても同じことが必要です。ChatGPTへのプロンプトの打ち方を教えるのではなく、自然言語処理システムがどのように機能し、社会においてどのような影響を持つのかという原理的な理解を学生に伝えるべきです。AIツールの使い方を覚えるのではなく、そのツールが何を前提としているか、どのような限界を持つか、社会に対してどのような含意を持つかを考えられる人材を育てることが、私たちに課せられた教育上の責務だと考えています。
また前の議論にも関連しますが、人間の知覚と機械の知覚の比較という観点から言うと、アンキャニーバレーが言語と知覚の領域でも起きているように、私たちはAIが提供するものに対して過剰に読み込むようになっています。AIが出力したものを理解しているように見えて、実際には完全には理解していない方法で失敗しているにもかかわらず、そこに実際以上の意味を見出してしまう。この危険性を学生に教えることこそが、AIリテラシー教育の核心にあるべきだと思います。
Karen Panetta: Peterが話していたハンドアイ協調のことを聞いたとき、自閉症や異なる能力を持つ子供たちを思い浮かべました。そのような子供たちのトレーニングや教育を支援するためのツールとしてAIを活用することには大きな可能性があります。すべての学生を同じ枠に当てはめるのではなく、AIが一人ひとりの学び方に合わせてチューニングし、個々の学習を支援するという方向性です。知覚や教育に関するあなたの研究の中で、そのような応用について考えたことはありますか。
Peter Corke: 率直に言えば、そのような観点から深く考えたことはありませんでした。ただ、AIは人間の思考の連続線上にある一点に過ぎないとも言えます。AIはある意味では人間よりも文字通りで、またある意味では人間よりも想像力豊かかもしれません。これは非常に興味深い視点だとは思いますが、私自身がそこについて深く考えてきたわけではないので、この点についてはこれ以上コメントするのは難しいです。
14. クロージング:各登壇者からのメッセージ
14-1. Corke・Carlone・Fradiakiová・Wongそれぞれの締めくくりのことば
Karen Panetta: 最後に、各登壇者の皆さんから締めくくりのメッセージをいただきたいと思います。この分野を目指す若い研究者や学生、あるいは教育者の方々へのアドバイスも含めてお話しいただけますか。まずPeterからお願いします。
Peter Corke: 私が本当に伝えたいのは、現代のAI技術がロボティクスという分野を根本的に変革するだろうということです。私たちが長年夢見てきた、人間の汎用的な助手としてのロボットを実現するために必要なのは、まさにこのモダンなAI技術だと確信しています。私自身はロボティクスの古典的な時代に育ってきた人間ですから、正直に言えばこの変化に完全に快適かどうかといえば、必ずしもそうではありません。しかし私の研究室の学生たちやポスドクたちは皆、この新しいAI駆動のアプローチに強く突き動かされています。そして私も本音では、このアプローチこそがロボットを私たちが望む姿にしてくれるものだと思っています。古典的な手法への愛着はありながらも、未来はここにあると認めざるを得ません。
Luca Carlone: 私が学部の授業でロボティクスを教えるとき、最初の講義で必ず学生たちに伝えることがあります。今はロボティクスにとって非常にエキサイティングな時代だということです。物事がようやく機能し始めているけれど、まだ完全ではない。そのちょうど良い瞬間にいるということです。ロボティクス、コンピュータビジョン、機械学習、そしてそれらの周辺分野において、私たちが今行っていることは社会に対して、そして私たちの日常生活に対して、今日この瞬間から巨大なインパクトをもたらすことになります。もし様々な研究分野の中からどれを選ぶか迷っているのであれば、ロボティクスは非常にエキサイティングな分野であり、非常に包括的な分野でもあることを知っておいてください。この分野に飛び込んでくることを、心から歓迎します。
Katarina Fradiakiová: 私が言いたいのは、私の学科の学科長が個人的な会話の中で語ってくれた言葉です。1990年代、私たちは人類が直面する問題の解決策は技術から生まれると信じていました。しかし技術は確かに進歩しましたが、社会問題は改善されていません。AIは今まさに素晴らしい成果を上げており、これからもさらに良くなっていくでしょう。しかし私たちが本当に力を注ぐべきなのは、社会的な善(social good)の実現です。AIの能力が足りないからそれが実現できていないのではないと私は思います。障壁はむしろ政治的・社会的な力学にあります。AIは十分に優秀になってきています。次に私たちが守り、前進させなければならないのは、その社会実装の側、つまり社会的な善のための応用なのです。
Alex Wong: 私も同じ方向性で締めくくりたいと思います。AIはますます強力になっており、もはや私たちの日常から切り離すことはできません。テキストメッセージを打つにも、メールを書くにも、オートコンプリートを使わない人はほとんどいないはずです。ですから特に次世代の方々に伝えたいのは、こうした強力なAIモデルを構築するとき、そのモデルがどのように動作するのかを本当に深く理解することが最も重要だということです。表面的な使い方を覚えるだけでなく、モデルがどのように振る舞い、他者にどのような影響を与えるかを理解する。そして社会的に責任ある使い方とは何か、どのような応用が正しくてどのような応用が正しくないかを、常に考え続けること。それが、これからAIに関わるすべての人に求められる最も重要な姿勢だと私は思います。
Karen Panetta: 本日の登壇者の皆さん、Alex、Luca、Katarina、そしてPeter、本当に素晴らしい深みのある議論をありがとうございました。データをどう集めるか、いかに信頼性の高いデータを生成するか、モデルをどう評価するかという根本的な問いから、視覚センサーと知覚の未来まで、今日議論されたすべてのテーマは、AIを実践の場で信頼性高く機能させるための核心的な課題です。皆さんのご貢献に心から感謝申し上げます。
Gil Martinez: Karen、そして登壇者の皆さん、本当にありがとうございました。Alex、Luca、Katarina、Peterの各氏、そして活発な議論に参加してくださったすべての参加者の皆さんに感謝します。ロボティクスとコンピュータビジョンに関する多くの素晴らしい質問と洞察が生まれた会でした。引き続きAIフォー・グッドのプログラムにご注目ください。10月24日にはリハビリテーションロボットをテーマにしたウェビナー、11月7日にはSDGs推進スタートアップを取り上げるロボティクス・フォー・グッド・イノベーションファクトリーのセッションを予定しています。皆さんとまたお会いできることを楽しみにしています。
