※本記事は、チューリッヒ大学ロボティクス・知覚学教授であるDavide Scaramuzza氏による講演「Perception for Agile and Safe Robotics」の内容を基に作成されています。本講演は、国際電気通信連合(ITU)が主催し、スイス政府と共催、40の国連機関と連携して開催される国連プラットフォーム「AI for Good Global Summit」にて行われました。講演の詳細およびアーカイブ映像は https://aiforgood.itu.int にてご覧いただけます。本記事では講演内容を要約・再構成しております。なお、本記事の内容は登壇者の見解を正確に反映するよう努めていますが、要約や解釈による誤りが含まれる可能性もありますので、正確な情報や文脈についてはオリジナルの講演映像をご視聴いただくことをお勧めいたします。また、AI for Goodのニューラルネットワーク・コミュニティプラットフォーム(https://aiforgood.itu.int/neural-netw... )もあわせてご参照ください。
1. イントロダクション:知覚(Perception)がロボットを変える
1.1 発表者紹介と研究概要
David: 改めまして、チューリッヒ大学の教授、David Escaramuzzaです。私のラボでは、オンボードカメラのみを使って自律飛行するドローン、すなわちVision based droneの研究をしています。GPSを一切使わず、機体に搭載したカメラだけを頼りに飛行できるドローンを開発することが、私たちの中心的なテーマです。本日は「知覚(Perception)」をテーマにお話しします。知覚なくしてロボットが真に自律的に動くことはできません。この点を、具体的な事例を交えながらご説明したいと思います。
1.2 ルンバの事例:カメラ1つが生産性を4倍に変えた
David: まず、皆さんにひとつ質問させてください。ご自宅にロボット掃除機をお持ちの方はいらっしゃいますか?会場では7名ほど手が挙がりました。では、スライドの写真をご覧ください。これは長時間露光で撮影された写真で、Roombaのロボット掃除機が20平方メートルの部屋を掃除したときの軌跡を示しています。2018年以前のRoombaがこの部屋を掃除するのにかかった時間は20分でした。ところが翌年、Roombaは新しいモデルを発売し、同じ部屋を5分以内に掃除できるようになりました。何が変わったのか、写真を見れば一目瞭然です。古いモデルは部屋中をランダムに動き回っているのに対し、新しいモデルは効率的な直線的経路を走っています。この変化をもたらしたのはたった1つのセンサ、カメラです。それまで「盲目」だったロボットがカメラを搭載することで「見える」ようになり、生産性が4倍に向上したのです。ただし、念のため申し上げておくと、人間が同じ部屋を掃除するとおそらく1分もかかりません。ロボット掃除機でさえ、まだ人間のレベルには遠く及ばないのが現実です。
1.3 Atlas・インジェニュイティ・火星探査機:知覚が拓いた自律性
David: 知覚がもたらした変化はRoombaだけではありません。皆さんもよくご存知のBoston DynamicsのAtlasがパルクールをこなす映像がありますが、あの驚異的な動きを可能にしたのも知覚です。Atlasは複数のカメラで環境の3次元マップをリアルタイムに構築し、障害物を認識しながら次に足を置くべき場所を予測することで、ああした動きを実現しています。さらに宇宙でも知覚は大きな役割を果たしています。NASAのMars Ingenuity Helicopterは2020年から2024年にかけて、オンボードカメラと小型コンピュータのみを使って70回以上の完全自律飛行を達成しました。これは別の惑星上で初めて完全自律的に動作したロボットです。対照的に、火星探査車のRoverは完全自律ではなく、地球から遠隔操作されていました。地球と火星の間には最大20分もの通信遅延が生じるため、真のリアルタイム制御は事実上不可能です。この比較からも、知覚に基づく自律性がいかに重要かがよくわかります。
1.4 それでも人間が好まれる理由:敏捷性・汎用性・堅牢性の壁
David: これだけ知覚技術が進歩しているにもかかわらず、現実の社会を見渡すと、私たちの日常にロボットはほとんど存在していません。なぜでしょうか。理由は明確です。現在のロボットは、人間の持つ「敏捷性(Agility)」「汎用性(Versatility)」「堅牢性(Robustness)」の3つにおいて、まだ人間のレベルに達していないからです。敏捷性とは人間よりも速くタスクをこなせること、汎用性とは単一のタスクだけでなく多様なタスクに対応できること、そして堅牢性とはほぼ絶対に失敗しないことを意味します。この堅牢性について、わかりやすい比較指標を一つ挙げましょう。人間が自動車を運転していて事故を起こすまでに走る平均距離は1億キロメートルです。私たちのほとんどは生涯を通じて一度も交通事故を起こさないかもしれません。それほど人間は堅牢なのです。ロボットはまだそのレベルに達していません。知覚技術の進歩は目覚ましいものの、この3つの壁を乗り越えることこそが、ロボットを真に社会に普及させるための本質的な課題です。
2. なぜ俊敏なドローンを目指すのか
2.1 ラボのビジョンと自律飛行の難しさ
David: 私のラボの夢は、人間のパイロットよりも上手くドローンを飛ばせる自律操縦システムを開発することです。なぜドローンなのかというと、ドローンは地面に拘束されず3次元空間を自由に飛行するため、ロボットの中でも特に操縦が難しい部類に入ります。その難しさを制覇できれば、得られた知見を地上を走るロボットをはじめ、あらゆるロボットに応用できると考えています。ドローンがいかに難しいかを示す端的な事実があります。カメラからの画像が1枚も得られない状態では、ドローンはそもそも飛行を維持することすらできません。それほど知覚はドローンの根幹を支えているのです。会場でお見せした映像は自律飛行ではなく、熟練した人間パイロットが操縦しているものです。ああした技術を習得するには、パイロットは何年もの訓練を積む必要があります。私たちはその人間の技術を、自律システムで再現し、さらに超えることを目標にしています。
2.2 俊敏性が飛行距離・実用性を決める:速度と航続距離の関係
David: そもそも、なぜドローンを俊敏に飛ばす必要があるのか、疑問に思う方もいるかもしれません。答えは「生産性」にあります。現在のドローンが抱える最大の制約の一つがバッテリー寿命で、多くの機体は20〜30分しか飛行できません。20〜30分という限られた時間でできることは非常に限られています。しかし、最適な速度で飛行できれば、同じバッテリーでより長い距離をカバーできるようになります。例として、現在最も普及しているドローンのひとつであるDJI Mavicを取り上げます。速度と航続距離の関係を示したグラフを見ると、秒速6メートル、時速約20キロメートルという最適速度で飛行したとき、このドローンは最長距離に達することがわかります。つまり、適切な速度でドローンを飛ばすことが、ドローンの実用価値を直接左右するのです。捜索・救助活動、インフラ点検、森林監視、山火事の予防、さらには有人飛行や宇宙探査といった幅広い応用分野において、ドローンが真に役立つためには、まず俊敏に飛べることが前提条件となります。
2.3 商用ドローンと人間パイロットの現在地:最適速度をめぐるギャップ
David: では現在、商用ドローンと人間パイロットはそれぞれどこに位置しているのでしょうか。グラフ上で確認すると、DJI・Flyability・Skydioという3つの優れた商用ドローンメーカーの機体は、いずれも最適速度を大きく下回る低速域に留まっています。高い安全マージンを取るために慎重な飛行をしているとも言えますが、それはすなわちドローンのポテンシャルを十分に引き出せていないことを意味します。一方、人間のドローンレーシングパイロットは正反対の位置にいます。最適速度を大幅に超えた高速域で飛行しており、ある意味で飛ばしすぎとも言える状態です。高速飛行には知覚の面で多くの課題が伴います。速く飛べばカメラ映像にモーションブラーが生じ、機体周囲の空気の流れが複雑な空力的影響を及ぼします。つまり、商用ドローンは遅すぎて実用性が低く、人間パイロットは速すぎて自律化が難しい。この両者のギャップを埋めるところに、自律・俊敏ドローン研究の本質的な意義があります。私たちのラボはまさにその中間点、最適速度域での自律飛行の実現を目指しているのです。
3. 高速自律ドローンの開発とシミュレーション戦略
3.1 レーシングパイロットとの協力・機体設計・搭載センサ構成
David: 俊敏な自律ドローンを開発するにあたり、私たちはドローンレーシングのパイロットたちとの協力関係を築くことから始めました。彼らの知見を借りながら設計した機体は、直径わずか20センチメートルながら、0から時速100キロメートルまで1秒未満で加速できます。これはFormula 1マシンの加速性能(2.6秒)をはるかに上回るものです。この機体にはJetson TX2というスマートフォン用プロセッサに匹敵する高性能コンピュータをオンボードで搭載しており、カメラと慣性センサからのデータをすべて機体上で処理します。カメラ映像は毎秒50フレームで処理されており、GPSも地上からの遠隔操作も一切使いません。機体・センサ・コンピュータのすべてが一体となって、完全にオンボードで自律飛行を実現する構成になっています。
3.2 機械学習による曲芸飛行と森林内40km/h飛行の実現
David: この構成に機械学習を組み合わせることで、私たちはこれまでにない水準の俊敏性を実現しました。まず、アクロバット飛行です。GPSも人間の操縦も介さず、カメラと慣性センサ、そしてオンボードコンピュータだけで、ドローンが自律的に曲芸飛行をこなす様子をお見せしました。さらに、森林のような未知の複雑な環境においても、時速40キロメートルという高速で自律飛行することに成功しています。この環境では、商用ドローンであるSkydioが障害物に衝突してしまうのに対し、私たちのドローンは障害物を回避しながら飛行し続けることができます。Skydioは低速であっても高速環境下では十分な知覚性能を発揮できないのに対し、私たちのシステムは機械学習によって高速飛行時の知覚を最適化しているためです。Boston Dynamicsがパルクールに取り組むのと同じ理由で、私たちもあえてこうした極限的な応用に挑んでいます。それ自体が直接的に役立つというよりも、限界に挑戦することで研究全体を押し上げ、他の分野にも波及する成果を生み出すことが狙いです。
3.3 実環境データ収集の限界とシミュレーション活用の意義
David: 機械学習を活用するうえで避けられない問題があります。大量のデータをどこから調達するか、という問題です。制御・知覚アルゴリズムの学習には膨大なデータが必要ですが、実際にドローンを野外で飛ばしてデータを収集することには、大きな制約が伴います。まず法規制の問題があり、多くの場所では許可なくドローンを飛ばすことができません。また仮に許可が得られたとしても、十分な量のデータを集めるには数十年単位の時間がかかる計算になります。そこで私たちが選んだ解決策がシミュレーションです。シミュレーション環境では、1夜のうちに100機のドローンが数百種類の森林を飛び回るデータを生成することができます。実際に私たちのドローンが森林内を人間以上のパフォーマンスで飛行できるようになったのも、このシミュレーションによって大量の飛行データを学習させたからにほかなりません。シミュレーションには他にも多くの利点があります。コストが低く、安全で、データ収集のスピードが飛躍的に速い。実世界での試行錯誤を最小限に抑えながら、アルゴリズムを高速に改善していけることが、私たちの研究を加速させる重要な戦略となっています。
4. 世界チャンピオンとの対決実験:Swift vs 人間パイロット
4.1 実験設計の公平性と世界チャンピオン3名の参加
David: 7年間にわたるドローンレーシング研究の集大成として、2022年の夏、私たちは自律ドローンと人間の世界チャンピオンとの対決実験を公開イベントとして開催しました。対戦相手として招いたのは、スイスのドローンレーシングチャンピオンであるMarvinだけではありません。Drone Racing League(DRL)の世界チャンピオンであるAlex Vanoverと、MultiGP International Leagueの世界チャンピオンであるThomas Bidataという、世界最高峰の2名も加えた3名の世界チャンピオンと対決しました。なお、Marvinは私たちが7年前から協力関係を築いてきたパイロットで、15歳のときに撮影した映像でもわかるように、12歳からレーシングを始めた非常に才能あるパイロットです。人間パイロットたちはゴーグルを装着し、ドローンに搭載されたカメラの映像を最小10ミリ秒の遅延でリアルタイムに受信しながら操縦します。このスポーツでは瞬時の意思決定と反射的な反応が求められ、チームワークを考える余裕はなく、完全に本能で操縦しなければなりません。この実験で最も重視したのは、対決の公平性です。AIドローン「Swift」と人間パイロットが操縦するドローンは、世界チャンピオンたちの仕様に基づいて完全に同一の設計で製作されました。機体の質量、カメラの視野角、使用するカメラそのものに至るまで、すべて同一条件に統一しています。唯一の違いは、一方が自律システムによって制御され、もう一方が人間によって操縦されていたという点だけです。また、人間パイロットには通常の競技と同じように、レーストラックでの練習時間を1週間以上、昼夜を問わず好きなだけ与えました。数千にのぼる練習走行の軌跡データはすべてオープンソースとして公開しており、研究者が自由にアルゴリズムの検証に使えるようになっています。
4.2 実験結果と成果の公開:Nature掲載・オープンソース化
David: 結果をお伝えします。AIドローンSwiftが勝ちました。もし負けていたら、ここでこの話をしていなかったでしょうが(笑)。25レース中15レースを制し、過半数のレースでSwiftが勝利を収めました。リードタイムは0.5秒という大差でした。これがどれほどの差かというと、人間同士の競技では通常、1位と2位のタイム差は0.1秒程度です。つまり、Swiftは人間チャンピオンに対して非常に大きなマージンで勝利したことになります。最速だったのはAlex Vanoverで、彼が赤いドローンを操縦し、青いSwiftと競り合う映像は会場でも大きな反響を呼びました。この研究成果は科学誌Natureに掲載され、使用した軌跡データとアルゴリズムもオープンソースとして公開されています。世界中の研究者がこのデータを活用して、さらに優れたアルゴリズムを開発できる環境を整えることも、私たちの大切な責務だと考えています。
4.3 研究の限界:制御環境と実世界のギャップ・数千回のクラッシュから得た知見
David: ただし、ここで研究者として慎重に申し上げなければならないことがあります。この結果を見た方々の中には「もうAIが人間を超えた、問題は解決した」と思う方もいるかもしれませんが、それは正しくありません。今回の実験は照明条件や空気の流れといった空力的影響が厳密に管理された、制御された環境下での結果です。実世界のあらゆる照明条件・あらゆる環境設定において、人間パイロットのパフォーマンスに匹敵できているかというと、現時点では全くそうではありません。堅牢性と汎用性こそが、依然として真の課題です。また、この成果の裏には7年間にわたる無数の失敗があります。私たちは研究の過程で数千回にわたってドローンをクラッシュさせ、そのほとんどを修理しながら研究を続けてきました。クラッシュの映像をご覧いただいたように、私たちだけでなく世界チャンピオンたちも例外なくクラッシュします。サーフィンで波に乗れば必ずいつか落ちるように、挑戦には失敗がつきものです。失敗なくして成功はなく、この7年間の試行錯誤の積み重ねこそが、Swiftの勝利を可能にした本質的な基盤です。
5. 研究の社会実装:スピンオフと技術の波及
5.1 Swind(農業)・Fotokite(緊急対応)・Zurich-Eye(VR)の3社
David: 7年間の研究は学術的な成果にとどまらず、3つのスピンオフ企業という形で社会に還元されています。1社目はSwindです。Swindのミッションは「農作物の損失のない世界を作る」ことで、俊敏な自律ドローンを農業分野に応用しています。GPSを使わずに飛行できるため、樹木の樹冠下のような衛星信号が届かない環境でも運用可能です。現在は農薬散布と森林の境界監視を中心に事業を展開しており、将来的には山火事の予防にも展開していく計画です。2社目はFotokiteです。Fotokiteは消防・緊急対応向けのテザードローンを開発しています。ドローンを消防車のバッテリーにテザー(紐)で直結することで、バッテリー切れの心配なく長時間の運用を可能にしています。実際の山火事の現場では、上空からの状況把握が初動対応の質を大きく左右します。Fotokiteのドローンはまさに「空の目」として、山火事の延焼範囲の把握や現場の状況監視に活用されています。3社目はZurich-Eye、のちにzaiと改名し、Facebookに買収された企業です。この企業が開発した技術は、Meta Questというバーチャルリアリティヘッドセットに搭載され、世界累計2,500万台以上の販売実績を持つ製品の中核技術となっています。
5.2 ドローン知覚技術とVRの技術的共通点
David: Zurich-Eyeの事例は、ドローン研究が全く異なる分野に波及した好例です。私たちがドローンの自律飛行のために開発した、カメラの動きを推定する技術と3次元マッピングの技術は、構造的にVRヘッドセットが必要とする技術と本質的に同じものです。ドローンが飛行中に自分の位置と周囲の環境を把握するためのアルゴリズムは、VRヘッドセットがユーザーの頭の動きと空間を把握するためのアルゴリズムとして、そのまま転用できます。このように、極限状況での自律飛行という純粋に研究的な課題への挑戦が、農業・防災・バーチャルリアリティという全く異なる3つの産業分野での実用化につながりました。Boston DynamicsがAtlasにパルクールをさせる理由、私たちがドローンに曲芸飛行をさせる理由、その本質はここにあります。限界に挑むことで生まれた技術は、想像を超えた形で社会に波及していくのです。
6. 質疑応答:リアルタイム処理・クラウド化・今後の展望
6.1 Jetson TX2による50Hz処理と人間の反応速度との比較
聴衆: 素晴らしい発表と研究成果をありがとうございました。リアルタイムアプリケーションに関連して質問があります。非常に限られた時間ウィンドウの中でリアルタイム処理の制約を満たすために、どのようなプラットフォームを使用されたのでしょうか。
David: すべてのアルゴリズムはドローンのオンボードで動作しています。使用しているのはJetson TX2というコンピュータで、カメラ映像を毎秒50フレームで処理しています。この処理速度は実用上十分すぎるほどです。というのも、人間パイロットの反応時間は4分の1秒、つまり250ミリ秒であるのに対し、私たちのアルゴリズムはその約10倍速く処理できているからです。ただし、速さだけが問題ではありません。現実世界において機械が人間に及ばない本質的な理由は処理速度ではなく、複雑な状況下での意思決定の質にあります。人間は未経験の複雑な状況に直面しても、過去の経験を柔軟に応用して適切な判断を下すことができます。この点において、現在の自律システムはまだ人間に遠く及びません。
6.2 大規模モデル時代におけるオフボード計算への移行方向性
David: リアルタイム処理の制約が現状のロボットの自律性を制限しているかという点については、率直に言ってその通りです。特に近年、大規模言語モデルや大規模視覚モデルの登場により、より高度なアルゴリズムを動かすためにはこれまでよりもはるかに大きな計算リソースが必要になっています。これはオンボードの小型コンピュータでは賄いきれない規模です。そこで私たちが現在進めているのが、オンボード計算からオフボード計算、すなわちクラウドへの移行です。ネットワーク接続が確保されている環境であれば、より高性能なアルゴリズムをクラウド上で実行し、その結果をドローンに返すことができます。重要な条件はレイテンシです。通信の往復遅延が250ミリ秒以内に収まるのであれば、クラウドベースの処理であっても人間の反応速度を上回ることができます。この250ミリ秒という閾値が、クラウド化を現実的な選択肢として成立させるかどうかの判断基準になっています。大規模モデルが普及する時代において、オンボードとオフボードをどのように組み合わせるかが、自律ロボット研究における次の重要な設計課題になると考えています。
司会: 他にご質問はありますか。それでは、もう一つだけ。
別の聴衆: 非常に印象的な研究です。Genius New Yorkというドローンスタートアップの世界最大の競技大会をご存知ですか?優勝賞金は100万ドルです。ぜひチェックしてみてください。
David: ありがとうございます、知りませんでした。ぜひ確認してみます。
司会: それでは、David、改めて素晴らしい発表をありがとうございました。
