※本記事は、Kyrre Glette氏によるAI for Good主催のオンラインセッション「Biologically inspired embodied AI for robot design and adaptation」の内容を基に作成されています。動画はhttps://www.youtube.com/watch?v=XUP-n2dihaM でご覧いただけます。本記事では、セッションの内容を要約しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画をご視聴いただくことをお勧めいたします。
登壇者のKyrre Glette氏は、ノルウェー・オスロ大学情報学部ロボティクス・知的システム研究グループ、およびリズム・時間・運動の学際的研究センターRITMOの教授です。ノルウェー科学技術大学でコンピュータエンジニアリングの修士号を、オスロ大学でコンピュータサイエンスの博士号を取得しています。ロボット設計・適応性・創造性のための人工知能を研究テーマとし、ロボットの形状と行動の自動設計・適応のための生物インスパイアAI、ロボット集団、音楽技術システムを専門としています。
本セッションはAI for Goodが主催しました。AI for Good Global Summitは、健康・気候・ジェンダー・包括的繁栄・持続可能なインフラ等の地球規模の開発課題においてAIの活用を推進する、国連の主要な行動志向プラットフォームです。情報通信技術を専門とする国連機関である国際電気通信連合(ITU)が40以上の国連姉妹機関と連携して運営し、スイス政府との共催で開催されています。
1. はじめに:研究の動機と背景
1.1 現在のロボットの限界と求められる能力
Martina: 本日のセッションでは、ソフトネスと剛性を統合したインテリジェントな形状制御と相互作用を実現する、堅牢で適応可能なロボットシステムの開発について探求します。Embodied AIと生物学的にインスパイアされた手法を活用し、進化的アルゴリズムを用いた自動ロボット設計と適応について議論を深めていきたいと思います。
Gletta: 私たちがこの研究に取り組む動機は、将来を見据えた基礎研究の必要性にあります。現在開発しているアルゴリズムや手法は、将来のロボットへの応用を視野に入れたものですが、現時点ではまだ実用的なロボットに安定して搭載できる段階には至っていません。今日のロボットの多くは、構造化された既知の環境での作業を得意としています。しかし私たちが目指しているのは、それとは異なる能力です。遠隔地や危険な場所、あるいは災害現場のような非構造化環境においても機能するロボット、さらには環境モニタリングのような長期自律タスクを担えるロボットが求められています。そのためには、損傷から回復する能力、新しい状況への適応能力、そしてエネルギー効率の高さが不可欠です。
1.2 非従来型ロボットの台頭と設計の難しさ
Gletta: ロボット工学の研究においては、新しい設計原理に基づく興味深いロボットが次々と登場しています。たとえば、必要に応じて形状を変えられるモジュラーロボットや、独自のアクチュエーション方式によって形状変化と堅牢な移動を両立するソフトロボットがその代表です。さらに非常にユニークな事例として、スプレーガンを使って別のロボットが泡状の素材を吹き付けることでロボットのパーツそのものを造形するという技術も存在します。将来的にはこの技術がさらに発展し、複数のロボットがチームを組んで互いを修復したり、新しいボディパーツを製造したり、あるいは作業環境そのものを変えることでタスクをより容易にこなせるようになることが期待されます。
しかしこのような非従来型のロボットは、従来の工学的手法でどのように設計し制御するかが非常に難しい対象でもあります。形状の設計と制御システムの設計の両方において、既存の手法では対応しきれない複雑さがあります。だからこそ私たちは、生物からインスパイアされたアプローチに活路を見出しています。具体的には、進化的アルゴリズムを用いてロボットの形状と制御の両方を同時に設計するという手法です。また制御の仕組みそのものについても、生物学から学んだ原理を取り入れることで、より効率的で頑健なロボットを実現しようとしています。
2. 研究フレームワークの全体像
2.1 形態と制御の同時設計(コデザイン)という発想
Gletta: 私たちのアプローチの核心は、ロボットの形態(モルフォロジー)と制御を同時に設計するという「コデザイン」の考え方にあります。従来のロボット工学では、まずロボットの形状を決定し、その後で制御システムを設計するという順序が一般的でした。しかし私たちはこの手順に疑問を持っています。形状と制御は本来、互いに深く影響し合うものです。ある形状に最適な制御があり、またある制御に最適な形状があります。この両者を切り離して設計することは、必ずしも最良の組み合わせを生み出さないと考えています。
そこで私たちはより全体論的なアプローチを取り、制御と形態の組み合わせがどのように環境との相互作用を生み出すかを包括的に探索することを目指しています。こうすることで、異なる状況に特化したロボットを生み出すことができます。また、私たちが特に意識しているのは、今日のロボット学習において主流となっている深層学習による大規模ニューラルネットワークとは対照的に、効率的で小規模なモジュール型の制御構造を構築するという方向性です。大きなネットワークよりも、コンパクトで頑健な制御アーキテクチャを目指しています。
2.2 進化的アルゴリズムの基本動作とシミュレータとの連携
Gletta: 研究フレームワーク全体の構造を説明します。フレームワークの左側には進化的アルゴリズムが位置しており、そこからソリューション、つまりロボットの候補案がシミュレータまたは実機に送られます。最初の段階では、これらのソリューションはランダムに生成されたものです。シミュレータまたは実機上でそのロボットがどのように振る舞うかが評価され、その挙動の特徴と、私たちが指定したタスク(たとえばどれだけ速く前進できるか)に対するパフォーマンスの情報がアルゴリズムにフィードバックされます。
この進化的アルゴリズムは反復的なプロセスであり、数千回、場合によっては数百万回の反復を経て継続的にソリューションを改善し続けます。また、ロボットが評価される過程で学習も行われます。新しいロボットの形状や形態が提案されたとき、その制御方法がまだ未知である場合には、学習アルゴリズムがその場で制御を改善することもあります。さらに、数値の羅列からロボットの設計図を生成するプロセスにおいて、生物学にインスパイアされた手法を取り入れています。この部分については後ほど詳しく説明します。
実際の研究の流れとして、このフレームワークではシミュレータ上で多数の異なるロボットの組み合わせを試し、動けるかどうかを検証していきます。多くの試行錯誤があり、機能しないソリューションは次世代には引き継がれません。シミュレーション上で最も有望と判断されたロボットは3Dプリンティングで出力されます。プリンターが層ごとにパーツを造形し、必要な後処理を経てモーターと組み合わせることで、実際にラボでテストできる動作するロボットが完成します。
3. 進化的アルゴリズムの種類と特性
3.1 基本的な進化的アルゴリズムと多目的最適化
Gletta: 進化的アルゴリズムの基本的な仕組みから説明します。まず最初に、問題に対する大量のランダムなソリューションを生成します。これらはランダムに生成された数値の羅列であり、それぞれが一つのロボット候補を表しています。これらをシミュレータで評価し、たとえばどれだけ速く前進できるかといった指定された目標に対してどの程度うまく機能しているかを測定します。最初の段階では、動きが非常に不規則で、ほとんど前進できないものが大半です。しかし、数百から数千のロボットからなる集団の中には、わずかながら前進できる有望なものも存在します。
そうした有望なソリューションは次の世代に引き継がれ、そこに小さな変更が加えられて新しいバッチのロボットが生成されます。この評価と改良の反復ループによって、ソリューションは世代を重ねるごとに徐々に改善されていきます。最終的には指定したパフォーマンス指標を満たす良好なソリューションが得られ、それを実際に製造することができます。これが基本的な進化的アルゴリズムの流れです。
この基本形に対して、複数の目標を同時に最適化する多目的最適化という拡張があります。複数の目標は互いに競合することがあり、たとえば速く動けるロボットは一般的に大きくなりがちです。しかし多目的最適化を用いることで、そのようなトレードオフ関係にある解の集合、つまり「速いが大きい」から「遅いが小さい」まで、様々なバランスを持つ多様なソリューションを得ることができます。このトレードオフの全体像を把握することが、設計における意思決定を助けてくれます。
3.2 Quality Diversityアルゴリズム(Map-Elites):最適解よりも多様な解を求める
Gletta: 進化的アルゴリズムの新しい系統として、Quality Diversity(QD)アルゴリズムと呼ばれるものがあります。従来の進化的アルゴリズムが一つの優れたソリューションを見つけることに主眼を置いているのに対し、QDアルゴリズムはその目標を達成しながらも、できるだけ多様な解を探索することを重視します。その結果として得られるのは、単一の最良解ではなく、すべてが一定の品質を持ちながら互いに異なる特性を持つ、多数のソリューションの集合です。
代表的な実装がMap-Elitesと呼ばれるアルゴリズムです。その出力は巨大なマップであり、マップ上の各ピクセルが一つのソリューションに対応しています。他の研究グループによる具体的な事例として、様々なタイプのソフトロボットを探索した研究があります。この研究では、前進するというタスクを維持しながら、ロボットの構成要素のあらゆる組み合わせを探索し、同じ「前進する」という問題に対して非常に多様な解が見つかりました。
このアプローチは二つの点で非常に有用です。一つは、問題の設計空間を人間の設計者に対して可視化する「イルミネーション」としての役割です。どのような設計オプションが存在するのかを一覧できることは、設計の意思決定において大きな助けになります。もう一つは、オンラインでの活用可能性です。形状を変えられるロボットや、状況に応じて異なるコントローラを選択できるロボットであれば、このレパートリーを活かして新しい地形や環境に応じた設計に切り替えるという使い方が考えられます。
計算コストの観点から見ると、基本的な進化的アルゴリズムでは約10万回のロボット設計テストが必要になる場合があり、QDアルゴリズムではさらに多く、約100万回ものテストが必要になることもあります。それなりの時間を要しますが、強力なワークステーション上であれば進化的アルゴリズムで24時間以内、QDアルゴリズムでもそれより少し長い程度の現実的な時間で完了できます。
4. シミュレーションと実世界:進化の場の選択
4.1 シミュレーションのみによるアプローチ(仮想生命研究)
Gletta: 進化の場をどこに設定するかという問いに対して、研究コミュニティには大きく分けて三つのアプローチが存在します。まず一つ目は、シミュレーションのみで進化を完結させるアプローチです。この場合、生み出されたロボットは実際に製造されることを意図していません。あくまでも仮想上の存在として、アルゴリズムの挙動を研究したり、生物学がどのように機能するかを探ったり、あるいは現実とは異なる形態の生命がどのようなものになりうるかを考察するための媒体として用いられます。実験と合成を通じて分析を行うという、いわば人工生命研究としての性格を持つアプローチです。実機を必要としないため、並列コンピュータ上で多数のソリューションを高速に試すことができるという大きな利点があります。
4.2 シミュレーションから実機への転移とリアリティギャップ
Gletta: 二つ目は、シミュレーション上で進化を行い、有望なソリューションを実機で検証するアプローチです。これは最も実用的なアプローチです。多数の設計候補をシミュレーション上で試すことでロボットを壊したり無駄な素材を消費したりするリスクを避けながら、並列コンピュータ上で高速に大量のテストを行えます。有望なものだけを実際に製造するため、素材と時間の無駄を大幅に削減できます。理想的には、このプロセスを通じて実際のタスクに使えるロボットを製造することが目標です。
しかしここには「リアリティギャップ」あるいは「Sim-to-Realチャレンジ」と呼ばれる根本的な課題があります。シミュレーションは現実世界を完全には再現できないため、進化的アルゴリズムはシミュレータの不完全さを巧みに利用した、現実には通用しないソリューションを生み出してしまうことがあります。この乖離を埋めるためには、より多くの計算を行ってロボットの頑健性を高めるか、あるいは実機製造後にロボット上で追加の学習を行うかといった対策が必要になります。この課題については後のセクションで具体的な実験事例とともに詳しく述べます。
4.3 実世界のみで進化させるアプローチ(Real-World Evolution)
Gletta: 三つ目は、実世界のみで進化を行うアプローチです。シミュレーションを一切介さないため、リアリティギャップという問題が原理的に消滅するという大きな利点があります。また、シミュレータでは捉えきれない現実世界のリッチな物理的相互作用をすべて活用できるという点でも魅力的です。他の研究グループの具体的な事例として、Cambridgeの研究チームによるものがあります。彼らはロボットアームを用いてモーターや固定ブロックといったモジュール式のコンポーネントをピックアップして接着し、組み立てられたロボットが前進できるかどうかをアリーナ上でテストするという実験を行っています。
ただし、このアプローチには深刻な技術的困難が伴います。すべてのソリューションをリアルタイムで実機上でテストしなければならないため、非常に時間がかかります。また、繰り返しのテストによるロボットパーツの摩耗や損傷も避けられません。こうした技術的なハードルの高さから、このアプローチを採用している研究はそれほど多くないのが現状です。私たち自身もこの領域に取り組んでおり、その詳細については次のセクションで実験事例として紹介します。
5. 実験事例と経験から得られた知見
5.1 多目的進化による形態選択と実機検証:速度vs重量のトレードオフ
Gletta: ここからは私たちの研究室で実際に行った実験を具体的に紹介します。最初の事例は、多目的進化的アルゴリズムを用いてロボットの形態を設計し、実機で検証したものです。この実験では、「速く動けること」と「小型・軽量であること」という二つの目標を同時に最適化しました。一般的に大型のロボットの方が速く動ける傾向があるため、この二つの目標は互いに競合する関係にあります。多目的最適化を用いることで、このトレードオフ関係に沿った様々なバランスを持つロボット群を得ることができました。
次のステップとして、シミュレーションで得られたロボット群の中から、形態的に質的な差異が明確なものをいくつか選び出し、実機として製造してテストしました。ところがここで一つの実際的な問題が生じました。新しい形態のロボットをアリーナ内で評価するためには、ロボットが旋回できなければなりません。しかし新しい形態に対してどのように旋回させるかがわかっていなかったため、まず別の多目的進化的アルゴリズムを走らせて「旋回しながらも大きく変位しすぎない」という制御を学習させる必要がありました。このような段階的な対応が実機実験では現実的に必要になることを、この経験から学びました。
5.2 シミュレーションと実機の性能乖離:形態依存のリアリティギャップの発見
Gletta: 実機テストの結果として非常に重要な知見が得られました。実験では各ロボットについて、シミュレーション上でのパフォーマンス(赤いボックスで表示)と実機でのパフォーマンス(黒いボックスで表示)を比較しました。その結果、形態によってシミュレーションと実機の乖離の大きさが大きく異なることが明らかになりました。シミュレーションと実機でほぼ同等のパフォーマンスを示した形態もある一方で、実機では全くといっていいほど機能しなかった形態も存在しました。つまりリアリティギャップは一律ではなく、形態に強く依存するということです。
この問題に対する対策として、実機製造後にロボット上でコントローラを追加学習させるアプローチを取りました。実機での振る舞いに基づいてコントローラを実世界に適応させることで、乖離を修正しシミュレーション上で達成していた性能に近い水準まで回復できることを確認しました。この結果は、シミュレーションから実機への転移における事後適応の有効性を示すものです。
5.3 QDアルゴリズムによるリンク機構の設計空間探索(Legoプロトタイプ)
Gletta: 次に紹介するのは、Quality Diversityアルゴリズムを設計ツールとして活用した事例です。この実験ではリンク機構、すなわち一つの回転軸からエンドエフェクタ(足先)の複雑な軌跡を生み出す機械的機構に着目しました。モーターによる単純な回転運動を入力とし、バーの組み合わせによって足先の軌跡を多様に変化させることができます。非常にシンプルなアクチュエーションから、豊かで複雑な軌跡を生み出せるというのがこの機構の本質的な面白さです。
私たちはMap-Elitesアルゴリズムを用いて、このリンク機構が生み出せる様々な軌跡の設計空間を網羅的に探索しました。ソリューションを特徴づける指標としては、機構が使用するバーの本数、足先の持ち上げ高さ、地面との接触時間の長さといった特性を採用しました。こうした多様な特性で設計空間を埋めることで、異なる地形や用途に対してどのような設計が有効かを一覧できるマップを構築しました。
探索によって得られた膨大な設計候補の中から人間の設計者が扱いやすいようにマップを縮約し、いくつかの代表的な設計を選び出してLegoブロックで試作しました。Legoを選んだ理由は、3Dプリンティングを経ずに比較的簡単にプロトタイプを作成できるからです。実際にテストした結果、バーの構成を変えるだけで足先の軌跡が大きく異なり、それによってロボットの動き方も定性的に大きく変わることが確認できました。この実験は自律的な適応というよりも、設計空間の探索を支援するツールとしてQDアルゴリズムが有効であることを示すものです。
5.4 DREt(実世界進化専用ロボット)を用いた純粋実世界進化実験
Gletta: 実世界のみで進化を行う実験に取り組むにあたり、私たちは専用のロボットプラットフォームを開発しました。それがDREt(Dynamic Robot for Embodied Testing)です。Boston Dynamicsのような高度な商用ロボットとは異なりますが、一人のPhD学生によって設計・製造されたものです。このロボットの最大の特徴は、脚の長さを変更できる機構を備えている点にあります。上肢部分と下肢部分それぞれで脚の長さを独立して変えることができるため、異なる形態を再現し、進化的アルゴリズムのために様々な形態をテストすることが可能です。ただしこの機構は実際の歩行パターンの中でリアルタイムに使うには動作が遅すぎるため、評価と評価の合間に形態を切り替える用途に限られます。
このプラットフォームを用いて、純粋に実世界のみで進化的アルゴリズムを走らせました。ロボットは様々なコントローラを試しながら、同時に脚の長さも変更することで、形態と制御の両方を実世界上で探索しました。シミュレーションを一切介さないため、現実世界の物理的な複雑さをすべて取り込んだ上でのロボット設計が可能になります。
5.5 電圧制限・路面変化への適応:制約下で自発的に異なる形態・制御が出現
Gletta: DREtを用いた実験では、二種類の条件設定による興味深い知見が得られました。一つ目はモーターへの供給電圧に関する実験です。最適な電圧を与える条件と、意図的に電圧を下げてモーターの出力を制限した条件の二通りで進化的アルゴリズムを走らせました。結果として、ある速度域までは電圧を下げた条件でも最適電圧の条件と同等のパフォーマンス(速度と安定性)を達成できることがわかりました。注目すべきはその達成方法です。両条件でパフォーマンスの水準は近いにもかかわらず、進化によって見つかった形態と制御の組み合わせは異なっていました。つまり進化は、与えられた電力制約の中で独自の解を自発的に発見したということです。この知見は、バッテリー残量が低下した際や省エネ運転が求められる場面での応用可能性を示しています。
二つ目は路面に関する実験です。異なる種類のカーペットの上でそれぞれ進化的アルゴリズムを走らせました。その結果、路面の種類が変わると進化によって出現した形態の波形パターンが異なることが確認されました。これは進化が路面の特性に応じて異なる形態・制御の組み合わせを発見したことを意味しており、環境に応じた自律的な適応設計が現実の実機上でも実現可能であることを示す重要な知見です。
6. ロボット形態のコーディングと制御アーキテクチャ
6.1 直接エンコーディングと間接エンコーディング(Lシステム)の比較
Gletta: 進化的アルゴリズムがロボットの形態を表現する方法には、大きく分けて二つのアプローチがあります。一つ目は直接エンコーディングです。これはアルゴリズムが扱う数値の羅列が、ロボットの形状に直接対応するというシンプルな方式です。たとえば数列の中の特定の一つの数値が、そのままロボットの脚の長さに対応するといった具合です。前述のDREtを用いた実験で脚の長さを変化させたのも、まさにこの直接エンコーディングの考え方に基づいています。実装がシンプルで直感的に理解しやすい反面、複雑で規則的な構造を表現するには多くの数値が必要になります。
二つ目は間接エンコーディング、すなわち生成的アプローチです。ここではロボットの形状そのものを数値で直接記述するのではなく、形状を構築するための「レシピ」を記述します。このレシピから形体が生成されるため、繰り返しのパターンや規則性を持つ構造を非常にコンパクトに表現できます。その代表的な手法がLシステム(Lindenmayer System)です。私たちの研究では、直接エンコーディングと間接エンコーディングの比較実験を行いました。直接エンコーディングによって生成された形体は、性能的には機能するものの、形状に規則性がなく不規則になりがちです。一方、Lシステムを用いた間接エンコーディングでは、たとえば飛び跳ねるヘビのような、非常にコンパクトな記述から繰り返しパターンを持つ複雑な形状を自然に生み出せることが確認されました。
ただし重要な気づきがありました。間接エンコーディングを用いるだけでは十分ではなく、優れた分散型の制御アーキテクチャと組み合わせて初めて、豊かで多様な形態が出現するということです。この組み合わせによって、昆虫に類似した形態が自発的に生まれるなど、非常に興味深い結果が得られました。エンコーディングの方式と制御アーキテクチャは切り離して考えるべきものではなく、両者の相互作用がロボット設計の質を左右するという点は、私たちの研究において重要な示唆となっています。
6.2 集中型・分散型コントローラとCPG(中央パターン生成器)
Gletta: ロボットの制御アーキテクチャには、大きく分けて集中型と分散型の二つのアプローチがあります。集中型コントローラでは、ロボット全体を一つのニューラルネットワークが制御します。センサからの入力を受け取り、ネットワークの各出力が異なるモーターを制御するという構成です。現在の深層学習を活用したロボット研究の多くはこのアプローチを採用しており、強力な表現力を持つ一方で、ネットワークが大規模になりがちという特性があります。
これに対して分散型コントローラでは、各関節・各モジュールがそれぞれ独自の小さな制御システムを持ちます。たとえば各関節に独立した小さなニューラルネットワークを持たせるというアプローチです。この考え方の中で特に生物学的にインスパイアされた手法がCPG(中央パターン生成器)です。CPGは生物の神経回路に見られる、リズミカルな波を生成する回路構造に着想を得ており、各関節が自律的に振動・活性化しながら、ロボットの歩行のような繰り返し運動を生み出します。各モジュール間には結合が存在し、ボディを介した間接的な結合と、位相情報をロボットの異なる部位間に伝播させるような神経的な結合の両方が活用されます。さらに、身体の一部を収縮させ別の部分を硬直させるといった身体そのものを制御要素として用いる研究もあり、このような身体化された制御要素を組み合わせることで、興味深い移動パターンが生まれることが示されています。
6.3 ムカデにインスパイアされた分散制御:パラメータ調整なしで複数形態に適応
Gletta: 最近取り組んでいる研究として、ムカデの移動原理からインスパイアされた分散型制御システムの開発があります。これは日本の研究者との共同研究であり、彼らはムカデを広範に研究した結果、身体の形態が大きく異なる複数種のムカデにおいても、移動を支配する共通の原理が存在することを見出しました。私たちはこの知見に着想を得て、複数の異なる形態に対して同一の制御システムを適用できないかという問いに取り組みました。
具体的には、仮想ムカデの各セグメントにCPGタイプの回路を実装し、脚を動かすための振動を生成します。そしてボディの収縮動作と組み合わせ、固有感覚センサ(身体内部の状態を感知するセンサ)と足が地面に接触したことを感知するセンサからのフィードバックによって、単純なルールに従って全体の動作が制御されるという仕組みです。
この制御システムの最も重要な特性は、異なる形態に転移させた際にパラメータを一切調整しなくても機能するという点です。実験では、この制御システムを様々な形態の仮想ロボットに適用しましたが、結果として形態ごとに異なる移動パターンが自発的に現れました。これはつまり、同一の制御システムが形態の違いに対して自律的に適応したということを意味します。この特性は進化的な形態探索において非常に有用です。新しい形態が提案されるたびに一から制御を学習し直す必要がなくなるため、探索プロセス全体を大幅に効率化できます。実機でのテストはまだ進行中ですが、この制御アーキテクチャをさらに発展させ、形態と制御の共進化においてより広く活用していきたいと考えています。
6.4 ライフタイム学習と効率的な学習アルゴリズムの必要性
Gletta: 新しい形態が提案されるたびに、その形態に対してコントローラを学習させるというライフタイム学習の研究も進んでいます。この研究は私たちにとって比較的新しい取り組みであり、現時点ではまだ報告できる成果は多くありませんが、設計上の重要な制約について説明します。
この学習は、新しいロボット形態が評価されるたびに毎回実行されるものです。たとえば100万通りの異なるロボット設計をテストする場合、その100万回それぞれに対して学習プロセスを実行しなければなりません。したがってこの学習は非常に高速かつデータ効率的でなければならないという厳しい要件があります。具体的には、強化学習やベイズ最適化、あるいはその他の局所探索アルゴリズムといった、データ効率に優れた手法が候補となります。これらは新しい形態の探索を担う進化的アルゴリズムとは役割が明確に異なり、探索的な進化的アルゴリズムに対して、ライフタイム学習はより局所的で収束の速い改善を担うという役割分担になります。この二層構造の設計が、形態と制御の共進化を実現する上での基盤となっています。
7. リアリティギャップへの対策
7.1 ドメインランダム化(ノイズ付加による頑健化)
Gletta: リアリティギャップは、この研究コミュニティが長年取り組んできた根本的な課題です。シミュレーションの忠実度やアルゴリズムの探索の仕方によっては、シミュレーションと現実の乖離が非常に大きくなることがあります。極端な場合には、シミュレーション上では良好に動作していたロボットが、実機では全く動かなかったり、逆方向に動いたり、あるいは全く意図しない動作をしたりすることがあります。より微妙なケースでは、ロボットが意図した方向からわずかにずれて進んでしまうといった形で現れます。いずれにしても、シミュレーション上の結果をそのまま信頼することはできないというのが現実です。
この問題に対して現在最も広く用いられているアプローチがドメインランダム化です。具体的には、シミュレーション実行時にシステム全体に対してノイズを意図的に付加するというものです。ノイズを加える対象はセンサ、アクチュエータ、そしてロボットのパーツの寸法など多岐にわたります。異なる量のノイズを加えながら複数回のシミュレーションを繰り返すことで、様々な条件下でも機能するコントローラが学習されます。このようにして得られた制御システムは、ノイズへの耐性、すなわち現実世界で避けられない不確実性への頑健性が高まります。結果として実世界に転移した際にも、ロボットはより意図通りに振る舞う可能性が高くなります。ただしこのアプローチはより多くの計算を必要とするため、計算コストとのトレードオフが生じます。
7.2 実機サンプリングを組み合わせたハイブリッドアプローチ
Gletta: もう一つの有望なアプローチは、シミュレーションと実世界のサンプリングを組み合わせたハイブリッド型の手法です。基本的な考え方は、進化の大部分はシミュレーション上で行いながらも、実世界でも一部のサンプリングを行い、どのようなロボット設計とコントローラの組み合わせが実世界への転移性に優れているかを学習するモデルを構築するというものです。このモデルを活用することで、転移性が低いと予測される設計空間の領域を意図的に回避し、実世界でうまく機能する可能性が高い方向へ探索を誘導することができます。
これはいわば、実世界から得たデータを羅針盤として、シミュレーション上の探索を現実的な方向へ舵を切るというアプローチです。シミュレーションの速度と効率を活かしながら、実世界との乖離を最小化するための情報を少量の実機実験から取得するという点で、純粋なシミュレーションと純粋な実世界進化の中間に位置する実用的な戦略です。
7.3 実機転移後の継続学習による適応
Gletta: 三つ目のアプローチは、実機に転移した後にロボット上で継続的な学習・適応を行うというものです。このアプローチの背景にある論理は次のように説明できます。シミュレーションから実機へ転移した際、ロボットはシミュレーション上で発見した移動方法や出力強度といった設定をそのまま持ち込みます。しかしこれらの設定は実機の物理特性とわずかにずれており、ボディと制御の間の精妙な相互作用が乱された状態になっています。このズレを少量の追加学習によって修正することで、ロボットはシミュレーション上で達成していた性能水準を実機上でも取り戻すことができます。前述の実験事例においても、実機上での追加学習によってリアリティギャップに起因する性能低下を補い、シミュレーション上の性能に近い水準まで回復できることを確認しています。
Martina: これらの対策は組み合わせて同時に使用することは可能なのでしょうか?それとも択一的なものですか?
Gletta: 研究実験としては組み合わせると複雑になりますが、実際のシステムとしてであれば、これらの手法をすべて組み合わせて実装することは十分に可能だと思います。むしろ実用システムにおいてはそれぞれの手法が補完的な役割を担えるため、組み合わせる方が理にかなっています。ドメインランダム化によってシミュレーション段階での頑健性を高め、ハイブリッドサンプリングによって転移しやすい設計空間へ探索を誘導し、さらに実機上での継続学習によって最終的な性能を取り戻すという、三者が協調して機能する形が理想的です。
8. オープンソースプラットフォームとサステナビリティ
8.1 公開されているシミュレータ・フレームワーク・ハードウェア設計
Gletta: 私たちの研究成果を広く共有し、他の研究者や開発者が自分自身の実験に活用できるようにすることを重視しています。そのために私たちはいくつかのプラットフォームをオープンソースとして公開しています。まず2D環境と3D環境それぞれに対応したシミュレータを提供しています。これらはいずれもGymnasium構造を採用しており、多くの強化学習アプローチと容易に接続できる互換性を持っています。標準的なインターフェースに準拠しているため、既存の強化学習ライブラリやアルゴリズムをそのままプラグインとして活用することができます。
またDREt(Dynamic Robot for Embodied Testing)については、オープンハードウェアとしてすべての設計ファイルを公開しています。実際にこのロボットを組み立てるにはある程度の技術的な複雑さを伴いますが、理論上は誰でも設計ファイルをダウンロードして自分自身のDREtを製造することが可能です。
さらに最近力を入れているのが、Evolving Modular Robots Frameworkです。このフレームワークはUnityゲームエンジン上に構築されており、無料でダウンロードして使用することができます。Unity ML-Agentsというシステムを活用しており、これを通じて進化的アルゴリズムやその他のアルゴリズムを接続することができます。また新しいモジュールや構成要素の種類を設計して追加することも容易であり、自動ロボット設計の探索実験を柔軟にカスタマイズして行うことができます。これらのプラットフォームを通じて、より多くの研究者がこの分野の研究に参加してくれることを期待しています。
8.2 計算コスト・素材消費とエネルギー効率化への貢献可能性
Gletta: サステナビリティの観点から私たちの研究を評価することも重要です。まず計算コストについてですが、私たちのアルゴリズムは確かに多くの計算を必要とします。Quality Diversityアプローチであれば約100万通り、基本的な進化的アルゴリズムでも数十万通りのソリューションをテストします。ただしここで重要なのは、私たちのアプローチが非常に大規模な機械学習モデルの訓練を伴うものではないという点です。大規模言語モデルや深層学習モデルの訓練と比較すると、計算規模は相対的に抑えられています。具体的には、強力なワークステーション一台か、あるいは数台のワークステーションに分散させることで、数日以内に完了できる水準です。電力消費は決して無視できるものではありませんが、膨大というほどのものでもないと評価しています。
次に素材消費については、新しいロボット設計を多数実機でテストしようとすると、3Dプリンティングに使用するプラスチック素材の消費が避けられません。将来的に大規模な実機テストを行う場合には、リサイクル可能な素材を活用することが望ましいと考えています。
一方でこの研究がサステナビリティに貢献できる可能性も存在します。自然進化は長い時間をかけ、太陽エネルギーを源として非常に効率的な設計を生み出してきました。私たちはこのプロセスがすでに発見したエネルギー効率の高い設計の原理を活用することで、毎回ゼロから設計し直す必要をなくすことができます。さらに私たちのアルゴリズムは、素材使用量の最小化やエネルギー消費の最小化を目標関数として明示的に設定することで、より省資源・省エネルギーなロボット設計へと探索を誘導することができます。その具体的な成功事例として、日本の新幹線の先頭部分の形状最適化が挙げられます。進化的アルゴリズムを用いて先頭部の空気抵抗を最小化する形状を探索した結果、エネルギー効率の高いデザインが得られました。これはロボットそのものではありませんが、同様のアプローチが自動車設計など幅広い工学分野ですでに実用的に活用されており、設計ツールのプラグインとして産業界に浸透しつつある事例です。長期的には、こうした最適化によって得られる省エネ・省資源の効果が、アルゴリズムの計算コストを上回る貢献をもたらす可能性があると考えています。
9. Q&Aセッション:応用展望と今後の課題
9.1 強化学習の自律性と報酬関数の役割
Martina: 発表の中で強化学習についての言及がありましたが、これは人間のフィードバックによって駆動されるものなのでしょうか、それともロボットが自律的に学習するものなのでしょうか?
Gletta: 強化学習については発表の中でそれほど詳しく説明しませんでしたが、基本的には自律的なプロセスです。まず人間が、ロボットに達成してほしいパフォーマンスの指標を定義します。たとえば速く前進できること、あるいは速く動きながらも安定していることといった目標です。次にこれらの目標を、ロボットの挙動から数学的に記述できる報酬関数として定式化します。ロボットが実際にどのように振る舞っているかを観察し、その観察結果から報酬が計算されてアルゴリズムにフィードバックされます。このフィードバックをもとに自動化された反復プロセスが動き、ソリューションを徐々に改善し続けます。つまり人間が関与するのは最初に目標と報酬関数を設計する段階であり、それ以降の学習プロセスは完全に自律的に進みます。
9.2 リアリティギャップへの対応戦略(詳細)
Martina: シミュレーションと実世界の乖離、いわゆるリアリティギャップへの対策についてもう少し詳しく教えてください。ドメインランダム化以外にどのようなアプローチを取っていますか?
Gletta: ドメインランダム化については発表の中で述べた通りですが、それに加えていくつかのアプローチも試みています。一つは実機上での継続学習や適応です。転移後に実機上でコントローラを追加学習させることで、シミュレーションと実世界のズレを修正するというものです。背景にある考え方は、転移によってボディと制御の精妙な相互作用がわずかに乱されるため、少量の追加学習でそれを取り戻せるというものです。またこれら二つの手法は独立したものではなく、実際のシステムにおいては組み合わせることが十分に可能であり、むしろ組み合わせることで相互に補完し合う効果が期待できます。
9.3 キラーアプリケーションの探索と今後5〜10年の普及見通し
Martina: 生物インスパイアの適応型ロボットが従来型ロボットを明確に凌駕するような、キラーアプリケーションについてはどのようにお考えですか?また今後5年から10年でこのアプローチが主流になる可能性はあるのでしょうか?
Gletta: 正直に申し上げると、現時点では明確なキラーアプリケーションを特定できているわけではありません。私たちは主に、このアプローチが持つ可能性への確信と、知的な面白さに動機づけられて研究を進めています。ただし有望な方向性はいくつか見えています。一つは大量生産が必要なロボットへの応用です。個体あたりのコストを極力抑えることが重要な場合、私たちのアルゴリズムはエネルギー効率が高く低コストな設計を探索するために活用できます。もう一つは自律性、とりわけ長期自律タスクです。長期間にわたって自律的に動作し続けるロボットには、環境変化や損傷への適応能力が不可欠であり、ここに私たちのアプローチが貢献できる余地があります。
今後5年から10年での普及見通しについては、現状では主流のAIとロボティクス研究はまだこの方向性をそれほど重視していないというのが正直なところです。ただし形態と制御のコデザインへの関心は着実に高まっており、ソフトロボティクスの分野も急速に発展しています。ソフトロボティクスは非従来型の素材とアクチュエーターを活用するため、私たちのようなアルゴリズムの必要性が自然と高まってきます。また電圧を変えることで形状が変化するような新素材も登場しており、追加のモーターなしで形状変化が実現できるようになれば、より多くの種類のロボットや機構にこのアプローチを適用しやすくなるでしょう。これらの素材・アクチュエーター技術の成熟と歩調を合わせる形で、私たちのアルゴリズムの実用的な価値も高まっていくと見ています。
9.4 実用化までの距離感と研究の現状
Martina: 形態と制御のコデザインというアプローチは、ラボの外の実世界への展開という点でどのくらいのスケーラビリティを持っているのでしょうか?
Gletta: 率直に言えば、ラボの外に出るにはまだかなりの距離があります。現時点では基礎研究の段階にあり、いつどのような形でこれらのロボットが実用化されるかは明確ではありません。ただしこの距離感は一様ではなく、使用する素材やアクチュエーター、機構の成熟度に大きく依存します。それらが成熟するにつれて、私たちの手法を適用できる領域も自然と広がっていきます。将来的に可能性を感じているのは、環境モニタリングのような長期自律タスクです。様々な地形を移動しながらエネルギー効率よく長期間動作し続けるロボット、あるいは群ロボットやソフトロボットの形態で環境中の廃棄物を検知・回収するような応用が考えられます。しかし現段階では、技術的な可能性の探索と基盤となるアルゴリズムの発展が主たる使命であり、それ自体に大きな意義があると考えています。この研究は面白く、やりがいのある分野です。アルゴリズムやツールに興味を持った方には、ぜひ実際に触れてみて、この研究の輪に加わっていただけることを願っています。
10. まとめと展望
10.1 研究成果の総括
Gletta: 本日の発表を通じて、生物インスパイアおよび進化的ロボティクスの研究について幅広くお伝えしました。私たちのアプローチの根幹にあるのは、自然進化からインスパイアされた手法を用いてロボットの形態と制御を同時に設計するというコデザインの発想です。具体的には、分散型でモジュール型のコントローラや、ロボットの身体構造を生成するための様々な手法を生物から学び、設計プロセスを効率化するための近道として活用しています。
これらのアルゴリズムを用いることで、ロボットが環境や異なるタスクへどのように適応するかを探索してきました。形態と制御の両方が異なるタスクに応じてどのように変化するかを観察することで、設計上のトレードオフを明らかにし、設計支援ツールとして活用できることも示しました。特にQuality Diversityアルゴリズムは、多様な設計候補を一覧できるという特性から、設計空間の探索において非常に有用であることが確認されています。またシミュレーションのみでの進化と実世界での進化それぞれが持つ課題と可能性についても、実験を通じて具体的な知見を積み重ねてきました。
10.2 適応的・自律的ロボットへの期待と研究コミュニティへの参加呼びかけ
Gletta: この技術はまだ基礎研究の段階にあり、実用化の時期や形態については不明確な部分が多く残っています。しかし耐障害性、適応性、自律性を備えたロボットへの可能性は確かに存在します。たとえば様々な地形を移動しながらエネルギー効率よく長期間動作し続けるロボット、あるいは群ロボットやソフトロボットとして環境モニタリングや環境廃棄物の検知・回収といったタスクに従事するロボットといった応用が将来的に視野に入ります。
この研究は知的に非常に刺激的で、やりがいのある分野です。アルゴリズムやツールに興味を持った方にはぜひ実際に触れてみていただき、この研究の輪に加わっていただけることを強く願っています。私たちが公開しているシミュレータやフレームワーク、オープンハードウェアの設計ファイルは、まさにそのような方々に活用していただくために整備したものです。
Martina: 本日はKir Glettaさんによる大変充実した発表をありがとうございました。生物インスパイアのロボティクスとEmbodied AIの最前線について、具体的な実験事例と将来展望を交えながら深く議論できたことを嬉しく思います。この議論は今後も続いていきます。7月にジュネーブで開催されるAI for Goodグローバルサミットでは、ソフトロボティクスや生物インスパイアのロボティクスを含む形で、これらの技術が人類の重大な課題解決にどのように貢献できるかをさらに深く探求する予定です。プログラムはすでに一部公開されており、引き続きセッションが追加されていく予定ですので、ぜひご注目ください。本日ご参加いただいたすべての皆様に、活発な質疑応答を通じて議論を豊かにしていただいたことに感謝申し上げます。
