※本記事は、Sylvain Calinon氏による講演「Frugal Learning of Robot Manipulation Skills」の内容を基に作成されています。本講演は、国際電気通信連合(ITU)が主催し、50以上の国連パートナーおよびスイス政府と共同開催するプラットフォーム「AI for Good」のディスカバリーイベントとして配信されたものです。
登壇者のSylvain Calinon氏はIdiap研究所のシニアリサーチサイエンティストであり、ロボット学習とインタラクションを専門とする研究グループを率いています。モデレーターは、国際電気通信連合(ITU)のAI・ロボティクスプログラムオフィサーであるGuillem Martínez Roura氏が務めました。
本記事では講演の内容を要約・再構成しております。原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りが含まれる可能性もありますので、正確な情報や文脈についてはオリジナルの講演映像をご参照いただくことをお勧めいたします。AI for Goodのプログラム詳細は https://aiforgood.itu.int/ でご覧いただけます。
1. イントロダクション:研究背景と「フルーガル学習」の定義
1.1 発表者・研究機関の紹介と研究グループの立ち位置
Gileen Martinez Roa: 本日はAI for Goodディスカバリーイベント「ロボット操作スキルのフルーガル学習」へようこそ。このセッションでは、AIが大きく進歩した現在もなお、ロボットが物理的なインタラクションを伴うタスクに苦労し続けている理由に迫ります。ロボットは戦略的なボードゲームで人間を凌駕することができますが、同じタスクに含まれるごく単純な物理的動作すら困難なことがあります。本日の講演では、わずか数回のデモンストレーションや探索試行だけで、模倣と自己改善を通じてロボットが操作スキルを習得するための学習アプローチをご紹介します。また、幾何学・多様体・暗黙的形状モデル・距離場に基づく表現が、スキル習得にどのように貢献できるかについてもお話しいただきます。それでは、スイスアルプスのマルティニにあるIDAP研究所のシニアリサーチサイエンティスト、Sylvain Calinon氏にフロアをお渡しします。
Sylvain Calinon: Gileenさん、ご紹介ありがとうございます。私はスイスアルプスのマルティニにあるIDAP(Institut Dalle Molle d'Intelligence Artificielle Perceptive)という研究機関に所属しています。IDAPはAIと機械学習に特化した研究所で、1991年に設立されて以来、30年以上にわたってAI研究を続けてきました。今日「AI」といえばある種のリブランディングのように聞こえるかもしれませんが、私たちにとってはずっとやってきたことです。AIの波を何度も経験してきた機関です。PyTorchをご存知の方も多いと思いますが、PyTorchの前身であるTorchはIDAPから生まれたものです。これが私たちのAI技術への関与をよく表していると思っています。私は12年前に「ロボット学習とインタラクション」という研究グループを立ち上げ、ロボットへのスキル転移、特に操作スキルの転移を専門としています。PhD学生はEPFLとの共同プログラムにも所属していますが、IDAPは独立した研究機関として運営されています。
1.2 ロボットへのスキル転移とは何か:記録・再生を超えた汎化の必要性
Sylvain Calinon: 私たちのグループが取り組んでいるのは、操作スキルをいかに効率的かつユーザーフレンドリーな方法でロボットに転移するか、という問いです。理想的には、誰かがロボットにタスクを実演し、ロボットがそれを再現できるようにしたいわけです。しかしそれは単純な「記録して再生する」問題ではありません。デモンストレーションの背後にある本質的な特徴を抽出し、汎化できるようにする必要があります。たとえば箱の運び方をロボットに教える場合、その箱のサイズが変わっても、あるいはロボット自体が変わっても対応できなければなりません。つまり、動作が何を意味するのか、タスクが何を意味するのか、力が関わっているのか、どのような座標系が必要なのかを本当に理解する必要があるのです。そのため私たちは、少量のデモンストレーションからスキル転移を実現することに強い関心を持っています。今日の講演を通じて伝えたいのは、学習とは大量データだけの話ではなく、少量データでも成立するということです。
1.3 「フルーガル学習」の二つの意味:データの少なさと学習範囲の最小化
Sylvain Calinon: 私が「フルーガル学習」と呼ぶアプローチには、二つの意味があります。一つ目は、システムの訓練に必要なデータ量の節約です。私たちのグループでは極端なケースを想定しており、時にはたった数回、十数回のデモンストレーションだけから何ができるかを追求しています。この極めて小さい訓練セットから何を引き出せるかを研究しています。二つ目のフルーガルさは、「何を学習すべきか」という点にあります。ロボット工学には制御・知覚・計画といった非常に多くの構成要素があり、それらに多くの知識が必要です。その知識を捨ててデータだけでタスクをこなそうとするエンドツーエンド学習への誘惑は大きいのですが、私たちはシステムに注入できる事前知識が非常に多くあると考えています。データは使います。しかしデータを使うのは、タスクをモデル化できないとき、あるいはタスクに関する事前情報がないときに限るべきです。物理モデルがわからないときはデータ学習のプロセスで対処する。つまり、モデルベースの最適化とデータドリブンな学習コンポーネントを真剣にバランスさせることが、私たちの立場です。
1.4 学習の双方向性と足場(スキャフォールディング)メタファー
Sylvain Calinon: さらに強調したいのは、ロボットにおける学習は一方向的なプロセスではないということです。物理的に世界の中で動き、重力の影響を受けるロボットとインタラクションする場合、学習はより双方向的な性質を持ちます。これは機械教授(machine teaching)でもあり、能動学習(active learning)でもあります。ロボット自身が自律的に学習し、何を学ぶべきかを尋ねることもできます。また、カリキュラム学習と呼ばれる学習プロセスの段階的な発展も含まれます。重要な課題は、異なる種類の学習戦略を組み合わせることです。私たち人間が新しいスキルを習得するとき、一つの学習戦略だけを使うわけではありません。他の人を観察したり、自分で試したり、ある人からある種の知識を得て、また別の人から別の知識を得たりします。ロボットも複数の人から異なるデモンストレーションを受けながら、それぞれから何が得られるかを理解し、さらに自分でタスクを精錬していく必要があります。そのため、強化学習と模倣学習をどのように組み合わせ、ロボットが現在タスクについて何を知っているか、ユーザーがどれだけ関われるかを考慮しながら、これらの異なる学習戦略をいかに流暢に統制するかが課題となります。
私はこれを「足場(スキャフォールディング)」のプロセスとして捉えています。足場は家を建てるときに使われますが、これはスキル転移の良い比喩でもあります。家を建て始めたとき、最初は大量の足場が必要です。建設が進むにつれて、足場を少しずつ取り外していけます。そして理想的には、建設が完了した後は家が自立して立っていられるようになります。スキル転移のプロセスも同じです。最初はユーザーが常にそばにいて、何が起きているかを監視し、ロボットに何をすべきかを教える必要があります。しかし、ロボットが徐々に専門知識を身につけてタスクを理解するにつれて、ユーザーによる修正が不要になっていき、最終的には自律的にタスクをこなせるようになる。このような段階的な自律化のプロセスこそが、私たちの考えるフルーガル学習の本質です。
2. 対象とする操作スキルの全体像
2.1 把持操作(Prehensile Manipulation):腕全体・ツール活用・両手タスク
Sylvain Calinon: 私たちが最も関心を持っているのは、多様な形態の操作スキルをロボットに転移することです。まず把持操作(Prehensile Manipulation)について説明します。把持操作とはオブジェクトを掴む必要があるスキル全般を指しますが、重要なのはグリッパーだけで物を掴もうとするわけではないという点です。たとえば大きな箱を運ぶとき、人間は指を使いません。前腕の上に箱を乗せるようにして運ぶわけです。ヒューマノイドロボットにとってこの点は特に重要で、複雑な手を搭載しようとすると重量が問題になります。ですから、新しいヒューマノイドプラットフォームに操作能力を持たせるためには、ロボットの全身を使う発想が必要になります。私たちのラボでは、コンプライアントロボット、すなわちトルク制御ロボットを用いて両手タスクの研究を行っており、全身をどのように使うかを幾何学的な観点から記述し、タスクを解くためにどのような接触点を使えるかを探っています。
把持操作のもう一つの形態として、ツールの活用があります。グリッパーを直接使いたくない場合でも、ロボットが掴めるツールを使うという選択肢があります。実際の応用では、用途に応じた多様なツールが存在します。例えばラボの実験では、ロボットにラチェットのようなツールを与えることで、手の届かない遠くにある物体を手前に引き寄せるといった動作を実現しています。このようにツールの活用によってロボットの作業を大幅に簡素化できることを示しています。
2.2 非把持操作(Non-prehensile Manipulation):押す・引く・ピボット・環境利用
Sylvain Calinon: 次に非把持操作(Non-prehensile Manipulation)について説明します。これはオブジェクトを押したり引いたりすることを含むスキル群です。テーブルの上で物を押す・引くという動作は、私たちの日常においても非常に多く使われています。たとえば大きな箱を整列させる必要があるとき、人間はいきなり目標位置に箱を置こうとはしません。まず箱を自分の手前に引き寄せ、それからスライドさせます。そのほうがはるかに楽だからです。エネルギーをそれほど消費しなくて済みます。押す・引くという動作はそれだけでなく、知覚の面でも重要な役割を果たします。積み重なって乱雑に置かれたオブジェクトを分離することでシーンが整理され、その後の把持がしやすくなるからです。より広い文脈では、オブジェクトの姿勢を再調整する能力としても汎用的に役立ちます。
さらに環境そのものを利用する操作も研究対象としています。例えばピボット操作では、環境の壁や縁などを支点として活用することで、ロボットが器用にオブジェクトを操作できます。また、私たちが参加したAoki Challengeという競技では、より複雑な動作戦略が求められました。具体的には、パレットを壁に弾ませるような動作を含む戦略でゲームに勝つ方法を探求するもので、これも非把持操作の一例です。
2.3 高精度操作:廉価なコボットによる仕様外精度の達成(針穴通し実験)
Sylvain Calinon: 私たちが取り組んでいるもう一つの重要な領域が、非常に高精度な操作です。時計製造をはじめとする精密産業では、極めて正確な動作が求められます。そして一般に、高精度を求めるなら高価なプラットフォームが必要だという常識があります。しかし私たちが示したのは、必ずしも高価なロボットを使う必要はないということです。市場で入手しやすい廉価なコボット(協働ロボット)を使い、その精度不足をスマートな補正手法で補うアプローチを取りました。
このプロセスで鍵となるのが能動知覚(Active Perception)です。システムがオンラインで環境を感知し、意図した動作とのズレを逐次補正していくものです。これは人間が行うことと本質的に同じです。目を閉じたままタスクをこなそうとすると失敗しやすいですが、視覚フィードバックがあれば動作を修正できます。私たちはロボットにも同じことをさせました。そして実験の結果、環境を賢く感知することで、針に糸を通すという非常に精密なタスクを達成できることを示しました。ロボットのデータシートを見れば、このタスクはその精度仕様を超えているはずです。しかしローカルな補正機構を持たせることで、仕様外の精度を実現できたのです。
2.4 遠隔操作:深海バルブ作業における遅延通信下でのリアルタイム補正実験
Sylvain Calinon: 最後に紹介するのが遠隔操作です。私はテレオペレーションを人間とロボットの協働として捉えています。タスクの一部をロボットが担い、別の一部をユーザーが担うという形です。テレオペレーションが通常の協働と異なるのは、ユーザーがロボットから物理的に離れた場所にいるという点です。ロボットは危険な場所、迅速な展開が必要な場所、あるいは人間が立ち入れない場所で稼働します。私たちが参加した大規模な欧州プロジェクトでは、その典型例として深海底でのバルブ操作がありました。
このプロジェクトでは、遠隔操作センターからロボットを操作して、水深の非常に深い場所でバルブを回すというタスクに取り組みました。しかし海底にいるロボットと地上の操作センターの間では通信が遅延するため、リアルタイムでの精密制御は困難です。そこで私たちが導入したのが、ロボットがローカルで状況を処理し、インテリジェントな補正を行う仕組みです。ユーザーは遠隔操作センターでVRセットアップを使って高レベルの指示を示すだけです。その情報を受け取ったロボット側は、自らの計画を状況に応じて修正しながら、局所的な乱れには非常に速く適応します。たとえばバルブの向きが想定と異なっていても、ロボットは自動的にハンドを整列させ、効率的にバルブを回すことができます。
このような複雑なシステムを本番に投入する前には、ラボ内でのシンプルなセットアップによるアルゴリズム開発が不可欠です。私たちのラボでは、2台のロボットを使ってこのシナリオを再現しました。一方を入力デバイスとして、もう一方を出力として使います。現実には両者は遠く離れているわけですが、ラボでは隣接して設置されています。実験では左右でバルブの配置を意図的に変えてあります。ユーザーが入力側のロボットをキネスセティックに(腕を直接掴んで)操作するだけで、反対側のバルブの位置を気にすることなく、座標系のスムーズなマッピングが自動的に行われます。バルブの配置が異なっていても、このマッピング機構によってタスクを効率的に再現できることを示しました。これが私たちが取り組む操作タスクの全体像であり、ここからは具体的な研究手法の説明に移ります。
3. 技術1:エルゴーディック制御(Ergodic Control)
3.1 基本概念:目標点ではなく「分布」を追跡する制御アプローチ
Sylvain Calinon: ここからは私たちが操作タスクに用いている三つの技術のうち、最初のものを紹介します。それがエルゴーディック制御(Ergodic Control)です。ロボット工学において、タスクはほとんどの場合「到達すべきターゲット点」として定式化されます。ロボットにある目標を与え、そこに到達するよう指示するわけです。しかしエルゴーディック制御では、そのターゲットを一点ではなく、完全な「分布」として指定します。つまり、ロボットが効率的にカバーすべき領域が存在し、その領域の中を動き回ることを目指すのです。これは、何か隠れているもの、あるいは正確な位置がわからないものを探索する場面に非常に適しています。その分布の中を動き回ることで、オブジェクトがどこにあるかを探り当てることができます。
3.2 鍵探し問題による比較:パターン探索 vs. エルゴーディック探索の効率差
Sylvain Calinon: エルゴーディック探索がいかに自然なアプローチであるかを示す直感的な例として、私はよく「リビングで鍵を探す」という例を使います。自分の鍵をリビングで探すとき、私の主張は「エルゴーディック探索の方がはるかに自然な探し方だ」ということです。まず探索の出発点として、鍵が置かれている可能性が高い場所の分布があります。いつも鍵を置く場所かもしれませんし、平らな面の上かもしれません。鍵は平らな面に置きやすいので、そういった場所の確率が高くなります。こうした初期分布を持ったうえで、できるだけ速く鍵を見つけることが目標になります。
一方で考えられる別のアプローチはパターン探索、つまり部屋を一定のパターンで走査していく方法です。しかしこれは理想的ではありません。パターン探索を多数回繰り返した平均で考えると、エルゴーディック探索よりも大幅に遅くなります。その理由は、エルゴーディック探索が問題を「低解像度から高解像度へ」という形で定式化しているからです。最初は部屋全体をぼんやりとスキャンするようなイメージです。そこで鍵が見つからなければ、より細かい粒度で探していきます。それでも見つからなければ、さらに詳細に見ていく。このプロセスは周波数領域の問題として捉えることができ、低周波数のスペクトル帯から高周波数のスペクトル帯へと段階的に対応していくものです。つまり、タスクを非常にぼんやりした低解像度の状態から始め、最終的に非常に高解像度な状態へと精緻化していく。これがエルゴーディック制御の本質であり、こうすることで平均的に鍵をはるかに速く見つけられることになります。
3.3 挿入タスクへの応用:低精度センサ・ロボット下での不確実性の吸収
Sylvain Calinon: このエルゴーディック制御をロボット工学に応用した最初の例が、挿入タスクです。挿入タスクにおいても、鍵探しと同じ問題が存在します。センサの解像度が低ければ、到達すべき挿入口がどこにあるかを正確に把握することができません。そこでその挿入口の位置を分布として指定します。位置が正確にわかっていない、あるいは把握が難しいわけです。グリッパーについても同様の問題があります。グリッパーが把持しているコンポーネントの正確な位置がわからない場合があります。さらに廉価なロボットでは、空間上の位置を正確に把握するほどの精度がない場合もあります。
こうした不確実性が積み重なる状況において、エルゴーディック制御を用いることで、到達すべき点の正確な位置がわからなくても、ロボットがタスクを達成できるような探索的な動作を生成できます。ロボットは分布に従った探索挙動を自律的に展開しながら、その過程で挿入口を発見し、タスクを完遂するのです。これはセンサの精度限界やロボットのキャリブレーション誤差といった現実的な不確実性を吸収するための非常に実用的なアプローチです。
3.4 カバレッジタスクへの応用:点群上での食器洗い自律化実験
Sylvain Calinon: エルゴーディック制御のもう一つの応用がカバレッジ問題です。これはある領域を効率的にカバーするという制御問題として定式化されます。私たちが実験として取り組んだのが、食器洗いタスクです。このラボ実験では、実際に食べ物で汚れた食器を使うわけではありません。食器類にマーカーで印をつけておき、ロボットがその赤い印を消去することを目標とします。この実験の重要なポイントは二つあります。一つは、エルゴーディック制御が平面や三次元空間の問題としてだけでなく、点群(Point Cloud)の上でも機能することを示した点です。もう一つは、ビジョンを用いて食器の形状をその場で認識し、事前に形状モデルを持つことなく、ロボットが自律的に食器を洗えることを実証した点です。これにより、エルゴーディック制御が単なる探索問題だけでなく、より複雑な三次元形状に対するカバレッジ問題にも有効であることが示されました。
3.5 他分野への拡張:探索・救助ミッションと空中ロボットへの展望
Gileen Martinez Roa: エルゴーディック制御について、挿入タスクやカバレッジタスク以外にも有望な応用分野はありますか?
Sylvain Calinon: 非常に良い質問です。今回の講演では操作スキルに特化してお話ししましたが、エルゴーディック制御は実際にはそれ以外の分野でも広く使われています。特に重要だと思うのが、探索・救助(Search and Rescue)の分野です。また監視(Surveillance)の領域でも有効です。モバイルロボットや空中ロボットとの組み合わせも非常に相性が良く、実際に多くの研究が行われています。空中ロボットにエルゴーディック制御を適用する場合、提供する分布はそのままマップとして機能します。たとえば空中ロボットがある地域をカバーする必要があれば、その地域を分布として与えるだけで、効率的な探索経路が自動的に生成されます。探索・救助のシナリオでは、ロボットが目標物を通常のパターン探索よりもはるかに速く発見できることを意味します。パターン探索は非常に遅くなり得ますが、エルゴーディック探索であれば確率分布を活用した効率的な探索が実現できます。こうした意味で、エルゴーディック制御は操作スキルを超えて、広範なロボット工学の問題に応用できる汎用的なフレームワークと言えます。
4. 技術2:テンソルネットワーク(Tensor Networks)
4.1 ニューラルネットワークとの比較と少量データへの適性
Sylvain Calinon: 二つ目の技術として紹介するのがテンソルネットワーク(Tensor Networks)です。ニューラルネットワークについてはご存知の方も多いと思いますが、ニューラルネットワークには実に多様な構造が存在します。テンソルネットワークはそれと比べると知名度が低く、どちらかといえば物理学の分野で広く知られている技術です。ニューラルネットワークと同様に、テンソルネットワークもデータから本質的な情報を抽出するための処理パイプラインです。ただし、ニューラルネットワークと決定的に異なるのは、少量のデータに対して格段に高い性能を発揮するという点です。
これが私たちにとって非常に重要な性質です。なぜなら、ロボットへのデモンストレーション学習においては、ユーザーがロボットに直接タスクを見せるという形でデータを収集するため、画像やテキストを扱う一般的な機械学習タスクと比べてデータセットが非常に小さくなることが多いからです。テンソルネットワークにはさまざまな構造が存在しますが、私たちの研究では特に「テンソルトレイン(Tensor Train)」と呼ばれるモデルを多用しています。テンソルトレインは数あるモデルの一つですが、最適化問題、強化学習、教師あり機械学習への応用を探る研究が活発に行われており、今後の発展が期待される分野です。
4.2 テンソルトレインの仕組み:低ランク分解と多変数確率モデリング
Sylvain Calinon: テンソルトレインの仕組みを説明するにあたり、まずその目的から話します。目的はロボットのタスクに対する「報酬関数(Reward Function)」をモデル化することです。報酬関数とは、ロボットがタスクにどれだけ成功しているかを示す指標です。この報酬関数の決定変数には二種類あります。一つは「環境変数」で、たとえばシーン内のオブジェクトの位置といった、環境の状態を記述するものです。もう一つは「ポリシー変数」で、オブジェクトがここにあるときロボットはどのように動くべきか、といったロボットの行動を記述するものです。ポリシー変数はアクション、プラン、軌跡など様々な形を取り得ます。
このスコア、つまりロボットがどれだけ成功しているかのモデルを持つことができれば、サンプリング手法を使って、ある状況下でロボットに高い報酬をもたらすポリシー変数を生成できます。これは条件付き確率として考えることができます。この分布を確率的にモデル化し、テンソルトレインを用いてサンプリングを行うのです。考え方としては変数の分解であり、元の分布よりも少ないパラメータでその分布を表現できるような低ランク分解を見つけることが目標です。
具体的には、ランク2分解やランク1分解といった例が挙げられます。線形代数の言葉で言えば行列分解に相当しますが、私たちが用いるテンソルトレインの背後にある手法は、主成分分析(PCA)や特異値分解(SVD)とは少し異なります。「スケルトン分解(Skeleton Decomposition)」と呼ばれる手法を使っており、この分解に使われる行列は実際には元のデータそのものから構成されています。そして通常の線形代数との決定的な違いは、ベクトルや行列を扱う二次元の問題に限定されないという点です。多変数の問題、つまり多重線形代数(Multilinear Algebra)として扱うことができ、多くの決定変数を同時に考慮できます。テンソルデータをテンソルコアの連鎖(Tensor Train)として表現することで、同じ処理パイプラインを高次元の問題に適用できるわけです。
4.3 学習・推論速度の実測と応用例:ピック&プレースの並列サンプリング
Sylvain Calinon: この定式化により、タスクを非常に短い時間で学習できることが実証されています。非常に単純なタスクであれば10分、ロボット工学の問題としては通常1〜4時間で学習が完了します。数日や数週間の計算を要するわけではありません。そして解のサンプリング、つまり解を取り出すフェーズは極めて高速で、1ミリ秒から10ミリ秒というオーダーで実現されています。
この仕組みを生成メカニズムとしての実例で説明します。アニメーションで示している例では、ロボットがオブジェクトに到達し、同時に環境中の障害物を回避する必要があります。具体的な例として、棚の上でのピック&プレースタスクを取り上げます。入力として「ピッキング位置」と「プレーシング位置」を与えると、出力としてオブジェクトを掴んで棚の別の場所に置くまでの完全な動作が生成されます。このとき棚そのものが障害物となるため、それを回避しながら動作を計画する必要があります。映像に複数のロボットが映っているのは、このタスクを解く方法が複数あることを示しているからです。異なる解き方のサンプルが並列に生成されており、解の多様性を確認できます。このように、テンソルネットワークは解を非常に高速に並列生成できる点が大きな強みです。
4.4 MPC・動的計画法・モンテカルロ探索への統合と将来展望
Sylvain Calinon: 私たちはこの枠組みをさらに複雑な問題へと発展させています。テンソルネットワークは、モデル予測制御(Model Predictive Control, MPC)、動的計画法(Dynamic Programming)、モンテカルロ探索を含む学習問題など、多様な応用において同一のコア処理パイプラインとして機能しています。このすべての取り組みが、テンソルネットワークという共通の基盤の上に成り立っているのです。
Gileen Martinez Roa: テンソルネットワークが少量データからの学習を可能にする技術として、今後ロボット工学でより広く普及するためにはどのような発展が期待されますか?
Sylvain Calinon: 非常に良い質問です。実はテンソルネットワーク自体は新しい技術ではありません。物理学の分野では「行列積状態(Matrix Product State)」という名前で知られており、もともと別の名称で存在していたものを、数学者たちがある意味で再発見し、テンソルトレイン・テンソルネットワークという言葉で呼ぶようになりました。現在は明確な潮流が見えており、コンピュータサイエンス全般、特に最適化問題の分野でこの技術への注目が高まっています。データ圧縮のためだけでなく、強化学習のためのテンソルトレイン、最適化のためのテンソルトレイン、教師あり学習のためのテンソルトレインといった論文が増え続けています。私たちの研究もこの潮流と一致しており、テンソルネットワークが物理学とは無関係な他の応用にも恩恵をもたらす処理パイプラインとして機能することを示しています。今後はロボット工学にとどまらず、広範な分野でこの技術が採用されていくと見ています。
5. 技術3:幾何学的表現(Geometry as Inductive Bias)
5.1 幾何代数(Geometric Algebra):点・線・面・球の統一的な操作と制御実験
Sylvain Calinon: 三つ目の技術として紹介するのが、学習問題における帰納的バイアス(Inductive Bias)としての幾何学的表現です。幾何学をどのように扱うかにはさまざまな方法がありますが、最初に紹介したいのが幾何代数(Geometric Algebra)というアプローチです。幾何代数は、点・直線・平面・球・円といった基本的な幾何学的形状を統一的に扱えるフレームワークです。点と同じように完全な座標系、つまり剛体運動も扱えます。
幾何代数の最大の利点は、関数を一度書けばそれがあらゆる幾何学的オブジェクトに対して有効になるという点です。たとえば補間関数を考えましょう。ある点から別の点へ移動する際の中間点のリストを返す補間関数をコードとして書いたとします。幾何代数を使えば、この関数をそのまま別のオブジェクトに適用することができます。同じ関数を二本の直線に対して呼び出せば、二本の直線間のスムーズな補間が得られます。さらに異なる種類のオブジェクトを混ぜることもできます。平面と球の間でモーフィングを行えば、球がつぶれて平面になっていくような変換が実現できます。これは補間に限った話ではありません。書いた関数はどれもこうした異なるオブジェクトに対して汎用的に機能するのです。
ロボット工学においてこれらの幾何学的オブジェクトに注目する理由は、それらが「制約」を表現できるからです。ロボット工学における制約はしばしばこのような幾何学的形状として記述できます。たとえばロボットのマニピュレータを平面内に留まらせたい場合、それは「平面に到達しようとする」問題として捉えられます。環境中の特定の点から一定の距離を保ちたい場合は、一定の半径を持つ球の表面上に留まり続けることを意味します。球の中心からある半径に留まり続けることは、球をトラッキングすることと同義です。このように多くの制約が幾何学的に定式化でき、さらにこれはユーザーとの関係にも及びます。人間とロボットの協働における制約も同様に幾何学的オブジェクトとして表現でき、複数の接触点を含む問題にも対応できます。
この考え方を活かした最新の実験として、シンプルな3Dマウスを入力デバイスとして球を制御するシステムを構築しました。球を制御するとはどういうことかというと、三次元空間での並進移動に加え、球の半径を変化させることも含みます。これを幾何学的オブジェクトとして扱うと、ロボットに対しては4本の指先が球の形状に追従して自動的に閉じていく動作として変換されます。つまり、1つのシンプルな幾何学的オブジェクトを操作するだけで、複数の指という複数の自由度を一括して協調制御できるわけです。これが幾何代数を制御に活用した具体的な成果です。
5.2 距離場(Distance Fields):形状の暗黙的表現と勾配によるナビゲーション
Sylvain Calinon: 幾何学的形状の表現方法には様々なものがあります。メッシュ、点群、形状プリミティブ、占有グリッド、そして距離関数です。状況によって単純な幾何学的形状が適切な場合もあれば、より精緻な表現が必要な場合もあります。私たちの研究の大部分は、この中の最後の一つである距離関数、すなわちオブジェクトまでの距離に基づく表現、いわゆる距離場(Distance Fields)に焦点を当てています。これはオブジェクトの形状を陰的(Implicit)に表現する手法です。
重要なのは、距離関数そのものだけでなく、その導関数(微分)にも注目している点です。導関数はオブジェクトに接触したい場合にどこへ向かえばよいか、あるいはオブジェクトを回避したい場合にどこへ向かえばよいかを教えてくれます。たとえば経路を計算しているとき、その経路がオブジェクトの内部に入り込んでいることが判明したとします。そのときロボットはこの距離と方向の情報をもとに経路を修正し、オブジェクトとの干渉を避けることができます。これはオブジェクトに対してだけでなく、ロボット自身に対しても有効です。先ほど紹介した両手タスクや全身操作の例でも、この距離場の形式が活用されており、関節角度レベルで直接機能する計画・制御技術にも適用できます。
5.3 潜在空間上の軌跡距離場:ベンチマーク超えの実験結果
Sylvain Calinon: 距離場はオブジェクトの表現だけでなく、軌跡を陰的に表現する手段としても活用できます。考え方はこうです。まず軌跡を出発点とします。これはデモンストレーションされた軌跡でも、最適制御手法によって見つけられた軌跡でも構いません。その軌跡を距離場に変換し、その距離場の導関数を使って、摂動に直面したときにロボットが何をすべきかを指示するポリシーを生成します。このようなフローフィールドを持つことで、ロボットが軌跡からずれた位置に移動させられた場合でも、次にどこへ向かうべきかが自律的に定まります。これはある種の自律システムを生成していると捉えられます。
さらに現在進めているのが、この考え方を潜在空間(Latent Space)で実現することです。ニューラルネットワークを使って潜在空間を見つけ、その潜在空間内に軌跡を配置し、それを自律システムへと変換します。この取り組みにおいて、問題をポリシーとしてではなく軌跡として扱うことで、複数のベンチマークを上回る性能を達成できることを実証しました。これは距離場をオブジェクトの陰的モデルとして活用する一つの重要な側面です。
5.4 オブジェクト中心座標系:異物体へのゼロショット転移実験
Sylvain Calinon: さらにもう一歩進んだアプローチが、現在研究中のオブジェクト中心座標系です。ここで目指しているのは、距離の概念をオブジェクトの表面に沿って動く完全な座標系へと拡張することです。基本的なアイデアは次の通りです。まず初期の座標系を取り、それをオブジェクトの形状に沿ってスライドさせていきます。次にそれをオブジェクトを囲む空間全体にわたってスライドさせます。この変化が十分になめらかであれば、操作タスクにとって非常に意味のある局所座標系が生成されます。なぜなら、タスクを非常に直感的な方法で記述できるからです。
たとえばオブジェクトから一定の距離を保ちたい場合、このなめらかに変化する局所座標系では、Z方向の決定変数が一定に保たれるということを意味するだけです。この表現を用いることで、制御・計画・学習のすべての問題に有効な統一的表現が得られます。そしてこのアプローチの最も重要な成果が、異なるオブジェクト間でのスキル転移です。たとえばキュウリの皮むきに関するデモンストレーションを一つ行えば、再学習なしに別の形状のオブジェクトへとそのデモンストレーションをそのまま適用できます。オブジェクトが変わっても動作の本質がオブジェクト中心の座標系としてエンコードされているため、別のオブジェクトに対しても正しく機能するのです。これはゼロショット学習(Zero-Shot Learning)と呼べるもので、一つのオブジェクトで学習すれば、別のオブジェクトでも再現できます。同様の成果を切断タスクや触診(Palpation)タスクでも実証しており、現在もこの技術をさらに発展させる研究を進めています。このオブジェクト中心の視点でアクションをエンコードするというスマートな考え方こそが、この研究の核心です。
6. Q&Aセッション:実践的課題と研究の展望
6.1 モデルベースとデータドリブンの切り分け方の判断基準
Gileen Martinez Roa: フルーガル学習とは、小さなデータセットを使うことと、本当に学習が必要なことだけを学習するという二つの意味があるとご説明いただきました。では実際に、操作タスクのどの部分を事前モデルに頼るべきで、どの部分をデータドリブンな精錬に委ねるべきかを、どのように判断されているのでしょうか?
Sylvain Calinon: 非常に重要な、そしてなかなか答えるのが難しい質問です。まず前提として、問題の定式化そのものが間違っている場合があります。たとえばすでに解き方がわかっている問題を、システムがそれを学習できるかどうか確かめるためだけに学習させようとするケースです。それは理論的には実行できますが、有益ではありません。私が強く推奨するのは、ロボット工学において学習なしに何ができるかをまず真剣に検討することです。あるところで初めて学習が必要になる局面に到達するわけですが、すでに知っていることをわざわざ逆工学するような学習は避けるべきです。
私たちがすでに知っていることの多くは物理学に関係しています。たとえば重力についてはすでに知っているわけですから、ロボットに重力を学習させる必要はありません。だからこそ私は物理インフォームドニューラルネットワーク(Physics-Informed Neural Networks)の活用を推奨しています。今回の講演で幾何学についてお話ししたことも、この文脈に位置づけられます。幾何学は物理学の一部であり、幾何学的な知識があるのであれば、それを積極的に利用すべきです。重力に限らず、物理学をより広く活用するという姿勢が大切です。こうした考え方のもとで、何を学習すべきかについて慎重であることと、その学習に必要なデータ量についても慎重であることの両方が求められるのです。
6.2 複数ユーザー・複数学習戦略の統合とスケーラビリティの課題
Gileen Martinez Roa: スキャフォールディングのメタファーを使われていましたが、異なる教え方をする複数のユーザーがロボットとインタラクションする場合、このアプローチはどのようにスケールするとお考えですか?
Sylvain Calinon: これも非常に良い質問ですが、正直に言うと、現時点では明確な解答を持ち合わせていません。それよりも、私たちが異なる学習戦略をいまだ十分に効率よく活用できていないことを自覚しているというのが実情です。研究の現場では通常、強化学習だけを専門とするグループ、デモンストレーションからの学習だけを専門とするグループ、シンボリックレベルのアイレベル学習だけを扱うグループ、あるいは学習をコントローラとしてのポリシーという極めて低レベルの問題として捉えるグループ、というように分断されています。しかし現実には、これらすべての技術を組み合わせる必要があります。
問題はその組み合わせ自体が容易ではないことです。技術によってユーザーが関与するものとそうでないものがあります。これらすべての要素を真剣に考慮しようとすると、それ自体がメタ学習の問題になります。ロボットが何を必要としているか、ユーザーが何を必要としているか、タスクがどれほど頻繁に変化するか、環境がどれほど頻繁に変化するか、こうした多くの要素を同時に考慮しなければなりません。私が目指しているのは、人間がスキルを習得・獲得する方法を模倣するような技術を育てることです。私たち人間は複数の学習戦略を組み合わせて使っているわけですから、ロボットも同様に複数の学習戦略を組み合わせて使えるようになるべきだと考えています。
6.3 連続学習とメモリ管理:Memory of Motionプロジェクトの知見
Gileen Martinez Roa: 連続学習においてメモリはどのように機能するのでしょうか?メモリの想起において、チームとして注目している画期的な進展はありますか?
Sylvain Calinon: ええ、間違いなくあります。私たちは「Memory of Motion」という欧州の大規模プロジェクトに取り組みました。多くのパートナーが参加したプロジェクトで、研究テーマはまさにこの問いに関するものでした。メモリをいかに効率的に活用するかをより深く理解するためのモデルを構築することが目的でした。この文脈で「動作のメモリ」というのは、現状ではあまりにも多くのものが捨て去られているという問題意識から来ています。ロボットが何かを学習した後、その知識が捨てられてしまうというケースが残念ながら頻繁に起きています。モデルを変更したとか、タスクにさまざまな要素が絡み合っていてロボットがすでに知っていることを再利用できない、といった理由でせっかく学習した知識をゼロにして再学習することになるのです。
このプロジェクトでは、十分にコンパクトで、ロボットが知っていることを忘れる必要がなく、かつメモリに蓄積された内容を効率的に再利用できるようなメモリの構築方法を探求しました。これはファイルを圧縮して保存するという意味ではありません。それよりもはるかに洗練されたものです。動作についての事前知識、物理学についての事前知識、そしてシステムに組み込むことができるさまざまな幾何学的側面に関する事前知識を活用した、圧縮モデルとしての記憶の在り方を追求しました。
6.4 身体エージェントのセキュリティ・安全性と解釈可能モデルの役割
Gileen Martinez Roa: 聴衆からの質問をご紹介します。人間の記憶は非常に多孔質であることが知られており、人間に偽の記憶を植え付けることが容易であるという研究もあります。身体エージェントのセキュリティについて、いわゆる「認知的主権」をどのように保つことができるとお考えですか?
Sylvain Calinon: これは重要な問題です。身体エージェントが普及する時代には、非常に真剣に議論しなければならないテーマです。セキュリティという観点から考えると、物理的なプラットフォームを扱っているがゆえに複数の側面が絡み合います。一つはヒューマノイドが転倒するといった安全性の問題であり、もう一つはプラットフォームそのものが悪意ある目的に利用されるリスクです。モデルの解釈可能性が高ければ高いほど、システムが何を学習したのか、何をしようとしているのかをより適切に監視できます。システムに対して「これ以上はしない」という境界を設けることも可能になります。解釈可能なモデルを常に持てるとは限りませんが、少なくとも制御に関連する部分については解釈可能なモデルにすることで、リスクを大幅に低減できると考えています。今回ご紹介したすべての技術はこの解釈可能性という側面を持っており、それが私たちのアプローチの重要な特徴の一つです。
6.5 人間誘導学習 vs. 自律学習のトレードオフと「学びながら実行する」研究動向
Gileen Martinez Roa: 非把持操作や環境の利用について、ロボットが戦略を完全自律的に発見するためのカギは何でしょうか?
Sylvain Calinon: まずそもそも「完全自律」が本当に必要なのかを問い直すべきだと思います。私たちが避けたいのは、ユーザーがロボットに似たようなことを何度も何度も示すような状況です。もしユーザーが「何かを見せることが無意味だ」と感じているとしたら、それはシステムの設計に問題があるということです。逆に、少量のデモンストレーションで学習でき、それが強化学習の問題を加速させるのであれば、それは人間のガイダンスとロボットの自律学習の最善の組み合わせだと考えます。
つまりこれはバランスの問題です。ロボットが事前知識や過去に学習したことを活用できるか、そしてデモンストレーションからどれだけの利益を得られるかを判断することが鍵になります。たとえば誰かが5秒間のデモンストレーションを見せるだけでロボットが何かを学習できるなら、1日かけて自律的に学習するよりもずっと効率的です。しかし逆のケースもあります。人間がデモンストレーションするコストが非常に高い一方で、ロボットがシミュレーションで簡単に学習できるタスクもあります。ですから人間主導の技術と自己精錬技術のそれぞれの長所と短所を天秤にかけることが本質的に重要なのです。
さらに理想的なのは、ロボットがタスクを止めずに学習し続けることです。現在私たちはロボットがタスクを実行しながら同時にそのタスクを精錬し続けるという問題にも取り組んでいます。「学習のためにマシンを停止させる必要があるのか、あるいは動かしながら学習できるのか」という問いは、現在非常に注目度の高い研究テーマです。
6.6 模倣学習における悪用防止と安全ガードの考え方
Gileen Martinez Roa: 最後に聴衆からの質問です。違法な状況や問題のある状況において、模倣によるロボットの学習に何らかの安全ガードはあるのでしょうか?良いアプリケーションのためだけに学習プロセスを使用するための防止策はありますか?
Sylvain Calinon: これは先ほどのセキュリティに関する質問と共通する部分があります。解釈可能なモデルを持ち、それが異なる部分を適切に分離できるのであれば、何が実行できるか、あるいは何がデモンストレーションできるかについてより多くのコントロールが可能になり、安全ガードを設けることができます。物理的に強力なプラットフォームを扱う場合には、加速度の制限、つまりロボットがどれほど素早く反応できるかという制限、そして使用される力の制限も重要な要素です。私たちが取り組む多くのタスクは人間とロボットの物理的な協働を含んでいるため、人間とインタラクションする際にどのような力が加わるかを正確に把握するための解釈可能なモデルを持つことが非常に重要です。
ただし私の立場を明確にしておきたいのは、私たちの役割は安全ガードを可能にする技術を提供することであり、実際にそのプラットフォームをどう展開するかは安全の専門家を含む別の議論に委ねられるべきだということです。技術的な側面では解釈可能性と制約の設定に貢献できますが、実際の運用における安全性の確保は、それぞれの分野の専門家が最善の判断を下すための知識を持ち寄って取り組むべき問題です。
Gileen Martinez Roa: Sylvain、本日はロボット操作スキルのフルーガル学習について深く掘り下げていただき、誠にありがとうございました。聴衆の皆様も活発にご参加いただき大変感謝しております。ロボティクス、デモンストレーションからの学習、身体的知性に関するさらなるセッションについては、AI for Goodのプログラムをオンラインでぜひご覧ください。これをもって本日のAI for Goodディスカバリーイベントを終了いたします。
Sylvain Calinon: ありがとうございました。2026年にジュネーブのグローバルサミットで皆さんと直接お会いできることを楽しみにしています。
