※本記事は、Jean Oh氏による講演「Creative Physical AI」の内容を基に作成されています。本講演は、国際電気通信連合(ITU)が主催し、50以上の国連パートナーおよびスイス政府と共同開催するグローバルプラットフォーム「AI for Good」のAI・ロボティクス・ディスカバリーシリーズの一環として配信されました。講演の詳細およびアーカイブ映像はAI for Good公式サイト(https://aiforgood.itu.int/ )でご覧いただけます。本記事では講演の内容を要約しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈についてはオリジナルの講演映像をご視聴いただくことをお勧めいたします。
登壇者:Jean Oh氏 ― カーネギーメロン大学ロボティクス研究所 准研究教授、roBot Intelligence Group(BIG)ディレクター。モデレーター:Guillem Martínez Roura氏 ― 国際電気通信連合(ITU)AI・ロボティクス プログラムオフィサー。
1. Creative Physical AIの定義と背景
1.1 通常のAI(データ駆動型)との違い ― 主流データと外れ値・長尾分布の扱い
Jan: 私はロボティクスの研究者として、長年ナビゲーションを主要な研究領域としてきましたが、近年はアートもその問題領域に加え、Creative Physical AIの研究を進めています。まず「Creative AI」と通常のAIがどう違うのかを整理させてください。
通常のデータ駆動型AIは、データの中に存在するパターンを学習することを目的としています。このようなアプローチでは、データの中でも多数派を占めるものに自然と焦点が当たります。しかし、人間の「創造性」について考えるとき、私たちが「創造的だ」と感じるのは、日常的に見慣れたものではありません。普段とは異なる、何か特別なものを目にしたとき、私たちはそれを創造的と感じます。
統計的な言い方をすれば、これは「ドメイン外(out of domain)」の事象です。つまり、私たちが普段から慣れ親しんでいないもの、あるいは同じ分布の中にあっても非常に稀にしか現れない長尾(ロングテール)の事象に相当します。Creative AIでは、こうしたデータの主流には含まれていない事象についても推論できるAIの開発を目指しています。
1.2 Virtual AIとPhysical AIの違い ― 画像生成と実際のペインティングロボットFredaを例に
Jan: 次に「AI」と「Physical AI」の違いについて説明します。ここでは、アートを例に取り上げます。
ChatGPTのような仮想的なAIツールに「Frida Kahloの肖像画を描いて」と依頼すると、ほぼ即座に完成した画像が得られます。これが可能なのは、言語空間と画像空間の両方に大量のデータが存在し、モデルがこの2つの空間の間のマッピング、つまり言語から画像へ、画像からテキストへの変換を学習できているからです。これはある種の「テレポート」のようなものです。
一方、Physical AIの文脈では話が全く異なります。私たちのペインティングロボット「Freda」は、実際に物理的な絵を描くことを目的としています。Fredaという名前はアーティストのFrida Kahloにちなんでいますが、同時に「Framework and Robotics Initiative for Developing Arts(アート開発のためのフレームワークとロボティクスの取り組み)」の頭文字でもあります。物理的な絵画を生み出すためには、誰かが実際にアクションを取らなければなりません。そのアクションこそが、現実世界におけるあらゆる成果物の創造を可能にするものです。
ところが、このアクションのデータは極めて少ないのが現状です。そして、人間であれロボットであれ、現実世界でアクションを取るとき、常に意図した通りの結果になるとは限りません。つまり、そこには大きな不確実性が存在しています。
1.3 物理世界の不確実性 ― ロボット動作・ブラシ形状・塗料量がもたらす状態遷移の曖昧さ
Jan: Physical AIをVirtual AIよりも難しくしている本質的な要因は、この「物理世界の不確実性」にあります。たとえば、ロボットが完璧な一筆を描こうとしたとしても、ロボット自身の動作の不確実性や、材料の不確実性が障壁となります。
具体的には、ブラシに乗っている塗料の正確な量を計測することは非常に難しく、ブラシの形状もまた変化します。こうした要因が重なることで、同じ動作を実行したとしても、次の状態として到達できる結果には多くの可能性があります。意図した状態に必ずしも到達できないのです。このような不確実性こそが、Physical AIを本質的に困難にしている理由であり、同時にCreative Physical AIの研究が必要とされる理由でもあります。
2. 空間知性の限界と創造的推論の必要性
2.1 ナビゲーション実験(15年前)― 「建物の裏のトラフィックバリアへ進め」と人間の空間補完能力
Jan: 次に、ロボットがなぜ創造性、あるいは感知を超えた何かを必要とするのかを、具体的な事例を通じて説明します。ここで取り上げるのは、10〜15年前に私が取り組んでいた非常に古いプロジェクトです。
タスクの内容はシンプルです。ロボットに自然言語のコマンドを与え、未知の環境でそれを実行させる、というものです。具体的なコマンドはこうです。「建物の裏にあるトラフィックバリアへ向かえ(Navigate to the traffic barrier behind the building)」。皆さんも、ロボットの視点に立って考えてみてください。目を開けたとき、建物の正面だけが見えている状態でこのコマンドを受け取ります。
この課題は人間にとっては非常に簡単です。私たちが実施したユーザースタディでも、多くの被験者が驚くほど似通った回答を示しました。参加者の大半は、環境の地図を頭の中に作り、建物の裏側のスペースを想定した上で、そこへ向かう経路を描いたのです。ここで注目すべきは、最初の視点から実際に建物の裏を見ることはできていないという点です。見えているのは建物の正面だけです。それでも人間は、コマンドの言語情報を手がかりにして、見えていない空間を仮説として補完し、経路を想定することができます。
これが人間の空間知性の本質です。人間の空間知性は、単に目に見えているものを処理するだけではありません。私たちは常に想像力を働かせ、見えていない環境についても仮説を立てる能力を持っています。私はこの能力を広い意味での「創造性」と呼んでいます。「想像力」や他の言葉で呼んでもよいかもしれませんが、いずれにしても、感知(センシング)だけには基づかない推論能力を指しています。
2.2 最新VLMへの再挑戦と失敗の記録 ― ChatGPT-4o・Bagel・Claude 3.5 Sonnetによる同タスクの結果比較と気づき
Jan: 私はこのタスクを定期的に最新のAIツールで試し直しています。今回試したのは、つい数ヶ月前にリリースされたChatGPT-4oです。このタスクは人間にとって非常に簡単ですから、最新のAIならすぐに解けるだろうと期待していました。
コマンドはこうです。「建物の正面を見ている状態から、建物の裏にある車までの経路を描け」。しかしChatGPT-4oが出力したのは、正しくない結果でした。そこで私は追加の指示として「その車は建物の左側にある。建物の裏にある車への経路を示せ」と補足しましたが、それでもほぼ同じ誤った経路が出力されました。ChatGPT-4oは、この「見えていない部分についての推論」をいまだにこなすことができていないのです。
次に試したのは、同じ時期にリリースされたオープンソースのVision Language Model(VLM)である「Bagel」です。このモデルは、アメリカの地図らしきものや、ロシア語のような文字列を出力するなど、全く見当違いの結果を返しました。見えていない空間を推論するという概念そのものが理解されていないことが明らかでした。
そして、発表の約1ヶ月前にリリースされたAnthropicのClaude 3.5 Sonnetを試したところ、初めてまともな結果が得られました。興味深いことに、そのひとつ前のバージョンのモデルは「このタスクを解くには衛星画像が必要だ」と言って解くことを拒否していました。それが最新版では解けるようになっていた。これはおそらく、空間推論を扱うためのデータが追加で学習されたためだと考えられます。
ただし、屋内シーンで同様のタスクを試したところ、Claude 3.5 Sonnetも失敗しました。最初はやはり建物の裏ではなく、見えている範囲にターゲットを置こうとしてしまいます。数回の対話によるコンテキストの積み重ねを経てようやく正解に近い出力が得られましたが、屋外の例と比べると難易度が高く、まだ道半ばという印象です。全体として、空間推論の能力は向上しつつあり、その方向性は有望だと感じています。
2.3 視点変換実験の失敗 ― 「裏から見た景色」「左側から見た景色」が正確に生成できない現象と仮説
Jan: 視点変換についても実験を行いました。まず「正面から見えるものを説明・再現してほしい」という指示に対しては、モデルは良好な結果を示しました。目の前のシーンを正しく記述し、それを画像として再生成することができていました。
ところが「では、建物の裏側に回ったとき、何が見えるか」という視点変換を求めると、途端に失敗します。本来であれば、裏側から見た景色は正面の鏡像のような構成になるはずですが、モデルはそれを正確に生成することができませんでした。さらに「左側からはどう見えるか」という問いに対しても同様に失敗しています。
この一連の観察から導かれる仮説はこうです。現在のVLMは、与えられた画像の画素情報を処理することは得意ですが、3次元的な実世界の空間を内部的に構築し、そこから別の視点で見た景色を推論する能力、すなわち「見えていない空間を補完する空間知性」を本質的に欠いています。3次元空間に関わるあらゆるタスク、つまり現実の物理的な空間に関する課題は、現状の強力なVLMをもってしても依然として困難であり続けています。
2.4 Physical AIにおける完全観測と不完全観測 ― 卓上作業型ロボットと現実環境の設定の違い
Jan: Physical AIの研究分野全体を見渡すと、多くの研究者がセンシングを通じた完全観測が可能な設定、すなわち卓上(テーブルトップ)での作業環境を研究対象にしています。このような設定では、ロボットが目の前のすべてのオブジェクトを観測でき、観測してからアクションを取り、また観測するというサイクルが完結します。この設定においては、センシングだけで十分に機能するシステムを構築できるため、研究としては合理的な選択です。
しかし現実の多くの場面では、センシングだけでは得られない情報が存在します。目を閉じた状態でも人間が行える予測・仮定・想像、つまり感知せずとも空間を補完する能力こそが求められる場面が多々あります。こうした能力を私はCreative Physical AIと呼んでいます。最初のセクションで整理した定義をここで改めてまとめると、創造性・想像力・予測能力は、センシングと知覚だけに基づく純粋な空間知性を補完するものであり、ロボットがより複雑な現実環境で機能するために不可欠な要素です。この観点こそが、私の研究全体を貫く軸となっています。
3. 研究事例①:Freda ― アートを媒介とした抽象目標計画と創造性
3.1 マルチモーダル入力の設計 ― テキスト・音声・スケッチ・参照画像のそれぞれが伝える情報の違い
Jan: ここからは実際の研究プロジェクトを紹介します。最初に取り上げるのはFredaです。Fredaはアートを問題領域として活用したペインティングロボットです。
まず皆さんに少し考えていただきたいのですが、もしFredaロボットが目の前にいて「一緒に何を描きますか?」と聞いてきたとしたら、どう答えますか?頭の中にあるアイデアをFredaに、あるいは実際の人間のアーティストに対してどう伝えますか?
私たちが使う伝達手段として最も一般的なのは言語です。言語には「テキスト」と「音声」の2つの形式があります。この2つのうち、どちらがより多くの情報を伝えられるでしょうか。実は音声の方が、テキストよりも多くの情報を持っています。テキストはメッセージの内容を伝えることはできますが、音声にはそれに加えて感情やムードといった付加的な情報が乗っています。音声はある意味で、話者の内面をほぼ自動的に明かしてしまうものです。
言語以外にも伝達手段はあります。構図を伝えたいときにはスケッチが有効です。「ここに木を描いて、その隣に人を置いて」というように、簡単な手描きの構図を共有することができます。また、言語で説明するには複雑すぎる場合には、参照画像を見せる方法もあります。「こういう雰囲気のものを描いてほしい」と写真や絵を提示するのです。
このように伝達手段は多様ですが、どれも完璧ではありません。テキストも、音声も、スケッチも、参照画像も、いずれも頭の中にある究極的な目標の非常に抽象的な表現に過ぎず、それを完全に言語化・記号化できるものは存在しません。私たちはこれを「抽象目標を用いた計画(planning with abstract goals)」と呼んでいます。人間はこれが非常に得意です。言語を通じて他者を理解することに慣れているため、試行錯誤を繰り返しながらコンセンサスを見つけ、あるいは相手の満足を引き出していきます。一方、ロボットにとってこれは非常に難しい問題です。ユーザーの隠れた意図、マルチモーダルなインタラクションを通じて表現された意図を解釈するために、創造性や共感のような能力が必要になると私たちは考えています。
3.2 Sim-to-Realギャップの克服 ― 2019年以降の段階的改善とハンドクラフト制約・スプライン筆跡モデルの導入経験
Jan: Fredaはアートプロジェクトではなく、ロボティクスとAIの研究プロジェクトです。Physical AIである以上、シミュレーション上で美しい画像を生成できたとしても、ロボットが現実世界で実行するとき、不確実性や不完全さに起因する大きなギャップが生じます。この研究の重要な部分は、シミュレーション(仮想世界)と現実世界でロボットが実際にアクションを取ったときの結果との間のギャップ、いわゆる「Sim-to-Realギャップ」を縮小することにあります。
2019年に研究を開始した当初、シミュレーション上での結果と実際のロボットによる絵画の仕上がりを比較すると、その差は歴然としていました。最初の結果に私たちは興奮しつつも、「なぜこんなに違うのか」という疑問を強く持ちました。最初のアプローチは、いくつかのハンドクラフト(手作業で設計した)の制約を導入し、実ロボットのデータを活用してこのギャップを縮小するというものでした。この手法によってSim-to-Realギャップは大幅に改善され、プロジェクトにとって大きなマイルストーンとなりました。
その後、人間の筆跡や描画スタイルをモデル化したスプライン(自由曲線)ベースの筆跡モデルを導入することで、ロボットが自由形式のストロークを描けるようになりました。最新の成果として、ガラスのフレームのような細部まで表現できる筆跡モデルを初めて実現しています。絵画の全体的なクオリティという点では主観的な評価になりますが、研究的な観点からは細部の再現性という指標で着実な進歩を確認しています。なお、初期の作品の方が好みだという人もいるほど、アートの評価は主観的なものです。
3.3 3D造形・変形物体への拡張 ― 粘土・髪・布などデフォーマブル素材と長期ホライゾン計画の課題
Jan: Fredaの研究は2次元の絵画にとどまらず、3次元の造形にも拡張しています。3D彫刻のタスクでは、ロボットが意味のある形状にたどり着くまでに非常に多くの細かいアクションを積み重ねなければならず、これを「長期ホライゾン計画(long horizon planning)」と呼んでいます。ゴールまでの道のりが長く、各ステップの判断が最終的な出力に大きく影響するため、計画の難易度が格段に上がります。
さらに、粘土・髪の毛・布地といった素材への応用も進めています。これらは「デフォーマブルオブジェクト(変形物体)」と呼ばれるカテゴリに分類され、操作が特に難しい素材です。金属やプラスチックのような剛体であれば、形状を数学的に表現しやすく、AIやロボットが操作するための基準として利用できます。しかし粘土や布のように変形するものには固定の形状がなく、その状態を正確に表現・予測することは現在でも未解決の難題です。
3.4 パズル生成実験 ― 生成AIが物理制約(既存ブロックの形状変更不可)を無視して出力する問題と気づき
Jan: もう一つの初期段階のプロジェクトとして、パズル生成を取り上げます。日常的なオブジェクトを組み合わせて特定の形を作るという課題です。この課題を生成AIツールに依頼すると、一見それらしい出力が得られることがあります。しかし注意深く見ると、生成AIは既存のピースそのものを変形させてしまっていることが分かります。
これは現実世界では不可能なことです。すでにある形のブロックの長さを変えることはできません。これが「物理制約(physical constraint)」です。生成AIはすべてのピクセルを自由に変更できてしまうため、物理的に実現不可能な出力を平気で生成してしまいます。具体的な例として、ブロックに書かれた「星」を意味する韓国語の文字が別の文字に変えられたり、「馬」を表す形を求めたら「馬」を意味する漢字に変換されたりといった事象が起きました。
この観察から得られる重要な気づきは、物理制約を考慮しながら出力を生成することが依然として非常に難しい問題であるという点です。そして、ロボットが抽象的な目標に向けて計画を立てる際には、このような物理的現実に即した具体的なアクションへと落とし込むための創造性が不可欠だという結論に至ります。言い換えれば、「頭の中のイメージ」を「現実世界で取れるアクションの列」へと変換する能力こそが、Creative Physical AIが解くべき核心的な問いの一つなのです。
4. 研究事例②:安全クリティカルドメインにおけるロングテール問題
4.1 自動運転における事故事例と課題 ― 大量データ保有にもかかわらず危険場面が極端に少ない構造的問題
Jan: 次に取り上げるのは、ロングテール問題です。これは同じデータ分布の中にあっても、発生頻度が極めて低いために学習データとして十分な量が確保できない事象に関する問題です。この問題が特に深刻な影響を持つのが、安全クリティカルなドメインです。
具体的な例として、自動運転車を挙げます。ある事例では、自律走行車がトンネルの中で突然停車し、それが引き金となって7台の玉突き衝突事故が発生しました。また別の事例では、小型の配送ロボットが自律走行車に衝突されるという事故も起きています。こうした事例は、自動運転技術が依然として安全性の課題を抱えていることを示しています。
ここで重要なのは、データ量の問題ではないという点です。自動運転の産業は10年以上前から始まっており、膨大な走行データが蓄積されています。にもかかわらず、安全上の問題が解消されていません。その理由は、既存のデータセットの大部分が非常に安全で平穏な走行シーンで構成されており、実際の衝突や危険な場面のデータがほとんど含まれていないという構造的な問題にあります。AIが安全クリティカルなシナリオにおいて適切に対応する方法を学ぶためには、まさにそのような危険な場面のデータが必要です。しかし現実には、そのようなデータは極端に少ない。これがロングテール問題の本質です。
4.2 希少データ拡張の実験的アプローチ ― 「What-if」シナリオ生成・YouTube事故映像の活用とその有効性
Jan: この問題に対して私たちが取り組んでいるアプローチの一つは、既存のデータセットを別の視点で活用することです。既存のデータセットには危険なシーンとして明示的にラベル付けされていないデータが含まれていますが、その中に潜在的に危険であった可能性のあるシーンが存在するはずです。そこで私たちはAIを使って「What-ifシナリオ」を生成しました。「もしこの車がもう少し速く走っていたら?」「もう少し横にズレていたら?」という仮想的な問いを立て、それが問題を引き起こしたかどうかを評価することで、既存データの中から潜在的な危険場面を抽出するフィルタリングのアプローチです。
次のアプローチとして私たちが活用したのが、実際の事故映像です。データ量は多くはありませんが、YouTubeには実際の交通事故の映像が存在します。私たちはこれらの映像を収集し、ロボティクス研究で標準的に使われるデータ形式に変換・処理した上で、モデルの学習に組み込みました。この実データを用いることで、モデルが実際の衝突シーンからどう対応すべきかを学習し、そうした危険な状況においてより安全な行動を取れるようになることを目指しました。
この研究の結果として、私たちのデータセットを用いて学習したモデルは、標準的なデータセットで学習したモデルと比較してより安全な挙動を示すことが確認されました。さらに、私たちが生成したシナリオは現実的であることも検証されています。つまり、希少な危険事例に対して「創造的にデータを合成・拡張する」というアプローチが、安全クリティカルなドメインでのAIの性能向上に有効であることが示されたといえます。
4.3 航空分野への展開 ― データセットAmelia(米国空港近傍のニアミス・事故)の構築と今後の研究計画
Jan: 同様のアプローチを航空分野にも展開しています。近年、主要な空港でニアミスが多数報告されており、死亡事故も複数発生しています。航空空間は広大であるため、開けた空中では衝突リスクは低いと思われがちです。しかし現実には、空港に近づくほど航空機の密度が高くなり、その周辺空域は非常に過密で複雑なナビゲーションが要求される環境になります。
私たちはこの課題に対応するため、「Amelia」と名付けた大規模なデータセットとベンチマークを新たに構築しました。このデータセットは主に米国の空港周辺における航空機のニアミスや事故のデータを収録しており、今後はさらに対象空港を拡大していく計画です。Ameliaを公開することで、研究者コミュニティがこの安全クリティカルな領域の研究に取り組みやすい環境を整え、航空分野における安全性向上の研究を促進することを目指しています。
このセクション全体を通じて得られる結論は、安全クリティカルなドメインにおいてデータが希少な場合、創造的なアプローチによってデータを合成・拡張することで、AIモデルの堅牢性を高められるという点です。データの量だけでなく、その質と多様性、とりわけ稀な危険事例をいかに学習に取り込むかが、安全なAIシステムの構築において本質的な問いとなります。
5. 研究事例③:人間の創造性を引き出す触媒ロボットと安全な身体的インタラクション
5.1 セラピー観察 ― 「自分には無理」から「やってみたい」への態度変容と、参加そのものが持つ治療効果
Jan: ここで一度立ち止まって、なぜ私たちがCreative Physical AIの研究をアートという文脈で進めているのかについて説明させてください。「ロボットがアートをするということは、アーティストの仕事を奪うことではないか」という質問を非常に多く受けます。答えは明確にノーです。私たちの目的は人間を支援することであり、人間に取って代わることではありません。
この点を説明するために、リクリエーショナルセラピー(recreational therapy)のセッションでの実際の観察を紹介します。患者さんたちがFredaロボットと一緒に絵を描くセッションを実施しました。最初に「Fredaロボットと一緒に何か描いてみませんか?何を描きたいですか?」と聞くと、成人の参加者のほぼ100%が「いいえ、私には無理です」「最後に絵を描いたのは小学3年生のときです」という反応を示しました。絵を描くという行為そのものへの心理的な壁が非常に高いのです。
ところが、まずロボットが描き始めると、参加者の態度が劇的に変化します。ロボットが絵を描いているのを見た途端、「ちょっと貸してください、私もやってみます」と言い出す人が続出するのです。これには複数の理由が考えられます。ロボットが描いた絵が自分のイメージと違っていたということもあるかもしれません。しかしそれ以上に、ロボットが描き始めることで何かが「解放」され、参加への心理的障壁が取り除かれるという触媒的な効果が働いているのです。
ここで重要なのは、健康上の便益はあくまで自分自身が参加することによってのみ得られるという点です。アスリートがサッカーや野球をしているのを見ていても、観ているだけでは体が健康になるわけではありません。それは娯楽にはなりますが、実際に体を動かすことで得られる健康上の効果は生まれません。アートのセラピーも同様です。自分自身が実際に描く行為をすることで初めて治療的な効果が生まれます。しかし患者さんたちは「やりたくない」と言う。だからこそセラピストたちは常に、どうすれば彼らを参加へと誘えるかを模索しています。私たちが提供しているのは、まさにその「きっかけ」としてのテクノロジーです。ロボットという触媒を使うことで、人々をアート活動へと自然に誘い込む仕組みを作っています。
また、鉛筆やクレヨンを使う機会が急速に減っている子どもたちに対しても、こうしたアプローチを通じて現実世界への関与を促したいと考えています。iPadで動画を見るだけで過ごすのではなく、粘土を触ったり陶芸をしたりといった身体を使った創造的な活動へと子どもたちを引き戻すこと、それもこの研究が目指すことの一つです。
5.2 ソフトロボットの設計と固有感覚実験 ― シリコン中空構造・カメラ・マイクによる接触検知とコンプライアント動作
Jan: 人間と共存するロボットを考えるとき、安全性は避けて通れない問題です。ロボットは本質的に危険な存在になりえます。適切な安全対策が施されていなければ、人間の環境に車を持ち込むのと同様のリスクをもたらします。見た目がかわいいからといって安全とは限りません。
この課題に対する私たちのアプローチの一つが、ソフトロボット(soft robot)の設計です。一例として、かぼちゃのような見た目のモバイルロボットを紹介します。このロボットの外側を覆う各ストリップ(帯状のパーツ)は、ロボットの指として使われてきたシリコン製の柔軟な素材でできています。内部には剛体の機構と鋭利な部品が含まれていますが、この柔らかい外層がエアバッグのような安全層として機能します。外側が柔らかいため、人間と接触しても怪我のリスクを大幅に低減できます。
さらにこのソフトロボットの内部は中空構造になっており、そこに小型センサーを埋め込むことができます。私たちが試みたのは、カメラとマイクロフォンの2種類のセンサーを使った接触検知です。カメラによるアプローチでは、ロボットの内側から外部の接触を視覚的に認識します。たとえば子どもがロボットに抱きついてきたとき、内部カメラがその接触箇所を検知し、ロボットが安全に対応できるよう動作を調整します。マイクロフォンによるアプローチでは、ロボット自身の変形によって生じる音響信号を解析します。つまりロボットが自分の身体の変形を「聴く」ことで、どこにどのような接触があったかを推定するのです。
これを「固有感覚(proprioception)」と呼んでいます。接触を検知することで、ロボットは状況に応じてコンプライアント(従順で柔軟)な動きをすることができます。力に抵抗して押し返すのではなく、接触の方向や強さに合わせて身体を動かすことで、安全性を確保するわけです。
5.3 アートを通じた社会的メッセージ ― 透明性展示(インフレータブル)とファッションショー「かわいい≠安全」
Jan: 私たちはこうした技術的な研究と並行して、ロボティクスの研究者として社会に向けたメッセージを発信するアート展示にも取り組んでいます。
一つ目は、ロボティクスの学会で発表したアートインスタレーションです。私たちがAIやロボットシステムを開発する上で重視しているのは、ユーザーにとってシステムが説明可能で透明であることです。このメッセージを体験として伝えるために、小型のソフトロボットを大型のインフレータブル(膨張式の構造物)の内部に配置しました。来場者が外側からインフレータブルに触れると、内部のソフトロボットが接触を検知し、その反応が大型インフレータブル全体の動きとして現れます。これにより、来場者は「外側から触れているのに、まるで自分がロボットの内部にいるような感覚」を体験します。ユーザーがシステムと関わるとき、そのシステムの内側が透けて見えるような、透明で説明可能な存在としてロボットを設計したい、というメッセージをアートという形で表現しました。
二つ目は、Human-Robot Interaction(HRI)の学会で発表したロボットのファッションショーです。ファッションショーは本来、デザイナーが次のシーズンのトレンドを提示する場です。私たちはこの形式を借りて、テクノロジーの世界で「次に来るもの」を伝えるプラットフォームとして活用しました。テーマは安全性です。人間の環境に多くのロボットが存在するようになる近未来を想定し、安全装備としてのアクチュエーテッドなインフレータブルロボットを設計・展示しました。これはエアバッグのように機能する安全層を持つロボットです。
このファッションショーを通じて伝えたかったメッセージは明確です。ロボットは見た目がかわいくても、それは安全であることを意味しません。ロボットの研究者・開発者として、私たちはどのように安全性を担保するかを真剣に考えなければなりません。そして一般のユーザーもまた、ロボットと人間が共存する環境における安全上のリスクについて、より高い意識を持つ必要があります。アートという表現手段を通じて、この問いを社会に向けて投げかけることが、私たちにとってのもう一つの研究活動です。
6. Q&A ― 発展的議論と今後の展望
6.1 空間推論の改善に必要なデータ・モデル戦略 ― 3Dデータ収集・ワールドモデル・シミュレーション合成の現状と限界
Facilitator: 先ほどの発表では、最先端のVision Language Modelでさえ空間的な想像力や視点推論に苦戦していることを示していただきました。AIシステムが見えない空間を確実に推論できるようにするためには、どのようなデータ、モデル、あるいは学習戦略が必要だとお考えですか?
Jan: この限界に気づいている研究者は他にもいて、様々なアプローチが試みられています。現在のVision Language Modelは主に画像空間、つまり平面的な2次元の一人称視点の情報を扱うものが多く、3次元環境の理解とは本質的に異なります。そこで注目されているのが「ワールドモデル(world model)」の構築です。
ワールドモデルという言葉はロボティクスの世界では以前から使われてきた概念で、本来は現実世界の3次元空間におけるあらゆる物体の性質を含む包括的なモデルを指します。しかし近年の文脈では、点群やメッシュ空間における物体の形状理解といった、より限定的な3次元理解を指すことが多くなっています。真の意味でのワールドモデルはそれよりはるかに広い概念であり、物理的な性質を含む世界全体のモデルを意味します。
データという観点では、ある物体を様々な視点から撮影した3D的なデータの収集が進んでいます。異なる視点から物体を再構成するためのデータを大規模に集めること、そして空間内を移動しながら撮影した映像データの活用も有望です。動画生成の分野では人間の目には驚くほどリアルな結果が得られていますが、実は空間的な3Dの正確さという点では大きな問題があります。たとえば、ある空間を移動しながら映像を生成し続けると、元の場所に戻ることができないのです。見た目は素晴らしくても、空間的・物理的に正確であることを意味しません。
そしてもう一つの根本的な問いがあります。データさえあれば問題は解決するのか、ということです。データが鍵であるならば、私たちはさらに膨大な量のデータを必要とします。そこでシミュレーションや合成による学習データの生成も有力なアプローチです。少量の実データをベースにしながら、より多くの学習データを合成的に生成することで、空間推論に関わる概念をモデルに教えていく方向性も私たちは研究として進めています。
6.2 音声 vs テキスト実験 ― 感情情報の伝達・テキスト内容と音声感情が絵画の構図・色調・質感に与える影響
Facilitator: 人間の声はテキストよりも多くの情報を伝えるというご指摘がありました。同様に、機械と対話することと人間と対話することでは、人間の感じ方が異なります。メンタルヘルス上の便益という観点で、この点はあなたの研究でも探求されていますか?
Jan: 音声とテキストの違いについては、予備的な研究を行っています。まず背景として、最近の若い人たちの多くは音声通話を避け、テキストメッセージを好む傾向があります。テキストであれば感情を明かさずに済むからです。LOLと書いても本当に笑っているとは限らないし、絵文字で感情を補完することはできますが、テキスト自体は感情の全体像を伝えません。絵文字や顔文字が普及したのも、まさにテキストが感情情報を欠いているからこそです。
一方、音声では声が震えていたり、さまざまな脆弱性が自然と現れてしまいます。感情を隠すことが難しいのが声です。
私たちが試みたのは、Fredaへの入力として音声を受け取り、その音声信号を分析して話者の感情やムードを抽出するというアプローチです。同じテキスト内容のプロンプトを、幸せそうな声と悲しそうな声で与えた場合、絵画の出力にどのような違いが生まれるかを調べました。予備的な結果として見えてきたのは、テキストの内容が主に絵画の構図、つまり何が描かれるかを決定し、一方で声に乗った感情情報がテクスチャや色調を制御するという傾向です。
ただし、これは非常にノイズの多い領域でもあります。感情は意図的に偽ることができますし、感情のカテゴリは明確に分離できるものではありません。たとえばポジティブな意味での「驚き」と、恐怖や衝撃を伴う「驚き」は容易に混同されます。顔の表情に関する研究でも、感情は常に混在していることが示されています。私たちの実験では、使われた感情がどれであるかをある程度識別できた場面もありましたが、全体としてはまだ困難な課題です。継続的に取り組んでいきたいと考えています。
そして、この研究のより重要な方向性として、感情情報をどのようにユーザーへのサービス向上に活かすかという問いがあります。人が「はい」と言っていても「いいえ」を意味している場合がある。感情の理解を通じて、そのような微妙なニュアンスまで汲み取ることができるか、これが次の問いです。
6.3 リハビリ・教育への応用 ― セラピスト調査から見えた「開始の壁」と子どもの現実世界への再接続の課題
Facilitator: Creative Physical AIがリハビリテーション、教育、その他の人間中心の環境に持つ可能性について、もう少し掘り下げてお聞きしたいと思います。ロボットが人間の創造性を引き出す触媒として機能するユースケースをいくつかご紹介いただきましたが、リハビリや他の分野がCreative Physical AIからどのような恩恵を受けると思いますか?
Jan: セラピストへのインタビューを複数回行った中で、彼らが求めているのは「きっかけ」だということが明確になりました。前のセクションでも触れましたが、実際の治療効果は患者自身が参加することから生まれます。細かい運動機能を使う練習を実際にやってもらうことが重要なのです。しかしセッションへの参加を促すことが難しい。
具体的な数字を挙げると、1時間のセラピーセッションにおいて、参加者が実際に作業に取り組む時間は15分程度に過ぎないとセラピストたちは言います。残りの半分以上、つまり30分以上が「何をしようか考える時間」や「始めるための準備・ウォームアップ」に費やされているのです。もしAIやロボットのツールがこのプロセスを短縮し、参加者をより早く興奮させ、意思決定を後押しし、実際の作業時間を増やすことができれば、セラピーの効果は大きく向上します。私たちはセラピストたちとどのような技術を開発できるかを議論しながら研究を進めています。
子どもについても同様の課題があります。現在の子どもたちの多くがiPadで動画を見るだけで多くの時間を過ごしています。どうすれば彼らをリアルな物理世界との関わりへと誘えるか。粘土を触らせたり、陶芸をさせたりといった活動に、クールなロボティクスやAI技術を組み合わせることで、子どもたちが現実の物理的な創造活動に興味を持つきっかけを作れるのではないかと考えています。これらはまさに私たちが今後取り組もうとしているプロジェクトです。
6.4 マルチモーダルAIの次なるブレークスルー ― 物理正確な世界モデル・3D空間内部構造理解・危険性評価の課題
Facilitator: Fredaにおけるテキストやボイスなどのマルチモーダル知覚と通信について伺います。現在開発中のロボットの限界を押し広げるために、次に必要なブレークスルーは何だとお考えですか?
Jan: AIの進歩は着実に続いています。言語モデルから始まり、言語と視覚を組み合わせたVision Language Model、テキストから画像生成、テキストから動画生成へと発展してきました。そして今、テキストから3D生成へという方向でワールドモデルの構築が試みられています。しかしここで言う3Dはあくまで表面レベルの形状理解に過ぎず、真の意味での物理的な正確さを持つ生成はまだ実現できていません。シミュレーション環境においてさえ、多様な物体や素材を物理的に正確な形でシミュレートすることは非常に難しい問題です。
次に必要なのは、現実世界の環境に対する真の意味での完全な理解です。先ほど述べたように、現在のモデルは3次元空間の理解においても限界があります。加えて、物体の内部構造の理解という問いもあります。たとえば目の前にあるマウスを見たとき、私たちはそれが多くのパーツで構成されていること、それらがどのように組み合わさっているかをある程度知っています。しかし現在のAIモデルにはそのような内部構造の理解はありません。さらに、周囲にあるものの危険性や物理的な性質を見ただけで評価する能力も、今後必要とされる知性の一形態です。
現実世界には理解すべきことが無限にあります。物理的な世界を本当の意味で理解するAIへの道はまだ長く、しかし確実に前進しています。
7. 総括 ― 共感・安全・創造性を持つPhysical AIと「Flourishing Experience」のビジョン
7.1 3つの柱の統合 ― 創造的な空間推論・人間の意図理解・安全な物理インタラクションの関係
Jan: ここまでの発表を通じて、私が研究するCreative Physical AIには3つの柱があることをお伝えしてきました。1つ目は創造的な空間推論、すなわち感知だけに頼らず見えない空間を補完し、不確実な物理世界の中で行動できる能力です。2つ目は人間の意図理解、つまり抽象的な目標として表現されたユーザーの隠れた意図を、マルチモーダルなインタラクションを通じて汲み取り、具体的な行動へと変換する能力です。3つ目は安全な物理インタラクション、人間と同じ空間に存在するロボットが、人間を傷つけることなく共存するための設計と知覚の能力です。
これらの3つは独立した研究テーマではなく、互いに深く関連しています。ロボットが人間の意図を正確に理解するためには、見えない部分を補完する創造的な推論が必要です。そしてその推論に基づいて現実世界でアクションを取るためには、不確実性に満ちた物理環境の中で安全に動作できる能力が前提となります。Creative Physical AIとはこの3つが統合されて初めて成立するものであり、どれか一つが欠けても、ロボットが人間の豊かな生活に貢献することはできません。
7.2 「生き延びる」ではなく「豊かに生きる」― 子ども・高齢者を含む全ての人間に向けたAIとロボットの役割
Jan: 私たちが目指しているのは、共感を持ち、安全を意識し、創造性を備えたPhysical AIを構築し、人間と協調しながら現実世界において「flourishing experience(豊かな体験)」を共に創り出すことです。
「flourishing experience」という言葉には意味があります。単に生き延びること、あるいはただ生活することではありません。日々の体験が何か意味のあるものであること、それが誰にとっても重要だという考えです。子どもにとっても、高齢者にとっても、そのすべての人の日常が豊かであるべきだというビジョンです。ロボットやAIは、人間が自ら創造し、表現し、関わり合う体験をより豊かにするための存在として機能すべきだと考えています。
アーティストの仕事を奪うのではなく、描くことを諦めていた人が再び筆を持つきっかけを作ること。自動運転が事故を起こすのではなく、稀な危険場面でも安全に対処できるようになること。セラピーの場で患者が壁を超えて創造的な活動に踏み出せるよう背中を押すこと。そして人間の環境に溶け込むロボットが、見た目だけでなく真の意味で安全な存在であること。これらすべてが、私たちの研究が向かっている方向です。
研究を支えてくれている学生とスタッフへの感謝とともに、この発表を締めくくりたいと思います。
Facilitator: Janさん、本日は大変示唆に富んだご発表をありがとうございました。Creative Physical AIと身体化AIは、来年7月にジュネーブで開催されるAI for Global Summitでも主要なトピックの一つになる予定です。ぜひまたその場でもご一緒できることを楽しみにしています。引き続きAI for Goodのロボティクスセッションもご注目ください。
