※本記事は、AI for Good Global Summit 2025において開催されたセッション「Building the technical foundations for embodied intelligence in connected ICT environments」の内容を基に作成されています。セッションの動画は https://www.youtube.com/watch?v=WSwM8kcQqg8 でご覧いただけます。
本セッションでは、自律走行車両、サービスロボット、ドローンなどの物理的存在を持つエンボディード・インテリジェンス(Embodied Intelligence)について、医療、製造、教育、輸送、公共安全などの主要分野における急速な進展が議論されました。これらのシステムは、安全、効率的、自律的に動作するために高性能な通信ネットワークに依存しています。本セッションでは、エンボディード知能システムをICTインフラに統合するために必要な技術的要件に焦点を当て、相互運用性、ネットワーク信頼性、遅延、安全性、データ交換といった課題が検証されました。
専門家たちは、現在の展開シナリオ、新たなユースケース、現行の標準化作業におけるギャップ、そしてスケーラブルで分野横断的な採用を支援するための共有フレームワーク、分類法、性能ベンチマークの必要性を探求しました。本セッションは、ロボティクス、AI、通信の交差点で活動するステークホルダー間の対話を促進し、エンボディード・インテリジェンスが安全で包摂的、標準駆動型のエコシステムの中で進化することを保証することを目的としています。
登壇者
パネリスト:
- Patricia Shaw - CEO, Beyond Reach Consulting Limited
- Noah Luo - Chair of ITU-T Study Group 21, International Telecommunication Union (ITU)
- Selma Šabanović - Full Professor of Informatics and Cognitive Science, Indiana University Bloomington
- Kai Wei - Vice Chair of SC on AI; Director, Artificial Intelligence Research Institute, China Academy of Information and Communications Technology (CAICT)
- Zhang Min (Yuki Long) - European Regional Director, Unitree Robotics
- Abhishek Gupta - CEO, Open Droids Robotics
モデレーター:
- Guillem Martínez Roura - AI and Robotics Programme Officer, International Telecommunication Union (ITU)
本記事では、セッションの内容を要約・再構成しております。本記事の内容は登壇者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画をご視聴いただくことをお勧めいたします。
AI for Goodは、革新的なAI応用を特定し、スキルと標準を構築し、グローバルな課題を解決するためのパートナーシップを推進しています。AI for GoodはITUが50以上の国連パートナーと共に主催し、スイス政府と共同で開催しています。AI for Good Global Summit 2026の詳細は https://aiforgood.itu.int/summit26/ をご覧ください。
1. エンボディード・インテリジェンスの定義と特徴
1.1 エンボディードAIの定義
モデレーター(Guiam): まず最初の質問として、エンボディード・インテリジェンスとは何か、この概念について完全に理解を共有したいと思います。エンボディード・インテリジェンスをどのように定義し、従来のAIや自動化と何が異なるのか、現在の取り組みの中で説得力のある事例があれば教えていただけますか。Kaiwei先生から始めていただけますか。
Kaiwei: ありがとうございます。実は、エンボディード・インテリジェンスの定義については、ITU-T Study Group 21と中国のインテリジェントロボティクスコミュニティの両方で、いくつかの議論と討論を重ねてきました。ここでは、中国のコミュニティから出されたバージョンの一つを参考としてご紹介したいと思います。
中国のAI産業アライアンスが起草した正式文書の中で、エンボディードAIは次のように定義されています。「ロボティクスなどの物理的実体を通じて環境と相互作用する知能システムであり、環境認識、情報認知、自律的意思決定、行動実行が可能で、経験的フィードバックを通じて知能の強化と行動の適応を達成できるもの」です。
この定義には、ChatGPTのような従来のデジタル知能との間に、三つの重要な違いがあると考えています。第一の大きな違いは、物理的キャリア、つまりエンボディメント(身体性)です。エンボディードAIは具体的なハードウェアに依存しており、その能力は物理的制約によって定義されます。従来のAIがコンピュータとデータによって制約されるのとは異なり、エンボディードAIは、ロボットアームの作業空間、センサーの視野角(FOV)、モーターのトルクといった、キャリアの物理的パラメータによって設定された境界内で動作します。
第二の大きな違いは、知覚-行動ループ(perception-action loop)です。物理的制約下でのリアルタイムな意思決定が、エンボディードAIの非常に重要な特徴となっています。従来のAIが静的なデータを処理するのに対し、エンボディードAIは数秒スケールでの戦略、環境フィードバック、戦略の更新、行動の実行、そして状態変化というサイクルを実行します。このサイクルには因果推論が必要となるのです。
そして最後の三つ目の違いは、不可逆的な行動結果です。エンボディードAIにおける物理的結果は、重要なアウトプットの一つであり、デジタルサンプルを生成するのではなく、物理的資産に直接影響を与えます。可逆的なデジタルアウトプットとは異なり、行動トリガーは取り消すことのできない結果をもたらします。これが従来のデジタル化されたAIとエンボディードAIの主な三つの違いです。
モデレーター: Patricia先生、この定義について何か追加されることはありますか。他のパネリストの方々もいかがでしょうか。
Patricia: はい、私が付け加えたいのは、エンボディードAIで目にしているのは、そのエンケースメント(筐体)に応じて、人間と機械のインターフェースにおいて興味深い相互作用があるということです。つまり、これは単に作成している製品、作成しているもののエンケースメント、そのハイテク仕様だけの問題ではなく、それがその後どのように環境、つまり運用環境と相互作用するかということでもあります。その運用環境とは、私たち人間のことです。
そしてこれは、文脈によって、アプリケーション領域によって異なる可能性があります。したがって、その特定のアプリケーションに何が必要かについて、より高いレベルの感受性と実生活の理解が必要となります。エンボディードAIが病院の設定でどのように機能するかは、在宅介護施設や家庭内の設定、さらには屋外のより広い環境とは異なる可能性があります。
モデレーター: Selma先生、次にお願いできますか。
Selma: はい、簡単にコメントさせていただきます。まず、私の研究分野について説明すると、私はソーシャルロボットと人間ロボットインタラクションに取り組んでいます。エンボディードAIについて興味深い点の一つは、機械が物理的環境から手がかりを読み取り、行動する能力とは別に、人間の環境にあるとき、それらはアプリケーションが必ずしも社会的でなくても、本質的に社会的であるということです。
ロボットの身体、私はよくロボットを研究していますが、デバイスの身体は実際に人々にとって特定の意味を持つことができます。ロボットについて考えるとき、例えばルンバという小さな掃除機を持っている方もいらっしゃるかもしれませんが、その動き方が特定の意味を持ちます。あなたに近づくか遠ざかるか、どれくらい速くそれを行うか。ロボットの外観は、より人間に似ているか、ペットのように見えるかで、大きな違いを生むことができます。物理性そのものが、機械がどのように相互作用できるか、何ができるかという点で、人々にとって重要なアフォーダンスとなり得るのです。
私たちは、ロボットの見た目に基づいて、機械に特定のことをしたり、特定の方法で行動したり、特定の機能を持つことを信頼するかもしれません。例えば、ここにいるロボットアザラシのParroを見て、前回のセッションで話していたような、どこでワクチン接種をするのが最適かという情報を提供してくれるとは期待しないでしょう。しかし、より人型のロボットであれば、そのような点でより能力があるように見えるかもしれません。
ソーシャルロボティクスやこのような人間ロボットインタラクションのシナリオでは、人間が物理性をどのように認識するか、そしてそれが人間から学ぶための重要な手がかりとなり、また人間に特定のメッセージを与え、コミュニケーションするためにも重要であることを考えています。
Patricia: 実は、そこに追加させていただきたいことがあります。明らかに私は法的背景を持っていますが、より適切には、ジェンダーと差別について考えていますが、今はそれには触れません。重要なのは、エンボディメント(身体化)が実際に重要であるということ、そしてこれは私たちにとって少し課題でもあるということです。社会的環境を受け入れたい、インターフェースとしての親しみやすさや養育性を受け入れたいという真の願望があるのか、それともこれらを人間の似姿で作るべきかどうか、まず第一にもっと考慮する必要があります。そして、もし人間の似姿で作られるのであれば、何らかのジェンダー化された似姿で作られるべきかどうかについても考える必要があります。
エンボディード・インテリジェンスについて考える際、私たちに考えてほしいのは、最初から埋め込まれる特定のステレオタイプやバイアスがあるということです。特に女性として、私たちはこれを問題視しています。
1.2 従来のAIとの3つの主要な違い
Kaiwei: エンボディードAIと従来のデジタル知能、例えばChatGPTのようなシステムとの間には、三つの重要な違いがあります。
第一の識別要素は物理的キャリア、つまりエンボディメント(身体性)です。エンボディードAIは具体的で触知可能なハードウェアに依存しており、その能力は物理的制約によって定義されます。これは従来のAIとは決定的に異なります。従来のAIは一般的にコンピュータとデータによって制約されますが、エンボディードAIはキャリアの物理的パラメータによって設定された境界内で動作します。具体的には、ロボットアームの作業空間、センサーの視野角(FOV)、モーターのトルクといった物理的制約が、システムの能力を規定するのです。つまり、デジタル空間での計算能力やデータ処理能力だけではなく、実際の物理世界における身体的な制約が、システムができることとできないことを決定するということです。
第二の大きな違いは知覚-行動ループ(perception-action loop)です。物理的制約下でのリアルタイムな意思決定が、エンボディードAIの非常に重要な特徴となっています。従来のAIは静的なデータを処理します。つまり、あらかじめ用意されたデータセットを分析し、結果を出力するという一方向的なプロセスです。しかし、エンボディードAIは全く異なります。数秒スケールでの戦略立案、環境フィードバックの受容、戦略の更新、行動の実行、そして状態変化というサイクルを連続的に実行するのです。このサイクルには因果推論(causal reasoning)が必要となります。環境が変化し、その変化をセンサーで感知し、それに応じて次の行動を決定し、実行し、その結果として環境がさらに変化する、という連続的なフィードバックループが特徴なのです。
そして第三の違いは、不可逆的な行動結果です。エンボディードAIにおける物理的結果は重要なアウトプットの一つであり、デジタルサンプルを生成するのではなく、物理的資産に直接的な影響を与えます。従来のAIが生成するデジタルアウトプットとは異なり、エンボディードAIの行動トリガーは取り消すことのできない結果をもたらします。例えば、画像生成AIが不適切な画像を生成した場合、それを削除して再生成することができます。しかし、ロボットアームが物体を掴んで落としてしまった場合、その物体が壊れるという物理的結果は元に戻すことができません。この不可逆性が、エンボディードAIにおける安全性と信頼性の要求を極めて高いものにしているのです。
1.3 人間機械インターフェースの観点
Patricia: エンボディードAIで私たちが目にしているのは、そのエンケースメント(筐体)に応じて、人間と機械のインターフェースにおいて興味深い相互作用があるということです。これは単に作成している製品、作成しているもののエンケースメント、そのハイテク仕様だけの問題ではありません。それがその後どのように環境、つまり運用環境と相互作用するかということでもあるのです。その運用環境とは、私たち人間のことです。
そしてこれは、文脈によって、アプリケーション領域によって異なる可能性があります。したがって、その特定のアプリケーションに何が必要かについて、より高いレベルの感受性と実生活の理解が必要となります。エンボディードAIが病院の設定でどのように機能するかは、在宅介護施設での機能とは大きく異なる可能性があります。同様に、家庭内の設定と屋外のより広い公共環境とでも、その逆でも異なってくるのです。
医療現場では、エンボディードAIは臨床的な正確性、衛生基準、医療機器としての規制適合性が求められます。患者の状態をモニタリングし、医療スタッフをサポートする役割を果たす場合、その動作は予測可能で、医療プロトコルに準拠していなければなりません。一方、介護施設では、高齢者や身体的に弱い方々との長期的な相互作用が中心となります。ここでは技術的な精度だけでなく、利用者に安心感を与える動作や外観、そして日常的な世話における信頼性が重要になります。
家庭環境では、さらに異なる要件が生じます。家族の一員として受け入れられるためには、プライバシーへの配慮、家庭内のルーチンへの適応、そして家族全員との自然な相互作用が必要です。子供がいる家庭では、安全性の基準がさらに高くなり、教育的要素や遊びの要素も考慮しなければなりません。公共空間では、不特定多数の人々との相互作用、多様な文化的背景への対応、予測不可能な環境条件への適応能力が求められます。
このように、エンボディードAIの設計においては、それが展開される具体的な文脈を深く理解し、その環境特有の要求に応えるインターフェース設計が不可欠なのです。単一の汎用的なアプローチではなく、各アプリケーション領域の特性を考慮した、きめ細かな設計思想が必要となります。
1.4 社会的ロボティクスの視点
Selma: 私の研究分野について説明すると、私はソーシャルロボットと人間ロボットインタラクションに取り組んでいます。エンボディードAIについて興味深い点の一つは、機械が物理的環境から手がかりを読み取り、行動する能力とは別に、人間の環境にあるとき、それらはアプリケーションが必ずしも社会的でなくても、本質的に社会的であるということです。
ロボットの身体、私はよくロボットを研究していますが、デバイスの身体は実際に人々にとって特定の意味を持つことができます。ロボットについて考えるとき、例えばルンバという小さな掃除機ロボットを持っている方もいらっしゃるかもしれませんが、その動き方が特定の意味を持ちます。それがあなたに近づくか遠ざかるか、どれくらい速くそれを行うかといったことです。ロボットの外観は、より人間に似ているか、ペットのように見えるかで、人々の受け止め方に大きな違いを生むことができます。
物理性そのものが、機械がどのように相互作用できるか、そして人々が機械と何ができるかという点で、重要なアフォーダンス(行為可能性)となり得るのです。私たちは、ロボットの見た目に基づいて、機械に特定のことをしたり、特定の方法で行動したり、特定の機能を持つことを信頼するかもしれません。
具体的な例を挙げましょう。例えば、ここにいるロボットアザラシのParroを考えてみてください。私たちはParroを見て、前回のセッションで話していたような、どこでワクチン接種をするのが最適かという情報を提供してくれるとは期待しないでしょう。しかし、より人型のロボット、ヒューマノイドロボットであれば、そのような情報提供や専門的なアドバイスをする能力があるように見えるかもしれません。外観が、私たちがロボットに期待する役割や機能を暗黙のうちに規定しているのです。
ソーシャルロボティクスやこのような人間ロボットインタラクションのシナリオでは、人間が物理性をどのように認識するか、そしてそれが人間から学ぶための重要な手がかりとなることを考えています。同時に、ロボットの身体性は人間に特定のメッセージを与え、コミュニケーションするための手段としても機能します。ロボットの動き、速度、距離、姿勢といった物理的な特性すべてが、言語を使わないコミュニケーションチャネルとなり得るのです。これは、エンボディードAIが単なる機能的なツールではなく、社会的存在として機能する可能性を示しています。
1.5 ジェンダーとバイアスの問題
Patricia: 実は、Selma先生のお話に追加させていただきたいことがあります。明らかに私は法的背景を持っていますが、より適切には、ジェンダーと差別について考えています。今はそこに深く立ち入りませんが、重要なのは、エンボディメント(身体化)が実際に重要であるということ、そしてこれは私たちにとって少し課題でもあるということです。
社会的環境を受け入れたい、インターフェースとしての親しみやすさや養育性を受け入れたいという真の願望があるのか、それともこれらのロボットを人間の似姿で作るべきかどうか、まず第一にもっと考慮する必要があります。そして、もし人間の似姿で作られるのであれば、何らかのジェンダー化された似姿で作られるべきかどうかについても深く考える必要があるのです。
エンボディード・インテリジェンスについて考える際、私たちに考えてほしいのは、最初から埋め込まれる特定のステレオタイプやバイアスがあるということです。ロボットを女性的な外観で設計すれば、ケア役割や補助的な役割のステレオタイプが強化される可能性があります。男性的な外観で設計すれば、権威や技術的専門性といった固定観念が埋め込まれるかもしれません。これらの選択は、製品デザインの初期段階から行われ、後から修正することが困難です。
特に女性として、私たちはこれを問題視しています。なぜなら、これらのデザイン上の決定が、既存の社会的不平等や性別役割分担を強化してしまう可能性があるからです。エンボディードAIが社会に広く普及する前に、これらの問題について慎重に検討し、ジェンダーステレオタイプを再生産しない設計原則を確立することが重要です。人間らしさを追求することが本当に必要なのか、もし必要だとしても、どのようにバイアスのない形でそれを実現できるのかという根本的な問いに、私たちは真剣に向き合わなければなりません。
2. 技術的課題とインフラストラクチャの障壁
2.1 遅延(レイテンシ)の問題
モデレーター: それでは、ユースケースと通信インフラに関わる技術的課題を実際に見ていきたいと思います。Abishek先生、あなたの会社はエンボディードシステムを展開しており、この会議でも実演されていましたね。あなたの経験から、直面している最大の技術的課題やインフラストラクチャの障壁は何でしょうか。遅延、接続性、ハンドオフ、帯域幅、安全性の懸念といった点についてお聞かせください。
Abishek: ありがとうございます、Guiam。私たちOpen Droidsについて説明させてください。私たちはオープンソースのロボティクス企業で、シングルアームおよびデュアルアームのロボットを開発してきました。そして、ロボティクスのエンボディード側面を非常に強く意識している中で、観察し始めたことの一つがあります。Guiam先生が指摘されたように、遅延、相互接続性、実際の接続性の問題、そして帯域幅が、エンボディードAIにとって重要かつ非常に関連性の高い側面となっているのです。
私は実践的な側面からお話しします。私たちはVRとテレオペレーション(遠隔操作)を活用しています。これが重要な理由は、将来的にロボットの無監視機能を実現するための重要な方法だからです。なぜなら、VRとテレオペレーションを通じて大規模にデータを集約し収集できるようになるからです。そして、ここで帯域幅と接続性といった問題が顕在化してくるのです。
まず遅延についてお話ししましょう。私たちが物理的に観察したのは、大陸間でロボットを操作する場合の問題です。例えば、テレオペレーターが世界のある地域、例えばインドにいて、ロボットがアメリカやスイスに設置されているような状況です。完全に最適化されていない限り、遅延の問題が発生する可能性があります。帯域幅の問題を除いても、最大で2秒から3秒の遅延が発生することがあります。
これが実際にどういう意味を持つかというと、もしあなたが自分の腕を動かした場合、ロボットアームはそれを3秒の遅延で何かをしているかのように認識しなければならないということです。つまり、あなたが今行っている動作が、ロボット側では3秒後に実行されるのです。これらの問題は、ロボティクスのエコシステムに入ると非常に指数関数的に大きくなります。
例えば、精密な作業を考えてみてください。物体を掴んで別の場所に置くという単純な作業でも、リアルタイムのフィードバックがなければ、オペレーターは自分の動作の結果を3秒後まで確認できません。この間に、ロボットは予期しない障害物にぶつかったり、物体を落としたりする可能性があります。さらに複雑な作業、例えば組み立て作業や医療支援などでは、この遅延は致命的な問題となり得ます。オペレーターは常に未来を予測しながら操作しなければならず、これは極めて困難で認知的負荷の高い作業となるのです。
この遅延の問題は、単なる技術的不便さではなく、エンボディードAIの実用化における根本的な障壁となっています。リアルタイム性が求められる用途では、大陸間でのテレオペレーションは現時点では実用的ではないということを、私たちは実際の運用を通じて痛感しています。
2.2 帯域幅(バンドウィズ)の要件
Abishek: 帯域幅に関して、私たちが従来から観察してきたことをお話しします。アメリカで運用している際に目にしているのは、最大100Mbpsの速度が良好なパラメータであるということです。この帯域幅があれば、遅延が削減され、接続性が改善されます。
100Mbpsという数値は、私たちの実践的な運用経験から導き出された具体的な閾値です。この速度以下では、VRとテレオペレーションのシステムにおいて、ビデオストリーミングの品質低下、制御信号の遅延、センサーデータの転送遅れといった問題が顕著に現れます。特にデュアルアームロボットを操作する場合、両方のアームからのビジュアルフィードバック、力覚センサーのデータ、位置情報などを同時にリアルタイムで送受信する必要があるため、帯域幅の要求は単純に倍増します。
逆に、100Mbps以上の帯域幅が確保できれば、オペレーターの動作とロボットの応答の間の遅延が大幅に削減されます。ビデオフィードの解像度を高く保ちながら、滑らかなフレームレートを維持できます。これにより、オペレーターは微細な作業を遠隔地から実行する際にも、あたかも現場にいるかのような感覚で操作できるようになります。接続性の向上は、単に速度が上がるだけでなく、接続の安定性も向上させます。パケットロスが減少し、接続が途切れるリスクも低下するのです。
この帯域幅要件は、今後エンボディードAIが大規模に展開される際の重要なインフラストラクチャ要件となります。特に、複数のロボットを同時に運用する産業用途や、医療現場での遠隔手術支援といった高度な用途では、安定した100Mbps以上の帯域幅が必須条件となるでしょう。
2.3 安全性の懸念
Abishek: そして安全性の側面は、極めて重要かつ重大です。なぜなら、現在私たちはロボットを人間の周辺や人間と共に動作させているからです。現時点では、ロボットが将来どのように人間と相互作用するかについて、標準化されたプロトコルや規制が整っていません。これも懸念事項の一つなのです。
現在、私たちのオペレーターは主に私たちのエンジニアです。彼らは社会的に非常に意識が高く、人間の安全性を最優先に考えて操作しています。エンジニアは、ロボットの動作範囲、力の制限、予期しない動作が起こった場合の緊急停止手順などを熟知しています。彼らは技術的なバックグラウンドを持ち、システムの限界を理解し、潜在的な危険を予測する能力があります。
しかし、将来的には状況が大きく変わるでしょう。エンボディードAIが広く普及すれば、オペレーターはエンジニアだけではなくなります。一般のユーザー、医療従事者、物流作業者、教育者など、技術的な専門知識を持たない多様な人々がロボットを操作することになります。その時、人間とロボットの相互作用における安全性をどのように確保するかは、非常に大きな課題となります。
例えば、ロボットアームがどの程度の速度で動くべきか、人間にどれだけ近づいてよいか、予期しない接触があった場合にどのように反応すべきか、といった基本的な安全プロトコルすら、現時点では業界標準として確立されていません。各企業が独自の安全基準を設けているのが現状です。これでは、エンボディードAIが社会インフラとして機能するには不十分です。
将来的に、非専門家がロボットを日常的に使用するようになった時、直感的に理解できる安全機構、予測可能な動作パターン、そして万が一の事故を防ぐための標準化された安全プロトコルが絶対に必要になります。これは今まさに取り組むべき課題なのです。
2.4 規制と認証の課題
モデレーター: Yuki先生、あなたの領域でロボットを展開する経験から、これらの懸念はどのように影響していますか。
Yuki: 実際、私たちには多くの懸念があります。なぜなら、私の焦点市場はここスイス、ヨーロッパの中心に位置しているからです。ご存知のように、ヨーロッパは規制で有名です。ですから実際、ロボットを安全に展開する方法について多くの懸念を抱えています。先ほど言及されたように、規制は後からやってくるものです。
現時点では、私たちはイノベーションセンターとのプロトタイプにより焦点を当てており、信頼できるソリューションを共同開発しています。現在、私たちはより研究室での研究段階にあり、それを産業のシナリオに持ち込もうとしているところです。しかし、そこにはまだ多くの障害があります。なぜなら、ヨーロッパ市場へのCE適合性が、ほとんどの製造業者にとって準備できていないからです。
CE適合性の問題は、単なる書類上の手続きではありません。これは、製品が欧州経済領域で販売される前に満たさなければならない健康、安全、環境保護の基準を証明するものです。エンボディードAIシステム、特にロボティクスの場合、この認証プロセスは極めて複雑です。なぜなら、機械指令、電磁適合性指令、無線機器指令など、複数の指令に適合する必要があるからです。さらに、AIコンポーネントが組み込まれているため、新しいAI規制との整合性も求められる可能性があります。
私が言いたいのは、これは段階的戦略だということです。ロボットが産業のあらゆるシナリオ、さらには家庭用途にまで入っていくのを実際に目にするまでには、まだ時間がかかります。現在、私たちはイノベーションセンターという比較的管理された環境で、パートナーと協力しながら信頼性の高いソリューションを開発しています。この段階では、実際の使用環境に近い条件でテストを行い、安全性と有効性を検証しています。
次の段階として、限定的な産業環境での展開を計画していますが、そこでもCE認証の壁に直面しています。最終的に一般家庭での使用を実現するには、さらに厳格な安全基準と長期的な信頼性の実証が必要になります。この段階的なアプローチは時間がかかりますが、安全性と規制適合性を確保するためには不可欠なプロセスなのです。
2.5 地理的・インフラ的アクセシビリティ
モデレーター: Selma先生、あなたの人間ロボットインタラクション研究において、通信インフラの品質は、あなたの研究やそれが人々の経験と信頼にどのように影響するか、特にソーシャルロボティクスの分野でどのように関連していますか。
Selma: 遅延とアクセシビリティというテーマは、ここでも関連性があります。私が追加で指摘したいのは、ロボットは依然として非常に技術集約的であり、クラウドアクセスやあらゆる種類の高度な要件を必要とするという点です。これにより、より広い地理的な意味での使いやすさ、あるいは農村地域、つまり十分なアクセシビリティを持たない場所での使いやすさが非常に限定されてしまいます。
私が考えるに、場合によっては、これらの場所こそがロボットを最も必要としている場所である可能性があるのです。昨日、Michelle Williamsによる講演がありました。彼女は様々な場所でのテレプレゼンスロボットの使用について話していましたが、設計の初期段階からそのことを考慮する必要があることは間違いありません。しかし、私たちはまだそこまで到達していないと思います。
具体的に考えてみましょう。農村地域では、医療サービスへのアクセスが限られており、高齢者の孤立が深刻な問題となっています。こうした地域こそ、遠隔医療支援ロボットやソーシャルロボットが最も大きな影響を与えられる場所です。しかし、現実には、これらの地域は高速インターネット接続が不安定であったり、まったく利用できなかったりします。5Gネットワークの展開は都市部に集中しており、農村部は取り残されています。
途上国においても同様の、あるいはより深刻な問題があります。教育、医療、災害対応といった分野で、エンボディードAIは大きな可能性を持っています。しかし、信頼できる電力供給、安定したインターネット接続、そしてクラウドサービスへの継続的なアクセスという基本的なインフラが整っていなければ、これらの技術は機能しません。
さらに問題なのは、現在のエンボディードAIシステムの多くが、クラウドベースの計算処理に大きく依存していることです。ロボット単体での処理能力は限られており、高度な機械学習モデルや継続的な学習のためには、クラウドとの常時接続が前提となっています。この設計思想は、インフラが整った先進国の都市部を想定したものであり、それ以外の地域を最初から排除してしまっているのです。
私たちは設計の最初の段階から、限られたインフラ環境でも動作できるシステムを考える必要があります。オフライン機能の強化、エッジコンピューティングの活用、断続的な接続でも機能するアーキテクチャなど、技術的な解決策はあるはずです。しかし現時点では、そのような配慮はほとんどなされていません。これは技術的な問題であると同時に、社会的公平性の問題でもあるのです。
2.6 プライバシーとユーザーコントロール
Selma: もう一つの懸念は、ユーザーがロボットに対して持つコントロールに関するものです。ユーザーと話をすると、多くのことがクラウド上で起こっているという事実があります。もちろん、それはロボットの学習にとって素晴らしいことですし、アップデートにも優れており、ロボット自体の計算処理やそのような面で、より多くの機能を直接搭載できるという点でも優れています。
しかし、常にプライバシーに関する疑問が生じます。データはどこに行くのか、誰がアクセスできるのか、どの程度安全なのか、といった問題です。また、人々が自分のロボットに対して持つコントロールの問題もあります。
最近、Moxyというロボットのケースがありました。これは子供たちが使用していたロボットでしたが、会社が倒産してしまいました。すべてがクラウド上にあったため、会社が運営を停止した瞬間に、ロボットは基本的に人々に知らされることなく、非常に短い期間で機能しなくなってしまいました。これはユーザーにとって非常に心理的に影響を与える可能性があります。
このMoxyの事例は、クラウド依存型のエンボディードAIシステムの脆弱性を如実に示しています。子供たちはMoxyと感情的な絆を築いていました。それは単なる機械ではなく、遊び相手であり、学習の仲間であり、場合によっては友達のような存在だったのです。ある日突然、何の警告もなく、そのロボットが動かなくなり、反応しなくなる。これは子供たちにとって、友達を失ったような体験となります。
大人であっても、長期間使用してきたロボットが突然機能しなくなることは、喪失感や無力感をもたらします。しかし子供の場合、その心理的影響はより深刻です。彼らはなぜロボットが動かなくなったのか理解できず、自分が何か悪いことをしたのではないかと考えるかもしれません。この種の予期しない喪失体験は、信頼の発達や愛着形成に影響を与える可能性があります。
この問題は、ユーザーが自分のデバイスを真に所有しているのか、という根本的な疑問を提起します。物理的にロボットを購入し、家に置いていても、その機能のほとんどがクラウドサービスに依存している場合、実際には継続的なサービスへのアクセス権を購入しているに過ぎません。企業がサービスを停止すれば、ハードウェアは単なる無用の物体となってしまいます。
したがって、プライバシー、コントロール、そしてデータの所有権といった問題は、すべて通信インフラストラクチャに関連して考える必要があるのです。これらは単なる技術的な問題ではなく、ユーザーの権利と福祉に直結する重要な問題なのです。
2.7 セキュリティの脆弱性
Patricia: その点に追加させていただきたいと思います。私がギャップを感じている分野の一つは、実際にはマシンのセキュリティに関わる通信上の課題です。ロボット自体、インフラストラクチャ、そしてあなたが言及した両者の間のインターフェース、これらすべてのエンドツーエンドのセキュリティです。概念と開始の段階から廃棄に至るまで、データに何が起こるのか、インサイトに何が起こるのか、推論に何が起こるのかを本当に理解する必要があります。
Selma先生が言及された社会的ダイナミクスも重要で、特に子供たちにとっては計り知れない影響があります。私にはそれが想像できません。しかし、スマートメーター、トラッキングデバイス、スマートホームデバイス、テレビなどでも見てきたように、これらのものは非常にデータ漏洩しやすい可能性があります。ですから、プライバシーだけでなくセキュリティの問題、そしてこれらのものが特にハッキング可能であるという事実に、本当に取り組む必要があります。
特に、これらのマシンが収集し、処理し、学習しているインサイトや推論が非常に機密性の高いものである場合です。特にこれらが医療現場にある場合や、高齢者や病弱な人々の世話をしている場合、あるいは他の講演で聞いたようにパートナーとして使われる場合、これらがブレイン・コンピュータ・インターフェースを持っている場合、脳波も収集している可能性があります。
したがって、非常に重要な個人識別情報だけでなく、これは生体情報である可能性があります。視線追跡、表情、皮膚の凹み、汗、その他の触覚フィードバックなど、一人の個人に対する非常にユニークな識別子となり得るものです。ですから、もしあなたに最適化されたロボットを自宅に持っていて、それがあなただけのために使われ、ハッキングされたり、あなたの非常にプライベートなデータが漏洩したりしないことを確実にしたいのであれば、それがインフラストラクチャにおいて、マシンにおいて、そしてマシンと人間の相互作用においても、エンドツーエンドで標準化され、それらの課題が満たされることを確実にする必要があります。
私たちは他のコネクテッドデバイスから多くの教訓を得ています。スマートメーターは電力使用パターンから在宅時間を推測できます。トラッキングデバイスは移動履歴を記録します。スマートTVは視聴習慣を収集します。これらすべてのデバイスで、データ漏洩やハッキングの事例が報告されています。エンボディードAIは、これらすべてのデータタイプをさらに高度な形で収集する可能性があるのです。
医療や介護の現場では、リスクはさらに高まります。ロボットが患者の健康状態、投薬情報、身体的脆弱性に関するデータを持っている場合、そのデータが悪意のある第三者の手に渡れば、その個人は標的となる可能性があります。高齢者や障害を持つ方々は、特に脆弱な立場にあります。
ブレイン・コンピュータ・インターフェースを搭載したロボットの場合、収集されるデータは文字通り人の思考や意図に関するものです。これは究極のプライバシー侵害となり得ます。視線追跡データは、何に注意を払っているか、何に興味があるかを明らかにします。表情分析は感情状態を推測します。皮膚の電気反応や発汗パターンは、ストレスレベルや感情的反応を示します。触覚フィードバックからは、身体的特徴や健康状態が推測できます。
これらすべてのデータが組み合わさると、極めて詳細な個人プロファイルが作成され、それは単なる行動パターンではなく、生理学的・心理学的特性を含む、その人の本質的な部分を表すものとなります。このような機密性の高いデータを保護するためには、ロボット本体のセキュリティ、通信チャネルの暗号化、クラウドストレージのセキュリティ、そしてデータのライフサイクル全体を通じた保護が必要です。標準化されたセキュリティフレームワークがなければ、エンボディードAIの大規模展開は、深刻なプライバシーとセキュリティのリスクを社会にもたらすことになるのです。
3. 標準化の現状とギャップ
3.1 ITU-T Study Group 21の役割
モデレーター: ここで一歩引いて、標準化の全体像を見たいと思います。ご存知の方がどれほどいらっしゃるか分かりませんが、ITUは実際には国連における標準設定機関であり、現代の通信をサポートするための技術標準を開発しています。ここで探求したいのは、ITUで行われているこの作業、つまり異なる研究グループを通じて、メンバー主導で貢献ベースの方法で標準化が行われる場所で、これらの技術的な議論がどのように行われているか、そしてエンボディード・インテリジェンスに関して将来的にこれらの議論がどうなっていくかということです。Noah先生、Study Group 21の観点から、エンボディード・インテリジェンスシステムの開発支援において、どのような役割を果たせるとお考えですか。
Noah: ありがとうございます。まず、皆さん、そして親愛なるパネリストの皆さん、こんにちは。Guiam、良い質問ですね。5分以内で非常に完全な答えを提供することは不可能だと思いますが、最善を尽くします。また、私たちの作業方法を説明する際には、人々が理解できるように平易な英語で用語を説明するよう努めます。
前半の議論は非常に成功したプラットフォームで、標準化の議論に移るための強固な基盤を築いたと思います。技術的、規制的など、多くの重要な問題が提起されたのを聞きました。例えば、非常に優れた規制政策や法制度が整備されているとしましょう。それを実施するには、下からのサポートが必要です。そのニーズをサポートする基盤が必要なのです。
業界で展開可能な標準化がこれを支援できると思います。なぜなら、私たちは一般的にマルチメディアにより焦点を当てているからです。インターネット上のデータはますますマルチメディアの性質を持っています。そして、エンボディード・インテリジェンスについて話すとき、マルチメディア、つまりビデオ、オーディオ、画像、そしてマルチモーダルコミュニケーションを避けることはできません。これは私たちができることの幅広い道を開きますが、段階的に進める必要があります。
ギャップを認識し特定することが、私たちが必要とする最初のステップです。業界から、学術界から、コンサルティング会社から、スタートアップからのインプットを収集する必要があります。AI for Goodが提供する良い機会は、フレームワークを使用して、将来的に一連のウェビナーを行うことができることです。業界から継続的に反復的にインプットを得ることができれば、ギャップを特定するのに役立ちます。
しかし、私の見解では、現在いくつかの大きなギャップがあります。例えば、非常に明確な定義、実行可能な定義がありません。これがシナリオの第一レベルです。第二レベルは、技術的な観点から、コンポーネントの観点から、どのような有用な技術コンポーネントを使用できるか、そして構成要素を明確に定義する必要があるということです。そして、段階的にシステムレベルに到達します。
標準化のロードマップの将来に興味がある方には、最近ACMのウェブページに投稿された記事を読むことをお勧めします。これは全体像の概要を提供しています。しかしいずれにせよ、Guilamが私に言ったのは、この分野について百科事典的な知識を持つPatriciaがいるということです。ですので、ここで止めておきます。5分はかなり早く過ぎますね。
モデレーター: ありがとうございます。
Noah: Study Group 21では、マルチメディアと多モーダルコミュニケーションという私たちの専門分野が、エンボディード・インテリジェンスの発展において中心的な役割を果たすと考えています。ロボットやエンボディードAIシステムは、視覚、聴覚、触覚など複数の感覚モダリティを通じて環境を認識し、人間と相互作用します。これらのデータストリームを効率的に処理し、伝送するための標準が必要なのです。
私たちのアプローチは、まずシナリオと要件を明確に定義することから始まります。医療、教育、物流、公共安全など、具体的な使用事例における技術的ニーズを特定します。次に、これらのニーズを満たすために必要な技術コンポーネント、つまりセンサー、通信プロトコル、データフォーマット、セキュリティメカニズムなどを定義します。そして最終的に、これらのコンポーネントがどのように統合され、システム全体として機能するかという、システムレベルの標準に到達します。
この段階的アプローチは、複雑な技術領域において標準化を進める上で実証済みの方法です。しかし、これを成功させるには、業界、学術界、規制当局、そしてユーザーコミュニティからの継続的なインプットが不可欠です。AI for Goodのようなプラットフォームを通じて、これらのステークホルダーとの対話を続け、実際のニーズとギャップを把握し続けることが、効果的な標準開発の鍵となるのです。
3.2 既存の標準化作業
モデレーター: Kaiwei先生、エージェントレベルのサービスモデルに関して、何か欠けているものはありますか。エンボディード・インテリジェンスシステムに関して、分類標準やパフォーマンスベンチマークが不足していますか。
Kaiwei: はい、答えは間違いなくイエスです。最初の質問、エンボディメントの定義に戻ると、これはITUなどで議論する必要がある一つの糸口だと思います。これに加えて、私たちは標準化を手段として使って解決できる多くの課題に直面しています。
例えば、現在すべてのエンボディードAI企業が、大規模言語モデル(LLM)やビジョン言語モデル(VLM)、あるいはビジョンモデル(VM)をロボティクスの物理デバイスに統合しようと急いでいます。そこには多くの技術的課題と規制上の課題があります。例えば、認知-物理アラインメント、トレーニングデータの取得、そしてReal-to-Simギャップです。Real-to-Simギャップをどのように狭めるかが重要です。なぜなら、実世界から多くのトレーニングデータを持っていないため、シミュレーションによる合成データが必要になるからです。しかし、合成データと実際のリアルタイム環境の間にはギャップがあります。ですから、シミュレーションと実世界の間のギャップを狭める必要があるのです。これが標準化のニーズです。
また、物理的な身体と脳、つまり大規模言語モデルや大規模ビジョン・アクションモデルとの間の相互運用性も必要です。そして安全性とセキュリティの問題も解決する必要があります。ITUは、AI社会における重要なAI標準設定において非常に重要な役割を果たすことができます。
実際、Noah先生が議長を務めるStudy Group 21は、すでにいくつかの作業を進めています。例えば、「エンボディード人工知能システムの要件とフレームワーク」という作業項目が、昨年のStudy Group 21の全体会議で開始されました。今年の1月だったと思います。この国際標準は、エンボディードAIの包括的な能力フレームワークを定義し、三つの領域にわたる評価指標を確立します。それは、知覚、意思決定、そして実行・相互作用と安全性です。
この標準は、私たちが必要とする標準化によって狭めるべき課題のいくつかに対処すると思います。しかし、将来のためにはまだ相当な作業が残っています。すべてのステークホルダーからの参加と協力を歓迎します。
実際、私はITUでの作業に10年の経験があります。私のチームはAIシステムの評価ベンチマークに専念しています。あなたの質問に答えると、ベンチマーキングは非常に重要な標準設定だと思います。なぜなら、ベンチマークは、要件を定義し、トレーニング目標を設定し、市場への参入障壁を設定する際のコンパスとして機能できるからです。ですから、それは非常に重要なのです。
Noah: 素晴らしいニュースは、エンボディード・インテリジェンスのための最初のフレームワークがすでに進行中だということです。おそらく1年、または1年半でリリースできることを期待しています。しかし同時に、私たちは業界、一般の人々に、私たちの作業への支援と関心を示していただきたいと本当に思っています。そうすれば、より多くのインプットを収集でき、コンサルティング会社も開発プロセス中に常にガイダンスを提供できます。
私たちは何かを達成したいと考えています。中国のことわざにあるように、自分がどれほど重要だと思っても、実際には大きな海の一滴に過ぎません。各組織には強みがありますが、弱みもあります。標準化の枠組み内での協力、統合、そして低レベルでの調整は、何かを達成するために絶対に必要不可欠です。
この最初のフレームワークは、エンボディード・インテリジェンス分野における国際標準化の重要な第一歩となります。知覚、意思決定、実行・相互作用、安全性という四つの主要領域をカバーすることで、システム全体のライフサイクルにわたる評価の基礎を提供します。しかし、これはあくまで出発点であり、実際の展開から得られるフィードバックと、継続的なステークホルダーの参加によって、この標準は進化し、より実用的で包括的なものになっていくのです。
3.3 標準化のギャップ
3.3.1 定義レベルのギャップ
Noah: 私の見解では、現在いくつかの大きなギャップがあります。例えば、非常に明確な定義、実行可能な定義を持っていません。これがシナリオの第一レベルです。
エンボディード・インテリジェンスという用語自体は、学術界や産業界で使われていますが、その正確な意味について普遍的な合意はありません。Kaiwei先生が紹介してくれた中国のAI産業アライアンスによる定義は一つの試みですが、これが国際的に受け入れられた標準的な定義というわけではありません。異なる組織、異なる国、異なる研究グループが、微妙に異なる解釈を持っている可能性があります。
さらに重要なのは、実用的な定義の不足です。つまり、標準化作業において実際に使用できる、明確で操作可能な定義です。「環境と相互作用する知能システム」という抽象的な定義では、具体的な技術仕様や評価基準を策定することはできません。どのレベルの環境認識能力があればエンボディードAIと呼べるのか、どの程度の自律性が必要なのか、物理的な身体性はどこまで必須なのか、といった具体的な境界線が定義されていないのです。
シナリオレベルでのギャップも深刻です。医療、教育、物流、製造、家庭用途など、様々な応用分野がありますが、それぞれのシナリオにおいてエンボディードAIに何が期待されるのか、どのような能力が必要なのか、どのような制約があるのかについて、体系的な整理がなされていません。シナリオごとの要件定義がなければ、適切な標準を策定することは不可能です。
Patricia先生が指摘されたように、病院での使用と家庭での使用では全く異なる要件があります。しかし、これらの違いを明確に定義し、文書化した標準的なシナリオ分類は存在しません。各企業が独自の想定で製品を開発しており、相互運用性や安全性の基準を統一することが困難になっています。
標準化作業の出発点として、まず共通の言語、共通の定義、そして共通のシナリオ理解を確立する必要があります。これがなければ、その後の技術的な標準化作業は、砂の上に家を建てるようなものになってしまうのです。
3.3.2 技術的ギャップ
Kaiwei: 現在すべてのエンボディードAI企業が、大規模言語モデル(LLM)やビジョン言語モデル(VLM)、あるいはビジョンモデル(VM)をロボティクスの物理デバイスに統合しようと急いでいます。そこには多くの技術的課題と規制上の課題があります。
まず、認知-物理アラインメント(cognitive-physical alignment)の問題があります。大規模言語モデルは膨大なテキストデータから学習し、言語的な推論能力を持っています。しかし、物理世界における行動の結果を真に理解しているわけではありません。「コップを持ち上げる」という指示を理解することと、実際にロボットアームでコップを安全に持ち上げることの間には大きなギャップがあります。モデルが生成する抽象的な行動計画を、物理的制約を考慮した具体的なモーター制御信号に変換する必要があるのですが、このアラインメントプロセスに関する標準的なアプローチはまだ確立されていません。
次に、トレーニングデータの取得という課題があります。大規模言語モデルはインターネット上の膨大なテキストデータで訓練できますが、エンボディードAIには物理世界でのインタラクションデータが必要です。しかし、実世界でロボットを動作させてデータを収集することは、時間もコストもかかります。さらに、安全性の懸念から、試行錯誤的な学習を実世界で行うことには限界があります。Abishek先生が言及されたように、VRとテレオペレーションは一つの解決策ですが、これにも通信インフラの制約があります。
そこで出てくるのが、Real-to-Simギャップの問題です。実世界から十分なトレーニングデータを持っていないため、シミュレーション環境で合成データを生成する必要があります。シミュレーションであれば、安全に、迅速に、大量のデータを生成できます。しかし、合成データと実際のリアルタイム環境の間には常にギャップがあります。
シミュレーションでは、物理法則を簡略化し、センサーノイズを理想化し、予測不可能な外乱を除外します。その結果、シミュレーションで完璧に動作するシステムが、実世界では失敗することがよくあります。床の摩擦係数のわずかな違い、照明条件の変化、物体表面のテクスチャの多様性など、実世界の複雑さをシミュレーションで完全に再現することは不可能です。ですから、シミュレーションと実世界の間のギャップを狭める必要があるのです。これが標準化のニーズです。
さらに、物理的な身体と脳、つまり大規模言語モデルや大規模ビジョン・アクションモデルとの間の相互運用性も必要です。現在、各企業が独自のアーキテクチャで、特定のAIモデルと特定のロボットハードウェアを統合しています。しかし、将来的にはモデルの更新やロボットプラットフォーム間の移植が必要になるでしょう。
例えば、ある製造業者が開発した優れたビジョン・アクションモデルを、別の製造業者のロボットハードウェアで使用したい場合、現状ではほとんど不可能です。インターフェースの仕様、データフォーマット、制御プロトコルがすべて異なるからです。相互運用性を実現するためには、AIモデルとロボットハードウェアの間の標準的なインターフェースを定義する必要があります。これには、センサーデータのフォーマット、行動コマンドの表現方法、安全性制約の伝達メカニズムなどが含まれます。
これらの技術的ギャップはすべて相互に関連しており、統合的なアプローチで対処する必要があります。そして、これらの課題に対する解決策を標準化することで、業界全体の発展を加速できるのです。
3.3.3 ベンチマークと評価指標
Kaiwei: あなたの質問に答えると、ベンチマーキングは非常に重要な標準設定だと思います。なぜなら、ベンチマークは、要件を定義し、トレーニング目標を設定し、市場への参入障壁を設定する際のコンパスとして機能できるからです。ですから、それは非常に重要なのです。
現在、いくつかの学術機関が学術的な観点からある種のベンチマークを提案しています。スタンフォード大学や清華大学も、ある種のベンチマークを公開しています。これらは学術的な観点からのものです。しかし、Yuki女史が言われたように、産業界の顧客には彼らのニーズがあります。ですから、将来的には実世界の要件をこの種の応用指向のエンボディードAIベンチマークに取り込む必要があります。
学術的なベンチマークは重要な基礎を提供していますが、多くの場合、制御された実験室環境での性能評価に焦点を当てています。例えば、物体認識の精度、把持動作の成功率、ナビゲーションタスクの完了時間などを測定します。これらは技術的な進歩を測る上で価値がありますが、実際の産業環境や家庭環境での使用に必要な要件を完全には反映していません。
実世界では、技術的な性能だけでなく、信頼性、耐久性、保守性、コスト効率性、安全性、ユーザビリティなど、多くの要素が重要になります。例えば、製造現場では24時間連続稼働できる信頼性が必要です。医療現場では、厳格な衛生基準と患者安全の要件があります。家庭用途では、技術的な知識のないユーザーでも直感的に使えることが求められます。
したがって、産業界の実用要件を反映したベンチマークを開発する必要があります。これには、業界からの積極的な参加が不可欠です。実際の使用事例、失敗モード、運用上の制約などに関する知識は、現場で製品を展開している企業が持っています。学術界と産業界が協力して、理論的に健全でありながら実践的にも有用なベンチマークを策定する必要があるのです。
ベンチマークは、エンボディードAIの方向性を大規模生産へと導くコンパスの役割を果たします。明確なベンチマークがあれば、開発者はどの能力を優先すべきか理解できます。投資家はどの技術が成熟しているか判断できます。規制当局は市場参入の基準を設定できます。そして顧客は、異なる製品を客観的に比較できるようになります。
現在、エンボディードAIは非常に初期段階にあります。私たちは実世界の生産環境での大規模な応用事例をほとんど見ていません。ですから、この段階で標準設定について同時に議論することは、まさに適切なタイミングなのです。技術が成熟し、市場が固定化してから標準化を試みるよりも、発展の初期段階で方向性を定めることで、より効果的で統一されたエコシステムを構築できます。
ベンチマークの策定は、単なる測定基準の設定ではありません。それは、エンボディードAI産業全体が目指すべき目標を明確にし、技術開発の優先順位を設定し、資源を効率的に配分するための戦略的ツールなのです。適切なベンチマークがあれば、研究開発の重複を避け、相互運用性を促進し、最終的には大規模生産と社会への広範な展開を加速できるのです。
3.4 標準化の「玉ねぎ構造」
モデレーター: このトピックについて、パネリストの方々から何か反応はありますか。
Patricia: はい、私が言いたかったのは、この分野で私たちが持っている標準は、剥がさなければならない玉ねぎのようなものだと感じています。
ロボットの内部に関する技術標準があります。ロボットの外部、つまりインターフェースに必要な技術標準があります。ロボット内のソフトウェア要件とAI要件があります。これらすべてに標準があり、その多くは技術的なものです。
その多くは、何らかの製品安全法規を満たそうとしているか、医療現場での臨床保証を得ようとしています。しかし、私たちが今気づき始めているのは、これらのAIのエンボディード性のために、ユーザーインターフェースの形態についても考えなければならないということです。それが私たちに何をしてくれるのか、そして私たちに何をするのか。これが、社会技術的標準、そして敢えて言えば、この数日間で語られてきた環境社会技術的標準という全く新しいセットをもたらしていると思います。
私たちが目にしているハイパーパーソナライゼーション、これらのエンボディードAIのマルチモダリティのために、人々だけでなく地球への環境的影響も考える必要があります。人々に関して言えば、生成AIやソーシャルメディアのコンテンツ推薦システムの分野で目にしてきたことから学べる教訓があります。ですから、標準が完全に欠如しているわけではなく、この分野にはすでにいくつかの標準があります。問題は、どのようにそれらを活用し、借用し、応用するかということです。
つまり、すでに多くの作業が行われているということです。ITU、CEN、IECがこの分野で行ってきたすべての作業を称賛したいと思います。いくつかの国家標準化機関、そして特に、私たち全員が知っているように、ヨーロッパ自体に関して多くのことがなされてきました。EU AI法、特に健康、安全、基本的権利の保護のために。しかし、これは始まりに過ぎません。特に今、エンボディードAIについて考えるときには。
しかし、公開されているものや公開予定のものの中には、この社会技術的空間において素晴らしいものがいくつかあります。もしご存じなければ、叫びたいと思います。IEEEは倫理的に調整された設計(Ethically Aligned Design)に関して多くの作業を行ってきました。これは一連の標準と、ECAD認証と呼ばれる認証シリーズに結実しました。これらのいくつかは、2022年のISO/IEC 24748-7000のような標準になり、これは価値ベース工学(value-based engineering)に関するものでした。透明性に関する70001という別のものもありました。そして、アルゴリズムバイアスに関する703もありました。
しかし、AI標準だとは思わないような、本当に興味深いものがあります。人間の福祉(human well-being)に関するものです。それはIEEE 7010です。倫理的に駆動されたデジタルナッジング(ethically driven digital nudging)に関する708もあります。そして、2024年のIEEE 704があり、これは模擬された共感における倫理的配慮(ethical considerations in emulated empathy)に関するものでした。
ですから、もし私たちがこれらのボットと、これらのマシンと日々相互作用するつもりなら、この分野に適用できるように標準を正しく整備しておく必要があります。この分野で活動している他の標準化機関もありますが、それほど知られていません。
XRSIは人工現実、拡張現実、および拡張現実標準を扱っていますが、その分野から学ぶべきことも多いと思います。なぜなら、彼らは私が先ほど言及した非常に重要なデータガバナンスに焦点を当てているからです。しかし、私がこれらすべての標準化機関と、この分野で非常に多くのことが進行しているという事実に言及したので、これは良好なコラボレーションと標準化の将来がどのようなものであるべきかを考えることを私たちに促します。
この玉ねぎ構造の比喩が示すように、エンボディードAIの標準化は単一の層ではなく、複数の層が相互に関連する複雑なシステムです。最も内側の技術的な層から始まり、製品安全や規制適合の層を経て、最も外側の社会的・環境的影響の層まで、すべての層が統合的に機能する必要があります。そして重要なのは、既存の標準化作業を活用しながら、エンボディードAI特有の新しい要件に対応する標準を追加していくことなのです。
3.5 既存標準からの応用可能性
3.5.1 IEEE標準
Patricia: この分野にはすでにいくつかの素晴らしい公開済み標準と公開予定の標準があります。もしご存じなければ、いくつか紹介させてください。
IEEEは倫理的に調整された設計(Ethically Aligned Design)に関して非常に多くの作業を行ってきました。これは一連の標準と、ECAD認証(ECAD Certified)と呼ばれる認証シリーズに結実しました。倫理的に調整された設計は、AIシステムが人間の価値観と権利を尊重するように開発されることを保証するための包括的なフレームワークです。このイニシアチブは、技術者だけでなく、倫理学者、法律専門家、社会科学者など、多様な専門家の協力によって作成されました。
これらの取り組みのいくつかは、2022年のISO/IEC 24748-7000のような標準になりました。これは価値ベース工学(value-based engineering)に関するものです。この標準は、システム開発のライフサイクル全体を通じて、人間の価値観を明示的に特定し、優先順位付けし、統合するためのプロセスを提供します。エンボディードAIの文脈では、これは特に重要です。なぜなら、ロボットが人間と物理的に相互作用する際、その動作は技術的な効率性だけでなく、尊厳、自律性、公平性といった人間の価値観を反映する必要があるからです。
透明性に関する70001という別の標準もありました。透明性はAIシステムへの信頼を構築する上で基本的な要素です。この標準は、AIシステムがどのように決定を下すか、どのようなデータを使用するか、どのような制限があるかについて、ユーザーやステークホルダーが理解できるようにするための要件を定義しています。エンボディードAIでは、ロボットがなぜ特定の行動を取ったのかを説明できることが、特に医療や介護のような重要な場面では不可欠です。
そして、アルゴリズムバイアスに関する703もありました。バイアスの問題は、データから学習するすべてのAIシステムに影響を与えますが、エンボディードAIでは、バイアスが物理的な行動として現れるため、その影響はより直接的で可視化されます。例えば、顔認識に基づいて反応するソーシャルロボットが、特定の人種や性別に対して異なる応答をする場合、それは明白な差別として認識されます。この標準は、バイアスを特定し、測定し、軽減するための体系的なアプローチを提供します。
これらのIEEE標準は、もともと幅広いAIシステムを対象として開発されましたが、エンボディードAIに直接適用可能な原則と方法論を含んでいます。重要なのは、これらの標準をゼロから作り直す必要はなく、エンボディードAI特有の要件、例えば物理的安全性、リアルタイム意思決定、人間との近接相互作用などを考慮して、適切に適応させることができるということです。
3.5.2 人間の福祉関連標準
Patricia: しかし、AI標準だとは思わないような、本当に興味深いものがあります。人間の福祉(human well-being)に関するものです。それはIEEE 7010です。この標準は、AIシステムが人間の福祉に与える影響を評価し、最大化するための体系的なアプローチを提供します。福祉という概念は、単なる身体的安全性を超えて、精神的健康、社会的つながり、自律性、プライバシー、そして生活の質全般を含みます。
エンボディードAIの文脈では、この標準は特に重要です。なぜなら、ロボットは単にタスクを実行するだけでなく、人々の日常生活の一部となり、長期的な関係を形成する可能性があるからです。例えば、高齢者の介護ロボットは、身体的な世話を提供するだけでなく、社会的孤立を軽減し、自尊心を維持し、自立した生活を支援する必要があります。IEEE 7010は、開発者がこれらの多面的な福祉要件を設計段階から考慮することを求めています。
倫理的に駆動されたデジタルナッジング(ethically driven digital nudging)に関するIEEE 708もあります。ナッジングとは、人々の選択を強制することなく、より良い決定へと穏やかに導く手法です。デジタルシステムにおいて、これは非常に強力なツールとなり得ますが、同時に操作的になる危険性もあります。
エンボディードAIは、その物理的存在と社会的影響力により、極めて効果的なナッジングツールとなり得ます。ソーシャルロボットが健康的な習慣を促進したり、服薬を思い出させたり、運動を奨励したりすることは有益です。しかし、ユーザーの自律性を尊重せず、過度に指示的であったり、商業的利益のために特定の行動を誘導したりする場合、それは倫理的に問題となります。IEEE 708は、ナッジングが透明性、ユーザーの同意、そして真のユーザー利益の促進という原則に基づいて実施されることを保証するための基準を設定しています。
そして、2024年のIEEE 704があり、これは模擬された共感における倫理的配慮(ethical considerations in emulated empathy)に関するものでした。これは極めて先見的な標準です。ソーシャルロボットや対話型AIが、人間の感情を認識し、それに応じた反応を示す能力を持つようになっています。これは模擬された共感、つまりエミュレートされた共感と呼ばれます。
しかし、ここには深い倫理的問題があります。ロボットは本当に共感を感じているわけではなく、プログラムされた反応を示しているだけです。しかし、人間、特に脆弱な立場にある人々は、この模擬された共感を本物と受け取り、ロボットに対して深い感情的な愛着を形成する可能性があります。Selma先生が言及されたMoxyの事例は、この問題の深刻さを示しています。
IEEE 704は、開発者に対して、模擬された共感を実装する際に、ユーザーが誤解しないように適切な開示を行うこと、依存関係を作らないように設計すること、そして特に子供や高齢者のような脆弱な集団を保護することを求めています。ですから、もし私たちがこれらのボットと、これらのマシンと日々相互作用するつもりなら、この分野に適用できるように標準を正しく整備し、準備しておく必要があります。
これらの人間の福祉に関連する標準は、エンボディードAIが技術的に優れているだけでなく、人間中心で倫理的に健全なシステムとして開発されることを保証するための重要な基盤を提供しているのです。
3.5.3 XR分野の標準
Patricia: この分野で活動している他の標準化機関もありますが、それほど知られていません。XRSIは人工現実、拡張現実、および拡張現実標準(augmented reality and extended reality standards)を扱っていますが、その分野から学ぶべきことも多いと思います。なぜなら、彼らは私が先ほど言及した非常に重要なデータガバナンスに焦点を当てているからです。
XRSIは拡張現実標準機構(Extended Reality Safety Initiative)の略称で、AR、VR、MRといった拡張現実技術の安全性とプライバシーに特化した標準化団体です。一見すると、拡張現実とエンボディードAIは異なる技術領域のように思えるかもしれませんが、実際には多くの共通点があります。
両者とも、ユーザーの物理的環境と密接に相互作用します。両者とも、視線追跡、動作追跡、生体認証データなど、極めて機密性の高いデータを収集します。そして両者とも、ユーザーの知覚と行動に直接的な影響を与える可能性があります。XRデバイスは視覚的・聴覚的体験を変更し、エンボディードAIは物理的環境そのものと相互作用します。
XRSIが特に焦点を当てているデータガバナンスの問題は、エンボディードAIにとって極めて重要です。データガバナンスとは、データがどのように収集され、保存され、使用され、共有され、そして最終的に削除されるかを管理する包括的なフレームワークです。XRSIの標準は、以下のような原則を強調しています。
まず、データ最小化の原則です。システムは機能に絶対必要なデータのみを収集すべきであり、「念のため」や「将来使うかもしれない」という理由でデータを収集すべきではありません。エンボディードAIの文脈では、ロボットが環境を認識するために多くのセンサーデータを必要としますが、すべてのデータを永続的に保存する必要はありません。
次に、データ主権の原則です。ユーザーは自分のデータに対するコントロールを保持すべきです。どのデータが収集されているかを知り、その使用目的を理解し、同意を与えるか拒否するかを選択し、いつでもアクセスや削除を要求できる権利を持つべきです。Selma先生が指摘されたMoxyの事例では、ユーザーはデータへのアクセスもコントロールも失いました。
さらに、目的制限の原則です。収集されたデータは、明示的に同意された目的にのみ使用されるべきです。医療支援のために収集された健康データが、広告ターゲティングに使用されるべきではありません。子供の教育支援のために収集された行動データが、商業的な分析に転用されるべきではありません。
XRSIはまた、生体データの特別な扱いについても詳細な指針を提供しています。視線追跡、表情、脳波といった生体データは、パスワードのように変更できません。一度漏洩すれば、その個人は永続的にリスクにさらされます。したがって、これらのデータには最高レベルのセキュリティと、厳格なアクセス制御が必要です。
エンボディードAIの開発者は、XR分野で既に確立されているこれらのデータガバナンスの原則と実践から多くを学ぶことができます。車輪を再発明する必要はありません。既存の知識と標準を活用し、エンボディードAI特有の要件に適応させることで、より迅速に、より堅牢なガバナンスフレームワークを構築できるのです。
4. 協力とコラボレーションの枠組み
4.1 標準化機関間の協力の必要性
Patricia: 私がこれらすべての標準化機関と、この分野で非常に多くのことが進行しているという事実に言及したので、これは良好なコラボレーションと標準化の将来がどのようなものであるべきかを考えることを私たちに促します。
複数の標準化機関にまたがって活動している者として、私が目にする企業は、実際には一つのプレイブックにのみ興味を持っています。ですから、私たちが協力することは絶対に不可欠だと思います。なぜなら、重複作業を避け、より効率的に運営する必要があるからです。人々の知的資本と時間を迅速に活用する必要があります。なぜなら、多くのパネルで聞いてきたように、標準化プロセスはコンセンサスを見つけ、それが取り組んでいる業界に適用可能であることを確認するための迅速なプロセスではないからです。
企業の観点から見ると、標準の乱立は大きな負担です。ISO、IEC、IEEE、ITU、そして各国の標準化機関など、複数の組織がそれぞれ異なる標準を開発している場合、企業はどれに従うべきか混乱します。特に国際的に事業を展開する企業にとって、各市場で異なる標準に適合することは、コストと時間の面で大きな障壁となります。企業が本当に必要としているのは、一貫性のある、調和された一つのプレイブックなのです。
標準化機関間の協力は、重複作業を排除するためにも重要です。例えば、複数の組織が同時に類似のエンボディードAI安全性標準を開発している場合、それは貴重な専門家の時間とリソースの無駄遣いです。これらの専門家は限られており、彼らの知識と経験は最も効果的に活用されるべきです。標準化機関が協力し、作業を分担すれば、より迅速に、より包括的な標準を開発できます。
しかし、協力が必要な理由は効率性だけではありません。これは真にグローバルな問題であるため、真に国際的な声を持つ必要があります。エンボディードAIは、一つの国や地域だけの問題ではありません。ロボットは国境を越えて展開され、データは国際的に流れ、サプライチェーンはグローバルです。もし標準が一部の国や地域の視点のみを反映している場合、それは他の地域では機能しないか、受け入れられない可能性があります。
レベルプレイングフィールド(公平な競争環境)を確保するため、適切なステークホルダーを議論の場に集める必要があります。これには、先進国だけでなく途上国も含まれるべきです。大企業だけでなく、スタートアップや中小企業も含まれるべきです。技術提供者だけでなく、ユーザー、消費者団体、市民社会組織も含まれるべきです。真のマルチステークホルダーアプローチが必要なのです。
さらに、これは学際的な問題でもあるため、学際的な声も必要です。これについては後ほど詳しく述べますが、標準化の議論にエンジニアだけが参加するのでは不十分です。法律専門家、倫理学者、社会学者、心理学者、医療専門家など、多様な専門知識が必要です。なぜなら、私が言及したように、これは社会技術的、あるいは環境社会技術的な技術だからです。
したがって、標準化機関間の協力においては、議論の場にどのような人々を集めるかを考える必要があります。それは単に技術的な専門家だけでなく、この新しい時代に入るにあたって、AI分野の技術者、社会学者、心理学者とともに、法律や人権の専門家も必要なのです。
4.2 マルチステークホルダーアプローチ
Patricia: レベルプレイングフィールド(公平な競争環境)を確保するため、適切なステークホルダーを議論の場に集める必要があります。しかし、これは学際的な問題でもあるため、学際的な声も必要です。私が言及したように、これは社会技術的、あるいは環境社会技術的な技術だからです。ですから、標準化機関間で協力する際、また学際的な対話を行う際には、議論の場に誰を集めるかを考える必要があります。
この新しい時代に入るにあたって、技術的な人々だけでなく、法律や人権の専門家も必要です。そしてもちろん、AI分野の技術者、この世界の社会学者や心理学者も必要なのです。法律と人権の専門家が必要な理由は明確です。エンボディードAIは、プライバシー、尊厳、自律性、非差別といった基本的人権に直接的な影響を与えます。法的枠組みがなければ、技術的に優れたシステムでも、人権を侵害するリスクがあります。人権専門家は、標準が国際人権法や各国の法制度と整合性を持つことを保証する役割を果たします。
AI技術者の参加は当然必要ですが、彼らだけでは不十分です。技術者は何が技術的に可能かを知っていますが、何が社会的に望ましいか、倫理的に許容可能かについては、他の専門家の視点が必要です。社会学者は、エンボディードAIが社会構造、人間関係、コミュニティのダイナミクスにどのような影響を与えるかを理解する助けとなります。心理学者は、人間とロボットの相互作用が認知、感情、行動に及ぼす影響を評価できます。
特に、Selma先生のような人間ロボットインタラクションの専門家や、Patricia先生が言及された共感のエミュレーションの専門家であるAndy McStay教授のような方々の知見は不可欠です。彼らは、技術的な仕様書には現れない、人間の経験の質的側面を理解しています。
環境専門家も重要なステークホルダーです。エンボディードAIシステムの製造、運用、廃棄は、環境に大きな影響を与えます。ロボットハードウェアの製造には希少資源が必要であり、大量の電力を消費し、電子廃棄物を生成します。環境社会技術的標準を策定するためには、ライフサイクル全体での環境影響を評価し、持続可能性を確保する専門知識が必要です。
そして、新興企業と成熟企業の両方を含めることが重要です。大企業は豊富なリソースと実装経験を持っていますが、時として既存のビジネスモデルや技術アーキテクチャに固執する傾向があります。一方、スタートアップは革新的なアプローチと柔軟性を持っていますが、規模やリソースの面で制約があります。両者の視点を統合することで、実用的でありながら革新的な標準を開発できます。
Abishek: その点について一言追加させてください。ここにいる尊敬すべきパネリストの方々と話をして、皆さんがどのように取り組んでいるかを知り、多くのことを学びました。そして、これらの標準化は今後実現されていくだろうと認識しています。そして、相互運用性と標準化は、すべての組織に大きな価値を加えると思います。
私はロボティクスの側から話しますが、それが私たちの仕事だからです。しかし、相互運用性と標準化、そしてあなたが話しているようなフレームワークがあれば、すべての組織がビジネスを促進できる地点に到達できますし、ロボティクス全般も促進されます。標準化、相互運用性、フレームワークがあれば、すべての組織を、作成している機器のコモディティ化が始まる地点まで導くことができます。なぜなら、より良いガバナンス、より良い法律、システムへのよりスムーズさと効率性がもたらされ、それがコンポーネントやパーツのコストを下げることになるからです。これはすべての人にとって有益だと思います。ですから、何らかの形での標準化、相互運用性、フレームワークは絶対に不可欠であり、将来に向けて進むにつれて、さらに多くのものが出てくると信じています。
Abishek先生の指摘は、マルチステークホルダーアプローチの実務的な価値を示しています。異なる背景と専門性を持つステークホルダーが協力することで、技術的に健全で、倫理的に責任があり、ビジネス的に実行可能で、社会的に有益な標準を開発できるのです。これこそが、エンボディードAIの持続可能な発展に必要なアプローチなのです。
4.3 ユーザーコミュニティとの対話
Selma: 簡単にコメントさせていただきます。潜在的なユーザーのコミュニティに本当に手を伸ばすことも重要です。それも非常に広く、典型的な地理的、社会人口学的、年齢に関連する種類のグループを超えてです。今年ここで若者側を見ることができたのは本当に非常に刺激的でしたし、これらのシステムの現実的な能力と制約について、はるかに広範な人々やコミュニティと話す方法を持つことは、今後本当に重要になると思います。
Selma先生の指摘は、標準化プロセスにおいて見落とされがちな、しかし極めて重要な側面を浮き彫りにしています。エンボディードAIの標準を開発する際、技術者、規制当局、企業だけが議論に参加するのでは不十分です。実際にこれらのシステムを使用する人々、つまりエンドユーザーの声を聞く必要があるのです。
地理的多様性は特に重要です。先進国の都市部の視点だけでなく、農村地域、途上国、異なる文化的文脈におけるニーズと懸念を理解する必要があります。Selma先生が以前指摘したように、最もロボットを必要としている場所が、必ずしもインフラが整っている場所ではありません。これらのコミュニティの声を聞かなければ、彼らのニーズに応える標準を作ることはできません。
社会人口学的多様性も同様に重要です。性別、人種、民族、社会経済的地位、教育レベルなど、多様なバックグラウンドを持つ人々が、ロボットとどのように相互作用するか、どのような期待を持つか、どのような懸念を抱くかは異なります。Patricia先生が指摘されたジェンダーバイアスの問題は、多様なユーザーの視点なしには発見も解決もできません。
年齢的多様性については、今年のAI for Goodサミットでの若者の参画が素晴らしい例です。若い世代は、エンボディードAIとともに成長する世代です。彼らの視点、懸念、期待は、長期的な標準策定において不可欠です。同時に、高齢者の視点も重要です。彼らはエンボディードAIの主要な受益者の一つとなる可能性がありますが、技術に対する不安や特有のニーズを持っています。
子供たちとの対話は特に重要です。なぜなら、Moxyの事例が示すように、子供たちはロボットとの相互作用に対して大人とは異なる心理的反応を示すからです。子供の権利の専門家であるAnsgar Kernerのような方々の参加は、子供たちを保護しながら、彼らが技術から恩恵を受けられるようにするために不可欠です。
システムの現実的な能力と制約について、広範なコミュニティと対話することも重要です。多くの場合、エンボディードAIに対する期待は、メディアやSF作品の影響で過度に高くなっています。一方で、技術に対する恐怖や不信も存在します。ユーザーコミュニティとの継続的な対話を通じて、現実的な期待を形成し、実際のニーズに基づいた標準を開発し、そして信頼を構築することができます。
この対話は一方向的なものであってはなりません。専門家がユーザーに教育するだけでなく、ユーザーから学ぶ姿勢が必要です。実際の使用文脈での経験、予期しない使用方法、現場での問題点など、ユーザーコミュニティは標準化に不可欠な知識を持っているのです。今後、標準化プロセスにおいて、多様なユーザーコミュニティとの体系的で継続的な対話を制度化することが、効果的で受け入れられる標準を開発する鍵となります。
4.4 標準化作業と事前標準化作業の並行実施
Kaiwei: 標準化作業と並行して、事前標準化作業を行う必要があると思います。Study Group 21で行っている標準についての議論と並行して、この種の議論を継続することを提案します。
より包括的に、事前標準化の議論を行う必要があります。標準化作業はメンバーベースです。Guiam先生が言われたように、私たちはより広範なコミュニティに門戸を開く必要があります。なぜなら、標準化作業はメンバーベースであり、より広範なコミュニティを関与させるために、より開かれた方法で事前標準化の議論を行う必要があるからです。
事前標準化作業の重要性は、正式な標準化プロセスの限界を補完する点にあります。正式な標準化は、ITUのメンバー国や組織が参加する構造化されたプロセスです。これには明確な手順、投票メカニズム、そして法的拘束力があります。しかし、このプロセスは必然的にある程度排他的であり、時間がかかります。すべてのステークホルダー、特に市民社会、学術界、小規模企業、途上国などが、正式なメンバーシップを通じて参加できるわけではありません。
事前標準化のフォーカスグループは、この問題を解決します。フォーカスグループはよりオープンで、参加障壁が低く、より迅速に議論を進めることができます。ここでは、まだ成熟していないアイデアを提案し、議論し、改善することができます。失敗を恐れずに実験的なアプローチを試すことができます。そして、多様な視点からのインプットを収集し、どの課題が最も緊急で重要かを特定することができます。
Kaiwei: 私たちが必要とするのは、より密接に、よりオープンに、そのような事前標準化の議論を行うことです。標準化作業の最後のTACミーティングで、実際CICは、TAC管理チームにフォーカスグループを設置することを提案する貢献を持ち込みました。このようなより密接でよりオープンな事前標準化の議論を行うためです。
優先課題の特定は、事前標準化作業の核心的な機能です。エンボディードAIの領域は広大であり、すべての課題に同時に取り組むことは不可能です。フォーカスグループでの議論を通じて、どの種類の課題に標準を整備する必要があるか、どの技術的ギャップが最も緊急か、どの応用分野が最も成熟しているかを特定できます。この優先順位付けにより、限られたリソースを最も影響力のある領域に集中させることができます。
そして、事前標準化作業の成果は、正式な標準化トラックへの助言と推奨として提供されます。フォーカスグループは、標準を作成する権限を持っていませんが、何を標準化すべきか、どのようなアプローチが有望か、どのような落とし穴を避けるべきかについて、貴重な洞察を提供できます。これにより、正式な標準化プロセスがより焦点を絞られ、効率的になり、実際のニーズに基づいたものになります。
Kaiwei: 将来的には、このようなワークショップをAI for Goodの名のもとに、オンラインまたは対面で継続できると思います。この事前標準化の包括的な議論をより具体的に継続するためです。私はNoah議長と、10月の次回Study Group 21ミーティングと併催でワークショップを開催することについて議論しています。
もしそれが決定されれば、私はすべてのパネリスト、そしてすべての聴衆の皆さんを、将来的にこの種の協力を継続するために参加していただくことを非常に歓迎します。この並行アプローチ、つまり正式な標準化作業と事前標準化の議論を同時に進めることで、包括性とスピードのバランスを取ることができます。正式なプロセスは厳密さと正統性を提供し、事前標準化は柔軟性と広範な参加を提供します。両者が相互に補完し合うことで、エンボディードAIの標準化を効果的に前進させることができるのです。
4.5 継続的な協力の場
Kaiwei: 将来的には、このようなワークショップをAI for Goodの名のもとに、オンラインまたは対面で継続できると思います。この事前標準化の包括的な議論をより具体的に継続するためです。私はNoah議長と、10月の次回Study Group 21ミーティングと併催でワークショップを開催することについて議論しています。
もしそれが決定されれば、私はすべてのパネリスト、そしてすべての聴衆の皆さんを、将来的にこの種の協力を継続するために参加していただくことを非常に歓迎します。
AI for Goodは、継続的な対話のための理想的なプラットフォームを提供します。このサミットは年次イベントですが、オンラインでのワークショップやウェビナーを通じて、年間を通じて議論を維持することができます。オンライン形式の利点は、地理的制約を取り除き、より多くの参加者、特に旅費の制約がある途上国や小規模組織からの参加者を含めることができる点です。一方、対面での会議は、より深い議論、非公式なネットワーキング、そして信頼関係の構築を可能にします。
Noah: 標準化を成功させるためには、非常に優れた協力と、異なる組織、異なる実体間の調整に依存しなければなりません。私は人々に、エンボディード・インテリジェンスの標準化が純粋に技術的なものであるという印象を与えたくありません。実際、私たちには非技術的な側面に専念する多くの作業があります。
それは実際、物理的実体と、その環境との知能エージェントとの相互作用に関するものです。ですから、人間が環境とどのように相互作用し、エンボディード・インテリジェンスを展開する際に人間の利益、安全、福祉をどのように守るかを、人間から学ばなければなりません。この意味で、三つの大きな組織、標準を作る三つの大きな組織間の調整が第一歩だと考えます。しかし、視野を広げる必要もあります。他の組織、例えばWHOなどにも手を伸ばす必要があります。私たちの技術が、援助を必要とする何百万人、何億人もの人々、日常生活の中の人々、職場の人々などにどのように恩恵をもたらすかを知る必要があります。
ITU-T Study Group 21のミーティングとワークショップを併催する提案は、戦略的に重要です。Study Group 21は、エンボディード・インテリジェンスに関連するマルチメディアと多モーダルコミュニケーションの技術標準を開発する主要な場です。このミーティングと併せてワークショップを開催することで、正式な標準化作業と事前標準化の議論を直接結びつけることができます。ワークショップでの議論から得られた洞察は、即座に標準化作業に反映され、逆に標準化作業での技術的課題は、ワークショップでのより広範な議論の議題となります。
2025年10月の提案は、具体的なマイルストーンを設定するものです。これにより、参加者は準備する時間を持ち、貢献を計画し、資金を確保することができます。また、このタイムラインは、2026年のAI for Goodサミットに向けて、具体的な進捗を示すことも可能にします。
Abishek: 最後にコメントさせていただきます。ここにいる尊敬すべきパネリストの方々がすでに素晴らしい提案をされたと思います。私が追加したいのは、新興企業や成熟企業も同様に招待していただきたいということです。なぜなら、ある意味で彼らも専門家だからです。ITU、世界のISOといった行政組織とは別に、公共の代表が必要です。そして、これらはAIとロボティクスに関して実際にゲームを変えている人々なのです。
Abishek先生の指摘は極めて重要です。このサミットには60以上のロボティクス関連企業が参加し、100以上の最先端のデモを展示しています。これらの企業は、単なる技術提供者ではなく、実際の現場での課題、ユーザーのニーズ、実装上の制約について深い知識を持つ専門家です。彼らとの継続的な対話なしには、実用的で採用可能な標準を開発することは不可能です。
継続的な協力の場を確立することで、標準化は一度限りのイベントではなく、進化するプロセスとなります。技術が進歩し、新しい使用事例が出現し、新しい課題が明らかになるにつれて、標準も適応し、更新される必要があります。AI for Goodワークショップ、Study Group 21ミーティング、そして企業との対話を組み合わせた継続的なエコシステムにより、この進化的なプロセスを支える強固な基盤が構築されるのです。
5. 特定のユースケースと実装事例
5.1 Open Droid Robotics社の経験
モデレーター: Abishek先生、あなたの会社はエンボディードシステムを展開しており、この会議でも実演されていましたね。あなたの経験から、直面している最大の技術的課題やインフラストラクチャの障壁は何でしょうか。
Abishek: ありがとうございます、Guiam。私たちが観察し始め、非常に強く意識していることの一つについてお話しします。私たちOpen Droidsは、オープンソースのロボティクス企業です。私たちはシングルアームロボットとデュアルアームロボットを開発してきました。そして、ロボティクスのエンボディード側面を非常に強く意識しています。
オープンソースアプローチを採用していることは、私たちの戦略の核心です。これにより、より広範な開発者コミュニティが私たちのロボットプラットフォームに貢献し、改善し、適応させることができます。オープンソースモデルは、透明性、協力、そしてイノベーションの加速を促進します。ハードウェア設計からソフトウェアスタックまで、私たちのシステムの多くの側面がオープンであり、研究者や開発者がアクセスできます。
シングルアームとデュアルアームの両方のロボットを開発していることも重要な選択です。シングルアームロボットは、ピックアンドプレース、機械操作、検査といった多くの産業用途に適しています。しかし、より複雑なタスク、例えば組み立て作業、両手を必要とする操作、または人間の作業を模倣する必要がある場合には、デュアルアームロボットが必要になります。両方のプラットフォームを持つことで、より広範な使用事例に対応できます。
私は実践的な側面からお話しします。私たちはVRとテレオペレーション(遠隔操作)を活用しています。これが重要な理由は、将来的にロボットの無監視機能を実現するための重要な方法だからです。なぜなら、VRとテレオペレーションを通じて大規模にデータを集約し収集できるようになるからです。
この戦略は、エンボディードAIの根本的な課題の一つ、つまりトレーニングデータの取得に対する私たちの解決策です。自律的なロボットを開発するには、膨大な量のデモンストレーションデータが必要です。従来のアプローチでは、エンジニアがロボットを直接プログラムするか、限られた数のデモンストレーションから学習させます。しかし、これでは十分なデータを収集できず、スケールしません。
VRとテレオペレーションを使用することで、人間のオペレーターがリモートからロボットを制御し、様々なタスクを実行できます。オペレーターはVRヘッドセットを装着し、あたかもロボットの位置にいるかのように環境を見ることができます。彼らの手の動きは、ロボットアームの動きに変換されます。この過程で、すべての動作、すべてのセンサー読み取り、すべての環境との相互作用が記録されます。
このアプローチにより、複数のオペレーターが並行して作業し、異なる場所、異なる時間帯に、大量のデータを生成できます。さらに重要なのは、このデータが実際の人間の専門知識を捕捉していることです。熟練した作業者がタスクをどのように実行するか、予期しない状況にどのように対応するか、といった暗黙知がデータに埋め込まれています。
一度十分なデータを収集すれば、機械学習アルゴリズムを使用してこれらのデモンストレーションから学習し、最終的にはロボットが人間の介入なしに自律的にタスクを実行できるようになります。これが無監視機能への道筋です。しかし、この戦略を実現するには、先ほど述べた通信インフラストラクチャの課題、特に遅延と帯域幅の問題を克服する必要があるのです。
5.2 Unit3 Robotics社の経験
モデレーター: Yuki先生、あなたの領域でロボットを展開する経験から、これらの懸念はどのように影響していますか。
Yuki: 実際、私たちには多くの懸念があります。なぜなら、私の焦点市場はここスイス、ヨーロッパの中心に位置しているからです。ご存知のように、ヨーロッパは規制で有名です。ですから実際、ロボットを安全に展開する方法について多くの懸念を抱えています。
スイスと欧州市場は、世界で最も規制が厳格な市場の一つです。これは一方では課題ですが、他方では機会でもあります。もし私たちがヨーロッパの厳格な基準を満たすことができれば、世界中のどこでも展開できる可能性が高いからです。しかし、その基準に到達することは容易ではありません。製品安全、データ保護、AI規制、労働安全など、複数の規制フレームワークを同時に満たす必要があります。
先ほど言及されたように、規制は後からやってくるものです。現時点では、私たちはイノベーションセンターとのプロトタイプにより焦点を当てており、信頼できるソリューションを共同開発しています。
イノベーションセンターとの協力は、私たちの戦略の重要な要素です。これらのセンターは、大学、研究機関、産業パートナーの間の橋渡しをします。管理された環境で、実際の使用事例に近い条件下で、プロトタイプをテストできます。ここでは、失敗しても深刻な結果を招くことなく、学習し、改善することができます。さらに重要なのは、エンドユーザーの代表者、例えば医療専門家、物流管理者、製造エンジニアなどと協力し、彼らの実際のニーズと制約を理解できることです。
「信頼できるソリューション」という言葉は意図的です。ヨーロッパ市場では、技術的に機能するだけでは不十分です。システムは信頼できなければなりません。つまり、安全で、信頼性があり、透明で、説明可能で、そして人間の価値観と権利を尊重するものでなければなりません。これがEU AI法が求める「信頼できるAI」の概念です。イノベーションセンターでの共同開発を通じて、技術的な優秀さと倫理的責任の両方を組み込もうとしています。
現在、私たちはより研究室での研究段階にあります。そして、それを産業のシナリオに持ち込もうとしているところです。しかし、そこにはまだ多くの障害があります。なぜなら、ヨーロッパ市場へのCE適合性が、ほとんどの製造業者にとって準備できていないからです。
研究室段階では、概念実証を行い、技術的な実現可能性を示し、基本的な機能を検証します。しかし、産業実装は全く異なるレベルの要求を伴います。24時間連続稼働、予測不可能な環境条件、多様なユーザー、長期的な保守性などです。研究室で完璧に動作するシステムが、実際の産業環境では失敗することは珍しくありません。
CE適合性の問題は、単なる認証取得の問題ではありません。これは、設計段階から安全性、信頼性、相互運用性を組み込むことを意味します。多くのロボティクス製造業者、特にスタートアップや中小企業は、この複雑な規制環境をナビゲートするための専門知識やリソースを持っていません。規制要件は絶えず進化しており、特にAIコンポーネントを含むシステムについては、まだ明確になっていない部分も多くあります。
私が言いたいのは、これは段階的戦略だということです。ロボットが産業のあらゆるシナリオ、さらには家庭用途にまで入っていくのを実際に目にするまでには、まだ時間がかかります。
私たちは焦ってはいません。急いで市場に出すよりも、正しく行うことが重要です。最初の段階では、イノベーションセンターでの限定的な展開により、実際の条件下でシステムを検証します。次に、特定の産業環境、例えば製造施設や物流センターでの試験的展開を行います。これらの環境は比較的管理されており、専門的なオペレーターがいます。
そして、十分な経験と信頼性の実証ができて初めて、より一般的な環境、例えば病院、学校、公共スペース、そして最終的には家庭への展開を考えます。家庭用途は最も要求が厳しく、最も予測不可能で、最も多様なユーザーを持ちます。したがって、これは最後の段階となります。
この段階的アプローチは時間がかかりますが、安全性、信頼性、そして最終的には公衆の信頼を確保するためには不可欠です。早期の失敗や事故は、業界全体に対する信頼を損ない、規制をさらに厳格化させ、イノベーションを阻害する可能性があります。ですから、慎重に、体系的に進めることが、長期的には最も賢明な戦略なのです。
5.3 自律配送車両の相互作用
モデレーター: ITU-Tでは自律配送車両、例えば都市環境に展開された際に互いにどのように相互作用するかといった作業が行われていますね。この種の標準の状況はどうなっていますか。ロボットを都市空間に展開する際、ロボット同士がどのように相互作用できるかについて、すでに整備されているフレームワークはありますか。このような標準のセットはありますか。どなたかこの質問に答えていただけますか。
Abishek: 個人的には、現時点で特定のフレームワークが整備されているとは知りませんし、これは進行中の作業だと思います。私はこの尊敬すべきパネリストの方々と話をして、皆さんがどのように取り組んでいるかを知り、多くのことを学びました。そして、これらの標準化は今後実現されていくだろうと認識しています。
都市環境での自律配送車両の展開は、エンボディードAIの最も目に見える応用例の一つですが、同時に最も複雑な課題の一つでもあります。歩行者、自転車、自動車、他のロボットなど、多様な動的主体が共存する空間で、安全かつ効率的に動作する必要があります。そして現時点では、これらのロボット同士がどのように相互作用し、調整すべきかについての標準化されたフレームワークは存在しないのです。
例えば、二台の配送ロボットが狭い歩道で向かい合った場合、どちらが道を譲るべきでしょうか。複数のロボットが同じ建物の入口に同時に到着した場合、どのように順序を調整するでしょうか。異なる製造業者のロボットが同じエリアで動作している場合、互いの存在を認識し、衝突を回避できるでしょうか。これらは単純に見える問題ですが、標準化されたプロトコルがなければ、各ロボットは独自のロジックで動作し、予測不可能で危険な状況が生じる可能性があります。
相互運用性と標準化は、すべての組織に大きな価値を加えると思います。私はロボティクスの側から話しますが、それが私たちの仕事だからです。しかし、相互運用性と標準化、そしてあなたが話しているようなフレームワークがあれば、すべての組織がビジネスを促進できる地点に到達できますし、ロボティクス全般も促進されます。
相互運用性の価値は、単に技術的な互換性だけではありません。これはビジネスモデルそのものを変革します。現在、各企業は閉じたエコシステムを構築しており、自社のロボット、自社のソフトウェア、自社のインフラストラクチャが必要です。顧客は特定のベンダーにロックインされ、切り替えコストが高くなります。
しかし、標準化された相互運用性があれば、状況は変わります。顧客は異なる製造業者からベストオブブリードのコンポーネントを選択できます。ある会社のハードウェアと別の会社のナビゲーションソフトウェアを組み合わせることができます。ロボットは異なるベンダーのインフラストラクチャ、例えば充電ステーション、データネットワーク、管理システムを利用できます。
標準化、相互運用性、フレームワークがあれば、すべての組織を、作成している機器のコモディティ化が始まる地点まで導くことができます。なぜなら、より良いガバナンス、より良い法律、システムへのよりスムーズさと効率性がもたらされ、それがコンポーネントやパーツのコストを下げることになるからです。これはすべての人にとって有益だと思います。
コモディティ化という言葉は、ビジネスの観点からはネガティブに聞こえるかもしれませんが、実際には市場の成熟と成長を示します。PC市場を考えてみてください。標準化されたコンポーネント、相互運用可能なインターフェース、明確な仕様があることで、市場は爆発的に成長し、コストは劇的に下がり、イノベーションは加速しました。
ロボティクスにおいても同様のことが起こり得ます。標準化により、サプライチェーンが効率化され、大量生産が可能になり、品質管理が改善されます。コンポーネントメーカーは、特定の標準に準拠すれば広範な市場にアクセスできることを知り、投資を行います。競争は価格だけでなく、品質、性能、サービスにシフトします。
そして最も重要なのは、参入障壁が下がることです。現在、ロボティクス業界に参入するには、ハードウェアからソフトウェア、インフラストラクチャまですべてを一から開発する必要があります。しかし標準化されたエコシステムでは、新しい企業は特定のコンポーネントや応用に特化し、既存の標準インフラストラクチャを活用できます。これにより、イノベーションが民主化され、より多様なプレイヤーが市場に参入できるようになるのです。
ですから、何らかの形での標準化、相互運用性、フレームワークは絶対に不可欠であり、将来に向けて進むにつれて、さらに多くのものが出てくると信じています。これは単なる技術的な課題ではなく、産業全体の持続可能な成長のための戦略的必須事項なのです。
5.4 技術ネットワークとしての統合
Selma: 言及されているのは、異なる自律車両や異なるロボット同士の相互作用の可能性ですが、私が考えるのは、それらが私たちが持っている他の種類の技術とどのように相互作用するかという問題でもあります。研究では、ロボットが何らかの形でスマートウォッチや携帯電話、あるいは環境内の他の何かと通信し、それらのものが一緒にデータを収集するといったことを行います。
研究環境では、この種の統合は非常に一般的です。例えば、高齢者支援のプロジェクトでは、ロボットが単独で機能するのではなく、ウェアラブルデバイス、環境センサー、スマートホームシステムと連携します。ウェアラブルデバイスは心拍数、活動レベル、睡眠パターンを追跡します。環境センサーは部屋の温度、照明、空気質を監視します。スマートホームシステムはドアロック、照明、家電を制御します。ロボットはこれらすべての情報源からデータを統合し、より包括的な状況認識を持ち、より適切な支援を提供できます。
医療応用では、ロボットがスマートフォンアプリと連携して、患者が自分の健康データを確認したり、ロボットに指示を与えたり、医療提供者とコミュニケーションを取ったりできます。リハビリテーションロボットは、ウェアラブルセンサーからの生体力学データを使用して、エクササイズを個別化し、進捗を追跡します。これらの技術が連携することで、単独のデバイスでは不可能な新しい可能性が開かれます。
ですから、これらのロボットやエンボディード・インテリジェンスシステムを、私たちが作業している技術と社会技術システムのより大きなネットワークの一部として考える必要があると思います。
この視点は極めて重要です。なぜなら、ロボットを孤立したデバイスとして見るのではなく、より広範なエコシステムの一部として見ることを求めているからです。このエコシステムには、物理的なデバイスだけでなく、データインフラストラクチャ、通信ネットワーク、クラウドサービス、そして人間のユーザーとコミュニティも含まれます。
社会技術システムという概念は、技術と社会の相互作用を強調します。技術は真空中に存在するのではなく、社会的文脈の中に埋め込まれており、その文脈によって形作られ、同時にその文脈を形作ります。エンボディードAIは、人々の生活様式、仕事の仕方、相互作用の仕方を変える可能性があります。逆に、社会的規範、文化的価値観、法的枠組みは、これらの技術がどのように開発され、展開され、使用されるかを形作ります。
標準化の観点から見ると、この統合的視点は新しい課題を提起します。エンボディードAIの標準だけでなく、それらが他の技術とどのように相互作用するかについての標準も必要です。データフォーマット、通信プロトコル、APIの互換性、セキュリティメカニズムなどが、異なる技術プラットフォーム間で調和している必要があります。
さらに、プライバシーとセキュリティの問題は、複数のデバイスが相互接続される場合、より複雑になります。一つのデバイスのセキュリティ侵害が、ネットワーク全体を危険にさらす可能性があります。データが複数のシステム間で流れる場合、誰がそのデータを所有し、誰がアクセスでき、どのように使用されるかについての明確なガバナンスが必要です。
おそらく、これはまだ十分に掘り下げられていない部分だと思います。私たちはまだ、エンボディードAIを単独のシステムとして標準化することに焦点を当てています。しかし、実際の展開では、これらのシステムは決して単独では動作しません。それらは常に、他の技術、インフラストラクチャ、そして人間の活動の複雑なネットワークの一部なのです。この統合的な視点を標準化作業に組み込むことが、次の重要なステップとなるでしょう。
6. 将来展望と次のステップ
6.1 2026年への展望
モデレーター: 将来の協力という観点から、次は何でしょうか。安全性、相互運用性、システム統合のための国際標準を作成するには何が必要でしょうか。そして、どのように協力できるでしょうか。もしこの瞬間のスクリーンショットを撮って、2026年の次回サミットに移動したら、標準化と将来の協力の観点から、来年何が変わるでしょうか。
Noah: 標準化を成功させるためには、非常に優れた協力と、異なる組織、異なる実体間の調整に依存しなければなりません。素晴らしいニュースは、エンボディード・インテリジェンスのための最初のフレームワークがすでに進行中だということです。おそらく1年、または1年半でリリースできることを期待しています。
この具体的なタイムラインは重要です。2025年1月にStudy Group 21で開始された「エンボディード人工知能システムの要件とフレームワーク」の作業項目が、2026年から2026年半ばまでに最初の成果を出すことが見込まれています。これは、次回のAI for Goodサミットまでに、具体的な標準文書を提示できる可能性を意味します。
この最初のフレームワークは、知覚、意思決定、実行・相互作用、安全性という四つの主要領域をカバーします。これらは、Kaiwei先生が説明した技術的ギャップの多くに対処することを目指しています。しかし、これはあくまで出発点であり、完全な解決策ではありません。エンボディードAI技術は急速に進化しており、標準もそれに追従して進化する必要があります。
しかし同時に、私たちは業界、一般の人々に、私たちの作業への支援と関心を示していただきたいと本当に思っています。そうすれば、より多くのインプットを収集でき、コンサルティング会社も開発プロセス中に常にガイダンスを提供できます。私たちは何かを達成したいと考えています。
標準化プロセスは本質的に反復的です。最初のドラフトが完成しても、それは終わりではなく始まりです。業界からのフィードバック、実装経験、新しい技術開発、そして規制環境の変化に応じて、標準は継続的に改訂され、更新されます。したがって、2026年のサミットは、最初のフレームワークの完成を祝うだけでなく、次の段階の作業を計画する場となるでしょう。
中国のことわざにあるように、自分がどれほど重要だと思っても、実際には大きな海の一滴に過ぎません。各組織には強みがありますが、弱みもあります。標準化の枠組み内での協力、統合、そして低レベルでの調整は、何かを達成するために絶対に必要不可欠です。
この謙虚さと協力の精神は、国際標準化の成功にとって不可欠です。ITU、ISO、IEC、IEEEなど、どの組織も単独ですべてを行うことはできません。それぞれが特定の専門分野を持ち、特定のコミュニティとのつながりを持っています。これらの強みを組み合わせ、重複を避け、相互に補完することで、より強固で包括的な標準エコシステムを構築できます。
2026年への道筋は明確です。2025年10月にはStudy Group 21との併催ワークショップが予定されており、そこでより広範なコミュニティからのインプットを収集します。その後、継続的なオンライン対話とウェビナーを通じて、進捗を共有し、フィードバックを求めます。そして2026年のサミットでは、最初のフレームワークの成果を提示し、次の優先事項を定義し、より多くのステークホルダーを巻き込んでいきます。
しかし最も重要なのは、この1年間で構築される協力関係そのものです。技術標準以上に、信頼関係、共通理解、そして共有されたビジョンが、長期的なエンボディードAIエコシステムの基盤となるのです。2026年のサミットでは、単に紙の上の標準だけでなく、活発に機能するグローバルコミュニティを見ることができるでしょう。それこそが、真の進歩の証となるのです。
6.2 エージェント間通信の課題
モデレーター: 聴衆から質問を受け付けたいと思います。1つか2つ、最大で。前列の方、どうぞ。
Terry Jansen(聴衆): ありがとうございます。素晴らしいプレゼンテーションとパネルでした。私はTerry Jansen、フロリダのAI for Good非営利団体の者です。近い将来に数十億のエージェントが動作するという話を聞いています。そして、データにアクセスするためのモデルコンテキストプロトコルのようなエージェント間通信のための標準がいくつか出てきています。エージェント間対話のためのプロトコルも必要になるでしょう。
数十億のエージェントという規模は、誇張ではなく、真剣に検討すべき将来のシナリオです。現在、世界には数十億のスマートフォン、数百億のIoTデバイスがあります。エンボディードAIが成熟すれば、配送ロボット、清掃ロボット、監視ドローン、自律車両、産業用ロボット、個人アシスタントロボットなど、膨大な数のエージェントが展開されるでしょう。これらすべてが、何らかの形で互いに、そして中央システムと通信する必要があります。
モデルコンテキストプロトコルは、AIエージェントがデータソースにアクセスする方法を標準化する新しい取り組みです。これにより、エージェントは異なるデータベース、ファイルシステム、APIから一貫した方法で情報を取得できます。これは重要な第一歩ですが、データアクセスだけでは不十分です。エージェント同士が直接対話し、調整し、協力する必要もあります。
そして問題が出てきます。これらのエージェントの一部は善良なアクターであり、一部は悪意のあるアクターになるでしょう。ですから、信頼性と信頼を確立し、評判を管理する手段が必要になります。そして、これらの数十億のエージェントが相互運用性において使用できる、信頼できる信頼性の高いアーキテクチャのための参照アーキテクチャが必要です。
これは深刻なセキュリティとガバナンスの課題を提起します。人間同士のコミュニケーションでは、私たちは文脈的手がかり、評判、社会的規範を使って相手を信頼するかどうかを判断します。しかし、エージェント間の通信では、これらの判断をアルゴリズム的に行う必要があります。どのエージェントが信頼できるのか、どのエージェントが正当な権限を持っているのか、どのエージェントが侵害されているのかをどのように判断するのでしょうか。
彼らはナノ秒の速度で通信します。ですから、私はこの点をパネルに紹介し、皆さんの考えを聞きたいと思いました。
通信速度の問題は重要です。エージェントが人間の介入なしにナノ秒単位で相互作用する場合、悪意のある行動は人間が気づく前に大規模な損害を引き起こす可能性があります。2010年のフラッシュクラッシュでは、自動取引アルゴリズムが数分で株式市場を崩壊させました。数十億の物理的エージェントが同様の速度で動作すれば、結果は金融的損失だけでなく、物理的な危険も伴う可能性があります。
Kaiwei: あなたの質問は非常に良いものです。実際、私たちは今朝、別の部屋でAIの安全性とセキュリティについてこのトピックを議論しました。このワークショップで提案したアイデアについては、エージェントのためのこのようなクレジット(信用)を作成することです。単一のエージェントの信頼性のレベルを評価するためです。
なぜなら、将来的にはすべてのエージェントがアイデンティティを持ち、また、この種のクレジットをそのアイデンティティに結び付けることができるからです。そして、その悪いアクター、良いアクターの信頼性のレベルをスコア化するために、いくつかのメタデータを追加できます。もしそのエージェントが非常に強力な基盤モデルに基づいている場合、それはより高い信頼係数を持つことができます。例えばです。ですから、将来のために単一のエージェントの信頼のレベルを評価するフレームワークを設定できるかもしれません。
このアプローチは、人間社会の信用スコアシステムに似ています。しかし、エージェントの場合、評価はより体系的で客観的に行えます。エージェントの行動履歴、使用している基盤モデルの品質、開発者の評判、過去のエラー率、セキュリティ監査の結果などを総合的に評価し、信頼スコアを算出します。
非常に強力な基盤モデルに基づいているという点は重要です。OpenAIのGPT-4、AnthropicのClaude、あるいは他の主要な研究機関が開発した大規模モデルは、広範なテストと安全性研究を経ています。これらのモデルを使用するエージェントは、出所不明なモデルを使用するエージェントよりも高い初期信頼度を得られるでしょう。
しかし、静的な信頼スコアだけでは不十分です。エージェントの行動を継続的に監視し、異常な行動パターン、予期しない相互作用、潜在的なセキュリティ侵害の兆候を検出する必要があります。信頼スコアは動的であり、エージェントの実際の行動に基づいて上下すべきです。
メタデータの重要性も強調されています。エージェントは、自分の能力、制約、目的、使用しているモデル、最終更新日時などの情報を他のエージェントと共有する必要があります。この透明性により、他のエージェントは適切な判断を下すことができます。
参照アーキテクチャの概念も重要です。すべての製造業者が独自のアーキテクチャを開発するのではなく、セキュリティ、プライバシー、相互運用性のベストプラクティスを組み込んだ標準的な参照設計を提供すべきです。これにより、新規参入者も信頼できるシステムを構築でき、全体的なエコシステムの安全性が向上します。
この課題は、単一の組織や標準化機関だけでは解決できません。ITU、ISO、IEEE、そしてセキュリティとAIの専門機関が協力して、包括的なエージェント間通信のフレームワークを開発する必要があります。そして、その開発には、サイバーセキュリティ専門家、AI研究者、倫理学者、法律専門家、そして実際にこれらのシステムを展開する企業の参加が不可欠です。数十億のエージェントが安全に共存する未来を実現するためには、今から基盤を築く必要があるのです。
6.3 信頼性と評価の仕組み
Terry Jansen: そして問題が出てきます。これらのエージェントの一部は善良なアクターであり、一部は悪意のあるアクターになるでしょう。ですから、信頼性と信頼を確立し、評判を管理する手段が必要になります。そして、これらの数十億のエージェントが相互運用性において使用できる、信頼できる信頼性の高いアーキテクチャのための参照アーキテクチャが必要です。彼らはナノ秒の速度で通信します。ですから、私はこの点をパネルに紹介し、皆さんの考えを聞きたいと思いました。
Kaiwei: あなたの質問は非常に良いものです。実際、私たちは今朝、別の部屋でAIの安全性とセキュリティについてこのトピックを議論しました。このワークショップで提案したアイデアについては、エージェントのためのこのようなクレジット(信用)を作成することです。単一のエージェントの信頼性のレベルを評価するためです。
エージェントの信頼性評価フレームワークの概念は、数十億のエージェントが相互作用する未来において不可欠です。人間社会では、評判、過去の行動、社会的推薦などを通じて信頼を構築します。エージェント社会においても、同様のメカニズムが必要ですが、それは自動化され、検証可能で、改ざん困難なものでなければなりません。
なぜなら、将来的にはすべてのエージェントがアイデンティティを持つからです。そして、この種のクレジットをそのアイデンティティに結び付けることができます。そして、その悪いアクター、良いアクターの信頼性のレベルをスコア化するために、いくつかのメタデータを追加できます。
アイデンティティの確立は第一歩です。各エージェントは、一意で検証可能なデジタルアイデンティティを持つ必要があります。これは、暗号学的手法、例えば公開鍵インフラストラクチャ(PKI)やブロックチェーン技術を使用して実装できます。エージェントのアイデンティティには、製造業者、モデル、シリアル番号、初期認証日時などの基本情報が含まれます。
このアイデンティティに信用スコアを紐付けることで、各エージェントの信頼性を定量化できます。この信用スコアは、複数の要素に基づいて計算されます。まず、エージェントの行動履歴です。過去にどれだけのタスクを成功裏に完了したか、エラー率はどの程度か、他のエージェントや人間からのフィードバックはどうか、といった情報を集積します。
次に、エージェントの出自と認証情報です。どの組織が開発したか、どのような認証プロセスを経たか、定期的なセキュリティ監査を受けているか、といった要素が信頼性に影響します。信頼できる製造業者や認証機関からのエージェントは、初期信頼度が高くなります。
もしそのエージェントが非常に強力な基盤モデルに基づいている場合、それはより高い信頼係数を持つことができます。例えばです。
基盤モデルの強度は、信頼性評価において重要な要素です。OpenAI、Anthropic、Google、Metaなどの主要なAI研究機関が開発した大規模言語モデルや視覚モデルは、広範なテストと安全性研究を経ています。これらの機関は、モデルの有害な出力を減らし、バイアスを軽減し、セキュリティ脆弱性を修正するために膨大なリソースを投資しています。
したがって、これらの検証済み基盤モデルを使用するエージェントは、出所不明なモデルや十分にテストされていないモデルを使用するエージェントよりも高い信頼係数を得られます。この評価には、モデルのバージョン、トレーニングデータの品質、安全性評価の結果、既知の脆弱性の有無などが考慮されます。
さらに、エージェントの運用文脈も重要です。そのエージェントがどのような環境で動作しているか、どのような権限を持っているか、どのようなデータにアクセスできるかといった情報も、信頼性評価に含まれるべきです。医療現場で患者データにアクセスできるエージェントは、より厳格な評価基準を満たす必要があります。
ですから、将来のために単一のエージェントの信頼のレベルを評価するフレームワークを設定できるかもしれません。人々が社会的信用を持つように。
この比喩は適切ですが、重要な違いもあります。人間の社会的信用は主観的で、文化的に決定され、時には不公平です。エージェントの信用スコアは、客観的な指標、検証可能な行動、透明なアルゴリズムに基づくべきです。すべてのステークホルダーが評価基準を理解し、スコアの計算方法を検証でき、不当な評価に異議を申し立てられる仕組みが必要です。
また、信用スコアは静的ではなく動的であるべきです。エージェントの行動が継続的に監視され、スコアがリアルタイムで更新されます。良好な行動は信用を向上させ、問題のある行動や異常なパターンは信用を低下させます。セキュリティ侵害の兆候が検出された場合、そのエージェントの信用スコアは即座に低下し、他のエージェントに警告が発せられます。
しかし、このシステムには慎重な設計が必要です。誤った評価や悪意のある評価から保護するメカニズム、プライバシーを保護しながら透明性を確保するバランス、そして単一の評価機関への過度な依存を避けるための分散化されたアプローチなどが求められます。
この信頼性評価フレームワークの標準化は、エージェント間通信の安全性を確保する上で基盤となります。ITUやISOなどの国際標準化機関が、評価基準、スコア計算方法、アイデンティティ管理プロトコル、そして監査メカニズムについての標準を開発する必要があります。そして、この標準は、セキュリティ専門家、AI研究者、倫理学者、そして市民社会の代表を含む多様なステークホルダーの参加によって策定されるべきです。
数十億のエージェントが安全に共存し、協力する未来を実現するためには、技術的な解決策だけでなく、社会的、倫理的、法的な枠組みも必要です。信頼性評価システムは、このより広範なガバナンスエコシステムの重要な構成要素となるのです。
6.4 人権ベースアプローチ
モデレーター: もう一つ質問があります。どうぞ。
Marianoski(チェコ代表団): こんにちは。チェコ代表団のMarianoskiです。この興味深い議論に感謝します。ITUとあなたが言及されたTACの作業について、Wei先生、実際に言及していただいて嬉しく思います。次回のTACでは、人権ベースアプローチについて議論される予定ですので、ぜひ積極的に協力していただければと思います。
人権ベースアプローチは、エンボディードAIの標準化において、技術的側面と同等に重要な要素です。これは、システムが技術的に機能するだけでなく、基本的人権を尊重し、保護し、促進することを保証するアプローチです。国連の加盟国は、世界人権宣言や国際人権規約などの国際条約を通じて、人権を保護する義務を負っています。
あなた方は、この非常に具体的で実践的な角度を持ち込むことができます。二つの世界、つまり技術の世界と人権の世界をどのように最良の形で統合するかについてです。私の見解では、まだこれら二つは互いに遠く離れています。
この観察は核心を突いています。伝統的に、技術標準は機能性、性能、相互運用性、安全性といった技術的要件に焦点を当ててきました。一方、人権の枠組みは、尊厳、プライバシー、非差別、自律性、子どもの最善の利益といった規範的原則に焦点を当ててきました。これら二つの領域は、異なる言語を話し、異なる方法論を使用し、異なるコミュニティによって実践されてきました。
しかし、エンボディードAIのような技術が人々の生活に深く入り込むにつれ、この分離は持続不可能になります。技術的決定は人権に直接的な影響を与え、人権の保護には技術的実装が必要になります。したがって、標準設定のプロセスそのものに人権の視点を統合する必要があるのです。
必要とする標準を定義する上で、あるいは良好なガードレールを設定する上での一種の良いモデルとなり得ると思います。ですから、TACの加盟国や貢献者と協力的であることを、この招待によってお願いしたいと思います。そして、代表し、取り組んでいる様々な研究グループにおいて、非常に実践的な方法で支援していただければと思います。
ITU TACは、電気通信標準化諮問グループ(Telecommunication Standardization Advisory Group)の略で、ITU-Tの戦略的方向性を助言する組織です。TACで人権ベースアプローチが議論されることは、ITUが技術標準と人権の統合を真剣に検討していることを示しています。
Patricia先生が述べられたように、標準はもはや純粋に技術的なものではありません。エンボディードAIの標準には、プライバシー、尊厳、健康、そして子どもの権利といった人権の保護が組み込まれる必要があります。
プライバシーは、最も基本的な人権の一つです。エンボディードAIは、前述のように、視線追跡、表情認識、生体データなど、極めて機密性の高い個人情報を収集します。これらのデータがどのように収集、保存、使用、共有、削除されるかについての明確な基準がなければ、プライバシー権は侵害されます。標準は、データ最小化、目的制限、透明性、ユーザー同意、そしてデータ主権といった原則を技術仕様に組み込む必要があります。
尊厳は、人間性の核心に関わる権利です。ロボットが人間と相互作用する方法は、人々の尊厳を尊重しなければなりません。これは、差別的な扱いをしないこと、人々を単なる効率性のための手段として扱わないこと、そして人間の自律性と選択の自由を尊重することを意味します。特に、高齢者や障害者などの脆弱な集団に対するケアロボットの場合、尊厳の尊重は中心的な設計原則となるべきです。
健康への権利も重要です。医療や介護の文脈でエンボディードAIが使用される場合、それらは害を与えないこと(non-maleficence)、利益をもたらすこと(beneficence)、そして医療倫理の原則に従うことが求められます。標準は、医療ロボットの安全性、有効性、そして適切な監督と説明責任のメカニズムを保証する必要があります。
子どもの権利は特別な注意を必要とします。Ansgar Kernerのような子どもの権利専門家が指摘するように、子どもたちは特に脆弱であり、ロボットとの相互作用が彼らの発達、福祉、そして権利に与える影響を慎重に考慮する必要があります。国連子どもの権利条約は、子どもの最善の利益、生存と発達の権利、参加の権利、そして保護の権利を保証します。エンボディードAIの標準は、これらの権利を具体的にどのように保護するかを明示する必要があります。
実践的な統合とは、これらの人権原則を抽象的な理想としてではなく、測定可能で検証可能な技術要件として標準に組み込むことを意味します。例えば、「プライバシーを尊重する」という抽象的な原則を、「ロボットは、明示的なユーザー同意なしに個人を識別できる画像を保存してはならない」という具体的な技術仕様に変換します。
人権ベースアプローチを標準設定に統合することは、単に規制要件を満たすためだけではありません。それは、エンボディードAIが真に人間中心であり、人間の繁栄を支援し、より公正で包摂的な社会を構築するためのツールとなることを保証するためです。TACでの議論と、様々な研究グループでの実践的な作業を通じて、ITUは技術標準と人権保護を統合する最初の主要な標準設定機関の一つとなる可能性があります。これは、エンボディードAIの未来だけでなく、技術ガバナンスの新しいモデルを確立する上でも、極めて重要な一歩となるのです。
6.5 規制とのバランス
Patricia: 私が取り組んでいるEU AI法の標準に関する作業では、人権を保護するだけでなく、保存し、促進するための事前措置を導入しようとしています。そして、人権について話すとき、ここではプライバシーについて話しています。尊厳について話しています。健康を確保する能力について話しています。子どもの権利について話しています。ですから、これらは私たちが議論の場に持ち込むにはあまりにも異質なものではありませんが、これは標準の新しい時代だと信じています。
事前措置(ex-ante measures)という概念は、規制と標準化の関係において重要です。従来のアプローチでは、問題が発生してから事後的(ex-post)に対応することが多くありました。製品が市場に出て、害が明らかになり、その後規制が導入されます。しかし、エンボディードAIのような強力で広範囲に影響を与える技術については、この反応的アプローチでは不十分です。
事前措置は、害が発生する前に予防することを目指します。これは、リスク評価を設計段階から組み込み、潜在的な人権侵害を事前に特定し、緩和策を実装することを意味します。EU AI法は、この事前アプローチの代表例であり、高リスクAIシステムに対して、市場投入前に厳格な要件を満たすことを求めています。
人権の保護だけでなく、保存と促進という言葉の選択も重要です。保護は、権利が侵害されないようにすることです。保存は、既存の権利の享受が技術によって減少しないことを保証することです。そして促進は、技術が人権の実現を積極的に支援することを意味します。例えば、アクセシビリティを向上させ、障害者の権利を促進するロボットは、単に害を与えないだけでなく、人権の実現に貢献しているのです。
これは人間中心で、人間が制御可能なコンピューティング空間に入ろうとしているだけでなく、規制が潜在的に欠けている場合に標準が必要な、本当に必要な空間です。人々への有害で悪影響な効果に対して将来を見据えた保護を行うためです。しかし同時に、利益を真に磨き、それらを最大化し最適化できるようにするためでもあります。人口にとっても地球にとっても。
ここでPatricia先生は、標準化の二重の役割を明確にしています。第一に、規制が不足している、または曖昧な領域において、標準がガイダンスと要件を提供します。規制は一般的な原則を設定しますが、具体的な技術実装の詳細まで規定することは困難です。標準は、この規制と実装の間のギャップを埋めます。
例えば、EU AI法は「透明性」を要求しますが、エンボディードAIにおいて透明性が具体的に何を意味するかは標準が定義します。ロボットはどのような情報をユーザーに提供すべきか、どのような形式で、どのタイミングで、といった実践的な質問に標準が答えます。
第二に、標準は規制よりも迅速に進化できます。法律の改正には時間がかかり、政治的プロセスを経る必要があります。しかし、技術は急速に変化します。標準化プロセスは、より柔軟で反復的であり、新しい技術開発や新たに発見されたリスクに対応して更新できます。
有害な影響の防止と利益の最大化の両立は、バランスを必要とします。過度に制限的な標準は、イノベーションを阻害し、エンボディードAIの潜在的な利益を実現することを妨げる可能性があります。一方、緩すぎる標準は、人々を不当なリスクにさらします。
このバランスを達成するには、リスクベースのアプローチが有効です。より高いリスクを持つ応用(例:医療、子どもとの相互作用、公共の安全)には、より厳格な標準を適用します。より低いリスクの応用(例:エンターテインメント、産業オートメーション)には、より柔軟なアプローチを許容します。
また、標準は禁止だけでなく、促進も行うべきです。「これをしてはいけない」というだけでなく、「これは良い実践である」というポジティブな指針を提供します。アクセシビリティ、包摂性、持続可能性といった望ましい特性を達成するためのベストプラクティスを文書化します。
人口への利益という言葉は、人間中心のアプローチを強調しています。技術は技術自体のためではなく、人々の生活を改善するために開発されるべきです。標準は、この目的が実現されることを保証する手段です。
そして地球への言及は、環境社会技術的標準の重要性を示しています。エンボディードAIの環境フットプリント、資源消費、電子廃棄物も考慮する必要があります。持続可能性は、人権や社会的利益と同様に、標準設計の核心的要素となるべきです。
規制と標準化のこの協働的関係、そして有害性の防止と利益の促進のバランスを達成することで、エンボディードAIは真に責任あり、倫理的で、社会に有益な技術として発展できます。これは単なる技術的挑戦ではなく、私たちがどのような未来を構築したいかという社会的選択なのです。そして、標準化プロセスは、この選択を具体的な技術仕様に変換する重要なメカニズムとなります。
モデレーター: ありがとうございました。これでこのセッションを終了します。卓越したパネリストの皆様、素晴らしい議論をありがとうございました。このエンボディードAI分野において、私たちは引き続き連絡を取り合っていきます。来年は多くの進展があるでしょう。ですから、引き続きご注目ください。この素晴らしいフロンティアステージのプログラミングの最後のセッションがあります。4日間で50以上のセッションが行われました。パネリストの皆様に感謝し、モビリティ・フォー・グッドについての最後の議論に移ります。ありがとうございました。