※本記事は、AAAI 2025 2nd CMASDLワークショップ「Invited Speaker Session 1 and Oral Presentation」の内容を基に作成されています。動画の詳細情報は https://www.youtube.com/watch?v=gOnhqdC-2BE でご覧いただけます。本記事では、ワークショップの内容を要約しております。なお、本記事の内容は登壇者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画をご視聴いただくことをお勧めいたします。
登壇者紹介:
- ピーター・ストーン教授(テキサス大学オースティン校):「事前調整なしのマルチエージェント協調:アドホックチームワークの進展」について講演。人工知能とロボティクス分野、特にマルチエージェントシステムとマルチロボットシステムで著名な研究者。
- カティア・サイカラ教授(カーネギーメロン大学):「人間-スワーム協調における信頼のモデリング」について講演。長年にわたりマルチエージェントシステム(ソフトウェア、ロボット、人間)の研究を行い、国際財団システムの創設メンバーの一人。
1. 開会の辞とイントロダクション
1.1. ワークショップの目的と概要
ワークショップ主催者:皆様、ようこそお越しいただきありがとうございます。これは協調的マルチエージェントの認知モデリングに関する私たちの第2回ワークショップです。教授Leeや他の教授方々が、このワークショップを実現するためにご協力いただいたことに感謝します。
このワークショップの主な目的は、現在のロボティクス、IoT、エッジコンピューティングの発展を考慮すると、将来的には人工知能社会システムが人間社会に統合されることは避けられないということです。そうなると、多くの問題が出てくるでしょう。人々はこのような知能エージェントが私たちの仕事を奪ったり、人類への脅威になったりするのではないかと心配しています。
一方で、スタートレックのような科学フィクション映画では、データのような強いAIエージェントもあれば、ターミネーターのような否定的なエージェントもあります。将来、どのような強いAIエージェントを構築するかは、私たち自身次第です。
このワークショップでは、認知科学の視点から、人間社会に統合され、人間の持続可能な発展をサポートする友好的なAIを開発するための合理的な方向性やアーキテクチャを見つけることができるかどうかを探求します。それが私たちのワークショップの主な目的です。皆さんがブレインストーミングをして、良い提案をしていただければと思います。
共同主催者:ヤン教授ありがとうございます。皆さんにここにお越しいただき、嬉しく思います。今日は刺激的なプログラムをご用意しています。ヤン教授が紹介したトピックをカバーする招待講演者のシリーズがあり、ワークショップの最後にはパネルディスカッションも予定しています。その時間にこれらのアイデアをまとめ、このワークショップを超えて継続できればと思います。
基盤モデルやLLMの開発、そしてロボティクスやマルチエージェントシステムへの応用と共に、現在は非常に刺激的な時代です。皆さんがこの議論に参加し、貢献する機会があることを願っています。
1.2. 人間社会に統合される人工知能システムについて
ワークショップ主催者: このワークショップの主な目的を考えると、現在のロボティクスやIoT、エッジコンピューティングなどの発展により、将来的には人工知能社会システムが人間社会に統合されることは避けられません。そうなると、多くの問題が生じる可能性があります。例えば、人々はこのような知能エージェントが私たちの仕事を奪ったり、さらには人類への脅威になったりするのではないかと心配しています。
一方で、別の視点から見ると、スタートレックのような科学フィクション映画では、データのような非常に強力なAIエージェントもあれば、ターミネーターのような否定的なエージェントも描かれています。将来、どのような強いAIエージェントを構築するかは、実際には私たち自身次第です。
このワークショップでは、認知科学の視点から、人間社会に統合され、人間の持続可能な発展をサポートする友好的なAIを開発するための合理的な方向性やアーキテクチャを見つけることができるかどうかを探求します。これが私たちのワークショップの主な目的です。皆さんがブレインストーミングをして、良い提案をしていただければと思います。
1.3. 友好的AIを構築するための方向性
ワークショップ主催者: 将来的には人工知能社会システムが人間社会に統合されることは避けられません。このワークショップでは、認知科学の視点から、友好的なAIを開発するための合理的な方向性やアーキテクチャを発見できるかどうかを探求します。科学フィクション映画のように、強力なAIエージェントにはデータのようなポジティブなものもあれば、ターミネーターのようなネガティブなものも描かれています。しかし、将来どのような強力なAIエージェントを構築するかは私たち自身次第です。
このワークショップの主な目的は、認知科学の視点から、人間社会に統合され、人間の持続可能な発展をサポートする友好的なAIを構築するための適切な方向性を見つけることです。皆さんがブレインストーミングをして、良い提案をしていただければと思います。
共同主催者: 確かに、このワークショップでは、ヤン教授が紹介したトピックを扱い、基盤モデルやLLM、ロボティクスやマルチエージェントシステムへの応用の発展により、非常に刺激的な時代を迎えています。ワークショップの最後には、これらのアイデアをまとめ、このワークショップを超えて継続できるようなパネルディスカッションも予定しています。皆さんがこの議論に参加し、貢献する機会があることを願っています。
2. 招待講演セッション1
2.1. ピーター・ストーン教授(テキサス大学オースティン校)
2.1.1. アドホックチームワークの進展:事前調整なしのマルチエージェント協調
ピーター・ストーン: ご丁寧な紹介をありがとうございます。ただ、マルチエージェントシステムやマルチロボットシステムの分野で最初に研究を始めた者ではないと申し上げなければなりません。私より前に始められた非常に豊かなコミュニティがありました。今日はその一部の方々の講演も聞けることでしょう。私よりも前からこの分野にいらっしゃる方々がおり、私はその方々の研究を基に構築してきました。
主催者の皆様、ご招待いただきありがとうございます。私は今週ここに滞在していますが、今夜オースティンに戻る予定があり、講演の直後に退席しなければならないことを残念に思います。終日にわたる素晴らしい講演者のラインナップを見て、全てに参加できないのが残念です。
今日お話しするのは、「アドホックチームワーク」と呼ばれる分野についてです。この課題が約15年前、ここAAAIの会議で研究コミュニティに紹介されて以来、私はこの分野に魅了されてきました。このワークショップの開催はその良い例と言えるでしょう。主催者の皆様は事前調整をしっかりと行い、スケジュールを立てるなど素晴らしい仕事をしました。しかし私は、スライドをアップロードせずに参加し、事前調整の全てに従わなくても、その場で協力して講演を行うことができると信頼しています。これは人間が可能なことですが、エージェントがこの「事前調整なしの協力」を行えるようにすることには、あまり焦点が当てられていませんでした。
まず自己紹介をさせてください。私はテキサス大学オースティン校におり、現在非常に刺激的な時期を迎えています。我々は現在2つのAI研究所を持っています。NSFの機械学習基礎研究所と、最近では宇宙AIつまり天文学のためのAI研究所です。私はUTの「良いシステム」と呼ばれる横断的プログラムの創設メンバーでもあります。これは、様々な分野の専門家が集まり、AIの社会的影響を研究するものです。また現在はテキサス・ロボティクスのディレクターを務めており、元体育館だった美しい新しいスペースがあります。今はロボットでいっぱいですが、2026年には「ロボット学習に関する会議」を主催する予定で、皆様にロボットで満たされた旧アナヒスト体育館を見ていただけることを願っています。また、革新的なAI教育も行っており、昨日はeAIワークショップで講演しました。現在ロボティクス分野には17人以上の中核教員がおり、トップロボティクス会議で論文を発表しています。
私の研究は、「動的な実世界領域でチームメイトや敵対者が存在する中で、自律的な知的エージェントがどの程度学習できるか」という問いに集中しています。本ワークショップの目的に関連して、「チームメイト」が重要なキーワードとなります。これが協調的マルチエージェントシステムです。私はAIの様々なサブ領域で発表してきましたが、今日は特にマルチエージェントシステムと、ある程度学習に焦点を当てます。
私の研究室のアプローチは、アルゴリズム的・理論的な研究と同時に、実際の応用例に基づく問題駆動型の研究も行っています。時間の制約があるので動画はお見せしませんが、ロボットサッカーを例に挙げることができます。我々は2050年までに、実際のサッカー場でワールドカップ王者を打ち負かすことができるヒューマノイドロボットチームを作るという目標を持っています。また、一般的なサービスロボット、操作と相互作用、そして自律走行も研究対象です。最近ではソニーAIのチームと共に、レースシミュレーターゲーム「グランツーリスモ」で人間を上回るAIエージェントの開発に取り組みました。チェス、囲碁、ポーカー、Jeopardyなど、人間の専門家を打ち負かすAIシステムの系譜の中で、これはリアルタイム制御タスクで人間を上回った初めての例です。
今日のワークショップのテーマに沿って、アドホックチームワークについてお話しします。特に二つの最近の研究論文に焦点を当てます。一つは昨年AAAIで発表された「アドホックチームワークエージェントのトレーニングのための最小カバレッジセット」、もう一つはNeurIPS論文の「アドホックチームワークの一般化としてのNエージェントアドホックチームワーク」です。
2.1.2. 最小カバレッジセットによるアドホックチームワークエージェントのトレーニング
ピーター・ストーン: まず、「アドホックチームワークエージェントのトレーニングのための最小カバレッジセット」について話します。この研究は私の研究室のポスドクであるArash Ramenと博士課程学生のJungの共同研究です。この文脈の中で、アドホックチームワークとは何かをより詳しく説明したいと思います。この発表から何も得られないとしても、これまでアドホックチームワークに馴染みがなかった方には、この問題とは何か、なぜ興味深いのか、どのような課題があるのかを理解していただければと思います。活発なコミュニティがこの分野に取り組んでいますが、まだ多くの未解決の課題があります。
アドホックチームワークの研究が始まった頃、マルチエージェントシステムでは「事前調整されたチームワーク」が一般的でした。専門家がエージェントに調整メカニズム(慣習、役割割り当てメカニズム、通信プロトコルなど)を提供するか、あるいはエージェント同士が長期間相互作用することで、これらの慣習を学習・確立するというアプローチでした。Rich Suttonとの2001年のICML論文では、ロボットサッカーエージェントがチームとして協力するために一緒に学習するという研究を発表しました。しかし彼らはチームとして膨大な時間を一緒に練習する必要がありました。これが当時の一般的な手法で、チームは最初から存在し、調整の問題は解決可能でした。全員が同じメカニズムに従うか、一緒にトレーニングをすれば、うまく協力できました。しかし一部のエージェントがそうしない場合、問題が発生する可能性がありました。
アドホックチームワークの考え方は、人間が事前の共同作業なしに調整できるという点です。例えば、私はサッカー選手として外国に行き、一度も会ったことのない人々と、言語も通じなくても、すぐにサッカーをすることができます。あるいは道を歩いていて事故に遭遇した場合、全くの見知らぬ人たちが行動を起こし、一人は被害者を探し、一人は911に電話し、一人は交通整理をするといった具合に、事前調整なしでも協力できます。問題は、ロボットやソフトウェアにこの能力をどのように持たせるかということです。
元々の定式化では、単一のエージェントを制御し、チームの報酬を最大化することを目指します。チームメイトは未知のポリシーを使用し、おそらく未知の調整メカニズムを持っています。事前に調整メカニズムを確立することはできません。
例として、マッチング・じゃんけんゲームを考えてみましょう。これは敵対的なゲームではなく協力的な設定で、両者が同時にグー、パー、またはチョキを出せば報酬が得られるというものです。マッチングすれば+1の報酬、不一致なら-1の報酬を得るチーム問題です。良いアドホックチームワークエージェントは、あらゆる可能なチームメイトに対する最適応答を持っているべきです。もし相手が大半の時間グーを出すなら、あなたも常にグーを出すべきです。それがチーム報酬を最大化します。同様に、相手が主にチョキを出すなら、あなたもチョキを出し続けるべきです。重要なのは、あらゆる最適応答を持っていることです。
この研究の高レベルな動機は、あらゆる将来のチームメイトに対応できるアドホックチームワークエージェントを学習するために、全ての可能な最適応答を誘導するチームメイトポリシーのクラスを見つけることです。つまり、多様なチームメイトとトレーニングして、アドホックチームワーク環境に置かれたとき、どんな相手にも対応できるようにしたいのです。この論文で扱う問題は、そのような多様なチームメイトセットをどのように特定するかということです。
アドホックチームワーク問題のこの定式化は、遭遇するチームメイトポリシーの集合が分かれば簡単に解決できます。Pi_evalを評価時に遭遇するエージェントのポリシー空間とします。この図では、右側の楕円がアドホックチームワークエージェントで、これが相互作用する可能性のあるチームメイトの集合があります。そのうちの一部サブセットで評価されます。良いアドホックチームワークエージェントは、これらのどれに対しても最適応答を持ち、現在誰と調整しているかを認識できれば完璧です。
課題は、トレーニングするエージェントが評価時のエージェントと同じではないことです。誰と協力することになるかは事前にわかりません。また、一般的には無限に多くのポリシーが考えられるため、それぞれに対して最適応答を訓練することはできません。少数のポリシーを選んでトレーニングし、それが評価エージェントに対してできるだけ良い準備になることを期待するしかありません。
この論文は、「最大敵対多様性」と呼ばれる概念に対する応答です。高レベルには、トレーニングエージェントの集合を作成し、その最適応答を計算すると、その最適応答はトレーニングエージェントに対して非常に良い性能を示しますが、他のトレーニングエージェントとペアにすると性能が悪くなるというものです。つまり、同じ最適応答ポリシーがすべてに対して良くないように、多様なトレーニングエージェントが必要です。様々な評価エージェントに備えるために、多様な最適応答を学習する必要があります。
これまでの方法の共通点は、高い自己プレイリターンと低いクロスプレイリターンを持つ最適応答エージェントペアを持つトレーニングエージェントを作成する方法論を定式化しようとしたことです。しかし、この論文の重要な洞察は、この敵対的多様性概念を最大化しても、可能な限り多様な最適応答ポリシーのセットを発見することにはつながらないということです。生成されたチームメイトポリシーは、まだ互いに重複する可能性があります。技術的な詳細は時間の関係で省略しますが、論文に詳しく説明されています。
そこで、この論文では「Lagrangian最適応答多様性」と呼ばれる方法を導入し、この欠点を修正しました。この方法は「最小カバレッジセット」の概念に基づいています。カバレッジセットとは、全ての可能なチームメイトポリシーに対する最適応答のセットで、その要素を一つ取り除くと、もはや全ての可能なチームメイトポリシーに対する最適応答を持たないものです。最小のものは、それぞれの最適応答ポリシーが必要不可欠なセットです。
じゃんけん空間の描写では、グー、パー、チョキを選ぶ確率を表し、中心点は全て等確率、隅は一つを選ぶことを示します。各領域から一つのトレーニングエージェントを選びたいと考えます。この青い領域全体が同じ最適応答を持ち、赤い領域全体も同じ最適応答を持ち、黄色い領域も同じ最適応答を持つため、最小カバレッジセットをカバーするアドホックチームワークエージェントを学習するために、これらの領域それぞれから一つのエージェントをトレーニングセットに含めたいのです。
完全な線形プログラムの詳細は省略しますが、基本的には可能な限り多くの異なる最適応答エージェントポリシーを見つけるための制約付き目的関数を解いています。各最適応答に対して一つのチームメイトポリシーを生成し、互いに重複しないようにするという目的を最適化します。これは慎重に定式化された線形プログラムであり、それを実現できます。
論文では、これをいくつかの設定(行列ゲーム、協調的到達、レベルベースのフォレージング)で評価し、代替手法と比較して、我々の方法(LBR Div)が一つの場合を除いて全ての場合で著しく良い性能を示すことを発見しました。
この講演の半分の要約として、ここでは高いレベルの抽象化がありましたので、ぜひ論文を参照してください。しかし、重要な概念はアドホックチームワークエージェントのトレーニングパートナーのためのカバレッジセットと最小カバレッジセットの概念、そしてチームメイトポリシー生成のための最先端の結果を得るチームメイト生成方法です。
2.1.3. N-エージェントアドホックチームワークの一般化
ピーター・ストーン: ここで話題を変え、まったく異なる論文に移ります。引き続きアドホックチームワークの設定内ですが、最近NeurIPSで発表された「アドホックチームワークの一般化」について話します。これは私の研究室のポスドクであるArash Ramenとの共同研究で、筆頭著者は私の研究室の博士課程学生Caroline Wangです。また、Ishan DurarとElad Leedmanとの共同研究でもあります。
この論文の背景も同じく、複数のエージェントが協力しなければならないアドホックチームワークの設定です。この研究の洞察は、アドホックチームワークがスペクトルの一端にあるということです。もう一方の端は完全な協力で、チーム全体が一緒にトレーニングするか、事前調整方法があるという場合です。これが協調的マルチエージェント強化学習の設定で、すべてのエージェントが一緒にトレーニングします。一方、アドホックチームワークは、単一のエージェントが未知のエージェントと協力するためにトレーニングする設定です。
この論文における一般化は、このスペクトルをより広げて、サブチームを制御するという概念を導入しています。例えば、救助ミッションで、アメリカがいくつかのドローンを持ち込み、ニュージーランドやオーストラリアなどの同盟国もドローンを持ち込むというシナリオが考えられます。それぞれは事前に調整されておらず、サブチームとしてはうまく機能しますが、その場で一緒に作業し、誰が被害者を探すべきか、誰が物資を運ぶべきかなどを考える必要があります。彼らを再プログラムせずに、即座に協力できるようにしたいのです。つまり、制御されたサブチームと多くの制御されていないエージェントがあります。
アドホックチームワークの公式な問題設定は、「以前は未知だったチームメイトと、全員がチームメンバーとして貢献できるタスクで、効率的かつ堅牢に協力できる自律エージェントを作ること」です。ここでの一般化は、「自律エージェントの集合」を作るという一語を加えることです。
形式主義としては、分散部分観測マルコフ決定過程(Dec-POMDP)を使用し、チームサイズ、共同状態空間、行動空間、観測関数などの通常のDec-POMDPコンポーネントに加えて、三つのコンポーネントを追加します。一つは、Θによってパラメータ化された制御されたチームメイトのセットで、Θは基本的に彼らのポリシーを決定する関数です。次に、制御されていないエージェントのセットがあり、それはUという変数から来ます。そして、チームサンプリング手順という関数があり、これは制御されるエージェントの数と制御されないエージェントの数をサンプリングし、それらの数に合わせて制御されるエージェントと制御されないエージェントからチームを選びます。このサンプリング関数Xによってチームがサンプリングされたとき、良い制御につながるΘを見つける必要があります。
この問題の課題は、制御されていない、そして潜在的に未知のチームメイトと調整すること、そして制御されるチームメイトの未知の数に対処することです。
論文はまず理論的分析から始まります。なぜなら、これを別の問題として扱う必要があるのかという疑問があるからです。なぜ制御された各エージェントが個人として扱い、標準的なアドホックチームワークを行うだけではダメなのでしょうか?そこで、このサブチームの制御されたエージェントが一緒に働くことで実際に利益を得られるケースがあることを示すトイドメインでの理論的な例から始めました。これは明らかに思えるかもしれませんが、確認しておきたかったのです。
しかし、主な貢献は、この問題を解決するための最初のアルゴリズムである「エージェントモデリングによるポリシー最適化(POEM)」です。その主要なアイデアは、チームメイトモデリング関数とパラメータ共有を使用した強化学習関数、そして両方からトレーニングされたデータを持つ批評器です。
まず、チームメイトモデリングコンポーネントがあります。ここでは、エンコーダ・デコーダアーキテクチャを使用して潜在表現がトレーニングされます。制御されたエージェントはそれぞれ、このエピソード中の過去の観測と行動の履歴を取り込み、すべてのチームメイトの次の観測と行動を予測しようとします。つまり、チームメイトが現在どのように行動しているかを見て、彼らが次に何をするかを予測するのに十分な潜在表現を持ちたいのです。これにより、彼らを異なるタイプに分類する表現が促されます。例えば、サッカーの設定では、非常に攻撃的なエージェント、守備的なエージェント、ボールを独占するエージェント、パスの上手いエージェントなどがあるかもしれません。彼らのタイプを知ることで、彼らの過去の行動から将来の行動を予測することができます。
この潜在表現は、標準的なアクター・クリティック型強化学習設定のアクターとクリティックの両方への入力として使用されます。ポリシーネットワークがアクター、価値ネットワークがクリティックです。そして、パラメータ共有を持つ独立PO(Partially Observable)を使用します。つまり、各エージェントは、現在の制御されたエージェントと制御されていないエージェントの全ての行動の観測に基づいて、独自の観測と行動からトレーニングします。そして、同じニューラルネットワークを更新するので、制御されたエージェントはすべて同じポリシーを使用しますが、自分のプライベートな観測に基づいて条件付けられています。
最後に、トレーニング手順があります。トレーニング中には、制御されたエージェントと制御されていないエージェントの両方からの情報があり、それによってアクターとクリティック(価値関数とポリシー)の両方を学習します。しかし、制御されていないエージェントは特権情報です。なぜなら、展開時には制御されていないエージェントの観測を得ることはできないからです。したがって、ポリシーは制御されたエージェントの情報だけから学習されます。展開時にはクリティックはもう必要なく、ポリシーだけを展開します。これは、トレーニング時に特権情報を持ち、展開時には持たないという設定です。これはアドホックチームワークの理論や問題設定と一致しています。展開前には好きなだけ練習できますが、展開されると、以前に見たことのない制御されていないエージェントと協力しなければなりません。
論文では、StarCraftや捕食者-被食者のようなトイドメインでの実験を行っています。制御されていないチームメイトは、ここに示すような様々なマルチエージェント学習アルゴリズムを使用してトレーニングされます。トレーニングセットとテストセットがあり、テストセットは評価前に露出されません。比較対象として、エージェントモデリングを行わない標準的な独立POエージェント、サブチーム全体を制御していることを認識しない単一エージェント制御用にトレーニングされたもの、自己プレイだけでトレーニングされた単純なマルチエージェント強化学習設定などがあります。
論文の結果は、POEMがどのチームメイトアルゴリズムに対しても、最高の競合手法よりも著しく優れていることを示しています。赤い星は、トレーニングしたのと同じエージェントに対してテストした場合のパフォーマンスを示しています。これは期待されていませんが、分布外のエージェント、つまり真のアドホック調整を見ると、POEMが最高の競合手法よりも著しく優れていることがわかります。StarCraftでは未見のエージェントへの一般化も研究し、エージェントが一緒にトレーニングされた場合に学習される調整慣習があることも示しています。トレーニング中のエージェントがマッチングされたシードとミスマッチしたシードの間でパフォーマンスが低下することから、エージェントが一緒にトレーニングされると慣習が学習されることがわかります。また、サンプル効率も示していますが、時間が限られているので、詳細な結果は論文を参照してください。大規模なアブレーション実験もあり、手法の3つのコンポーネントすべての効果と必要性を示しています。
共著者はCarolineが筆頭著者で、Arash、Ishan、Elad、そして私です。論文はNeurIPSで発表されました。
まとめると、アドホックチームワークにおける二つの最近の進展に焦点を当てました。一つはアドホックチームワークエージェントのトレーニングのための最小カバレッジセット、もう一つはNエージェントアドホックチームワークへの一般化とPOEMアルゴリズムです。現在、マルチエージェントトランスフォーマーアーキテクチャに基づく競合アルゴリズムをこのNエージェントアドホックチームワーク問題に拡張する研究を進行中です。
2.1.4. POEMアルゴリズム(エージェントモデリングによるポリシー最適化)
ピーター・ストーン: N-エージェントアドホックチームワークの主な貢献は、この問題を解決するための最初のアルゴリズムである「エージェントモデリングによるポリシー最適化(POEM)」です。その主要なアイデアは、チームメイトモデリング関数、パラメータ共有を使用した強化学習関数、そして両方からトレーニングされたデータを持つ批評器の3つの要素から構成されています。
まず、図の左上部分にあるチームメイトモデリングコンポーネントについて説明します。ここではエンコーダ・デコーダアーキテクチャを使用して潜在表現がトレーニングされます。制御されたエージェントはそれぞれ、エピソード中の過去の観測と行動の履歴を取り込み、すべてのチームメイトの次の観測と行動を予測しようとします。チームメイトが現在どのように行動しているかを見て、彼らが次に何をするかを予測するのに十分な潜在表現を持つことが目標です。
これにより、エージェントを異なるタイプに分類する表現が促されます。例えば、サッカーの設定では、攻撃的なエージェント、守備的なエージェント、ボールを独占するエージェント、パスの上手いエージェントなどが考えられます。彼らのタイプを知ることで、過去の行動から将来の行動を予測することができます。
この潜在表現は、標準的なアクター・クリティック型強化学習設定のアクターとクリティックの両方への入力として使用されます。ポリシーネットワークがアクター、価値ネットワークがクリティックです。そして、パラメータ共有を持つ独立部分観測(Independent PO)を使用します。各エージェントは、現在の制御されたエージェントと制御されていないエージェントの全ての行動の観測に基づいて、独自の観測と行動からトレーニングします。そして同じニューラルネットワークを更新するので、制御されたエージェントはすべて同じポリシーを使用しますが、自分のプライベートな観測履歴に基づいて条件付けられています。
最後に、トレーニング手順について説明します。トレーニング中には、制御されたエージェントと制御されていないエージェントの両方からの情報があり、それによってアクターとクリティック(価値関数とポリシー)の両方を学習します。しかし、制御されていないエージェントの情報は特権情報です。なぜなら、実際の展開時には制御されていないエージェントの観測を得ることはできないからです。したがって、ポリシーは制御されたエージェントの情報だけから学習されます。展開時にはクリティックはもう必要なく、ポリシーだけを展開します。
これは、トレーニング時に特権情報を持ち、展開時には持たないという設定です。これはアドホックチームワークの理論や問題設定と一致しています。展開前には好きなだけ練習できますが、展開されると、以前に見たことのない制御されていないエージェントと協力しなければなりません。
論文では、StarCraftや捕食者-被食者などのドメインで実験を行い、様々なマルチエージェント学習アルゴリズムを使用してトレーニングされた制御されていないチームメイトと比較しています。結果は、POEMがどのチームメイトトレーニングアルゴリズムに対しても、最高の競合手法よりも著しく優れていることを示しています。また、学習された調整慣習の存在も示し、トレーニング中のエージェントのシードがマッチしているかミスマッチしているかによってパフォーマンスが変化することを確認しました。
2.2. カティア・サイカラ教授(カーネギーメロン大学)
2.2.1. 人間-スワーム協調におけるトラスト(信頼)のモデリング
カティア・サイカラ:時間の都合上、自己紹介は省略します。私の経歴や研究内容は別途ご確認いただければと思います。ピーター・ストーン教授が言及していたアドホックチームワークに関して、私たちも研究を行っています。特に人間とエージェント間のアドホックチームワークに焦点を当てています。人間が関わると予測不可能性が格段に増すため、事前に訓練ポリシーを定義することが困難になります。私たちの研究では、ポリシーのライブラリを事前に訓練し、人間との相互作用時に最も近いポリシーを選択する方法を開発しています。最近の研究では、多様性品質アルゴリズムを用いて、人間の特性を持つ多様なポリシー(「ヒューマン・シミュラクラ」と呼ぶ)を生成する取り組みを行っており、DARPAからの大型プロジェクトも進行中です。また、LLM(大規模言語モデル)をアドホックチームメイトとして活用する研究も進めています。
今日は人間とスワーム協調におけるトラスト(信頼)のモデリングについて発表します。この研究は空軍の信頼できる人間・自律システム協調のための優秀研究センターの支援を受けています。スワームは最近、ウクライナなどでも注目されていますが、現在使用されているドローンスワームはほとんど自律的ではなく、人間によって制御されています。私たちの研究では、自律的なスワームの制御アルゴリズムを開発し、人間がこれらの自律スワームとどのように相互作用し、信頼関係を構築できるかを研究しています。
なぜスワームアプリケーションに人間が必要なのでしょうか。それはモーターの故障など問題が発生した場合の対応や、新しいタスク目標の提供が必要だからです。例えば、餌集め(フォレージング)用に訓練したスワームを、ミッションの変更に応じて別の目標に再方向付けする場合、現状では人間の介入が必要です。将来的には状況を評価して自律的に目標を変更できるシステムが開発されるかもしれませんが、現時点ではそこまで達していません。
信頼の調整(キャリブレーション)は人間と自律システムの協調において極めて重要です。人間は信頼するシステムには依存し、信頼しないシステムは使用しません。過小信頼(under-trust)は、自動化システムが正しく機能し有益であるにもかかわらず、人間がそれに依存しない状態です。過剰信頼(over-trust)は、自動化システムの動作が正確でない場合でも人間がそれに依存する状態です。私たちの全体的な目標は、適切な信頼調整を決定することです。そのための第一歩として、スワームにおける信頼の決定要因を特定する必要があります。
スワームとは何でしょうか。スワームは各メンバーが非常にシンプルであり、単純な制御則によって制御されるマルチエージェントシステムです。ランデブーや分散などの単純な制御則によって、その行動はコンセンサスを通じて創発します。つまり、各スワームメンバーは近隣からの位置や速度などに関するメッセージを受け取り、それらの平均を計算して自分の行動を決定します。この平均化プロセスがスワーム全体に伝播し、最終的に全体が協調行動を取るようになります。例えば、全メンバーが方向と速度を揃えて特定の目標に向かうことができます。
信頼とは何でしょうか。信頼は直接目に見えないものですが、あらゆる場面に存在します。皆さんが今朝ここに来たのも、主催者や講演者、会場などが存在することを信頼していたからです。心理学の分野では、信頼は「不確実性と脆弱性の状況において、信頼者が持つ態度」と定義されています。私はここに来る時間とお金をかけ、会議や会場が存在することを信頼して脆弱な立場に身を置いています。信頼は動的であり、機械が誤動作すればその信頼は失われますが、自己修正すれば再び信頼を取り戻すことがあります。
人間・ロボット相互作用における信頼モデルは、タスクのパフォーマンス(信頼性)に影響されると言われています。信頼できる機械は信頼され、信頼できない機械は信頼されません。信頼の変化は通常、簡単に検出できます。例えば、メールが正しく送信されたことは確認可能です。しかし、スワーム相互作用ではこれが簡単ではありません。スワームのパフォーマンスは人間が自動的に識別するのが難しく、スワームを直接制御して運転することもできません。信頼が低い場合にスワームを修復したり、目標を変更するためのコマンドも与えにくく、修復用のインプットと目標変更のインプットの区別も曖昧になります。
私たちが提案する全体的なモデルでは、人間側ではスワームの行動を観察し、信頼レベルの変化を予測・伝達します。スワーム側では、信頼レベルが低下した場合、透明性を高めるためのメッセージを送信し、分散的に障害を検出・修復します。また、スワームの人間に対する信頼も考慮します。オペレーターが混乱していたり、ストレスを感じていたり、正確に予測できなかったりする場合もあるためです。これは一種のフィードバックループとなります。
事前訓練された信頼モデルがなぜ必要なのでしょうか。例えば、密度の高い状況では、オペレーターが信頼を評価して介入するかどうかを決定する時間がない可能性があります。そこで、時間的制約のある状況で、人間の行動やインプットから自動的に信頼を評価し、私が明示的に信頼を表明しなくても適切に対応できるモデルを作成できれば理想的です。このモデルは人間の信頼予測に基づいて制御を修正します。
従来の研究では、人間の信頼評価はタスク終了後のアンケートで行われていました。しかし、その時点では人間はすでに何をしていたか忘れている可能性があります。オンラインでリアルタイムに信頼を評価できないか、かつ人間を中断して「今、信頼していますか?」と尋ねることなく評価できる方法を探求しています。
私たちは200台のロボットを使用するCUDAシミュレーターを開発しました。タスクは非領域内のターゲットを見つけるためのフォレージングで、群れ行動のためにスワームに方向を与えます。パフォーマンス指標はターゲットの発見数です。シミュレーターでは、操作者がキーボードからスワームに方向指示を与え、その信頼レベルが自動的にスライダー上で上下するパネルが表示されます。
結果を分析すると、修復コマンドと目標変更コマンドの間に統計的に有意な差があることが分かりました。これにより、2つの異なるコマンドタイプを区別できました。また、信頼は方向分散と凸包面積に高度に相関していることが明らかになりました。介入が発行される時、方向分散は大きく、凸包は小さくなります。興味深いことに、パフォーマンス(発見されたターゲット数)を表示していたにもかかわらず、信頼の相関性と有意性は方向分散と凸包面積との関係が強く、パフォーマンスとの関係は弱いことが判明しました。これは先行研究と異なる結果であり、人々は目に見える線や形に強く影響されることを示しています。
これらの調査結果を基に、方向分散、凸包、介入タイプを状態変数とするマルコフモデルを構築しました。逆強化学習(IRL)を用いて基本的な報酬関数を見つけ、その報酬関数を使用して強化学習を実行することで、信頼を予測できるようになりました。このモデルを実際の人間と実験した結果、予測値と人間のフィードバックが非常に良く一致することが確認されました。このモデルは、人間の行動から信頼を計算し、それに基づいて制御を修正するのに使用できます。
興味深いことに、信頼のパターンは個人によって大きく異なります。平均的な信頼というものは存在せず、個人差が顕著です。信頼が低い場合、スワームはどのように自己修復し、より信頼性を高めることができるでしょうか。
スワームの利点の一つは、メンバーの喪失に対する頑健性です。100のエージェントがあり、5つを失っても、残りはまだ目標に向かって進むことができます。これは、3つの高度に洗練されたエージェントからなるマルチエージェントシステムで1つを失った場合と大きく異なります。スワームはコンセンサスアルゴリズムを実行し、ノイズやランダムな擾乱に強いですが、スプーフィング(偽装)や損傷したメンバーには非常に敏感です。
自己修復メカニズムとして、私たちは「重み付き減少アルゴリズム」を開発しました。これは障害のあるスワームメンバーを隔離する方法を提供します。各ノードは、隣接ノードの位置や速度を比較し、コンセンサスから離れていくメンバーの影響を徐々に減少させます。最終的に、故障したメンバーは隔離され、スワーム全体のパフォーマンスに影響を与えなくなります。
例えば、6台のロボットを使った実験では、ロボット1と4でモーター劣化が発生した場合を検討しました。通常状態では、最初はバラバラだった軌道や速度が徐々に収束し、並行して群れになります。しかし、2台のロボットが速度低下すると、それらは遅れをとり、正しい行動から逸脱します。修復アルゴリズムを適用すると、故障したロボットは外れ値として残りますが、残りのロボットは正しくコンセンサスに収束できるようになります。
これらの障害の注入が人間の信頼にどのような影響を与えるのか、また修復状況を人間が認識できるかどうかを調査するため、実験を行いました。参加者には小さなビデオでドットとして動くスワームメンバーを見せ、5段階スケールで信頼度を評価してもらいました。各参加者には14のトライアルがランダムな順序で提示され、そのうち2つは正常なスワーム行動、残りの12は障害が注入され修復されたものでした。
6台中1台に障害がある状況では、参加者の信頼は「中立」から「信頼」へと有意に向上しました(p<0.01)。6台中2台に障害がある場合は「不信」から「中立」へ、12台中1台では「信頼」から「信頼プラス」へ変化しましたが、これは統計的に有意ではありませんでした。12台中2台に障害がある場合は、参加者は不信ではなく中立的な評価をしました。
別のシナリオでは、12台のロボットと風の状況を検討しました。正常時は信頼度が高く、障害時は低下し、修復後は中間的な値に戻りました。これらの結果から、人々は明白でない条件下でも、スワームが正常に動作している状況、障害がある状況、そして修復された状況を識別でき、それに応じて信頼を調整できることが示されました。
私たちは、信頼評価の理由も尋ねました。モーター障害の場合、18%が「間違った方向」、60%が「一貫性のない速度」(これが正しい認識)、22%が「圧縮性の低さ」を理由に挙げました。風の状況では、67%が「間違った方向」を指摘し、これも正確な認識でした。つまり、人々は障害の原因も比較的正確に特定できていました。
もう一つの実験では、人々が判断を「正常」から「障害」に変更するスワーム劣化の割合を調査しました。47人の参加者に事前記録されたフォレージング行動を見せ、スワームのメンバーを5%、10%、15%、20%、25%劣化させました。結果は、信頼に関する判断の有意な低下が15%と20%の間で発生し、その後安定することを示しました。
結論として、時間的制約のある状況で人間に毎回信頼を尋ねる代わりに使用できるIRLベースのモデルを提示しました。また、スワームのコンセンサスを維持し信頼喪失を軽減するアルゴリズムを開発しました。より現実的な環境での実験も実施しており、モーター故障のような永久的な損傷と風のような一時的な障害への対応を区別する必要性など、今後の研究課題も見出しています。
2.2.2. スワームの脆弱性と自己修復メカニズム
カティア・サイカラ:スワームの素晴らしい特徴の一つは、メンバーの喪失に対する頑健性です。100のエージェントがあり、5つ程度を失っても、残りは目標に向かって問題なく進むことができます。これはマルチエージェントやマルチロボットシステムと大きく異なります。例えば、3つの高度に洗練されたエージェントからなるシステムで1つを失うと問題が生じます。残りのエージェントに役割を再割り当てする必要があるなど、対応が全く異なります。
スワームはコンセンサスアルゴリズムを実行し、ノイズやランダムな擾乱に強い一方で、スプーフィング(偽装)や損傷したメンバーには非常に敏感です。通常、スワームでは各メンバーが異なる方向や速度を持ち、初期状態ではバラバラに見えますが、コンセンサス形成を通じて群れ行動が創発し、最終的に方向と速度が揃います。
自己修復のためには「重み付き減少アルゴリズム」が有効です。これはスワームの故障メンバーを隔離する方法を提供します。各ノードでは、隣接ノードとの距離を比較します。例えば、時刻1で位置を比較し、時刻2で他のメンバーの位置が遠くなっていれば影響を少し減らします。さらに離れていくと影響をさらに減少させ、最終的に故障メンバーは隔離され、スワーム全体のパフォーマンスに影響を与えなくなります。
例を挙げると、6台のロボットによる実験では、ロボット1と4(赤と明るい緑)でモーター劣化が発生した場合を考えました。通常状態では、最初はバラバラだった軌道が徐々に収束し、並行して群れになります。速度も同様に収束し、方向も揃い、接続性も高くなります。しかし、2台のロボットが速度低下すると正常な水平線のような挙動ではなく上昇カーブを描き、誤った行動をとります。実際の速度グラフでは、赤と緑が外れ値となり、他のロボットと収束できません。方向も同様です。
修復アルゴリズムを適用すると、赤いロボットは下方で外れ値として残りますが、残りのロボットは正しく収束できるようになります。他の指標でも同様に自己修復が機能し、スワームは正しいコンセンサスに復元されます。
これらの障害注入が人間の信頼にどう影響するか、また修復状況をどう認識するかを調査するため、実験を行いました。参加者には点として動くスワームメンバーの小さなビデオを見せ、5段階で信頼度を評価してもらいました。各参加者には14のトライアルがランダムに提示され、2つは正常なスワーム行動、残り12は障害が注入され修復されたものでした。
6台中1台に障害がある場合、参加者の信頼評価は「中立」から「信頼」へと統計的に有意に向上しました(p<0.01)。6台中2台では「不信」から「中立」へ、12台中1台では「信頼」から「信頼プラス」へ変化しましたが、後者は統計的に有意ではありませんでした。12台中2台では、評価は「中立」のままでした。
12台のロボットと風の影響を検討した別のシナリオでは、正常時は高い信頼、障害時は低下し、修復後は中間的な値に戻りました。これは人々が、明白でない条件下でも、スワームの状態変化を認識し、それに応じて信頼を調整できることを示しています。
信頼評価の理由では、モーター障害の場合、18%が「間違った方向」、60%が「一貫性のない速度」(これが正確な認識)、22%が「圧縮性の低さ」を挙げました。風の場合は67%が「間違った方向」を指摘し、これも正確でした。つまり、参加者は障害の真の原因も比較的正確に特定できていました。
また、スワーム劣化の程度と信頼判断の関係も調査しました。メンバーの5%、10%、15%、20%、25%を劣化させた実験では、信頼の有意な低下が15%と20%の間で発生し、その後安定することが分かりました。これは危機対応など様々な状況で重要な知見となります。
モーター故障は永久的な損傷ですが、風の影響は一時的です。修復アルゴリズムは両方の状況に対応しますが、今後の研究では一時的な現象と永久的な問題に対する異なる対応方法を検討する必要があります。
2.2.3. 人間の信頼度の測定と予測モデル
カティア・サイカラ:人間のスワームに対する信頼要因を特定するために、私たちは新しいアプローチを開発しました。従来の研究では、ほとんどの場合(99.5%以上)、人間の信頼評価はタスク終了後のアンケートで行われていました。しかし、その時点では人間はすでに自分が何をしていたか忘れている可能性があります。私たちの目標は、オンラインでリアルタイムに信頼を評価できる方法を見つけることでした。ただし、人間を中断して「今、信頼していますか?」と尋ねることなく評価したいと考えました。
そこで、200台のロボットを使用するCUDAシミュレーターを開発しました。タスクは非エリア内のターゲットを見つけるフォレージング(採餌)で、群れ行動のためにスワームに方向指示を与えます。パフォーマンス指標はターゲットの発見数です。シミュレーションでは、操作者がキーボードから入力してスワームに方向指示を与え、その際の信頼レベルが自動的にパネル上のスライダーで表示されます。
このシミュレーターを使用した結果分析から、修復コマンドと目標変更コマンドの間に統計的に有意な差があることが判明しました。これにより、2つの異なるコマンドタイプを区別できました。また、興味深いことに、信頼は方向分散と凸包面積に高度に相関していることが分かりました。介入が発行される時、方向分散は大きく、凸包は小さくなる傾向があります。
さらに驚いたことに、パフォーマンス指標(発見されたターゲット数)をシミュレーションで表示していたにもかかわらず、信頼の相関性と有意性は方向分散と凸包面積との関係が強く、パフォーマンスとの関係は弱いことが明らかになりました。これは先行研究と異なる結果であり、人々は目に見える形状やパターンに強く影響されることを示しています。
これらの調査結果を基に、方向分散、凸包面積、介入タイプを状態変数とするマルコフモデルを構築しました。逆強化学習(IRL)を用いて基本的な報酬関数を見つけ、その報酬関数を使用して強化学習を実行することで、人間の信頼度を予測できるモデルを開発しました。
このモデルを実際の人間と実験した結果、予測値と人間のフィードバックが非常に良く一致することが確認されました。被験者10人のスナップショットを例としてお見せしますが、このモデルによる予測値とユーザーフィードバックが非常に良く一致していることが分かります。つまり、このモデルは特定の人間がいなくても、人間の行動から信頼を計算し、それに基づいて制御を修正するのに使用できます。
重要な点として、信頼のパターンは個人によって大きく異なることも発見しました。私がここで個々の被験者の結果を提示しているのは、平均的な信頼というものは存在せず、個人差が顕著だからです。各人には異なる信頼パターンがあり、それぞれに合わせたモデルが必要になります。
このオンライン信頼度予測モデルの最大の利点は、時間的制約の厳しい状況で活用できることです。人間に毎回「今、信頼していますか?」と尋ねる代わりに、このモデルが人間の行動やインプットを観察し、自動的に信頼レベルを評価できます。特に高密度状況や緊急時には、操作者が信頼を評価して介入するかどうかを決定する時間がない可能性があります。
私たちの開発したIRLベースの信頼モデルは、特定の人間の信頼パターンをモデル化し、人間が明示的に信頼を表明しなくても、その行動から信頼を推測し適切に対応できるようになります。これは人間とスワームのより効果的な協調を実現するための重要なステップです。
2.2.4. モーター故障や風などの障害からの回復と信頼回復実験
カティア・サイカラ:スワームの障害からの回復と、それに伴う人間の信頼回復をより詳細に調査するために、私たちはいくつかの実験を行いました。これらの実験では、モーター故障のような永久的な障害と、風のような一時的な障害の両方を対象としました。
6台のロボットによる実験では、ロボット1と4(赤と明るい緑色で表示)においてモーター劣化を導入しました。通常状態では、ロボットは最初はそれぞれ異なる軌道と速度を持っていますが、徐々に収束して同じような軌道を形成し、並行して群れとして移動するようになります。速度もまた、初めは様々ですが、最終的にはほぼ同じになります。方向も同様に一致し、接続性も高くなります。
しかし、モーター劣化を導入すると、影響を受けたロボットは速度が低下し、他のロボットに追いつけなくなります。彼らは速度を適切に調整できず、遅れをとります。これにより、正常であれば水平線のような挙動を示すはずのグラフが上昇カーブを描き、誤った行動をとっていることを示します。速度グラフでは、赤と緑のロボットが明らかに外れ値となり、他のロボットが収束できている速度には到達できません。方向性と通信も同様に低下します。
ここで私たちの自己修復アルゴリズムを適用すると、赤いロボットなどの障害を持つメンバーは依然として外れ値として存在しますが、残りのロボットは正しく収束できるようになります。これにより、スワームは全体として正しいコンセンサスに復元されます。
これらの障害と修復が人間の信頼にどのように影響するかを調査するために、被験者実験を実施しました。この実験では、参加者にドットとして動くスワームメンバーの小さなビデオを見せ、5段階(全く信頼しない、信頼しない、中立、信頼する、非常に信頼する)で評価してもらいました。個々のスワームメンバーに対する信頼度についても追加の質問を行いました。
各参加者には14のトライアルがランダムな順序で提示され、その中の2つは正常なスワーム行動、残りの12は様々な種類の障害が注入され修復されたものでした。すべてのトライアルは同じ初期条件から始まりました。
実験の結果、6台中1台のロボットに障害がある場合、参加者の信頼評価は障害時の「中立」から修復後の「信頼」へと統計的に有意に向上しました(p<0.01)。6台中2台に障害がある場合は「信頼しない」から「中立」へと変化し、これも統計的に有意でした。12台中1台の場合、「信頼」から「信頼プラス(より強い信頼)」へと変化しましたが、これは統計的に有意ではありませんでした。12台中2台では、参加者は「中立」の評価を維持しました。彼らは完全に信頼しないというほどではないものの、中立的な立場を取りました。
モーター故障だけでなく、風の影響も調査しました。風はスワームの各メンバーの方向を変え、目標から外れさせる効果があります。12台のロボットと風の状況を検討したシナリオでは、Y軸に信頼レベル、X軸に正常・障害・修復の状態を示したグラフを作成しました。このグラフから、正常時には12台すべてに対して信頼度が高いこと、障害時には急激に低下すること(ただし、一部はまだ高い信頼を示しています)、そして修復後は中間的な値に戻ることが分かります。
これらの結果から、人々は非常に明確でない条件下でも、スワームが正常に動作しているとき、障害が発生しているとき、そして修復されたときの状態を区別でき、それに応じて信頼度を調整できることが示されました。実験では「信頼しますか?」だけでなく、「再利用しますか?」という質問も行いました。これは実際に再度そのシステムに依存するかという重要な指標です。
信頼評価の理由についても調査しました。モーター障害の場合、被験者の18%が「間違った方向に進んでいる」、60%が「一貫性のない速度」(これが実際のモーター障害の正確な認識)、22%が「密集度が低い」ことを理由に挙げました。それぞれ異なる点に注目していることが分かります。風の状況では、67%が「間違った方向」を指摘しました。これは風が方向を変えるという影響を正確に捉えています。被験者は障害の種類によって異なる特性に注目し、その原因も比較的正確に特定できていたことが分かります。
さらに、スワームの劣化度合いと信頼判断の変化の関係も調査しました。ここでは、フォレージング行動をする事前記録されたビデオを47人の参加者に見せ、スワームのメンバーを5%、10%、15%、20%、25%劣化させました。参加者には、そのスワームに依存する意向(これが信頼を示す)を評価してもらいました。
結果は、スワームへの依存意向(信頼)の有意な低下が15%と20%の間で発生し、その後安定することを示しました。つまり、約15〜20%のメンバーが劣化すると、人間の信頼が大きく低下する転換点があることが分かりました。この知見は、危機対応など様々な状況で重要となります。
これらの実験から、私たちは自己修復アルゴリズムがスワームのコンセンサスを維持し、信頼の喪失を軽減することを示しました。また、より現実的な環境での追加実験も実施しています。今後の研究課題としては、モーター故障のような永久的な損傷と風のような一時的な現象に対する異なる修復アプローチの開発が考えられます。両方の状況に対応できる修復アルゴリズムを開発していますが、一時的な障害と永久的な障害では異なる対応が最適である可能性があります。
3. 口頭発表セッション
3.1. 内在価値駆動型強化学習
3.1.1. 心理学的動機付けモデルとマズローの欲求階層
李教授:私の論文「内在価値駆動型強化学習」は、NSFが支援する基礎研究プログラムの一部です。この研究について5つのパートで紹介したいと思います。まず最初に導入部分から始めます。
知的エージェント、特に人間を研究する際、特定の目標を持っていると想定します。心理学的側面から動機付けを研究すると、人間や動物を含むあらゆる生物が行動する際、彼らの動機によって駆動されていることが分かります。別の視点から見ると、私たちは様々な動機付けが混ざり合った存在と言えます。
自然システムにおいて、動機付けとは生物の活動に絶対的に関わるもので、特定の目標を反映し、行動の意味ある新しい単位を形成する機能を持ちます。実際、私たちには好奇心や達成感、コンピテンスといった内在的動機付けがあり、また罰や報酬といった外在的動機付けもあります。人間は、これらの様々な動機付けが組み合わさった存在なのです。
これらの動機付けは、階層的な視点から分析することができます。心理学における非常に有名な理論の一つがマズローの欲求階層です。この階層は人間のニーズを5つのレベルに分類します。最も低いレベルでは、食べ物、水、睡眠といった生理的ニーズがあり、これらは通常の機能をサポートします。これらの低レベルのニーズが満たされると、安全のニーズが生じ、シェルターや家を求めます。その後、社会的帰属、さらに高いレベルでは自己実現のニーズが発生します。
私たちが前述したように、人間はこうしたニーズの混合体であり、そのニーズは環境や相互作用によって動的に変化します。例えば、現在の私のニーズはこのプレゼンテーションを行うことですが、同時に空腹や喉の渇きも感じているかもしれません。しかし現在の優先ニーズは講演を終えることです。これらのニーズには条件付き依存関係があるのです。
マズローの階層は、特に最も低いレベルの生理的ニーズが私たちがどのような存在かを記述する方法を示しています。低レベルのニーズが満たされると「自我」へと発展し、さらに人間社会のような複雑なマルチエージェントシステムでの協力を通じて「アイデンティフィケーション」を得ます。その後、自己実現の夢を達成して「超自我」になります。
これが人間の動機付けを記述する基本的なアイデアですが、ここで重要な問題は、このようなモデルをどのようにしてAIやロボティクスの領域に実装し、AIエージェントと人間の間に相互理解のある建築を構築するかということです。
3.1.2. 内在価値システムによる意思決定モデル
李教授:ここで内在的動機付けモデルの背景について簡単に説明します。AIエージェントの内在的動機付けモデルを形式化する基盤は、2016年の参考論文に記載されています。その概念は非常に理解しやすいものです。
まず、センサーが情報を収集します。次に、環境との相互作用から得たこの情報を基に、個々の内在的動機付け要素に基づいて意思決定を行います。これは、すべてのエージェントが独自の価値システムを持っているということを意味します。同じメッセージや情報を受け取っても、現在の優先ニーズに応じて異なる決断を下すのです。
例えば、私が食べ物を提供したとき、空腹の人はそれを受け取りますが、すでに低レベルのニーズを満たしている人は「今は空腹ではないので、水を探すか、睡眠を取るか、勉強するかもしれない」と考えるでしょう。異なる人々は、同じ情報や相互作用を受けても、自分の価値システムに基づいて異なるフィードバックや行動、戦略を持つことになります。これが現実世界で実際に起こっていることです。
このモデルでは、独自の価値システムを通じて、現在の状況に対する決断を下し、アクチュエーターを通じて現在の戦略や行動を実行します。これが私たちのニーズ行動をモデル化する基本的なモデルですが、これらのニーズを定量化するにはどうすればよいでしょうか。経済学の観点からは、効用理論、特に期待効用理論が一般的に使用されており、これらのニーズを定量化するためによく使われています。
こうした議論に基づいて、私たちは「内在価値駆動型強化学習」と呼ぶ新しいアプローチを提案します。従来の強化学習では、エージェントが行動や戦略を実行して他のエージェントや環境と相互作用し、直接的なフィードバックや報酬を得ます。しかし、このフィードバックや報酬は、特にマルチエージェント環境では各エージェントに偏りなく見えるかもしれませんが、実際の人間社会では、誰もが独自の視点や価値システムを持っており、環境や相互作用からのあらゆるフィードバックを分析し、それに基づいて適切な戦略や行動を選択します。これが、各人が異なり、独自性を持つ理由です。
内在価値駆動型強化学習では、エージェントが特定の行動を環境に対して実行する際、従来の報酬ではなく効用が返されます。これは、環境からくるあらゆる種類の効用がエージェントの内在価値システムに入ることを意味します。前述した期待効用理論を使用して、ニーズの重み付けと効用指標を持ち、これらの指標を通じてマズローの階層を説明するための特定の行列を構築できます。
ここでの主な違いは、この期待効用理論を使用して、環境からのニーズの重み付けと効用を持ち、最終的に報酬を計算することです。この報酬は、環境から直接得られる従来の報酬とは少し異なります。これが、私たちの乱数成分の源であり、状態、行動、ニーズの重み付けを持ち、最終的に報酬を計算するための戦略軌跡に従います。
3.1.3. 期待効用理論による欲求の定量化
李教授:私たちのモデルを定量化するために、期待効用理論を活用しています。期待効用理論は、欲求を数値化し、エージェントの意思決定プロセスに組み込むための効果的な手段を提供します。この理論では、エキスパート効用理論というアプローチを採用しています。
基本的には、欲求の重み付け(ニード・ウェイト)と環境から得られる効用を組み合わせて報酬を計算します。これにより、従来の強化学習で直接環境から得ていた報酬とは異なる、エージェント固有の内在的価値に基づいた報酬が生成されます。
我々のモデルをどのように形式化し、実装するかについて、いくつかの方法を列挙しました。特に、Q関数をどのように実装するか、そして内在価値駆動(IV)型の深層Q学習モデルにどのように組み込むかを詳細に検討しています。また、アクター・クリティックモデルにこの概念を実装する方法も開発しました。
実験評価のために、「Doom」というゲームを選びました。Doomは、要件に基づいてフィードバックをカスタマイズできるため、適切な選択でした。このゲームでは、「センターの防衛」「ラインの防衛」「コーナーの防衛」など、複数のシナリオで評価を行いました。
評価の結果、私たちの手法は様々なシナリオで優れたパフォーマンスを示しました。トレーニング環境を通じて、エージェントは特定の種類の欲求の重み付けを採用し、特定の「パーソナリティ」を表現するように促されます。
この研究は、内在価値駆動型学習の概念的なプロトタイプです。将来的には、マルチエージェントシステムやリアルタイム戦略、特に人間とロボットの相互作用に実装し、AIエージェントとロボットの間に相互理解のあるアーキテクチャを構築することを目指しています。
3.1.4. Doom環境での実装と実験結果
李教授:私たちは内在価値駆動型強化学習モデルを実際にテストするために、Doomゲーム環境を選択しました。Doomを選んだ理由は、このゲームでは要件に基づいてフィードバックをカスタマイズすることができるからです。これにより、エージェントの異なる内在的価値や欲求に対応した様々なシナリオを作成することが可能になります。
実装にあたっては、2つの主要なアプローチを採用しました。一つは行動を生成する方向、もう一つは欲求の重み付けを生成する方向です。これらを組み合わせて最終的な結果を計算します。具体的には、深層Q学習モデルとアクター・クリティックモデルの両方に内在価値駆動(IV)型の概念を実装しました。
評価は複数のシナリオで行いました。「センターの防衛」「ラインの防衛」「コーナーの防衛」などの異なる状況でのパフォーマンスを測定しました。各シナリオには異なる目標と課題があり、エージェントはそれぞれの状況に応じた適切な戦略を学習する必要があります。
実験結果は非常に良好で、私たちの内在価値駆動型モデルは様々なシナリオで優れたパフォーマンスを示しました。特に注目すべき点は、トレーニングを通じてエージェントが特定の種類の欲求の重み付けを採用し、それによって独自の「パーソナリティ」特性を表現するようになったことです。
例えば、あるエージェントは安全性を重視し、別のエージェントは目標達成を優先するといった異なる行動パターンが観察されました。これは、私たちのモデルが単に報酬を最大化するだけではなく、内在的な価値システムに基づいて意思決定を行っていることを示しています。
この実験結果は、内在価値駆動型学習が複雑な環境での意思決定において有効であり、特に人間の認知プロセスに近い形でエージェントを訓練できることを示唆しています。これにより、将来的にはより自然で理解しやすい人間とAIの相互作用が可能になると考えています。
3.2. マルチエージェント強化学習における通信の説明
3.2.1. 集中型訓練と分散型実行の課題
ダニエル:私はヴェローナ大学の研究者です。今日発表する研究は、マルチエージェント強化学習における通信の説明可能性に関する初期的な研究です。ポスターも右側に展示していますのでご覧ください。
この研究は説明可能なAI技術を活用して、通信能力を強化したマルチエージェント強化学習において、エージェント間の通信内容を理解し説明することを目的としています。
まず簡単な導入から始めます。マルチエージェント強化学習では、典型的なアプローチとして「集中型訓練・分散型実行」というスキームが採用されています。集中型訓練フェーズでは、すべてのエージェントが一緒に訓練され、その後実行フェーズでエージェント間で方針が分割されます。
このような設定における主要な問題の一つが「非定常性」です。これは基本的に、実行中のエージェントの方針が他のエージェントの異なる行動とその相互作用に依存するため、環境が動的に変化することを意味します。
この問題に対処するために、文献で提案されている一つの方法が、エージェントに通信能力を導入することです。これにはさまざまなアプローチがありますが、本研究では2016年の「強化エージェント間学習」(RIAL)というアプローチを採用しています。このアプローチでは、エージェントが通信メッセージを学習し、それを実行フェーズで活用するという考え方です。つまり、古典的なアクター方針と通信方針の両方を学習するのです。
このアプローチの問題点は、通信プロトコルを学習する過程が、フレームワーク内のもう一つのブラックボックス層になってしまうことです。そこで、本論文の目的は、エージェントが学習する通信行動を説明する方法の探求を始めることです。これは、将来的にモデルベースの通信アプローチを開発するためにも有用です。
3.2.2. 説明可能AIによる通信解析のアプローチ
ダニエル:エージェントの通信行動を説明するために、私たちは説明可能AIの主要な二つのアプローチを活用しました。一つは「統合勾配」アプローチ、もう一つは「因果発見」アプローチです。
統合勾配アプローチは、関連する特徴抽出を可能にする方法で、例えば通信ネットワークやポリシーネットワーク内の重要な特徴を抽出することができます。このアプローチでは、パラメータθに依存するニューラルネットワークF_θを出発点として、特定の特徴入力の変化が出力にどのような影響を与えるかを評価します。
一方、因果発見アプローチは、変数間の因果的独立性を評価する方法で、標準的な指標である「条件付き相互情報量」によって測定されます。この詳細に立ち入ることは本発表の主旨ではありませんが、基本的な考え方は、因果発見において特徴と他の特徴、または特徴とエージェントの行動の間の一種の転移エントロピーを測定するということです。条件付き相互情報量はこの情報を正確に測定し、スライドの下部に示されています。
条件付き相互情報量がゼロであれば、特徴は独立していると言え、因果的関連を取り除くことができます。最終的には、スライド上部に示されているような因果グラフが得られ、どの特徴が時空間的に他の特徴と因果的に関連しているかを特定できます。
これをマルチエージェント通信と強化学習の問題にどう適用するかについてですが、私たちはまず非常に単純なドメインから始めました。これは修士学生による初期研究であるため、「シンプル・スプレッド」と呼ばれる基本的なドメインを使用しました。これは左側に示されているもので、三つの異なるエージェント(色付きのボール)がいくつかのターゲットに向かって移動する必要があります。ポイントは、エージェントはただターゲットをカバーするだけで、達成すべき事前定義されたターゲットはありません。エージェントは衝突を避けながら最適なカバレッジを実行するために協調して学習する必要があります。
私たちは、マルチエージェントDPGをベースにした異なるマルチエージェントアプローチをこの問題に対してテストしました。特に、様々な通信プロトコルをテストしました。最初のプロトコルは学習可能なアプローチで、RIALを使ってエージェントに通信を学習させます。次に、いくつかのモデルベースのアプローチに進み、通信メッセージを明示的に定義します。
3.2.3. 統合勾配と因果発見による通信プロトコルの解明
ダニエル:実験を進めるにあたり、まず期待通り、学習型通信(特にオレンジ色の曲線で示された学習型通信)の使用が非定常性問題を軽減し、より安定した訓練パフォーマンスをもたらすことを確認しました。これは変動の少ない訓練パフォーマンスとして左側のグラフに表示されています。
次に、説明可能性の結果について評価を試みました。まず、関連特徴の観点から通信がポリシーに与える影響を統合勾配アプローチを用いて評価しました。興味深いことに、統合勾配アプローチでは、通信がエージェントの実際の行動にそれほど影響を与えていないという結果が示されました。
しかし、因果分析に進むと、学習型プロトコルとモデルベースのプロトコルという2つの異なる通信プロトコルを考慮した場合、学習型プロトコルではエージェントのパフォーマンスが最も高いことが分かりました。実際、学習型プロトコルでは、エージェントの特徴(特に通信メッセージ)とエージェントの速度の間に因果的な接続があることが明らかになりました。これにより、エージェントがより効果的に互いを回避できるようになっています。
つまり、統合勾配では説明可能性について目立った結果は得られませんでしたが、因果発見アプローチでは、実際に観察されている内容を説明することができました。左側に示されているように、特に緑と赤のエージェントは互いに衝突せず、過度に接近することもありません。これは、因果発見アプローチによって明らかにされた通信メッセージと速度の間の因果関係によるものです。
この発表はあくまで初期的な研究であり、今後はさまざまなアルゴリズムやドメインでテストする予定です。しかし、これはマルチエージェント協力と通信を理解するための説明可能AIの可能性研究であり、認知科学の観点からも重要な意味を持つものです。特に、エージェント間のコミュニケーションがどのように協調行動に影響を与えるかという理解を深めるための第一歩となります。
3.2.4. Simple Spread環境での実験結果
ダニエル:私たちは"Simple Spread"という非常に基本的な環境で実験を行いました。この環境は左側に示されているもので、3つの異なるエージェント(色付きのボール)が複数のターゲットに向かって移動する必要があります。重要なポイントは、エージェントはただカバレッジを行うだけで、特定のエージェントが特定のターゲットに割り当てられるわけではありません。つまり、エージェントは衝突を避けながら、すべてのターゲットを最適にカバーするために協調する必要があります。
まず最初に、通信の使用、特に学習型通信の使用がマルチエージェントシステムにもたらす効果を観察しました。左側のグラフに示されているオレンジ色の曲線は、学習型通信を使用した場合のパフォーマンスを表しています。この結果から、通信の使用が非定常性問題を軽減し、トレーニング中のパフォーマンスの変動が少なくなることが確認できました。これは、エージェントが互いの行動をより予測しやすくなるためと考えられます。
次に、私たちは説明可能性の結果について評価を行いました。統合勾配アプローチを用いて、通信がポリシー(行動方針)に与える影響を分析しましたが、意外なことに、通信はエージェントの実際の行動にそれほど直接的な影響を与えていないという結果が得られました。
しかし、因果分析に進むと、異なる通信プロトコル(学習型とモデルベース)を比較した際に、学習型プロトコルでエージェントが最も良いパフォーマンスを示すことが分かりました。さらに詳しく分析すると、学習型プロトコルでは、エージェントの特徴(特に通信メッセージ)とエージェントの速度の間に因果的な関連性があることが明らかになりました。これにより、エージェントがより効果的に互いを回避できるようになっています。
実際、左側の図に示されているように、特に緑と赤のエージェントは学習型通信プロトコルを使用した場合、互いに衝突せず、過度に接近することもありません。これは通信によって各エージェントが他のエージェントの意図を理解し、自身の行動を調整しているためと解釈できます。
このように、統合勾配アプローチでは説明可能性について明確な結果は得られませんでしたが、因果発見アプローチでは実世界で観察される協調行動を説明することができました。これは、エージェント間の通信がどのように協調行動に寄与しているかを解明する上で重要な発見です。
この研究はあくまで初期段階のものであり、今後はより複雑なアルゴリズムやドメインでテストを行う予定です。しかし、マルチエージェント協力と通信を理解するための説明可能AIの可能性を示す重要な一歩であり、認知科学の観点からも意義があるものです。
3.3. 許可構造を持つヘドニックゲームにおけるインセンティブ設計
3.3.1. ヘドニックゲームと許可構造の導入
大久保:私は日本の慶應義塾大学から参りました大久保です。私の発表タイトルは「許可構造を持つヘドニックゲームにおけるインセンティブ設計」です。
まず研究の背景についてお話しします。ヘドニックゲームとは、各エージェントの選好に基づいて提携構造を形成するゲームです。ここでいう提携構造とは、エージェント集合がいくつかのグループに分割されることを意味します。ヘドニックゲームにはさまざまなモデルが研究されていますが、既存研究では情報拡散をヘドニックゲームに組み込んだモデルはありませんでした。
一方、協力ゲームには「許可構造」と呼ばれるモデルが存在します。これは、エージェントがゲームに参加するためには、すでにゲームに参加しているエージェントから許可を得なければならないというモデルです。許可は、あるエージェントが別のエージェントを招待する操作と考えることができます。このモデルはエージェントによる情報拡散のモデルとして解釈でき、協力ゲームにおける情報拡散のインセンティブを議論する際に使用されています。
本研究の概要をご説明します。私たちは対称的加法分離可能ヘドニックゲームに許可構造を導入し、エージェントによる情報拡散について検討します。具体的には、情報拡散に対するエージェントのインセンティブと、他の広く知られている性質との互換性を検討します。また、情報拡散へのインセンティブを満たすメカニズムの効用を分析します。
この研究で使用するモデルについてご説明します。まず、既存の2つのモデルについて説明します。1つ目は対称的加法分離可能ヘドニックゲーム(SASHゲーム)です。これは重み付き無向グラフで表現されるヘドニックゲームです。このゲームでは、エッジの重みがエージェント間の選好を表し、各エージェントの効用は同じグループに属するエージェントに対する価値の合計として定義されます。社会厚生は全エージェントの効用の合計として定義され、社会厚生が高いほど良い結果とみなされます。
もう1つの既存モデルは許可構造です。これはエージェント間の親子関係を表す有向グラフで表現されます。このモデルでは、ゲームに参加するためにエージェントは親から許可を得る必要があります。許可構造には2つのモデルがあります。連言的許可構造では、エージェントは参加するためにすべての親から許可を得る必要があります。選言的許可構造では、少なくとも1人の親から許可を得れば参加できます。
本研究では、新しいモデルとして「許可構造を持つ対称的加法分離可能ヘドニックゲーム」(SGwPS)を提案します。これは効用グラフDと許可グラフHによって定義されるヘドニックゲームです。効用グラフは無向重み付きグラフ、許可グラフは非循環有向グラフです。このゲームでは、まず各エージェントが他のエージェントに許可を与え、次に参加可能なエージェントが提携構造に分割されます。
また、インセンティブ互換性についても定義します。インセンティブ互換性とは、エージェントが真実に従って行動することが最適であるという性質です。本研究では、情報拡散に関連する2種類のインセンティブ互換性を定義します。「支配戦略インセンティブ互換」(DSIC)は、他のエージェントの行動に関わらず、すべての子に許可を与えることがエージェントにとって最適であることを意味します。「事後インセンティブ互換」(EPIC)は、他のエージェントがすべての子に許可を与えると仮定すると、同様に行動することがエージェントにとって最適であることを意味します。
また、許可構造の2つのモデルそれぞれでインセンティブ互換性を分類します。例えば、連言的許可構造における支配戦略インセンティブ互換はCDSICと呼び、選言的許可構造における支配戦略インセンティブ互換はDDSICと呼びます。CDSICは最も強いインセンティブ互換性であり、DEPICは最も弱いインセンティブ互換性です。
3.3.2. インセンティブ互換性の種類と定義
大久保:本研究では、情報拡散に関するインセンティブ互換性について2つの種類を定義しました。インセンティブ互換性とは、エージェントが真実に従って行動することが最適であるという性質です。
まず1つ目は「支配戦略インセンティブ互換」(DSIC)です。これは、他のエージェントの行動に関わらず、エージェントがすべての子に許可を与えることが最適であるという性質です。つまり、どのような状況においても、情報を拡散する(すべての子に許可を与える)ことが、エージェント自身にとって最適な戦略となります。
2つ目は「事後インセンティブ互換」(EPIC)です。これは、他のエージェントがすべての子に許可を与えると仮定した場合に、同様に行動することがエージェントにとって最適であるという性質です。つまり、他のエージェントが情報を拡散していると仮定した場合に、自分も情報を拡散することが最適となります。
これらのインセンティブ互換性は、さらに許可構造のモデルによって分類されます。許可構造には、連言的許可構造と選言的許可構造の2つのモデルがあることを先ほど説明しました。
連言的許可構造における支配戦略インセンティブ互換はCDSICと呼びます。これは、エージェントが参加するためにはすべての親から許可を得る必要がある状況で、他のエージェントの行動に関わらず、すべての子に許可を与えることが最適である性質です。
選言的許可構造における支配戦略インセンティブ互換はDDSICと呼びます。これは、エージェントが参加するためには少なくとも1人の親から許可を得れば良い状況で、他のエージェントの行動に関わらず、すべての子に許可を与えることが最適である性質です。
同様に、連言的許可構造における事後インセンティブ互換はCEPICと呼び、選言的許可構造における事後インセンティブ互換はDEPICと呼びます。
これらのインセンティブ互換性の中で、CDSICは最も強い条件であり、DEPICは最も弱い条件です。つまり、CDSICを満たすメカニズムは、他のすべてのインセンティブ互換性も満たします。一方、DEPICは最も満たしやすい条件ですが、これを満たしていても他のインセンティブ互換性を満たすとは限りません。
本研究では、この研究で考慮する他の広く知られた性質についても紹介します。安定性(Stability)は、各エージェントが現在の提携から移動することでユーティリティを改善できないという性質です。個人合理性(Individual Rationality)は、すべてのエージェントのユーティリティが負にならないという性質です。パレート効率性(Pareto Efficiency)は、他のエージェントのユーティリティを下げることなく、あるエージェントのユーティリティを向上させることができないという性質です。羨望のなさ(Envy-freeness)は、エージェントが他のエージェントと提携を交換することでユーティリティを向上させることができないという性質です。
3.3.3. 異なる特性との互換性分析
大久保:本研究の主な成果として、インセンティブ互換性と他の特性との互換性について分析しました。この視点から4つの定理を提示します。
第一の定理として、DSICと必然性を同時に満たすメカニズムは存在しないことが分かりました。
第二の定理では、CEPICまたはDDSICとパレート効率性を同時に満たすメカニズムは存在しないことを証明しました。
第三の定理として、DEPICとパレート効率性と個人合理性を同時に満たすメカニズムは存在しないことが明らかになりました。
第四の定理では、個人合理性と羨望のなさとCDSICを同時に満たすメカニズムは存在することを示しました。
これらの結果を表にまとめると、CDSICを満たしつつ個人合理性と羨望のなさも満たすメカニズムは存在しますが、より弱いインセンティブ互換性であるDEPICでさえ、パレート効率性と個人合理性と同時に満たすことはできません。パレート効率性とDPICを同時に満たすメカニズムが存在するかどうかは今後の研究課題として残っています。
次に、インセンティブ互換性を満たすメカニズムのパフォーマンスを評価するために、近似比という概念を定義しました。メカニズムの近似比は、入力として与えられたグラフに対して、メカニズムが返す提携構造の社会厚生の近似比として定義されます。
最初の結果として、DSICを満たす任意のメカニズムの近似比はゼロであることが分かりました。DSICは最も弱いインセンティブ互換性であるため、これは非常にネガティブな結果です。
そこで自然な疑問として、制限されたSGwPSでは結果を改善できるかどうかを検討しました。2種類の制限されたSGwPSを考えました。
1つ目は、グラフ構造を森(循環を持たない無向グラフ)に制限した場合です。この場合、最適なCSICメカニズムが存在することが分かりました。
2つ目は、エッジの重みを-p、0、pのみに制限した場合です。この場合、DSICを満たす任意のメカニズムの近似比の上界はO(1/n)となりますが、DDSICを満たす多項式時間メカニズムで近似比がΩ(1/n)のものが存在することが分かりました。
これらの結果から、本研究の結論として、許可構造を持つヘドニックゲームにおけるインセンティブ互換性と他の望ましい特性との間にはトレードオフが存在することが示されました。また、特定の制限された状況においては、インセンティブ互換性を満たしつつ一定の社会厚生を保証するメカニズムが設計可能であることも明らかになりました。
3.3.4. 近似比の評価と制限付きモデルでの結果
大久保:インセンティブ互換性を満たすメカニズムのパフォーマンスを評価するために、私たちは近似比という概念を定義しました。メカニズムの近似比は、入力として与えられたグラフGに対して、メカニズムが返す提携構造の社会厚生の近似比として定義されます。
最初の重要な結果として、DSICを満たす任意のメカニズムの近似比はゼロであることが判明しました。DSICは最も弱いインセンティブ互換性であるため、これは非常にネガティブな結果です。つまり、DSICを満たすメカニズムはどれも、最適な社会厚生に対して意味のある保証を提供できないということになります。
この結果を受けて、自然な疑問として、特定の制限を持つSGwPSでは結果を改善できるかどうかを検討しました。私たちは二種類の制限付きSGwPSについて分析しました。
一つ目の制限は、グラフ構造を森(サイクルを持たない無向グラフ)に限定した場合です。森構造は多くの実世界のネットワークで見られるシンプルな構造です。この場合、最適なCSICメカニズム(連言的許可構造における支配戦略インセンティブ互換を満たすメカニズム)が存在することを証明できました。これは、特定の構造的制約の下では、強いインセンティブ互換性と最適な社会厚生を同時に達成できることを示す肯定的な結果です。
二つ目の制限は、エッジの重み(エージェント間の選好値)を-p、0、pのみに限定した場合です。ここでpは正の定数です。この制限はエージェントの選好がシンプルな場合(好き、嫌い、中立)に相当します。この設定では、DSICを満たす任意のメカニズムの近似比の上界はO(1/n)となります。ここでnはエージェント数です。つまり、エージェント数が増えるにつれて保証される社会厚生の比率は減少してしまいます。
しかし、同時にDDSIC(選言的許可構造における支配戦略インセンティブ互換)を満たす多項式時間メカニズムで、近似比がΩ(1/n)のものが存在することも証明しました。これは近似比の上界と一致しており、この制限下での最適な保証であることを意味します。
これらの結果から、許可構造を持つヘドニックゲームにおけるインセンティブ設計には、一般的なケースでは厳しい限界があるものの、特定の制限の下では肯定的な結果が得られることが分かりました。特に、森構造のグラフや単純な選好値の場合には、情報拡散へのインセンティブを保ちながらも、一定の社会厚生を保証するメカニズムが設計可能です。
これらの知見は、特に分散型システムにおける情報拡散のインセンティブ設計について、重要な理論的基盤を提供するものです。
3.4. 多次元ベイズ信頼メトリクスによる協調タスクでの敵対的干渉の検出
3.4.1. 協調的タスクにおける信頼評価の自動化
ジオーザ教授:この研究は博士課程の学生との初期的な研究であり、彼は本日ここに来ることができませんでした。私たちは協調タスクを実行する際に敵対的干渉を検出するための研究を行っています。
基本的なアイデアとして、エージェントは通常、他のエージェントが協調的であると仮定していますが、必ずしもそうとは限りません。協調的でない理由にはさまざまなものがあり、意図的ではない場合や技術的な問題を抱えている場合もあります。そこで、エージェント自身が直接計算できる信頼指標を提案しています。
私たちはエージェントが他のエージェントの行動を観察し、それに基づいて信頼値を調整できるような指標を開発しました。これはベイズゲーム理論的アプローチの文脈で行われ、相手を信頼できるかどうかを決定するために他のエージェントと相互作用し、判断を下す必要がある強化学習エージェントを使用しています。
この研究はまだ非常に初期段階ですが、信頼できない相手を比較的信頼性高く検出できることを示す予備的な結果が得られています。また、Overcooked AIという環境でいくつかの実験を行い、その有効性を検証しています。
私たちの研究では合理性を仮定しています。つまり、エージェントは期待累積報酬を最大化しようとすると想定しています。少なくとも2種類の合理性があり、それは自己利益的な合理性と協調的な合理性です。協調的な場合、エージェントは共有目標を最大化しようとします。
例を挙げると、2つのエージェントがあり、1つは強化学習エージェント、もう1つは協調的エージェントとします。協力する場合の報酬構造がありますが、相手が時間の50%だけ協調的で、残りの時間は敵対的または単に怠惰である場合、エージェントのペアが得る報酬は異なります。これは相手のエージェントのタイプによって変わります。
信頼の概念について、私たちは以前の研究から定義を採用しています。ベイズの定理を使用して信念を更新することにより、確率論的アプローチで信頼を更新します。私たちの設定では、エージェントのペアがあり、すべてが自動的に行われる必要があります。
Overcooked AIの環境を例に取ると、これは5つの異なるシナリオがある料理問題です。各シナリオには2つのエージェントがおり、玉ねぎを刻んで顧客に提供する必要があります。エージェントには空間の異なるレイアウトがあり、常に玉ねぎを刻む必要があります。顧客により速くサービスを提供することが目標です。
これが一般的な設定です。1つの強化学習エージェントがあり、特に高度なことは行っていませんが、2つのエージェントのうち1つが協調的でない場合に何が起こるか、そして学習して信頼しないことができるかどうかを確認しようとしています。
3.4.2. TRAVOSシステムの拡張とマルチTRAVOSの提案
ジオーザ教授:信頼をモデル化するための手法は、数年前に開発されたTRAVOSと呼ばれるシステムから採用しています。基本的にはベータ分布関数を用いてランダムな選択をモデル化するもので、アルファとベータという2つの変数を使用します。これらの公式を使って、信頼の期待値を推定することができます。
私には相手となるエージェントがいて、その相手が協調的かどうかは分かりません。しかし、信頼を測定する方法があります。この信頼測定は、相手のタイプによって異なります。この基本的な仕組みで相互作用を通じて信頼度を計算します。
いくつかの迅速な結果をお見せします。これは非常に初期段階の研究であることを再度強調しておきます。「非対称な優位性」という環境でのトレーニング結果を示しています。これはOvercooked AIの5つの環境のうちの1つです。グラフでは、標準的な強化学習(DDPG)、拡張したマルチTRAVOS、そして基本的なTRAVOSシステムを比較しています。
TRAVOSは約10年前に開発されたシステムで、エージェント間の信頼を扱う標準的なシステムです。私たちはこれを拡張し、マルチTRAVOSと呼んでいます。従来の「信頼する/しない」の二分法ではなく、異なる種類のエージェントを検出しようとする点が新しい点です。エージェントが信頼できないとしても、それが敵対的なのか、単に怠惰なのかを区別しようとしています。
このアプローチの応用先の一つとして、ロボティクスでの利用を考えています。実際のエージェントは怠惰ではなく、何かが故障しているだけかもしれません。この信頼モデルを使用して、他のエージェントの技術的問題を検出できないかと考えています。
グラフの上部はトレーニング部分を示し、下部は評価部分を示しています。読みにくいかもしれませんが、時間の経過とともに、オレンジ色の線で示された私たちのマルチTRAVOSアプローチが他のアプローチよりも高い報酬を獲得していることが分かります。
2つ目の例は「コーディネーションリング」と呼ばれる環境で、エージェントが互いにぶつからないように調整する必要がある円形のエリアがあります。ここでも同様の結果が得られています。
結論として、これは複雑な状況に対処するための有望な環境だと考えています。基盤となるのはベイズゲーム理論で、TRAVOSによって提案された信頼測定方法を採用していますが、異なる種類の信頼を区別できるよう拡張しました。これは非常に初期段階の研究であり、この分野は興味深く開かれた領域だと考えています。今後もさらに研究を続けていきます。
3.4.3. 異なるタイプの非協調エージェントの検出
ジオーザ教授:私たちの研究の重要な側面は、単に「信頼できるかできないか」という二分法を超えて、異なるタイプの非協調的エージェントを区別できるようにすることです。
従来のTRAVOSシステムは基本的に「この相手は信頼できるか、それとも信頼できないか」という単純な判断を行います。しかし現実世界では、エージェントが協調的でない理由にはさまざまな種類があります。私たちが区別しようとしている非協調的エージェントの主なタイプは以下の通りです:
- 敵対的エージェント - 意図的に目標達成を妨げるエージェント
- 怠惰なエージェント - 十分な努力をせず、期待された協力レベルに達しないエージェント
この区別が重要なのは、それぞれのタイプに対して異なる対応戦略が必要になるからです。例えば、敵対的エージェントに対しては、その行動を予測して回避する戦略が必要かもしれません。一方、怠惰なエージェントに対しては、そのエージェントが行わない作業を自分で引き受ける戦略が効果的かもしれません。
私たちのマルチTRAVOSアプローチでは、相手の行動パターンを観察し、それがどのタイプの非協調的行動に最も一致するかを確率的に評価します。オーバークックAI環境での実験では、学習エージェントが相手のタイプを特定し、それに応じて戦略を調整できることを示す予備的な結果が得られています。
例えば、相手が玉ねぎを切らないことが観察された場合、それが単に遅いのか、故意に協力を拒否しているのかを区別するために、その他の行動パターン(例:相手がプレイヤーの邪魔をするかどうか)も考慮に入れます。
この研究は他のドメインにも応用可能です。特にロボティクスの分野では、実際のロボットエージェントは「怠惰」ではなく、何かが故障している可能性があります。私たちの多次元信頼モデルを使用することで、他のエージェントの技術的問題を検出し、適切に対応することができるようになります。
例えば、あるロボットが特定のタスクを実行できていない場合、それが故意に非協力的なのか、単にその機能が故障しているのかを判断できれば、効果的な対応が可能になります。これは、複数のロボットが協調して作業する工場や災害救助など、クリティカルなシナリオで特に重要となります。
初期的な結果では、私たちのマルチTRAVOS手法が異なるタイプの非協調的エージェントを検出し、それに応じて適応することで、標準的な強化学習手法よりも優れたパフォーマンスを示しています。これは非常に有望な方向性であり、今後さらに研究を深めていきたいと考えています。
3.4.4. OvercookedAI環境での実験結果
ジオーザ教授:実験結果を詳細に見ていきましょう。私たちはOvercookedAI環境を使用しました。この環境は5つの異なるシナリオを持つ料理問題です。各シナリオには2つのエージェントがおり、玉ねぎを刻んで顧客に提供するという任務があります。エージェントは空間の異なるレイアウトで作業する必要があり、常に顧客により速くサービスを提供することが目標です。
「非対称な優位性」と呼ばれる環境での実験結果をお見せします。これはOvercookedAIの5つの環境のうちの1つです。グラフの上部はトレーニング部分、下部は評価部分を示しています。
比較のために、標準的な強化学習(DDPG)、私たちが拡張したマルチTRAVOS、そして基本的なTRAVOSシステムという3つのアプローチを実装しました。トレーニング部分のグラフを見ると、時間の経過とともに、オレンジ色の線で示された私たちのマルチTRAVOSアプローチが他のアプローチよりも高い報酬を獲得していることが分かります。
評価段階でも同様のパターンが観察され、マルチTRAVOSが一貫して最良のパフォーマンスを示しています。この結果は、私たちのアプローチが異なるタイプの非協調的エージェントを適切に識別し、それに応じて行動を調整できていることを示唆しています。
2つ目の実験は「コーディネーションリング」と呼ばれる環境で行いました。この環境では、エージェントが円形のエリアにいて、互いにぶつからないように調整する必要があります。ここでも同様の結果パターンが見られ、マルチTRAVOSアプローチが他のアプローチよりも優れたパフォーマンスを示しました。
これらの結果は、非協調的エージェントのタイプを区別することの重要性を示しています。例えば、もし相手が単に能力が低いだけなのか、あるいは意図的に妨害しているのかによって、最適な対応戦略は大きく異なります。
標準的なDDPGアプローチは、相手が協調的でないことを認識できますが、なぜ協調的でないのかを理解することはできません。基本的なTRAVOSはある程度の信頼評価を行いますが、複数の異なるタイプの非協調的行動を区別することはできません。私たちのマルチTRAVOSは、相手が「敵対的」なのか「怠惰」なのかを区別し、それに基づいて最適な戦略を選択できるため、より良いパフォーマンスを達成できます。
これらの初期的な結果は非常に有望ですが、まだ研究の初期段階です。今後は、より複雑な環境での検証や、より多様な非協調的行動パターンの区別など、さらなる研究を進めていく予定です。また、このアプローチをロボティクスなどの実世界の応用に拡張することも検討しています。特に、実際のロボットエージェントでは、「怠惰」ではなく単に技術的な問題を抱えている可能性があり、そのような状況でも効果的に機能するモデルの開発を目指しています。
3.5. マルチエージェント時空間領域修復に向けて
3.5.1. 時間とともに劣化する空間的に分散した領域の修復問題
アメル・ドゥア:私はダートマス大学の博士課程学生のアメル・ドゥアです。「マルチエージェント時空間環境プロパティ修復に向けて」という研究を発表します。
空間的に分散した領域があり、それぞれが時間とともに劣化するプロパティを持つ環境を考えてみてください。修復されなければ、これらの領域は臨界閾値に達してしまいます。臨界閾値を下回ると望ましくない状態になります。この問題に対処するために、私たちは複数のロボットチームを導入します。
ロボットのコストは大幅に低下しているため、実際に複数のロボットを使用することが実用的になってきています。特に人間にとって危険な環境保全作業などでは、ロボットの方が適切な選択肢かもしれません。私たちは、これらの領域を修復し、バッテリーを充電するためのロボットの訪問スケジュールを見つけることを目標としています。このスケジュールにより、時間的プロパティが臨界閾値を下回る時間を最小化します。
この問題を「複数エージェントによる時空間環境プロパティ修復」(multi-STPR)と名付けています。以前の研究では単一エージェントのSTPR問題を扱いましたが、マルチエージェントのケースはまだ未解決の問題です。単一エージェントでさえNP困難であるため、マルチエージェントの場合も同様に難しい問題です。
関連する最先端の解決策である「時間変動報酬付きオリエンテーリング問題」では、領域はスケジュールの時間枠内で最大一度だけ訪問されると仮定しています。また、その目的は私たちの目的とは異なり、総収集報酬を最大化することを目標としています。
この研究は精密農業、水域の清掃、公共スペースの清掃など、多くの実世界の応用に重要です。私たちは、人間の好みを取り入れつつ、エージェントが領域を修復するための意思決定を行い、ミッション中に「死なない」(バッテリー切れにならない)ようにするフレームワークを提案しています。
明らかに、領域はクラスタリングできます。例えば、劣化率、領域間の距離、外因性変数、あるいは単に人間の好みに基づいてクラスタリングすることができます。例えば、私がこのビルの管理者で、スペースを清掃するロボットチームがあるとすると、おそらく1階、2階、ボールルームなど、エリアをクラスタリングしたいでしょう。
各クラスタから、分割統治アプローチとして、それぞれを一台のロボットに割り当てます。これは複数ロボットによるオリエンテーリング問題やタスク割り当てでよく使われる典型的なアプローチです。エージェントが割り当てられたクラスタを受け取ると、モデル化された劣化関数を損失に変換します。これは劣化と逆の関係にあります。そして、訪問中の損失の正味値である訪問の機会コスト総額を最小化するスケジュールを探します。同時に、バッテリー消費の面でリソース効率が最も高いことを確保します。
しかし、この問題がNP困難であるという制約があります。最適解である全探索または総当たり法は指数関数的な実行時間を要します。以前の研究では、予測された訪問の機会コストを最小化する次の訪問地を選択するヒューリスティックアルゴリズムを提案しました。これにより、領域のリアルタイムでの持続的な修復が可能になります。
もちろん、クラスタの再割り当てやエージェントの再割り当ても考慮する必要があります。例えば、あるエージェントが利用できなくなった場合、その割り当てられたクラスタは別のエージェントが引き継ぐ必要があります。また、劣化関数が進化する可能性もあるため、クラスタは静的ではなく動的であるべきです。さらに、協力や連携を可能にするための最適性の検討も重要です。例えば、あるロボットが割り当てられていないサブクラスタの近くにいる場合、そのロボットをそのクラスタに再割り当てすることで、より最適なクラスタ割り当てのトレードオフが実現できる可能性があります。
3.5.2. クラスタリングに基づく分割統治アプローチ
アメル・ドゥア:私たちのアプローチを全体的に見ると、まず中央側からの処理と、次にエージェント側からの処理があります。中央側では、2行目のようにエリアのクラスタを作成します。そして6〜9行目で、これらのクラスタをロボットに割り当て、さらに再割り当てを続けます。
エージェント側では、各エージェントが割り当てられたクラスタを受け取り、そのクラスタを修復するための訪問スケジュールを策定します。9〜12行目では、中央エージェントとの通信が行われます。例えば、エージェントが充電のために外出する場合など、利用不能になる場合に再割り当てを促します。
このフレームワークの核心となるのは、効果的なクラスタリングに基づく分割統治アプローチです。エリアを適切にクラスタリングすることで、複雑な問題を扱いやすい小さなサブ問題に分解できます。クラスタリングの方法にはいくつかの選択肢があります:
- 劣化率に基づくクラスタリング - 同様の速度で劣化する領域をグループ化します
- 領域間の距離に基づくクラスタリング - 空間的に近い領域をグループ化します
- 外因性変数に基づくクラスタリング - 環境や使用パターンなどの外部要因に基づいてグループ化します
- 人間の好みに基づくクラスタリング - 人間の管理者や利用者の優先順位に基づいてグループ化します
例を挙げると、オフィスビルの清掃を担当するロボットチームの場合、フロアごとにクラスタリングするのが自然かもしれません。または、会議室、オープンスペース、廊下などの部屋のタイプに基づいてクラスタリングすることもできます。
各クラスタが形成されると、次のステップはそれらを個々のロボットに割り当てることです。これは典型的なタスク割り当て問題であり、マルチロボットオリエンテーリング問題に対する一般的なアプローチです。割り当てでは、各ロボットの能力、バッテリー寿命、現在の位置などの要因を考慮する必要があります。
エージェントが割り当てられたクラスタを受け取ると、モデル化された劣化関数を損失に変換します。これは劣化と逆の関係にあり、エージェントは訪問の機会コスト総額を最小化するスケジュールを探します。同時に、バッテリー消費の面でリソース効率が最も高いことを確保します。
このアプローチの利点は、動的な再割り当てと連携を可能にすることです。例えば、あるエージェントが別のエージェントのクラスタに近い場所にいる場合、一時的にそのクラスタの修復を手伝うことができます。また、あるエージェントのバッテリーが低下している場合、そのクラスタを別のエージェントに再割り当てすることができます。
これにより、マルチエージェントシステムは協調して効率的に作業できるようになり、全体として時間的プロパティが臨界閾値を下回る時間を最小化することが可能になります。
3.5.3. 機会コスト最小化による訪問スケジューリング
アメル・ドゥア:エージェントが割り当てられたクラスタを受け取った後、その重要な役割は効率的な訪問スケジュールを策定することです。このプロセスの中心となるのが機会コスト最小化のアプローチです。
まず、エージェントはモデル化された劣化関数を損失に変換します。これらの損失は劣化と逆の関係にあります。つまり、ある領域の劣化が大きければ大きいほど、その領域を訪問しないことによる損失も大きくなります。エージェントの目標は、訪問中の損失の正味値である訪問の機会コスト総額を最小化するスケジュールを見つけることです。同時に、バッテリー消費の面でリソース効率が最も高いことも確保する必要があります。
しかし、この問題に対する最適解を見つけることは計算上非常に困難です。この問題はNP困難であるため、最適な全探索アルゴリズムは実行時間が指数関数的に増加してしまいます。これは実用的な応用では不可能です。
そこで、私たちは以前の研究で、即時および予測された訪問の機会コストを最小化する次の訪問先を選択するヒューリスティックアルゴリズムを提案しました。このアプローチにより、領域のリアルタイムでの持続的な修復が可能になります。
具体的には、各ステップでエージェントは以下の判断を行います:
- 現在の各領域の劣化状態を評価する
- 各領域を訪問しない場合の予測損失を計算する
- 各領域への移動コスト(時間とバッテリー消費)を考慮する
- これらの要素を組み合わせた機会コストを計算する
- 機会コストが最小となる次の訪問先を選択する
これは貪欲なアプローチですが、複雑な環境で良好なパフォーマンスを発揮します。また、環境が変化すると、エージェントはリアルタイムで訪問スケジュールを再計算することができます。
私たちは、オフィスのような構造化された環境で数十の領域を対象に初期実験を行いました。最適なベースラインを1台のロボットと2台のロボットで実行しようとしましたが、2台のロボットの場合は実行時間内に終了しませんでした。いずれにせよ、1台のロボットの結果を複数エージェントの最小ベースラインとして使用しています。
現在の最先端技術である時間変動報酬を持つ複数ロボットによるオリエンテーリング問題は、領域の修復に効果的です。私たちは、予測期間Kを増やすこと、つまりスケジュールの数を増やすことでパフォーマンスが向上する可能性があることを観察しました。しかし、いずれの場合も、私たちが提案するフレームワークは最先端技術よりも優れたパフォーマンスを示しています。
このアプローチの重要な側面は、単に機会コストを最小化するだけでなく、バッテリー制約を組み込んでいることです。エージェントは充電ステーションを訪問するタイミングを計画し、ミッション中に「死なない」(バッテリー切れにならない)ようにする必要があります。これにより、長期間にわたって持続可能な修復が可能になります。
3.5.4. 複数ロボットによる環境特性修復の実験結果
アメル・ドゥア:オフィスのような構造化された環境で数十の領域を対象に初期実験を行いました。最適なベースラインを1台のロボットと2台のロボットで実行しようとしましたが、残念ながら2台のロボットの場合は実行可能な時間内に結果を得ることができませんでした。そのため、1台のロボットの結果を複数エージェントシステムの最小ベースラインとして使用しています。
現在の最先端技術である時間変動報酬を持つ複数ロボットによるオリエンテーリング問題は、領域の修復に効果的であることが確認されました。私たちは、予測期間Kを増やすこと、つまりスケジュールに含める将来の訪問数を増やすことでパフォーマンスが向上する可能性があることを観察しました。しかし、どのケースにおいても、私たちが提案するフレームワークは最先端技術よりも優れたパフォーマンスを示しています。
これらの実験結果は、私たちのアプローチが時間的プロパティが臨界閾値を下回る時間を効果的に最小化できることを示しています。特に、エージェントの意思決定能力とクラスタリングに基づく分割統治アプローチの組み合わせが、環境特性の効率的な修復に貢献しています。
将来の研究方向としては、長期的な目標として人間の優先事項を組み込むことを考えています。この修復タスクは主に人間に利益をもたらすものであるため、人間の優先事項を考慮することが重要です。また、エージェントが修復タスクで協力できるようにすることも目指しています。
さらに、ロボットが収集したデータに基づいて時間的現象を推測する継続的学習も実現したいと考えています。これは探索と活用のトレードオフを生じさせるため、今後のアルゴリズムに組み込む予定です。また、エンドユーザーの属性に応じて、クラスタリングの属性範囲や割り当て方法を検討し、再割り当ての最適条件を探ります。
さらに、分散型アプローチなど、他のタスク割り当てメカニズムも探索する予定です。全体として、このフレームワークは協調的マルチエージェントシステムと意思決定を可能にするとともに、人間の好みや優先事項を組み込むことを目指しています。
私たちの実験結果は、このアプローチが実世界の問題、特に時間とともに劣化する空間的に分散した領域の修復に適用できる可能性を示しています。例えば、精密農業では、土壌の栄養レベルや水分レベルが臨界閾値を下回らないようにするために、複数のロボットが協力して広大な農地をカバーすることができます。また、都市環境では、複数のロボットが公共スペースの清掃や水域の浄化などを効率的に行うことができます。
将来的には、より複雑な環境や制約条件でのアプローチの拡張、動的に変化する劣化率への対応、そして人間とロボットの協調を促進するインターフェースの開発など、さらなる改善を目指しています。