※本記事は、AAAI 2024カンファレンスの一環として開催された「Cooperative Multi-Agent Systems Decision-Making and Learning」ワークショップPart2の内容を基に作成されています。ワークショップは2024年2月26日にカナダのバンクーバー・コンベンションセンターで行われました。本記事では、ワークショップの講演内容を要約しております。なお、本記事の内容は発表者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの発表資料や録画をご確認いただくことをお勧めいたします。
1. マルチエージェントシステムの課題と応用
1.1 スワームロボティクスのスケーラビリティと集団的意思決定
私たちの研究では、マルチエージェントシステム、特にスワームロボティクスの分野におけるスケーラビリティの問題に焦点を当てています。理想的には、ロボットの数が増えるにつれてシステムのパフォーマンスが向上することが期待されます。しかし、現実には、エージェントの密度がある一定のレベルを超えると、パフォーマンスが低下し始める現象が観察されます。
この現象をより深く理解するため、私たちは集団的意思決定という古典的なスワームロボティクスの問題に焦点を当てたテストベッドシナリオを設定しました。このシナリオでは、ゾーンBとゾーンAという2つのゾーンがあり、それぞれに特定のリソースが配置されています。ロボット群の任務は、これらのゾーンを探索し、どちらのゾーンがより良いかを集団で決定することです。
実験では、光源を使用してロボットの動きを制御するという興味深いアプローチを採用しました。一部のロボットは光に引き寄せられる正の走光性を、他のロボットは光から逃げる負の走光性を持つように設定しました。これにより、ロボット群は自然とゾーンAとゾーンBに分かれて探索を行うことができます。ロボットは十分なサンプリングを行った後、方向を切り替えて巣に戻り、収集した情報を共有します。
この実験設定において、私たちは3種類の意思決定方法を検討しました:
- ハチの方式:この方法では、ロボットは環境をサンプリングした後、巣に戻って近くのロボットとのみ通信します。
- 仮想スティグマジー:この方法は環境を介した通信方法で、ロボットは共有メモリに情報を書き込みます。
- 分業方式:この方法では、ロボットがサンプリング、ネットワーキング、意思決定などの特定の役割に特化します。
実験結果は非常に興味深いものでした。ハチの方式は、ロボットの数が増えるとパフォーマンスが急激に低下しました。仮想スティグマジーは、より速い収束を示しましたが、移動の混雑という問題は解決できませんでした。一方、分業方式は混雑を最小限に抑え、最も効果的な結果を示しました。
これらの結果から、私たちは階層型スワームロボティクスという新しい概念を提案するに至りました。この方法では、少数の高度なリーダーロボットと多数の単純なフォロワーロボットを組み合わせます。この階層構造により、システム全体の効率を向上させつつ、スケーラビリティの問題に対処することができます。
1.2 アリの行動を模倣した適応型遺伝的アルゴリズム
私たちは、アリの行動から着想を得た実時間適応アルゴリズムを開発しました。このアルゴリズムの目標は、遺伝的アルゴリズムを短時間で実行し、迅速に結果を得ることです。
アルゴリズムの基本的なアイデアは、ロボットが他のロボットと近接したときに適合度関数を共有することです。より適合度の高いロボットがパラメータを共有し、他のロボットがそれを採用します。この実験では、適合度はより多くの食料を見つけたかどうかで測定されます。
このアプローチには課題もあります。例えば、食料が豊富な領域にいたロボットのパラメータが、必ずしも他の領域で効果的とは限りません。また、食料の少ない領域で低いパフォーマンスを示していたロボットのパラメータが、実際には効果的である可能性もあります。
このアルゴリズムは、ローカルな動きの戦略と組み合わせて使用されます。各ロボットは染色体を持ち、これが速度などのパラメータ値を表現します。ロボット同士の相互作用により、これらのパラメータが更新されていきます。
実験結果を評価するため、私たちはランダムな環境、べき乗則の環境、都市環境など、異なる環境でのパフォーマンスを比較しました。結果を示すグラフでは、私たちの適応型遺伝的アルゴリズム(Adapt-GA)が他のアルゴリズムよりも優れたパフォーマンスを示していることが明確に見て取れます。
ただし、興味深いことに、ロボットの数が増えると、エージェントあたりの収集オブジェクト数は若干減少する傾向も見られました。これは、ロボット間の干渉が増加するためと考えられます。
この研究は、スワームロボティクスにおける適応的なアルゴリズムの可能性を示しています。今後は、より複雑な環境や任務に対しても効果的に機能するアルゴリズムの開発を目指しています。
2. 社会的ジレンマと強化学習
2.1 社会的ジレンマの概念と例
私は自身を深層学習のジェネラリストと考えていますが、今日お話しする内容は少し異なる分野に関するものです。私たちは長年この研究に取り組んできました。
社会的ジレンマとは、各当事者が自己の利益を最大化しようとする近視眼的な努力が、全員が協力した場合と比べてより不利な結果をもたらす意思決定問題です。これは一般和ゲームの一種で、ゼロサムゲームとは異なり、両者がある程度勝利できる可能性があります。
典型的な例として囚人のジレンマがあります。2人の囚人A、Bが別々に尋問を受け、自白か黙秘かを選択します。両者が黙秘すれば1年の禁固刑、両者が自白すれば5年の禁固刑、一方が自白し他方が黙秘した場合、自白した方は釈放され、黙秘した方は20年の禁固刑となります。
理論的には自白が支配戦略となりますが、これは社会的に最適な結果ではありません。しかし、このゲームが繰り返し行われる場合、「しっぺ返し戦略」が効果的になります。これは初回は協力し、以降は相手の前回の行動を真似る戦略です。
社会的ジレンマは、ビジネス交渉、交通問題、政策交渉、気候変動対策など、現実世界の多くの場面で見られます。私たちは、複雑な世界で複雑な解決策を見出すために強化学習を活用したいと考えています。
2.2 LOLAとPOLAの概要と課題
LOLA (Learning with Opponent-Learning Awareness) は、対戦相手の学習を考慮した学習手法です。エージェントは、相手が素朴な学習エージェントであると仮定し、相手のパラメータに関する勾配を計算します。相手の更新を未来に投影し、それを自身のモデル更新に組み込みます。
LOLAには2つの主な制限があります。1つ目は、学習中に相手のポリシーのパラメータにアクセスする必要があることです。2つ目は、計算グラフの構築とそれを通じた逆伝播が計算コストが高いことです。
POLAはLOLAを改良した手法で、近接ペナルティを追加しています。具体的には、古いポリシーパラメータと新しいポリシーパラメータの間のKLダイバージェンスを使用します。これにより、パフォーマンスが大幅に向上しましたが、LOLAと同様の制限を持っています。
2.3 新手法LOQAの提案
私たちは新しい手法LOQA (Learning with Opponent Q-learning Awareness) を提案しました。LOQAの鍵となる観察は、エージェントの報酬が相手のポリシーに依存し、その逆も成り立つということです。
LOQAでは、モンテカルロ推定を使用して、エージェントのポリシーパラメータへの依存関係を明示的にします。また、相手のポリシーを近似するために、Q関数のソフトマックスを使用します。これにより、相手のポリシーをQ関数の直接的な関数として表現でき、それを通じて逆伝播することができます。
LOQAの利点は以下の通りです:
- 相手のポリシーパラメータを必要としません。
- REINFORCEの勾配推定は不偏です(ただし、分散は高い)。
- 推定値の計算が高速です。
2.4 実験結果と考察
私たちは3x3のコイン収集ゲームを用いてLOQAの性能を評価しました。LOQAを他の手法(POLA, MOS, Always Cooperate, Always Defect, Random)と比較しました。
結果として、LOQA vs LOQAの自己対戦では、POLA vs POLAよりも良い結果を示しました。POLAは自己対戦時により搾取的な戦略を学習する傾向があります。POLA vs LOQAの対戦ではPOLAの方が良い成績を収めましたが、自己対戦ではLOQAの方が優れていました。
また、グリッドサイズを3x3から7x7まで変えて実験を行い、計算効率とスケーラビリティを評価しました。LOQAはPOLAよりも大幅に高速であり、より大きな問題サイズでも良好なパフォーマンスを維持しました。
ただし、LOQAには高い分散という課題があります。これは、REINFORCEの推定量が高分散であることに起因します。
今後の課題として、連続行動空間への拡張や、エージェントの合理性に関する仮定の緩和などがあります。LOQAは社会的ジレンマにおける強化学習の新しいアプローチとして有望ですが、さらなる改善の余地があります。
3. 口頭発表セッション
3.1 予期せぬ状況での通信方策学習
私はMinhuiと申します。ソウル国立大学の博士課程に在籍しており、マルチエージェント強化学習を分布外設定に適用し、その適応性を研究しています。
本研究の主な動機は、協調的機械学習アルゴリズムを現実世界に適用する際の課題に取り組むことです。特に、部分観測可能な環境での協調と、訓練時と実際のテスト環境の差異への対応が重要です。
我々は、予期せぬ状況をエンコードする通信アーキテクチャ(Unexpectedness Encoding Scheme with Reward、略してUSR)を提案しました。USRは以下の2つの要素から構成されています:
- 予想外さのエンコーディング:前方動学モデルを使用して予測を生成し、実際の観測と比較します。その差異を「予想外さ」として定義し、オートエンコーダーでエンコードします。
- 報酬ベースのメッセージ:外部報酬に基づく情報を含めます。これは、予想外の状況のどの部分がタスク解決に関連しているかを示すためです。
我々は、マルチロボット倉庫環境でUSRの性能を評価しました。この環境では、エージェントは格子世界を移動し、棚を目標位置まで運ぶ必要があります。訓練分布では、1000タイムステップ(約10エピソード)ごとに不可能な障害物の位置をランダム化しました。
実験結果では、USRが他の手法(独立A2C、ICM、M-AAT)よりも優れたパフォーマンスを示しました。特に、分布外設定での転移学習性能が高いことが確認されました。
今後の課題としては、メッセージの内容の解釈、より協調を必要とするタスクでの評価などが挙げられます。
3.2 階層的戦略グラフを用いた深層強化学習
私は蒋と申します。ブランドリン大学の助教授です。本日は、BSoft Actor-Critic:直接循環戦略グラフベースの深層強化学習についてお話しします。
我々の手法では、ベイジアンネットワークを導入して複雑なアクターを複数の単純なサブアクターまたはサブポリシーに分解します。これをBSN(Bayesian Strategy Network)と呼んでいます。さらに、SACアルゴリズムの最大エントロピー強化学習フレームワークのアイデアを統合し、BSACを開発しました。
BSACの目的関数は、BNSにおける各サブポリシーのエントロピーの総和を最大化します。また、ソフト状態価値関数を導入し、各サブポリシーの平均二乗TDエラーコストの期待値を最小化する損失関数を定義しました。
OpenAI Gymのベンチマークタスク(HalfCheetah、Hopper、Walker2d、Humanoid)を用いて実験を行い、BSACが他の手法と比較して優れたサンプル効率と安定性を示すことを確認しました。
今後の研究方向として、マルチエージェントシステム、自動運転車、リアルタイム戦略ゲーム(StarCraft II、OpenAI Five)、ロボット移動(Unreal Engine、Locobot WX250S)などへの応用を考えています。
3.3 協調的参照ゲームにおける通信方策学習
私はPhilip Zölerです。ドイツのポツダム大学の計算言語学研究室の博士課程に在籍しています。本日は、より対話的な言語生成、つまり言語エージェントの開発に向けた研究についてお話しします。
我々の研究は、Herbert ClarkとDeanna Wilkes-Gibbsの1986年の研究「指示as協調プロセス」に着想を得ています。彼らは、2人の参加者(指示者と操作者)にタングラム図形を配置させる実験を行いました。6回の試行を通じて、参加者は新しい用語に合意し、使用する単語数が減少しました。
我々は、この現象をフォロワーの自信度の変化と関連付けて研究しています。初期の試行では行動の自信度が低く、後の試行では自信度が高くなると仮定しています。
この仮説を検証するため、我々は協調的参照ゲームを開発しました。このゲームでは、ガイド(指示者)が「青いXを取る」などの文を生成し、フォロワーがその情報を使用して青いXに移動します。
実験では、PPOアルゴリズムを使用し、3つのランダムシードで各ペアリングを複数回実行しました。結果として、より自信のあるフォロワーに対して、スピーカーがより多くの沈黙行動を生成する傾向が確認されました。
3.4 不完全情報ゲームのための学習フレームワーク
私は朱樊(Zhu Fan)と申します。中国科学技術大学の所属です。本日は、マルチエージェント不完全情報ゲームのAI訓練フレームワークについて、特に麻雀とブリッジを例にとってお話しします。
我々の分散強化学習訓練フレームワークは、アクターモジュール、学習者モジュール、評価モジュールで構成されています。データ生成の効率を高めるために、コンテナ分離法とアドレスマッピングを使用しています。
訓練には自己対戦PPOアルゴリズムを使用し、GPTを方策損失として、GAEを計算しています。モデル構造にはResNet18を使用し、違法な行動を排除するためのマスクも導入しています。
実験結果では、我々の手法が他のベースライン(ランダムエージェント、貪欲エージェント、専門家経験を使用した手法など)と比較して優れたパフォーマンスを示しました。
さらに、AIAS 2023の不完全情報カードゲーム競技会に参加し、麻雀エージェントで2位、ブリッジエージェントでも2位を獲得しました。
この研究の主な貢献は、高いデータ生産性を持つマルチエージェント不完全情報ゲームAI訓練フレームワークを提案したことです。このフレームワークは単一のサーバーに展開可能であり、実際の競技会で優れた性能を示しました。
4. 階層型スワームロボティクス
4.1 階層と集団的意思決定
私たちは、スワームロボティクスシステムのスケーラビリティに関する重要な疑問に取り組んでいます。分散システムはどのようにスケールするのでしょうか。理想的には、ロボットの数が増えるにつれてパフォーマンスが向上することが期待されます。しかし、エージェントの密度がある一定のレベルを超えると、パフォーマンスが低下し始めます。
この現象を理解するため、私たちは集団的意思決定のテストベッドシナリオを設定しました。ゾーンBとゾーンAという2つのゾーンがあり、それぞれに特定のリソースがあります。ロボットはこれらのゾーンを探索し、どちらのゾーンがより良いかを集団で決定する必要があります。
実験では、光源を使用してロボットの動きを制御しました。一部のロボットは光に引き寄せられ(正の走光性)、他のロボットは光から逃げる(負の走光性)ように設定しました。ロボットは十分なサンプリングを行った後、方向を切り替えて巣に戻り、情報を共有します。
私たちは3種類の意思決定方法を検討しました:
- ハチの方式:ロボットは環境をサンプリングし、巣に戻って近くのロボットとのみ通信します。
- 仮想スティグマジー:環境を介した通信方法で、ロボットは共有メモリに情報を書き込みます。
- 分業方式:ロボットがサンプリング、ネットワーキング、意思決定などの役割に特化します。
実験結果では、ハチの方式はロボットの数が増えるとパフォーマンスが急激に低下しました。仮想スティグマジーはより速い収束を示しましたが、移動の混雑は解決できませんでした。分業方式は混雑を最小限に抑え、最も効果的でした。
これらの結果から、私たちは階層型スワームロボティクスの概念を提案しました。この方法では、少数の高度なリーダーロボットと多数の単純なフォロワーロボットを組み合わせます。
4.2 核廃棄物処理タスクでの実験
階層型スワームロボティクスの有効性を示すため、私たちは「核廃棄物処理」と呼ぶテストベッドを開発しました。このタスクでは、ロボット群が未知の環境を探索し、放射線源を見つけ、一定数のロボットを割り当てて処理を行う必要があります。
私たちは、高度なロボット(ガイド)と単純なロボット(ワーカー)を組み合わせたアプローチを採用しました。ガイドロボットは高度な計算能力を持ちますが、放射線に弱い一方、ワーカーロボットは単純なセンシング能力しか持ちませんが、放射線に強いという設定です。
実験では、ガイドロボットがSLAMを用いて環境を探索し、放射線源を特定します。その後、巣に戻ってワーカーロボットを集め、目標地点まで誘導します。この方法を、バグアルゴリズムなどの古典的な探索方法と比較しました。
結果は非常に興味深いものでした。アリーナのサイズが大きくなるにつれて、階層型スワームは常に100%の成功率を維持しました。一方、他の手法は必要なロボット数が増えるにつれて急速に性能が低下しました。また、階層型スワームは探索に要する時間も大幅に短縮しました。
私たちは実際のロボットを使用した実験も行いました。これは非常に困難な実験でしたが、廊下で人々がいない瞬間を見計らって行いました。完全なSLAM、ロボット間のアドホックネットワーク、中央集権的な動作は一切使用せず、ロボットは環境を探索し、マップを作成し、目標を見つけ、チェーンを形成してゴールに到達しました。
4.3 スマートパーティクルスワームの応用
階層型アプローチの可能性をさらに探るため、私たちは「スマートパーティクルスワーム」と呼ぶ概念を開発しました。これは、方向性を知っているガイドロボットと、反応的な刺激にのみ応答するワーカーロボットを組み合わせたものです。
この概念を実現するため、私たちは仮想スティグマジーを使用してスワームのルールを動的に変更できるようにしました。これにより、スワームの形状、密度、ガイドロボットからの反応距離などを変更することができます。
実験では、最大1000台のロボットを使用し、ガイドロボットがワーカーロボットを集め、任意の形状に操作できることを示しました。これは、ナノメディシンなどの応用分野で有用な技術となる可能性があります。
私たちは、実際のロボットを使用した実験も行いました。同じタイプのロボットを使用し、ガイドロボットがスワームの位置を特定し、全体を移動させることができることを示しました。
結論として、階層型スワームロボティクスは、実際のスワームロボティクスシステムを展開する上で重要なアプローチだと考えています。これにより、スワームロボティクスの創発的な挙動と、従来のロボット工学の特定のシステム設計(SLAMや探索など)を組み合わせることができます。
最後に、私たちは欧州宇宙機関と協力して、実際の月面アナログ環境でスワームロボティクスの実験を行いました。宇宙飛行士のマティアス・マウラーが、ドローンのスワームを操作して探索を行いました。宇宙飛行士自身が階層の上位レベルとして機能し、自己組織化的な挙動を示すロボットに目標を与えるという形で実験を行いました。
今後数年間で、このようなシステムがさらに発展し、実用化されることを期待しています。
5. エッジコンピューティングを用いた人間-ロボット認知融合
私は蒋と申します。ブランドリン大学の助教授です。本日は、エッジコンピューティングを用いた人間-ロボット認知融合について、特に医療分野での応用に焦点を当ててお話しします。
5.1 研究背景:スマートヘルスケアの課題
近年、エッジコンピューティングは、AI、ロボティクス、IoT、高速無線センサーネットワークなどの技術を結びつける重要な役割を果たしています。特にスマートヘルスケアの分野では、将来の医療やヘルスケアアプリケーションにおいて、膨大な量のリアルタイム臨床データの計算と分析が必要となります。特にAIとロボティクス技術を組み込む際には、この需要がさらに高まります。
5.2 提案アーキテクチャの概要
これらの課題に対処するため、私たちはエッジ認知コンピューティングアーキテクチャを提案しました。このアーキテクチャは、情報接続、認識データ融合、分析、リソース戦略の最適化、人間専門家の推奨事項、リアルタイムのCPU更新などを統合しています。
このアーキテクチャにより、高いエネルギー効率、低コスト、高いユーザー体験品質を実現することが可能となります。
5.3 自閉症スペクトラム障害への応用
私たちは、自閉症スペクトラム障害(ASD)の治療支援を例にとり、このアーキテクチャの有効性を検証しました。ASDの治療では、個々の患者の特性に応じた段階的なアプローチが重要です。
我々は、人間の発達の認知モデルに基づいたロボット支援CBT(認知行動療法)を提案しました。このシステムは、ASD患者が異なるレベルのソーシャルスキルやコミュニケーションスキルを段階的に習得できるよう支援します。
具体的には、4つの応用例を行動ツリーとして設計しました。これらの例は、ASD患者の体験を改善し、IAT(Interaction-based Autism Therapy)の効果を異なるステージで高めることを目的としています。
5.4 将来の実装領域
本研究の成果は、ASD治療支援以外にも幅広い分野での応用が期待されます。具体的には以下のような領域が考えられます:
- 患者モニタリング
- 信号キャリア
- 子供の監督
これらの応用領域において、エッジコンピューティングを用いた人間-ロボット認知融合は、より効率的で個別化された医療サービスの提供に貢献することが期待されます。
6. 協調型マルチエージェント強化学習における誤解の修正
私はクリスです。本日は、協調型マルチエージェント強化学習(MARL)における一般的な誤解について、私たちの研究成果をお話しさせていただきます。
6.1 研究の背景と動機
協調型MARLは、複数のエージェントが共通の目標を達成するために協力する状況を扱います。しかし、この分野には多くの誤解や課題が存在します。私たちの研究は、これらの誤解を修正し、より効果的なアルゴリズムの開発を目指しています。
特に、集中型訓練・分散型実行(CTDE)アプローチに関する誤解に焦点を当てています。このアプローチは、オフラインでの集中型訓練と、オンラインでの分散型実行を組み合わせたものです。
6.2 集中型訓練・分散型実行(CTDE)アプローチ
CTDEは、オフラインでの訓練時に全エージェントの情報を共有し、オンラインでの実行時には各エージェントが独立して行動することを可能にします。この方法は、集中型と分散型の利点を組み合わせようとしていますが、実際にはいくつかの問題があります。
例えば、MDPGやCOMAなどの手法は、集中型評論家を使用することが常に有益であると主張していました。しかし、私たちの研究では、これが必ずしも正しくないことを示しました。
6.3 集中型評論家を用いた手法の分析
私たちは、集中型評論家と分散型評論家の性能を理論的および実験的に比較しました。理論的には、両者が同等の期待値を持つことを証明しました。つまり、集中型評論家が必ずしも協調を促進するわけではありません。
さらに、集中型評論家は分散型評論家よりも高い分散を持つ推定量であることも示しました。これは、集中型評論家が場合によっては分散型評論家よりも悪い性能を示す可能性があることを意味します。
実験では、一般的なベンチマークタスクを用いて検証を行いました。多くの場合、集中型評論家と分散型評論家の性能に大きな差はありませんでしたが、いくつかのケースでは分散型評論家の方が優れた結果を示しました。
6.4 状態ベース評論家の問題点
もう一つの重要な誤解は、状態ベースの評論家の使用に関するものです。COMAなどの手法は、部分観測可能な環境でも状態ベースの評論家が有効であると主張していました。しかし、私たちの研究では、これが正しくないことを示しました。
状態ベースの評論家は、完全観測可能な環境でのみ健全であり、部分観測可能な環境では偏りのある推定を生み出す可能性があります。私たちは、状態と履歴の両方を用いる評論家を提案し、これが多くの環境でより良い性能を示すことを実証しました。
6.5 実験結果と考察
私たちは、様々な環境での実験を通じて、これらの主張を裏付けました。例えば、小規模な環境では、状態・履歴ベースの評論家が他の手法よりも一貫して良い性能を示しました。
特筆すべきは、StarCraft IIのような大規模な環境での結果です。この環境は、状態ベースの評論家が普及するきっかけとなった代表的なドメインです。しかし、私たちの実験では、状態・履歴ベースの評論家がここでも優れた性能を示しました。
また、観測半径を変化させた実験も行いました。観測半径が小さい場合、つまり部分観測性が強い場合には、状態・履歴ベースの評論家が特に効果的でした。
6.6 今後の研究課題
これらの発見は、協調型MARLの分野に重要な示唆を与えていますが、まだ多くの課題が残されています。例えば、より複雑で難しいベンチマークの開発や、CTDEの原理的なアプローチの再考などが挙げられます。また、評論家の設計の最適化やスケーラビリティの向上も重要な課題です。
結論として、協調型MARLは非常に有望な分野ですが、これまでの常識や仮定を批判的に検討する必要があります。私たちの研究が、この分野の発展に貢献し、より効果的で汎用性の高いアルゴリズムの開発につながることを期待しています。
7. 人間の戦略的行動のモデル化:機械学習の視点から
私はケビン・レイトン=ブラウンです。本日は、人間の戦略的行動をモデル化する際の機械学習アプローチについてお話しします。
7.1 研究の背景と目的
ゲーム理論は、戦略的状況を数学的に分析するための一般的なアプローチです。しかし、ゲーム理論の推奨事項は直感に反することが多く、現実世界は完全に合理的なエージェントだけで構成されているわけではありません。そのため、実際の人間の行動を予測するためには、より適切なモデルが必要です。
7.2 ゲーム理論の限界:美人コンテストゲームの例
ゲーム理論の限界を示す典型的な例として、「美人コンテストゲーム」があります。このゲームでは、参加者は0から100までの整数を選び、全参加者の平均の3分の2に最も近い数字を選んだ人が勝者となります。
ゲーム理論的に解くと、このゲームの均衡解は全員が0を選ぶことになります。しかし、実際の人間行動はこれとは大きく異なります。ニューヨークタイムズが行った実験では、61,219人の回答の平均が28でした。勝者は19を選んだ人たちでした。
この結果から、人々が限定的な戦略的推論を行っていることがわかります。例えば、50の2/3は約33、33の2/3は22、22の2/3は約15というように、段階的に推論を行う人々がいることが示唆されます。
7.3 行動ゲーム理論モデルの概要
私たちは、人間の実際の行動をより正確に予測するため、行動ゲーム理論モデルを開発しました。このモデルは主に2つの重要な概念に基づいています:量子的効用最大化と反復的戦略的推論です。
量子的効用最大化は、人間が必ずしも最適な選択をするわけではなく、より高い効用をもたらす選択をより高い確率で選ぶという考え方です。
反復的戦略的推論は、人々が他者の思考過程を考慮に入れる際の深さを表現します。レベル0の思考は他者の戦略を考慮せず、レベル1の思考はレベル0の他者を想定し、レベル2はレベル1の他者を想定する、といった具合です。
7.4 提案手法:深層学習を用いたモデル
私たちは、これらの概念を組み込んだ深層学習モデルを開発しました。このモデルは、様々なゲームの結果から学習し、新しいゲームに対する人間の行動を予測することができます。
実験では、128の異なるゲームと数千の観測結果を含む大規模なデータセットを使用しました。このデータセットは、経済学の文献から収集した様々な実験結果を統合したものです。
7.5 非戦略的行動の形式的特徴付け
私たちの研究では、戦略的行動と非戦略的行動を区別することの重要性も明らかになりました。非戦略的行動とは、他のエージェントのモデル化や反応を考慮せずに行動することを指します。
我々は、「基本的行動モデル」という概念を導入しました。これは、ゲームの各要素に対して同じ関数を適用し、その結果に基づいて行動を決定するモデルです。この方法により、非戦略的行動を形式的に特徴付けることができます。
興味深いことに、私たちが以前開発した深層学習モデルは、当初は非戦略的だと考えていましたが、実際には戦略的行動も表現できることが分かりました。
7.6 今後の研究課題
今後の研究課題として、以下のようなものが挙げられます:
- より適切な損失関数の設計
- 非戦略的行動と戦略的行動の明確な区別
- より複雑な環境への適用
- 解釈可能性の向上
- 実世界の応用
結論として、機械学習的アプローチは人間の戦略的行動のモデル化に新しい可能性をもたらしています。しかし、まだ多くの課題が残されており、継続的な研究が必要です。
8. クレジットベース混雑料金制度の最適設計
私はDevan Chalotaです。Marco Pavoneアドバイザーに代わって、人工通貨ベースの福祉プログラムに関する最近の研究成果についてお話しします。特に、クレジットベース混雑料金制度(CBCP)の最適設計に焦点を当てます。
8.1 研究背景:公平性と効率性のトレードオフ
社会の多くの場面で、資源の配分は価格メカニズムを通じて行われています。これは効率的な資源配分を実現する一方で、しばしば不公平だと認識されます。特に、高所得層を優遇する傾向があるためです。
例えば、交通渋滞緩和のための混雑料金制度は、長年にわたり効果的な手段として認められてきました。しかし、実際の適用においては、社会的不公平への懸念から大きな反対に直面しています。低所得層が長い移動時間の負担を強いられる傾向があるためです。
このような状況を背景に、サンマテオ郡(カリフォルニア州)が2022年に導入したコミュニティ交通給付プログラムがあります。このプログラムは、低所得ユーザーに対して通行料金のクレジットを提供し、高速道路の有料レーンを無料で利用できるようにしています。
8.2 混合経済モデルの提案
私たちの研究では、CBCPスキームの最適設計を研究するために、新しい「混合経済」モデルを導入しました。このモデルでは、2つの異なるタイプのユーザーグループを考慮します:
- 適格ユーザー:トラベルクレジットを受け取り、それを使用して高速レーンを利用できます。
- 非適格ユーザー:クレジットを受け取らず、高速レーンを利用する際には自己負担で支払います。
これらの2つのグループは異なる目的を持っているため、私たちはこのシステムを「混合経済」と呼んでいます。
8.3 二層最適化フレームワーク
CBCP均衡の特性を研究した後、私たちは二層最適化フレームワークを開発しました。これは、CBCPスキームを最適化し、中央プランナーが望むグローバルな社会的目的を達成する均衡結果を誘導するためのものです。
このフレームワークは以下のように構成されています:
- 上位レベル問題:中央プランナーが、ある通行料金と予算の組み合わせを選択し、グローバルな社会的コスト関数fを最適化します。
- 下位レベル問題:中央プランナーが選択した通行料金と予算に基づいて、ユーザーが最適な反応を形成し、均衡に達します。
8.4 数値実験:サンマテオ郡のケーススタディ
私たちは、開発した二層最適化フレームワークを使用して数値実験を行いました。中央プランナーの目的関数として、3つの項の線形結合を用いました:
- 適格ユーザーの移動コスト
- 非適格ユーザーの移動コスト
- 収益
これらの項にλパラメータで重み付けを行い、最適なCBCPスキームがどのように変化するかを調査しました。
結果は、中央プランナーの目的(λの重み)に応じて、最適なCBCPスキームが大きく変動することを示しました。例えば、適格ユーザーの重みを1から11に増加させた場合、収益は37%減少しましたが、適格ユーザーの移動コストは10%減少し、非適格ユーザーの移動コストも1%減少しました。
8.5 政策的含意と今後の展望
私たちの研究は、CBCPスキームの設計において原則に基づいたアプローチを採用することの重要性を示しています。主な政策的含意は以下の通りです:
- CBCPスキームは、中央プランナーの目的に応じて大きく異なる可能性があります。
- 収益が主要な目的でない場合、低所得の適格ユーザーの結果を大幅に改善しつつ、他のユーザーグループにも悪影響を与えない、あるいはわずかな改善をもたらすことさえ可能です。
- 二層最適化フレームワークを使用することで、異なる政策目標のトレードオフを定量的に評価し、より情報に基づいた意思決定を行うことができます。
結論として、私たちの研究は、クレジットベース混雑料金制度が公平性と効率性のバランスを取るための有望なアプローチであることを示しています。しかし、その効果を最大限に引き出すためには、慎重な設計と最適化が必要です。
9. 人工通貨ベース福祉プログラムにおける不正報告対策
私はDevan Chalotaです。Marco Pavoneアドバイザーに代わって、人工通貨ベース福祉プログラムにおける不正報告対策に関する研究成果についてお話しします。
9.1 問題設定:不正報告の事例と影響
福祉プログラムが十分に最適化されていても、適切な対象者に利益を届けられないことがあります。その主な原因の一つが不正報告です。特に、資格のないユーザーが私的情報を偽って報告し、本来受ける資格のない人工通貨やクレジットを不正に取得するケースが問題となっています。
具体的な事例として、ワシントンDCの連邦交通給付プログラムがあります。このプログラムでは、連邦職員が月々の通勤費用を過大に報告し、実際の必要額以上の公共交通機関用クレジットを取得する事態が発生しました。2006年だけでも、1700万ドル以上の過剰なクレジットが不正に請求されました。
9.2 提案手法:監査メカニズム
この問題に対処するため、私たちは監査メカニズムを設計しました。このメカニズムでは、ユーザーが自身のタイプ(資格情報)を管理者に報告し、管理者はそれに応じて各ユーザーを監査するかどうかを決定します。
具体的には以下のようなプロセスを想定しています:
- ユーザーは自身の真のタイプMを持っており、これが給付資格を決定します。
- ユーザーは管理者に対して信号Sを送信します。
- 管理者は、受け取った信号Sと、ユーザータイプに関する事前確率分布qに基づいて、監査を行うかどうかを決定します。
- 監査を行わない場合、管理者は報告された資格に基づいてクレジットf(S)を発行します。
- 監査を行う場合、管理者は予算Bを使用して監査コストCを負担します。
- 監査の結果、報告が真実(S=M)であれば、ユーザーにf(M)のクレジットが発行されます。
- 虚偽報告(S≠M)が発覚した場合、ユーザーには罰金Kが課されます。
9.3 理論的分析:均衡の存在条件
提案した監査メカニズムの理論的分析を行い、シグナリングゲーム均衡の存在条件を明らかにしました。
主な知見は以下の通りです:
- 管理者の予算が不十分な場合、シグナリングゲーム均衡は一般的に存在しません。
- 管理者の予算が最大のユーザー連合のサイズに応じてスケールする場合、均衡の存在が保証されます。
- 均衡が存在する場合、線形計画法を用いて計算可能です。
9.4 数値実験:ワシントンDCの連邦交通給付プログラムの例
提案した監査メカニズムの有効性を検証するため、ワシントンDCの連邦交通給付プログラムを模した数値実験を行いました。
実験では、監査メカニズムを実行するための予算と、それによる過剰支払いの削減額を比較しました。メカニズムの総コストは、過剰支払いと監査実行に必要な予算の合計として定義しました。
結果として、非常に緩やかな条件下で、私たちの監査メカニズムが監査なしの状況と比較して総コストを改善できることが理論的に示されました。さらに、幅広い問題パラメータに対して実験的にも、監査メカニズムが総コストを削減できることを確認しました。
9.5 監査メカニズムの有効性と課題
研究の主な成果は以下の通りです:
- 高いデータ生産性を持つ監査メカニズムを提案しました。
- シグナリングゲーム均衡の存在条件を理論的に明らかにしました。
- 線形計画法を用いた効率的な均衡計算手法を示しました。
- 監査なしの状況と比較して、総コストを改善できることを理論的・実験的に示しました。
結論として、私たちの研究は人工通貨ベース福祉プログラムにおける不正報告対策として、監査メカニズムが有効であることを示しています。このアプローチにより、プログラムの効率性と公平性を向上させ、真に支援を必要とする人々により多くの資源を届けることが可能になると期待しています。
10. 群衆内での協調型マルチロボットナビゲーション
私はBotと申します。Honda Research Instituteに所属しています。本日は、群衆内での協調型マルチロボットナビゲーションに関する私たちの研究成果についてお話しします。
10.1 研究背景:凍結ロボット問題
群衆の中でロボットがナビゲーションを行う際、様々な課題が生じます。特に重要な問題の一つが「凍結ロボット問題」です。これは、ロボットが出発地から目的地まで実行可能な経路を見つけられない状況を指します。また、ロボットと人間の間で振動的な動きが発生することも課題となっています。
これらの問題に対処するため、私たちは人間とロボットの動きの相互作用をモデル化することに着目しました。具体的には、ロボットが自身の動きが人間の動きにどのように影響するかを理解し、同時に人間もロボットの動きに反応するという相互作用を考慮しています。
10.2 ゲーム理論的学習ベースのモデル予測制御
私たちは、ゲーム理論的学習に基づくモデル予測制御(MPC)アプローチを採用しました。このアプローチでは、ロボット群と人間群をそれぞれ一つのプレイヤーとして扱う二人ゲームとしてモデル化しています。
10.3 提案手法の詳細
私たちの提案手法では、ロボット間の協調に関する目的関数と、人間とロボットの相互作用のモデル化に重点を置いています。
ロボット群の協調目的として、私たちは「群れ形成(flocking)」を採用しました。これにより、ロボット群が集団として移動することで、人間に与える不快感を軽減することを目指しています。
人間とロボットの相互作用のモデル化においては、各エージェント(ロボットと人間)が個別の目的を持ちつつ、群全体としての効用と個々のエージェントのコストのバランスを取るようにしています。
10.4 実験設定:EPFLの群衆マップ環境
提案手法の有効性を検証するため、私たちはEPFL(スイス連邦工科大学ローザンヌ校)が提供する群衆マップ環境を使用しました。この環境は、実際の人間の動きを基にしたリアルな群衆の動きをシミュレートすることができます。
実験では、ロボット群に群れ形成目的を与えた場合と与えない場合を比較し、人間の不快度に与える影響を評価しました。
10.5 結果と考察:群れ形成目的の影響
実験結果から、群れ形成目的をロボット群に与えた場合、人間の不快度が低下することが確認されました。具体的には、人間が自身の経路を変更する頻度が減少しました。
これは、ロボット群が集団として移動することで、人間にとって予測可能な動きをするようになり、結果として人間の行動への影響が軽減されたためだと考えられます。
ただし、これらの結果はまだ予備的なものであり、今後さらなる検証が必要です。
11. ヒューマンインザループ問題におけるベイズ的意思決定
私はSomotです。オールト大学に所属しています。本日は、「ユーザーモデルとヒューマンインザループ問題におけるベイズ的意思決定」というテーマで、私たちの研究成果についてお話しします。
11.1 研究背景:ユーザーモデルの重要性
ヒューマンインザループ問題において、多くの場合、人間をブラックボックスや単なるデータソースとして扱う傾向があります。しかし、私たちは、これが適切なアプローチではないと考えています。
ユーザー、特に人間のユーザーは、システムに対する理解や信念に基づいて目的を持ち、行動します。このユーザーの意図や行動をモデル化することが、ヒューマンインザループ問題を適切に扱う上で重要だと考えています。
11.2 問題設定:新薬開発のユースケース
具体的な例として、新薬開発のプロセスを考えてみましょう。科学者は新型コロナウイルスなどの病気に対する薬を開発する際、有用な分子を探索する必要があります。現代では、デジタルツインや他のAI手法を用いて、複雑なプロセスをシミュレートし、特定の目的に適した分子を設計することができます。
科学者は水溶性があり、特定のタンパク質に結合できるような分子を求めているとします。ソフトウェアは1〜2日かけて計算を行い、一連の分子候補を提案します。しかし、現状では科学者がこれらの候補を見て、「期待していたものとは少し違う」と判断し、パラメータを調整して再度計算を行うというループが繰り返されています。
この過程で、ソフトウェアは科学者からのフィードバックを適切に活用できていません。
11.3 提案アプローチの概要
私たちは、このような問題に対処するため、ユーザーモデルを組み込んだベイズ的アプローチを提案しています。このアプローチでは、ユーザーが自身の理解と信念に基づいて目的を持っているという最小限の仮定を置いています。
具体的には、1次元の問題に単純化して考えてみましょう。x軸に入力(例えば分子の特性)、y軸にスコア(その分子の良さ)をとります。目標は、最適な分子、つまりスコアが最大となるxを見つけることです。
従来のベイズ最適化アプローチでは、ユーザーが単純にf(x)の値を返すと仮定しています。しかし、実際の人間のユーザーは、システムが最適化を試みていることを理解しており、それを助けようとする傾向があります。
例えば、ある点xについて尋ねられた場合、単純にf(x)を返すのではなく、最適点に近いほど高いスコアを与えるかもしれません。これは、システムを正しい方向に導こうとする行動です。
11.4 理論的フレームワーク
私たちは、このような人間の行動を数学的にモデル化するためのフレームワークを開発しました。このフレームワークでは、ユーザーとシステムの相互作用を決定問題として定式化します。
具体的には、ユーザーの応答を条件付き確率分布p(y|x,f)としてモデル化します。ここで、yはユーザーの応答、xはシステムが提案した入力、fは真の目的関数です。このモデルにより、ユーザーが最適点に近い入力に対してより高いスコアを与える傾向などを表現できます。
システムの側では、ユーザーの応答に基づいて目的関数fの事後分布を更新し、次の提案を生成します。この過程は、ベイズ的な逐次実験計画として解釈できます。
11.5 今後の研究方向性
私たちの研究は、まだ初期段階にあります。今後の研究方向性として、以下のようなものが考えられます:
- より複雑な多次元問題への拡張
- ユーザーモデルの学習と適応
- 複数のユーザーが関与する状況への対応
- 異なるドメインでの実証実験
- 倫理的な考慮事項の検討
結論として、ヒューマンインザループ問題におけるユーザーモデルの重要性を強調したいと思います。人間をただのデータソースとして扱うのではなく、意図と理解を持った主体としてモデル化することで、より効果的な協調システムを構築できると考えています。
12. 関係性プランニングと強化学習を活用したマルチエージェントドメイン
私はChinanと申します。ブランデイン大学の助教授です。本日は、関係性プランニングと強化学習を統合してマルチエージェントドメインに活用する研究についてお話しします。
12.1 研究背景:プランニングと強化学習の統合
私たちの研究は、プランニングと強化学習を統合することで、マルチエージェントシステムの性能を向上させることを目的としています。このアプローチは、人間の思考プロセスに似ています。例えば、ある場所に移動する際、私たちは高レベルの計画(GPSで経路を確認する)と直感的な思考(自動的に信号で曲がる)を組み合わせて行動します。
私たちは、この人間の思考プロセスをモデルとして、マルチエージェントシステムに適用しました。特に、タスク特有の抽象化を活用することで、複雑な問題をより効率的に解決できると考えています。
12.2 提案フレームワーク:M-RePOL
私たちが提案するフレームワークは、M-RePOL(Multi-agent Relational Planning and Reinforcement Learning)と呼びます。このフレームワークは以下の要素で構成されています:
- 階層的プランナー:高レベルの計画を生成し、エージェントが協力して解決すべきサブタスクのシーケンスを提供します。
- 抽象化推論器:MDPの状態を抽象化し、条件付き影響文や一階論理を用いて関連性の低い状態を除外します。
- タスク分配器:生成されたサブタスクを複数のエージェントに割り当てます。
- 低レベル強化学習エージェント:共有ポリシーを用いて、割り当てられたサブタスクを並行して解決します。
12.3 実験:関係性マルチエージェントタクシードメイン
私たちは、M-RePOLの有効性を検証するために、関係性マルチエージェントタクシードメインを用いて実験を行いました。このドメインは、私たちの以前の研究で使用した関係性タクシードメインを拡張したものです。
具体的には、複数のタクシーが複数の乗客を並行して輸送するタスクを設定しました。階層的プランナーは、「乗客Pの輸送」というタスクを「P1とP2の輸送」に分解し、さらにそれぞれを「ピックアップ」と「ドロップ」というサブタスクに分解します。
12.4 結果と考察
実験結果は、M-RePOLが他のベースライン手法(Q-mixやパラメータ共有DQN、独立学習者など)と比較して、大きな性能向上を示しました。
特に、各エピソードで乗客とタクシーの初期位置が変化する関係性MDP状態を使用した場合、M-RePOLは成功率において顕著な改善を示しました。他のアルゴリズムは問題を自力で学習することができませんでした。
12.5 今後の展望
この研究結果は、関係性プランニングと強化学習の統合が、マルチエージェントシステムの性能向上に大きく貢献できることを示しています。今後の研究方向性として、より複雑なドメインへの適用や、乗客数やタクシー数を増やした場合のスケーラビリティの検証などが考えられます。
結論として、M-RePOLは関係性プランニングと強化学習を効果的に統合し、複雑なマルチエージェントタスクの解決に大きな可能性を示しました。今後は、実世界の問題により近い設定での評価や、異なるドメインへの応用を進めていく予定です。
13. 総括
13.1 ワークショップの主要な成果
本ワークショップでは、協調型マルチエージェントシステムの意思決定と学習に関する最新の研究成果が発表されました。私たちは、様々な分野からの革新的なアプローチや手法を紹介し、議論を重ねてきました。
主要な成果として、まずスワームロボティクスの分野では、階層型アプローチの有効性が示されました。特に、核廃棄物処理タスクにおいて、高度なリーダーロボットと単純なフォロワーロボットの組み合わせが効果的であることが実証されました。
社会的ジレンマと強化学習の分野では、LOQAという新しい手法が提案され、従来のLOLAやPOLAよりも優れた性能を示しました。この手法は、特に計算効率とスケーラビリティの面で改善が見られました。
マルチエージェント強化学習の分野では、集中型評論家や状態ベース評論家に関する誤解が指摘され、より適切なアプローチが提案されました。特に、状態と履歴の両方を用いる評論家の有効性が示されました。
人間の戦略的行動のモデル化においては、機械学習的アプローチの可能性が示されました。特に、ゲーム理論の限界を克服し、より現実的な人間行動のモデル化が可能になることが期待されます。
クレジットベース混雑料金制度や人工通貨ベース福祉プログラムなど、社会システムへの応用研究も紹介されました。これらの研究は、公平性と効率性のバランスを取りながら、より効果的な社会システムの設計に貢献することが期待されます。
13.2 協調型マルチエージェントシステムの将来展望
協調型マルチエージェントシステムの将来は非常に明るいものだと考えています。本ワークショップで紹介された研究成果は、この分野が急速に発展していることを示しています。
今後、協調型マルチエージェントシステムはより複雑な実世界の問題に適用されていくでしょう。例えば、都市交通システムの最適化、災害対応、環境モニタリングなど、多様な分野での応用が期待されます。
特に注目すべき点は、人間とAIの協調です。ヒューマンインザループ問題やユーザーモデルの重要性が指摘されたように、今後はより高度な人間-AI協調システムの開発が進むでしょう。これにより、AIシステムはより柔軟に、そして人間の意図や嗜好を理解しながら動作することが可能になると考えられます。
また、エッジコンピューティングやIoTの発展により、よりリアルタイムで分散化されたマルチエージェントシステムの実現が期待されます。これにより、より効率的で適応力の高いシステムが構築できるでしょう。
13.3 今後の研究課題
本ワークショップを通じて、いくつかの重要な研究課題が浮き彫りになりました。
- スケーラビリティの向上:より多くのエージェント、より複雑な環境に対応できるアルゴリズムの開発が必要です。特に、計算効率と性能のバランスを取ることが重要です。
- 転移学習と汎化性能の向上:一つの環境や問題で学習したことを、異なる環境や問題に適用する能力の向上が求められます。これにより、より汎用的なマルチエージェントシステムの開発が可能になるでしょう。
- 解釈可能性と説明可能性の向上:特に深層学習を用いたアプローチにおいて、モデルの意思決定プロセスを人間が理解し、説明できるようにすることが重要です。
- 倫理的配慮とフェアネス:マルチエージェントシステムが社会に与える影響を考慮し、公平性や透明性を確保する方法の研究が必要です。
- 実世界での検証:シミュレーション環境だけでなく、実際の物理的な環境でのテストと検証が重要になります。特に、予期せぬ状況への対応能力の向上が課題です。
- セキュリティと頑健性:マルチエージェントシステムの安全性を確保し、外部からの攻撃や干渉に対する耐性を高める研究が必要です。
- プライバシー保護:特に人間のデータを扱う場合、個人情報の保護と有用な情報の活用のバランスを取る技術の開発が求められます。
- 計算資源の最適化:エッジコンピューティングやクラウドコンピューティングを効果的に組み合わせ、計算資源を最適に利用する方法の研究が必要です。
これらの課題に取り組むことで、協調型マルチエージェントシステムはより高度化し、社会に大きな価値をもたらすことができるでしょう。今後も、異なる分野の研究者が協力し、革新的なアイデアを生み出していくことが重要です。
本ワークショップは、この分野の現状を把握し、将来の方向性を示す貴重な機会となりました。参加者の皆様の熱心な議論と貢献に心から感謝いたします。今後も、このような機会を通じて、協調型マルチエージェントシステムの研究がさらに発展していくことを期待しています。