※本記事は、AAAI 2024カンファレンスの一環として開催された「Cooperative Multi-Agent Systems Decision-Making and Learning」ワークショップPart1の内容を基に作成されています。ワークショップは2024年2月26日にカナダのバンクーバー・コンベンションセンター121号室で行われました。本記事では、ワークショップの講演内容を要約しております。なお、本記事の内容は発表者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの発表資料や録画をご確認いただくことをお勧めいたします。
1. ワークショップの概要と背景
1.1 開催の目的
私たちは、AAAI 2024の一環として「Cooperative Multi-Agent Systems Decision-Making and Learning」と題したワークショップを開催しました。このワークショップの主な目的は、マルチエージェントシステムにおける協調的な意思決定と学習に関する最新の研究成果を共有し、議論することです。
近年、AI技術、ロボティクス、IoT、高速無線センサーネットワーク(5Gなど)の飛躍的な成長により、ソフトウェアエンティティからハードウェアデバイスまで、あらゆるAIエージェントを含む人工的生態系、いわゆる人工社会システムが徐々に形成されつつあります。この人工社会システムを人間社会にいかに統合し、調和的に共存させるかは、人類の持続可能な発展にとって重要な課題です。
この点において、マルチエージェントシステム(MAS)の相互作用からの合理的な意思決定と効率的な学習は、マルチエージェントの安全な動作を保証し、長期的にグループの効用とシステムコストのバランスを取り、協力におけるグループメンバーのニーズを満たすための前提条件となります。
本ワークショップの主な関心は、認知モデリングの観点から協調的MASの意思決定と学習をモデル化する技術です。異なるコミュニティの研究者が一堂に会し、研究成果を発表し、将来の研究方向について議論し、異なるコミュニティ間の相互交流を促進することを目的としています。
私たちは、この分野の第一線で活躍する研究者や実務者を招き、基調講演、口頭発表、ポスターセッションなど、多様な形式でのプレゼンテーションと議論の場を設けました。参加者には、最新の研究動向を学び、アイデアを交換し、将来の共同研究の機会を探る絶好の機会となることを期待しています。
1.2 マルチエージェントシステムの重要性
マルチエージェントシステムが注目を集める理由は、現代社会が直面する複雑な問題に対して、より効果的なソリューションを提供できる可能性があるからです。単一のエージェントでは対処が困難な大規模で複雑なタスクでも、複数のエージェントが協調することで効率的に解決できることがあります。
例えば、交通制御、ロボット群の制御、サプライチェーン管理、災害対応など、様々な分野でマルチエージェントシステムの応用が進んでいます。これらの応用分野では、個々のエージェントが局所的な情報を基に意思決定を行いながら、システム全体としての最適化を図ることが求められます。
マルチエージェントシステムの研究は、人工知能、機械学習、ゲーム理論、制御理論、認知科学など、多岐にわたる分野の知見を統合しています。このような学際的なアプローチにより、より柔軟で適応力の高いシステムの開発が可能になっています。
特に近年は、深層学習や強化学習の発展により、マルチエージェントシステムの学習能力が飛躍的に向上しています。エージェント間の協調や競合をモデル化し、効果的な学習アルゴリズムを開発することで、より高度な問題解決能力を持つシステムの実現が期待されています。
このワークショップでは、マルチエージェントシステムの理論的基盤から最新の応用事例まで、幅広いトピックを扱います。参加者の皆様には、この分野の重要性と将来性を理解していただくとともに、自身の研究や実務にどのように活かせるかを考える機会としていただければ幸いです。
以上のような背景と目的のもと、私たちはこのワークショップを企画しました。多面的なワークショップと専門家による講演を通じて、協調的MASの意思決定と学習に特化した研究課題に対するAIとロボティクスコミュニティの関心を引き付けることができればと考えています。次のセクションからは、各講演や発表の詳細な内容について報告していきます。
2. 基調講演1: マリア・ガイニー教授による講演
本日は、10台、1000台、あるいは10000台のロボットがあったら何をするかという問いかけから始めたいと思います。この問いは、マルチロボットシステムの規模と可能性を考える上で重要です。
2.1 マルチロボットシステムの歴史的概要
マルチロボットシステムの歴史を振り返ると、最初の大規模プロジェクトの一つとしてDARPAプロジェクトが挙げられます。このプロジェクトでは、100台から200台、あるいは300台のロボットが使用されました。具体的には、ActivMedia Amigoボットが大多数を占め、これらはほとんど動作しませんでしたが、6台のActivMedia Pioneerはより多くの動作を行いました。
私の知る限り、これは初めて多数のロボットが同時に動作したデモンストレーションでした。ただし、実用的な作業はあまり行われませんでしたが、少なくとも移動することはできました。ロボット工学に携わる者なら、これほど多くのロボットを同時に動作させることがいかに複雑なプロセスであるかを理解できるでしょう。
その後、ハーバード大学のKilobotsプロジェクトが登場しました。これらのロボットは非常に小さく、3本の脚を持ち、非常にゆっくりと動きます。このプロジェクトでは、最大1000台のロボットが開発されました。
2.2 マルチロボットシステムの応用分野
マルチロボットシステムの応用分野は多岐にわたります。具体的な例として、倉庫での作業、建設現場での利用、屋外環境での活動などが挙げられます。また、研究室内での実験も重要な応用分野の一つです。
さらに、人間の群衆の動きをロボットの動きとしてモデル化する研究も行われています。これは、人々の移動をある種のロボットの動きとして捉える試みです。
2.3 マルチロボットシステムの課題
マルチロボットシステムには、いくつかの重要な課題があります。まず、複雑なシステムは通常、複数のタスクまたはサブシステムで構成されており、それぞれに対応するサブポリシーが必要です。これらのサブポリシーは、リアルタイムの相互作用において全体的なポリシーを形成します。
次に、単一の戦略であっても、複数のポリシーを同時に学習する必要がある場合があります。これは特に、ロボットの移動や実時間戦略ゲームの領域で顕著です。
最後に、深層学習は一定の進歩を遂げていますが、一般化がどのように機能するかを正式に説明することは依然として困難です。これにより、様々な戦略間の関係を表現する効率的なモデルを設計することが難しくなっています。
これらの課題に対処するため、私たちは様々なアプローチを研究しています。次のセクションでは、具体的な協調的意思決定の事例を通じて、これらの課題にどのように取り組んでいるかを説明します。
ご指摘ありがとうございます。字幕情報に基づいて、セクション2.4-2.5を以下のように修正いたします。
2.4 タスク分解とスワームロボティクスの特性
スワームロボティクスでは、多数のロボットを用いてタスクを分解することが重要です。私たちの研究では、フォレージング(採餌)タスクを例に取り、異なるアルゴリズムの性能を比較しました。
実験では、ロボットの数を変えながら、収集されたブロックの数を測定しました。結果を示すグラフでは、x軸にアルゴリズムの種類、y軸にパフォーマンス(収集されたブロックの数)を表しています。アルゴリズムには、パス分解、ランダム動作、マルチアームバンディット問題、グリーディなどが含まれています。
興味深いことに、ロボットの数が増えるにつれて、収集されるオブジェクトの数は増加しますが、必ずしも線形には増加しません。これは、ロボットの数が増えると衝突などの問題が発生し、効率が低下するためです。
スワームロボティクスの興味深い特性の一つに、創発的自己組織化があります。ロボットの数を増やすと、通常はパフォーマンスが線形に向上しますが、衝突などの問題により完全な線形性は得られません。しかし、ある閾値を超えると、ロボット間の相互作用により期待以上の性能向上が見られることがあります。
グラフでは、直線がロボット数に対する線形の性能向上を示し、曲線が実際の性能を示しています。ある点から、実際の性能が線形予測を上回っていることが分かります。この現象が発生する正確な理由はまだ完全には解明されていませんが、これがスワームロボティクスを研究する大きな理由の一つです。
2.5 アリの行動を模倣した適応型遺伝的アルゴリズム
私たちは、アリの行動から着想を得た実時間適応アルゴリズムを開発しました。このアルゴリズムでは、遺伝的アルゴリズムを短時間で実行し、迅速に結果を得ることを目指しています。
アルゴリズムの基本的なアイデアは、ロボットが他のロボットと近接したときに適合度関数を共有することです。より適合度の高いロボットがパラメータを共有し、他のロボットがそれを採用するというものです。ここでの適合度は、より多くの食料を見つけたかどうかで測定されます。
しかし、このアプローチには課題もあります。例えば、食料が豊富な領域にいたロボットのパラメータが必ずしも他の領域で効果的とは限りません。また、食料の少ない領域で低いパフォーマンスを示していたロボットのパラメータが、実際には効果的である可能性もあります。
このアルゴリズムは、ローカルな動きの戦略と組み合わせて使用されます。各ロボットは染色体を持ち、パラメータ値(速度など)を表現します。ロボット同士の相互作用により、これらのパラメータが更新されていきます。
実験結果では、ランダムな環境、べき乗則の環境、都市環境など、異なる環境でのパフォーマンスを比較しました。グラフでは、適応型遺伝的アルゴリズム(Adapt-GA)が他のアルゴリズムよりも優れたパフォーマンスを示していることが分かります。
ただし、ロボットの数が増えると、エージェントあたりの収集オブジェクト数は若干減少する傾向も見られました。これは、ロボット間の干渉が増加するためと考えられます。
この研究は、スワームロボティクスにおける適応的なアルゴリズムの可能性を示しています。今後は、より複雑な環境や任務に対しても効果的に機能するアルゴリズムの開発を目指していきます。
3. 基調講演2: アーロン・クーヴィル教授による講演
私は自身を深層学習のジェネラリストと考えていますが、今日お話しする内容は少し異なる分野に関するものです。私たちは長年この研究に取り組んできました。
3.1 社会的ジレンマと強化学習
社会的ジレンマとは、各当事者が自己の利益を最大化しようとする近視眼的な努力が、全員が協力した場合と比べてより不利な結果をもたらす意思決定問題です。これは一般和ゲームの一種で、ゼロサムゲームとは異なり、両者がある程度勝利できる可能性があります。
典型的な例として囚人のジレンマがあります。2人の囚人A、Bが別々に尋問を受け、自白か黙秘かを選択します。両者が黙秘すれば1年の禁固刑、両者が自白すれば5年の禁固刑、一方が自白し他方が黙秘した場合、自白した方は釈放され、黙秘した方は20年の禁固刑となります。
理論的には自白が支配戦略となりますが、これは社会的に最適な結果ではありません。しかし、このゲームが繰り返し行われる場合、「しっぺ返し戦略」が効果的になります。これは初回は協力し、以降は相手の前回の行動を真似る戦略です。
社会的ジレンマは、ビジネス交渉、交通問題、政策交渉、気候変動対策など、現実世界の多くの場面で見られます。私たちは、複雑な世界で複雑な解決策を見出すために強化学習を活用したいと考えています。
3.2 LOLAとPOLAの概要と課題
LOLA (Learning with Opponent-Learning Awareness) は、対戦相手の学習を考慮した学習手法です。エージェントは、相手が素朴な学習エージェントであると仮定し、相手のパラメータに関する勾配を計算します。相手の更新を未来に投影し、それを自身のモデル更新に組み込みます。
LOLAには2つの主な制限があります。1つ目は、学習中に相手のポリシーのパラメータにアクセスする必要があることです。2つ目は、計算グラフの構築とそれを通じた逆伝播が計算コストが高いことです。
POLAはLOLAを改良した手法で、近接ペナルティを追加しています。具体的には、古いポリシーパラメータと新しいポリシーパラメータの間のKLダイバージェンスを使用します。これにより、パフォーマンスが大幅に向上しましたが、LOLAと同様の制限を持っています。
3.3 新手法LOQAの提案
私たちは新しい手法LOQA (Learning with Opponent Q-learning Awareness) を提案しました。LOQAの鍵となる観察は、エージェントの報酬が相手のポリシーに依存し、その逆も成り立つということです。
LOQAでは、モンテカルロ推定を使用して、エージェントのポリシーパラメータへの依存関係を明示的にします。また、相手のポリシーを近似するために、Q関数のソフトマックスを使用します。これにより、相手のポリシーをQ関数の直接的な関数として表現でき、それを通じて逆伝播することができます。
LOQAの利点は以下の通りです:
- 相手のポリシーパラメータを必要としません。
- REINFORCEの勾配推定は不偏です(ただし、分散は高い)。
- 推定値の計算が高速です。
3.4 実験結果と考察
私たちは3x3のコイン収集ゲームを用いてLOQAの性能を評価しました。LOQAを他の手法(POLA, MOS, Always Cooperate, Always Defect, Random)と比較しました。
結果として、LOQA vs LOQAの自己対戦では、POLA vs POLAよりも良い結果を示しました。POLAは自己対戦時により搾取的な戦略を学習する傾向があります。POLA vs LOQAの対戦ではPOLAの方が良い成績を収めましたが、自己対戦ではLOQAの方が優れていました。
また、グリッドサイズを3x3から7x7まで変えて実験を行い、計算効率とスケーラビリティを評価しました。LOQAはPOLAよりも大幅に高速であり、より大きな問題サイズでも良好なパフォーマンスを維持しました。
ただし、LOQAには高い分散という課題があります。これは、REINFORCEの推定量が高分散であることに起因します。
今後の課題として、連続行動空間への拡張や、エージェントの合理性に関する仮定の緩和などがあります。LOQAは社会的ジレンマにおける強化学習の新しいアプローチとして有望ですが、さらなる改善の余地があります。
4. 口頭発表セッション
4.1 発表1: 予期せぬ状況での通信方策学習
私はMinhuiと申します。ソウル国立大学の博士課程に在籍しており、マルチエージェント強化学習を分布外設定に適用し、その適応性を研究しています。
本研究の主な動機は、協調的機械学習アルゴリズムを現実世界に適用する際の課題に取り組むことです。特に、部分観測可能な環境での協調と、訓練時と実際のテスト環境の差異への対応が重要です。
我々は、予期せぬ状況をエンコードする通信アーキテクチャ(Unexpectedness Encoding Scheme with Reward、略してUSR)を提案しました。USRは以下の2つの要素から構成されています:
- 予想外さのエンコーディング:前方動学モデルを使用して予測を生成し、実際の観測と比較します。その差異を「予想外さ」として定義し、オートエンコーダーでエンコードします。
- 報酬ベースのメッセージ:外部報酬に基づく情報を含めます。これは、予想外の状況のどの部分がタスク解決に関連しているかを示すためです。
我々は、マルチロボット倉庫環境でUSRの性能を評価しました。この環境では、エージェントは格子世界を移動し、棚を目標位置まで運ぶ必要があります。訓練分布では、1000タイムステップ(約10エピソード)ごとに不可能な障害物の位置をランダム化しました。
実験結果では、USRが他の手法(独立A2C、ICM、M-AAT)よりも優れたパフォーマンスを示しました。特に、分布外設定での転移学習性能が高いことが確認されました。
今後の課題としては、メッセージの内容の解釈、より協調を必要とするタスクでの評価などが挙げられます。
4.2 発表2: 階層的戦略グラフを用いた深層強化学習
私は蒋と申します。ブランドリン大学の助教授です。本日は、BSoft Actor-Critic:直接循環戦略グラフベースの深層強化学習についてお話しします。
我々の手法では、ベイジアンネットワークを導入して複雑なアクターを複数の単純なサブアクターまたはサブポリシーに分解します。これをBSN(Bayesian Strategy Network)と呼んでいます。さらに、SACアルゴリズムの最大エントロピー強化学習フレームワークのアイデアを統合し、BSACを開発しました。
BSACの目的関数は、BNSにおける各サブポリシーのエントロピーの総和を最大化します。また、ソフト状態価値関数を導入し、各サブポリシーの平均二乗TDエラーコストの期待値を最小化する損失関数を定義しました。
OpenAI Gymのベンチマークタスク(HalfCheetah、Hopper、Walker2d、Humanoid)を用いて実験を行い、BSACが他の手法と比較して優れたサンプル効率と安定性を示すことを確認しました。
今後の研究方向として、マルチエージェントシステム、自動運転車、リアルタイム戦略ゲーム(StarCraft II、OpenAI Five)、ロボット移動(Unreal Engine、Locobot WX250S)などへの応用を考えています。
4.3 発表3: 協調的参照ゲームにおける通信方策学習
私はPhilip Zölerです。ドイツのポツダム大学の計算言語学研究室の博士課程に在籍しています。本日は、より対話的な言語生成、つまり言語エージェントの開発に向けた研究についてお話しします。
我々の研究は、Herbert ClarkとDeanna Wilkes-Gibbsの1986年の研究「指示as協調プロセス」に着想を得ています。彼らは、2人の参加者(指示者と操作者)にタングラム図形を配置させる実験を行いました。6回の試行を通じて、参加者は新しい用語に合意し、使用する単語数が減少しました。
我々は、この現象をフォロワーの自信度の変化と関連付けて研究しています。初期の試行では行動の自信度が低く、後の試行では自信度が高くなると仮定しています。
この仮説を検証するため、我々は協調的参照ゲームを開発しました。このゲームでは、ガイド(指示者)が「青いXを取る」などの文を生成し、フォロワーがその情報を使用して青いXに移動します。
実験では、PPOアルゴリズムを使用し、3つのランダムシードで各ペアリングを複数回実行しました。結果として、より自信のあるフォロワーに対して、スピーカーがより多くの沈黙行動を生成する傾向が確認されました。
4.4 発表4: 不完全情報ゲームのための学習フレームワーク
私は朱樊(Zhu Fan)と申します。中国科学技術大学の所属です。本日は、マルチエージェント不完全情報ゲームのAI訓練フレームワークについて、特に麻雀とブリッジを例にとってお話しします。
我々の分散強化学習訓練フレームワークは、アクターモジュール、学習者モジュール、評価モジュールで構成されています。データ生成の効率を高めるために、コンテナ分離法とアドレスマッピングを使用しています。
訓練には自己対戦PPOアルゴリズムを使用し、GPTを方策損失として、GAEを計算しています。モデル構造にはResNet18を使用し、違法な行動を排除するためのマスクも導入しています。
実験結果では、我々の手法が他のベースライン(ランダムエージェント、貪欲エージェント、専門家経験を使用した手法など)と比較して優れたパフォーマンスを示しました。
さらに、AIAS 2023の不完全情報カードゲーム競技会に参加し、麻雀エージェントで2位、ブリッジエージェントでも2位を獲得しました。
この研究の主な貢献は、高いデータ生産性を持つマルチエージェント不完全情報ゲームAI訓練フレームワークを提案したことです。このフレームワークは単一のサーバーに展開可能であり、実際の競技会で優れた性能を示しました。
5. 招待講演: ジョバンニ・ブイジ教授による講演
私はジョバンニ・ブイジです。本日は階層型スワームロボティクスについて、私たちの研究成果をお話しさせていただきます。
5.1 階層と集団的意思決定
スワームロボティクスシステムのスケーラビリティに関する重要な疑問がいくつかあります。まず、分散システムはどのようにスケールするのでしょうか。理想的には、ロボットの数が増えるにつれてパフォーマンスが向上することが期待されます。しかし、エージェントの密度がある一定のレベルを超えると、パフォーマンスが低下し始めます。
この現象が発生する理由を理解するため、私たちはテストベッドシナリオを設定しました。これは古典的なスワームロボティクスの問題である集団的意思決定を扱うものです。ゾーンBとゾーンAという2つのゾーンがあり、それぞれに特定のリソースがあります。ロボットはこれらのゾーンを探索し、どちらのゾーンがより良いかを集団で決定する必要があります。
実験では、光源を使用してロボットの動きを制御しました。一部のロボットは光に引き寄せられ(正の走光性)、他のロボットは光から逃げる(負の走光性)ように設定しました。これにより、一部のロボットはゾーンAへ、他のロボットはゾーンBへ向かいます。ロボットは十分なサンプリングを行った後、方向を切り替えて巣に戻り、情報を共有します。
私たちは3種類の意思決定方法を検討しました:
- ハチの方式:ロボットは環境をサンプリングし、巣に戻って近くのロボットとのみ通信します。
- 仮想スティグマジー:環境を介した通信方法で、ロボットは共有メモリに情報を書き込みます。
- 分業方式:ロボットがサンプリング、ネットワーキング、意思決定などの役割に特化します。
実験結果では、ハチの方式はロボットの数が増えるとパフォーマンスが急激に低下しました。仮想スティグマジーはより速い収束を示しましたが、移動の混雑は解決できませんでした。分業方式は混雑を最小限に抑え、最も効果的でした。
これらの結果から、私たちは階層型スワームロボティクスの概念を提案しました。この方法では、少数の高度なリーダーロボットと多数の単純なフォロワーロボットを組み合わせます。
5.2 核廃棄物処理タスクでの実験
階層型スワームロボティクスの有効性を示すため、私たちは「核廃棄物処理」と呼ぶテストベッドを開発しました。このタスクでは、ロボット群が未知の環境を探索し、放射線源を見つけ、一定数のロボットを割り当てて処理を行う必要があります。
私たちは、高度なロボット(ガイド)と単純なロボット(ワーカー)を組み合わせたアプローチを採用しました。ガイドロボットは高度な計算能力を持ちますが、放射線に弱い一方、ワーカーロボットは単純なセンシング能力しか持ちませんが、放射線に強いという設定です。
実験では、ガイドロボットがSLAMを用いて環境を探索し、放射線源を特定します。その後、巣に戻ってワーカーロボットを集め、目標地点まで誘導します。この方法を、バグアルゴリズムなどの古典的な探索方法と比較しました。
結果は非常に興味深いものでした。アリーナのサイズが大きくなるにつれて、階層型スワームは常に100%の成功率を維持しました。一方、他の手法は必要なロボット数が増えるにつれて急速に性能が低下しました。また、階層型スワームは探索に要する時間も大幅に短縮しました。
私たちは実際のロボットを使用した実験も行いました。これは非常に困難な実験でしたが、廊下で人々がいない瞬間を見計らって行いました。完全なSLAM、ロボット間のアドホックネットワーク、中央集権的な動作は一切使用せず、ロボットは環境を探索し、マップを作成し、目標を見つけ、チェーンを形成してゴールに到達しました。
5.3 スマートパーティクルスワームの応用
階層型アプローチの可能性をさらに探るため、私たちは「スマートパーティクルスワーム」と呼ぶ概念を開発しました。これは、方向性を知っているガイドロボットと、反応的な刺激にのみ応答するワーカーロボットを組み合わせたものです。
この概念を実現するため、私たちは仮想スティグマジーを使用してスワームのルールを動的に変更できるようにしました。これにより、スワームの形状、密度、ガイドロボットからの反応距離などを変更することができます。
実験では、最大1000台のロボットを使用し、ガイドロボットがワーカーロボットを集め、任意の形状に操作できることを示しました。これは、ナノメディシンなどの応用分野で有用な技術となる可能性があります。
私たちは、実際のロボットを使用した実験も行いました。同じタイプのロボットを使用し、ガイドロボットがスワームの位置を特定し、全体を移動させることができることを示しました。
結論として、階層型スワームロボティクスは、実際のスワームロボティクスシステムを展開する上で重要なアプローチだと考えています。これにより、スワームロボティクスの創発的な挙動と、従来のロボット工学の特定のシステム設計(SLAMや探索など)を組み合わせることができます。
最後に、私たちは欧州宇宙機関と協力して、実際の月面アナログ環境でスワームロボティクスの実験を行いました。宇宙飛行士のマティアス・マウラーが、ドローンのスワームを操作して探索を行いました。宇宙飛行士自身が階層の上位レベルとして機能し、自己組織化的な挙動を示すロボットに目標を与えるという形で実験を行いました。
今後数年間で、このようなシステムがさらに発展し、実用化されることを期待しています。