2025-03-12 Section 3 --- AAAI 2025 2nd CMASDL Workshop: マルチエージェントの協働と信頼 - 階層から反射へ

出展元

https://www.youtube.com/watch?v=vfuzekPQChM

キーワード

マルチエージェント協調信頼メカニズム強化学習デジタルツイン

初回調査日

Apr 7, 2025 12:52 AM

※本記事は、AAAI 2025 第2回CMASDL（Cognitive Multi-Agent Systems and Deep Learning）ワークショップのセクション3「Invited Speaker Session 3 and Poster Presentation 1 & 2」の内容を基に作成されています。

本記事の内容は発表者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、詳細な情報や正確な文脈については、オリジナルの発表資料や関連文献をご参照ください。

1. ポスターセッション1

1.1. 階層的・異種マルチエージェント強化学習による協調的マルチロボットボックス押し環境

私たちが提案した階層的強化学習に関する論文について説明します。これは階層的異種マルチエージェント強化学習による古典的な協調ボックス押し問題についての研究です。これは現在進行中の研究で、マルチエージェント強化学習の視点からこの古典的問題を定式化して検討しています。この応用はさまざまなケースで使用でき、エージェントがどのように協調できるかを調査しています。

私たちは、異なるサイズのボックスがあるシナリオを設定し、エージェントがこれらのボックスを押すというシナリオを構築しています。マルチエージェント強化学習のシナリオではすでに様々なアーキテクチャが提案されています。この問題を検討した先行研究では、IPPOが他の手法よりも優れたパフォーマンスを示しました。マルチエージェントPOでは通常、行動空間が大きくなるため、エージェントがボックスを見つけて押すことはより困難な問題になります。彼らはIPPOで解決し、IPPOが優れたパフォーマンスを発揮することを示しました。

この直感に基づいて、私たちは異種エージェントをどのように組み込めるかを検討しています。例えば、差動駆動型のエージェントとクアッドロータ型のエージェントといった物理的な異種性を想定しています。最初は完全観測可能な環境から始め、その後、分散型PMDPに絞り込もうとしています。

最近、この問題を解決するための階層的アーキテクチャが提案されました。その考え方は、強化学習やマルチエージェント強化学習が全体を解決する必要はなく、階層的アプローチで分解できるというものです。例えば、ボックスに到達するためには計画アルゴリズムを使用し、エージェントは体を調整してボックスに合わせて押すことができます。この場合、クアッドロータ型の機体が体を調整して整列し、ボックスを押します。

彼らはこのアーキテクチャを提案し、私たちはこれを基に、異種性を組み込んでこの問題を解決しようとしています。私たちが検討しているシナリオは、現在持っている予備的なステップです。現在は同種の2つのエージェントを持っていますが、将来的な研究ではこれを異種エージェントに置き換え、この問題を解決しようとしています。これはまだ初期段階であり、問題設定を構築して解決しようとしているところです。ポスターセッションで詳細を話しましょう。

1.2. スマート付加製造におけるSim-RLを使用したリアルタイムプロセス制御のためのデジタルツイン同期

皆さん、おはようございます。私の名前はMatalliです。私たちの研究「スマート製造におけるSim-RLを使用したリアルタイムプロセス制御のためのデジタルツイン同期」についてお話しします。私たちが構築したデジタルツインフレームワークはViper x00 Sロボットアームを使用しています。

私たちはまずUnityで環境をセットアップし、強化学習のためのEmilエージェントと接続用のROS TCPサーバーを追加しました。しかし、RosTCPサーバーだけでは不十分でした。Unityがメッセージを作成してROS TCPサーバーに送信できるように、Rostoメッセージパッケージを作成する必要がありました。さらに、そのメッセージをROSにダウンロードしてロボットアームを操作できるように、ROS2パッケージを作成する必要がありました。

強化学習のトレーニングでは、MLエージェントを通じてソフトアクターcritic法を使用しました。右側の画像では、ロボットアーム、キューブオブジェクト、ゴールで構成される環境が見えます。ロボットアームセクターにはボックストリガーもあります。これは、キューブオブジェクトが境界に触れたり入ったりすると、Unityがこの環境やこの相互作用を接触として理解する領域です。これが接触を理解する方法です。

最初のケースでは、ロボットエージェントがキューブオブジェクトに到達して触れるようにします。2番目のケースでは、最初のケースのトレーニングパラメータ、ネットワークパラメータを使用して2番目のケースを初期化します。このタスクは主にキューブオブジェクトをゴールに押し込むことです。

仮想環境は実際のロボットや環境の特性と性質を維持します。そのため、仮想環境のロボットアームはランダムにどこへでも移動するのではなく、制限されています。関節の制限内で移動しなければなりません。これにより、安全で柔軟かつスケーラブルであり、Unityの環境で複雑なテストを行い、それを実際のロボットに転送することができます。

ケース1（目標への到達と接触）の結果では、ボックストリガーとキューブオブジェクトが衝突または接触するとエピソードが終了するため、素早く収束しています。これは簡単なケースであり、50,000ステップ以内に素早く収束していることがわかります。トレーニング後のモデルのビデオでは、ランダムな場所にあるキューブに簡単に触れることができています。

ケース2（目標をゴールに押し込む）の結果では、ボックストリガーとキューブが触れてもエピソードは終了せず、継続的な報酬が与えられ、エピソードが終了するまで続きます。エピソードが終了するのは、キューブの境界がゴールの境界に触れた場合、またはすべてのエピソードステップやアクションステップを使い切った場合です。押し込みケースのビデオでは、うまく動作しているのがわかります。私たちは、キューブを指の間に保持するための継続的な報酬を与えようとしました。そのため、指の間にキューブを保持しようとしているのがわかりますが、保持しながら押すことができないため、側面で押しています。しかし、複雑なシナリオに陥っても、どんな局所的な最小値からも抜け出すことができます。

デジタルRLツインの結果では、線形に移動するキューブオブジェクトを追跡するロボットアームの別のケースをトレーニングしました。時間スケールが一致しており、操作前に実際のロボットがUnity環境のロボットからコマンドを受け取るまでの無視できる20ミリ秒の遅延があります。仮想ロボットアームと非常に正確に動いているのがわかります。

結論として、メッセージのパブリッシュとサブスクリプションのためのROS2パッケージを開発し、UnityとViperロボットアームによるデジタルツイン接続を実装しました。強化学習のソフトアクターcritic法で接触（ケース1）と押し込み（ケース2）をトレーニングし、デジタルツイントレーニングモデルを使用して異なるケースを検証し、Unityでモデルをトレーニングして実際のロボットに安全に転送できることを示しました。

将来の研究では、トレーニングされたRLモデルをWYAMまたはWiアーク付加製造における欠陥の識別と軽減に実装し、各層の素材の堆積を非常にきれいで整然としたものにするような適応制御の支援に強化学習を採用する予定です。これで私のプレゼンテーションは終わりです。

1.3. 大規模言語モデルを用いたロールプレイにおける意思決定能力について

皆さん、こんにちは。私の名前はト・ランスレーションです。大規模言語モデルを使用したロールプレイにおける意思決定能力に関する研究を発表できることを嬉しく思います。この研究では、大規模言語モデルがどのように効果的に異なるパーソナリティをロールプレイできるか、そしてそれが意思決定能力にどのように影響するかを探りました。LLMは自然言語理解と生成において驚くべき能力を示しています。成長中の関心領域は、ロールプレイを通じて異なるペルソナを担う能力ですが、これが意思決定能力にどのように影響するでしょうか。

この問いに答えるため、意思決定の4つの主要な側面：適応性、探索と活用のバランス、推論能力、安全性についてLLMを評価しました。ロールプレイの効果を統計的に分析するために、5つのLLMに16種類のMBTIパーソナリティタイプを割り当て、各タイプが意思決定にどのように影響するかを説明しました。

主な調査結果は以下の通りです：適応性テストでは、時間に敏感な意思決定タスクをシミュレートして適応性を評価しました。結果は、ESTJやENTPなどの一部のタイプが高い柔軟性（新しい条件に素早く適応）を示す一方、INJFやINTJなどは一貫性（時間とともに一貫した好みを維持）を示しました。

探索と活用のテストでは、2本腕バンディットゲームを使用して、異なるMBTIタイプが新しいオプションの探索と既知の報酬の活用をどのようにバランスさせるかを評価しました。EAPタイプはより探索的である一方、ITAPタイプは意思決定においてより保守的でした。ただし、活用の傾向はすべてのMBTI次元でかなり一貫していました。これは、探索戦略が活用戦略よりも変化が大きいことを示唆しています。

推論能力テストでは、STEMから人文科学までの科目をカバーするMMOデータセットを使用して推論スキルをテストしました。ISTJとINFPは、彼らの分析的・構造的思考を反映して、STEMでより優れていました。人間関係の理解が得意なESTJとESTPは、人文科学関連の推論タスクで優れていました。

安全性テストでは、AIロールプレイの大きな懸念の一つは安全性と倫理的応用です。ショートダークトレイトテストを使用して、ナルシシズム、マキャベリズム、サイコパシーの傾向を評価しました。結果は、ロールプレイの状況ではナルシシズムとマキャベリズムのスコアが上昇する一方、サイコパシーは低いままでした。これは、ロールプレイが意思決定能力を向上させる一方で、さらなる緩和が必要な望ましくないパーソナリティバイアスも導入する可能性があることを示唆しています。

結論として、私たちの研究は、LLMが異なるパーソナリティを成功裏にロールプレイし、異なる意思決定特性を適応させることができるという定量的な証拠を提供しています。しかし、これはAIの安全性と倫理的な意味に関する重要な疑問も提起します。AIが人間のような相互作用にますます統合されていく中で、その意思決定特性を理解し、洗練させることは、責任あるAI開発のために不可欠です。ご清聴ありがとうございました。

1.4. 分散型エキスパートデモンストレーションからの最大尤度によるリワード関数の回復

今日は、最大尤度を用いた分散型のヒューマンデモンストレーションからリワード関数を回復する研究についてお話しします。逆強化学習は、エキスパートのデモンストレーションからリワード関数を回復することを目的としていますが、現在の逆強化学習手法はほとんどが中央集権的な学習ケースに焦点を当てており、センシティブなデータや分散型のケースには適していません。

自然な解決策としてフェデレーテッドラーニングがあります。これはデータをローカルデバイスに保持し、ローカル更新を集約してグローバルモデルを構築します。しかし、この種の手法には課題があります。逆強化学習アルゴリズムは通常、二段階構造を持っています。一方では、現在のポリシーの下でエキスパートの軌跡を見る確率を最大化するようにリワード関数を見つける必要があります。一方で、現在のリワード関数の推定値の下で最適なポリシーを見つけるために、前向き強化学習手法を使用する必要もあります。しかし、フェデレーテッドラーニングと逆強化学習の統合は、直接的な収束につながらない可能性があります。

私たちの問題設定では、ローカルデバイスに位置する複数のローカルデータサイトがあり、それぞれがエキスパートのポリシーに従った軌跡を保持していると仮定します。これらは異なるローカル空間に保存されています。私たちは、リワード関数と最適なポリシー（それらのエキスパートのデモンストレーションにつながる可能性がある）を学習するために、分散型モデルを構築したいと考えています。

私たちの解決策ダイアグラムでは、二段階最適化を対象とするために二段階集約を使用しようとしています。表形式の場合のQ値を集約し、それによって異なるローカルエージェント間でポリシーを同期させています。また、異なるローカルエージェント間でリワードのパラメータ化を整合させるために、リワードパラメータも集約しています。私たちの理論的分析は、ポリシー推定とリワードパラメータ推定が有限時間で収束することを示しています。

次のステップは評価です。私たちは、モデルタスクに対して提案したフェデレーテッド最大尤度逆強化学習手法を評価しました。私たちのフェデレーテッド逆強化学習手法と、他の逆強化学習手法および中央集権的学習コンテキストの模倣学習手法との比較を行いました。実験の結果、私たちのフェデレーテッド学習ケースは、ほとんどの環境設定で他のすべてのベースラインを上回りました。これは、フェデレーテッド学習バージョンが良好なパフォーマンスを提供すると同時に、センシティブなデータのプライバシーを維持できることを証明しています。

2. 招待講演

2.1. Sven Koenig教授（カリフォルニア大学アーバイン校）：マルチロボットシステム - オークションロボット

今日はマルチロボットシステムとアントロボット、オークションロボットについてお話しする予定でしたが、時間が足りないので、オークションロボットだけに焦点を当てます。

私はUCアーバインのインテリジェント意思決定ラボを指揮しており、私たちの研究は単一エージェントとマルチエージェントシステムの意思決定に焦点を当てています。環境内でリアルタイムにインテリジェントに行動できるようにすることを目指し、多くの場合ロボティクスへの応用があります。私たちの研究は、AIの未来は異なる分野からの意思決定技術を組み合わせることにあるという信念に基づいています。インテリジェントな意思決定の科学を創造する必要があるからです。

もしRussellとNorvickによる人工知能の人気教科書を見れば、彼らは本質的に人工知能を合理的エージェントの科学として定義しています。合理的エージェントとは、与えられたパフォーマンス指標を最大化すると期待される行動を選択するエージェントです。ある意味で、人工知能はここでは最適化と意思決定に関するものです。もちろん、他にも最適化と意思決定に関する分野があり、人工知能はこれらの他の分野を調査してきました。例えば、教科書を開くと、ゲーム理論とオークションについて書かれていますが、これらは経済学から来ています。また、効用理論と多属性効用関数についても書かれており、これらは意思決定理論から来ています。さらに、価値反復、ポリシー反復、MDPs、POMDPsについても書かれており、これらはオペレーションズリサーチで研究されてきました。

良いマルチエージェントシステムを構築したい場合、良い意思決定の科学が必要であるように思われます。人工知能、オペレーションズリサーチ、意思決定効用理論、経済学、制御理論、その他の分野からのアイデアを組み合わせた科学です。なぜそれが有益かというと、単純に私たちにはこれらのマルチエージェントシステムを構築するためのより多くのツールが利用可能になるからです。もちろん、これらの異なる分野からのアイデアを組み合わせることは簡単ではありません。それらは異なるアプリケーションのコンテキストで進化し、したがって異なる種類の問題のコンテキストで進化してきたからです。しかし、私は人工知能だけでなく、これらの他の分野も研究すれば、私たちはよりよい道具箱を持つことができると感じています。

次に、オークションロボットを例にこれを実証したいと思います。ここでのアイデアは単純です。ある種のタスク、ここでは芝生を刈るというタスクがあり、ロボットがそのコストに入札します。つまり、最低入札のロボットがタスクを勝ち取り、それを実行する必要があります。一般的に、オークションは希少なリソースを有益な方法で割り当てる方法です。このコンテキストでオークションを使用することを検討しているかもしれません。

経済学では、オークションは主に自己利益を追求するエージェントに使用されますが、ここでは完全に協力的なエージェントを持っています。しかし、経済学を見れば、そのオークションメカニズムを見ることができ、それを私たちの目的に使用することができます。実際、オークションはロボット調整のための効果的かつ実用的なアプローチかもしれません。なぜなら、それらは通信効率が良いからです。情報は入札に圧縮されます。また、計算効率も良いです。これらの入札は並列に計算されるからです。

ロボティクスでオークションが使用されてきた方法の一つは、マルチロボットルーティングです。例えば、2台のロボットがあり、これがマーズにあると仮定しましょう。これらはローバーで、4つの科学的ターゲットが科学者によって指定されています。これらは例えば岩かもしれません。そして各岩は1台のローバーが訪問する必要があります。これは最適化問題であり、この最適化問題の目的は移動時間の合計、いわゆるフロータイムを最小化することだと仮定しましょう。

マルチロボットルーティングでオークションを使用するアイデアは、オークションを実行し、それによって各科学的ターゲットを1台のロボットに割り当てます。そして、ロボットは彼らに割り当てられたすべての科学的ターゲットを訪問するための最短経路を計算し、これらの科学的ターゲットを訪問します。マルチロボットルーティングはロボティクスで異なる方法で使用されてきました。例えば、ロボットのチームでこれらの領域をマッピングしたいと仮定しましょう。それから、任意の時点で、ロボットが環境について新しい何かを見ることができるすべての場所を特定できます。そして、ロボットはこれらの場所に入札できます。環境がマッピングされるまでこれを繰り返します。

マルチロボットルーティングにどの種類のオークションメカニズムを使用するかについて、ロボティクス研究者は異なる種類のオークションを調査してきました。例えば、組み合わせオークションを調査してきました。組み合わせオークションのアイデアは、すべてのロボットがすべてのターゲットのサブセットに入札し、そのサブセットに関する移動距離または移動時間に入札するというものです。例えば、ここで示した状況を仮定しましょう。ロボットはターゲットAとBのセットにいくら入札すべきでしょうか。両方のAとBを訪問する必要がある場合の移動距離について考える必要があります。例えば、ロボットはまずAを訪問し、元の位置に戻り、その後ターゲットBに行くことができます。そうすると、移動距離は3になり、それが入札額になります。そして、オークショニアはロボットに対して、彼らが実際に割り当てられたターゲットに対するロボットの入札の合計が可能な限り小さくなるようにターゲットを割り当てます。すべてのロボットは移動距離を入札するので、これらの移動距離の合計はフロータイムであり、組み合わせオークションはフロータイムを最小化します。

残念ながら、マルチロボットルーティングは最適に解くのがNP困難であり、実装の容易さに関していくつかの問題が生じます。組み合わせオークションは実装が容易ではなく、入札生成、入札通信、勝者決定はすべて高価です。このトレードオフのために、ロボティシストはスペクトルの反対側、つまり並列オークションも検討してきました。

並列オークションのアイデアは、すべてのロボットが各ターゲットに対して入札し、再び移動距離を入札するというものです。そして、オークショニアは各ターゲットをそのターゲットに対して最低の入札をしたロボットの1つに割り当てます。これにはいくつかの利点があります。実装が容易で、入札生成、入札通信、勝者決定は安価です。勝者決定は単にオークショニアが各ターゲットの最小の入札を探すことを意味し、非常に実装が容易です。しかし残念ながら、解の品質は良くありません。フロータイムが大きいのです。

なぜそうなのでしょうか？このロボットにとって、Aを訪問するコストは1だけであり、Bを訪問するコストも1だけです。ある意味で、AとBは非常に近いです。それぞれはロボットが勝ちたいと思うターゲットですが、ロボットは両方を勝ちたくはありません。なぜなら、AとBを訪問するコストはAだけを訪問するコストとBだけを訪問するコストの合計よりも大きいからです。これは負のシナジーがあるからです。ロボットの異なる側にあるため、ロボットがAに行くと、Bに行く前に元の位置に戻る必要があります。これらの種類のシナジー、正のシナジーと負のシナジーの両方は、並列オークションが表現できないものですが、良い解を見つけるためには本当に本当に重要です。したがって、結果としてのフロータイムは大きくなります。

これで、並列オークションと組み合わせオークションの利点を組み合わせることは可能かという疑問が生じます。私はこれを行ったチームの一部でした。最終的に、逐次単一項目オークションが実際にマルチロボットルーティングに非常に適しているというアイデアにたどり着きました。

逐次単一項目オークションは経済学ではあまり人気がありませんが、ここでは非常にうまく機能します。まず抽象的に説明し、その後例を見てみましょう。ここでの入札はラウンドで進行します。各ラウンド中、各ロボットはまだどのロボットにも割り当てられていないすべてのターゲットに入札します。再び、ターゲットを獲得した場合の移動距離の増加を入札します。オークショニアは最小の入札を見つけ、対応するロボットを対応するターゲットに割り当てます。それでラウンドが終了します。つまり、ラウンドごとに1つのターゲットをあるロボットに割り当てるだけです。そして、すべてのターゲットがロボットに割り当てられるまでラウンドが続きます。

この例を見てみましょう。この例では、2つのターゲットと2台のロボットがあります。最初は、どのターゲットもロボットに割り当てられていないので、両方のロボットが両方のターゲットに入札します。このロボットがターゲットAに対して何を入札すべきかを見てみましょう。ターゲットを獲得した場合の移動距離の増加を入札します。その初期移動距離は0です。Aを獲得すると、ここまで移動する必要があり、移動距離は3です。したがって、移動距離は0から3に増加するので、簡単に言えば増加分を入札します。つまり、ターゲットAに3を入札します。以下同様です。そして、オークショニアは全体的に提出された最小の入札を見て、この場合はターゲットBに入札しているこのロボットです。したがって、オークショニアはロボットをこのターゲットに割り当て、それでラウンドは終了します。

次のラウンドでは、両方のロボットが残りのターゲットAに入札します。このロボットにとっては何も変わっていないので、依然として3を入札しますが、このロボットにとっては状況が変わりました。前のラウンドではターゲットAに1+εを入札しましたが、今は異なる考え方をする必要があります。なぜなら、ターゲットBを獲得したことを知っているからです。つまり、このロボットは「Aも獲得した場合、移動距離はどう変わるだろうか」と考えます。ターゲットBを訪問する必要があることがわかっているので、現在の移動距離は1-εです。Aも訪問したい場合、最適な方法はまずBに移動し、次に元の位置に戻り、それからAに移動することです。これは3-εの移動距離になります。したがって、移動距離は1-εから3-εに増加し、つまり2増加します。このロボットは2を入札します。前のラウンドでのターゲットAに対する入札と比較して、入札が増えています。これは、BとAの間に負のシナジーがあるためです。

オークショナーは再び最小の入札を見つけ、それはもちろんここでの入札です。したがって、ターゲットAもこのロボットに割り当てます。次に、ロボットは彼らに割り当てられたターゲットを訪問するための最短経路を計画します。このロボットは移動せず、このロボットはターゲットを訪問します。その結果、移動距離の合計、つまりフロータイムは3-εになります。

しかし、これが最適な割り当てではないことに気づいたと確信しています。フロータイムを最小化していないのです。なぜなら、このロボットを1の移動距離でターゲットBを訪問させ、このロボットを1+εの移動距離でターゲットAを訪問させることができるからです。この場合の結果のフロータイムは2+εです。これが最適な解、最小のフロータイムです。ここでは、逐次単一項目オークションから得られる解は、最小値よりも1.5倍大きいことがわかります。

なぜ最適ではないのでしょうか？それは、ロボットが今ではいくつかのシナジーを表現できるようになりましたが、すべてではないからです。これは、逐次単一項目オークションを使用する場合の解がどれだけ悪くなるかの下限ですが、興味深いことに上限もあります。三角不等式が成り立つ場合、逐次単一項目オークションのフロータイムは最小値の最大2倍です。したがって、解の品質に対する保証があります。

しかし、それだけではありません。各ロボットが最も安価な挿入手法を使用して移動距離を近似的に計算する場合でも、この結果は成り立ちます。これにより、オークションベースのロボット調整のための多項式時間のメカニズムになります。これは素晴らしいことです。なぜなら、NPハードな問題を解いていますが、近似的にのみ解くので、実行時間は多項式時間だからです。つまり、ここでは近似アルゴリズムを持っています。

興味深いことに、このような結果を導くために、オークションメカニズムや経済学について本当に知る必要はありません。しかし、マルチロボットルーティングが車両ルーティングの一形態であることを理解するのに役立ちます。もちろん、オペレーションズリサーチの人々は車両ルーティングを徹底的に研究し、その構造を理解しています。これが最終的にこの結果をもたらします。この結果を発表した論文の著者リストを見ると、人工知能とロボティクスの人々だけでなく、理論的コンピュータサイエンスとオペレーションズリサーチの人々も含まれているのは驚くことではありません。

逐次単一項目オークションには良い理論的性質がありますが、それだけではロボティシストに使用を説得することはできません。良いニュースは、非常に良い経験的性質も持っていることです。特に、実際の解の品質は経験的にはしばしば最小フロータイムに非常に近いです。一例を示すと、組み合わせオークションでは271のフロータイムになります。並列オークションではそれよりもはるかに大きいフロータイムになりますが、逐次単一項目オークションでは最小値に非常に近いフロータイムになります。実際、ロボットの軌跡を見ると、ここには小さな違いしかありません。

しかし、それだけではありません。非常に速く実行されます。なぜ解の品質がそれほど良いのでしょうか？考えてみましょう。すべてのロボットはターゲットを獲得した場合の移動距離の増加を入札します。オークショナーは移動距離の増加が最小のロボットにターゲットを割り当てます。つまり、全体として、すべてのロボットの移動距離の合計、つまりフロータイムが最小限に増加します。つまり、逐次単一項目オークションは「フロータイムが最小限に増加するように、さらに1つのターゲットをあるロボットに割り当てる」と表現することもできます。これはヒルクライミングです。逐次単一項目オークションはヒルクライミングを行い、それがここで非常にうまく機能します。

状況を整理しましょう。フロータイムについて見てきましたが、逐次単一項目オークションは可能な限り最小のフロータイムを持っているわけではありません。しかし、通常は非常に小さく、実装が容易で、入札生成、入札通信、勝者決定は安価です。

入札通信を見て、皆さんに納得してもらいましょう。そんなに多くの入札が提出されるわけではありません。並列オークションを見てみましょう。並列オークションでは、すべてのロボットがすべてのターゲットに入札します。つまり、提出される入札の総数はロボットの数にターゲットの数を掛けたものです。

逐次単一項目オークションを見てみましょう。ラウンドごとに見てみましょう。ロボットは1ラウンドあたり何回入札する必要がありますか？先ほどの例のラウンド1に戻ってみましょう。ここで、すべてのロボットがまだ割り当てられていないすべてのターゲットに入札する必要があると言いましたが、そうではありません。このロボットを見てみましょう。Aに3、Bに1-εを入札したいとします。Aに対する入札を提出する必要はありません。なぜなら、オークショナーは最終的に全体的な最小の入札を探すからです。Bに対する入札はAに対する入札よりも低いので、Aに対する入札は勝てません。つまり、すべてのロボットは実際にはラウンドごとに1つの入札、つまり最も低い入札の1つだけを提出する必要があります。

これは提出される入札の総数にとって何を意味するでしょうか？すべてのロボットはラウンドごとに1つの入札を提出します。したがって、ラウンドごとの入札数はロボットの数と同じです。ラウンドあたり正確に1つのターゲットを割り当てるので、ラウンド数はターゲットの数と同じです。提出される入札の総数はロボットの数にターゲットの数を掛けたものです。つまり、ここで提出される入札の数はここで提出される入札の数と正確に同じです。これで、逐次単一項目オークションについて少し理解してもらえたと思います。

私は逐次単一項目オークションは通常非常に高速に実行されると言いましたが、もう少し時間があれば、逐次単一項目オークションよりも通常低いフロータイムを実現できるでしょうか？それが可能であり、実際にそれほど難しくないことを皆さんに納得してもらいたいと思います。

これまでの立ち位置を要約した図を見てみましょう。並列オークションはシナジーを表現できず、高いフロータイムをもたらすが、低い実行時間を持ちます。スペクトルの反対側には、組み合わせオークションがあり、すべてのシナジーを表現し、最小のフロータイムをもたらすが、非常に高い実行時間を持ちます。なぜならNPハードな問題を解いているからです。逐次単一項目オークションはその中間にあります。ロボットは今、彼らに既に割り当てられたターゲットと彼らが入札するターゲットの間のシナジーを表現できます。これは小さなフロータイムをもたらしますが、小さな実行時間も持ちます。素晴らしいです。

逐次単一項目オークションから得られるものよりも小さなフロータイムを実現したい場合、ロボットは入札においてより多くのシナジーを表現できる必要があります。どうすればいいでしょうか？

逐次単一項目オークションでは、ラウンドごとに1つのターゲットをあるロボットに割り当てます。ラウンドごとに、例えば2つのターゲットを同じロボットまたは2つの異なるロボットに割り当てるとどうなるでしょうか？ロボットが入札する際、既に割り当てられたターゲットとそれが入札する2つのターゲットの間のシナジーを考慮することができます。これにより、より多くのシナジーを表現でき、実行時間は少し増加しますが、より小さなフロータイムを実現できます。

ラウンドごとに割り当てられるターゲットの数をバンドルサイズと呼びます。これにより、より多くのシナジーを表現でき、より小さな実行時間を実現できます。もちろん、実行時間は少し増加します。

バンドルサイズが2の場合を見てみましょう。これで、すべてのロボットは濃度2以下のターゲットのすべてのサブセットに入札する必要があるように見えます。これはあまり良くないでしょう。なぜなら、ロボットのラウンドごとの入札数はターゲットの数に対して2次になるからです。しかし、通常の逐次単一項目オークション（バンドルサイズ1）では、ロボットはすべてのターゲットに入札する必要はないことがわかりました。これらの入札の多くは支配されており、ロボットは自分の入札から見て、それらを提出する必要がないことを判断できます。なぜなら、それらは決して勝てないからです。

ここでも同じことが当てはまります。バンドルサイズが2の場合、明らかに2つのターゲットのセットに関しては、ロボットは最も低い入札だけを提出する必要があります。他のすべての2つのターゲットのセットに対する入札は支配されています。そして、ロボットは単一のターゲットに対する最も低い入札と、単一のターゲットに対する2番目に低い入札も提出する必要があります。つまり、ロボットはラウンドごとに3つの入札を提出する必要があり、これは未割り当てのターゲットの数やロボットの数に依存しない定数です。

もちろん、この定数はバンドルサイズに対して指数関数的に増加します。ここに示されています。ここでは20のターゲットがあると仮定しています。私たちの最適化により、ロボットがラウンドごとに提出する必要のある入札の数は20のターゲットがあることに依存しませんが、どのように増加するかがわかります。つまり、バンドルビットを持つ逐次単一項目オークションは小さなバンドルサイズでのみ使用したいということです。

同様に、オークショナーが何をする必要があるか、つまり勝者決定を見ると、これは少し複雑になります。オークショナーは単に全体的な最小の入札を見て、そのターゲットを対応するロボットに割り当てるだけではありません。少し作業が必要ですが、作業量は提出された入札の数に線形であり、したがってバンドルサイズが一定であればロボットの数にも線形です。

これはとても素晴らしい性質をもたらします。ロボットごと、ラウンドごとの入札数を見ると、組み合わせオークションでは指数関数的でした。逐次単一項目オークションでは1、つまり未割り当てのターゲットの数に依存しない定数でした。バンドルビットを持つ逐次単一項目オークションで、一定のバンドルサイズの場合、それは未割り当てのターゲットの数に依存しない定数のままですが、その定数はバンドルサイズに対して指数関数的に増加します。ラウンドごとの勝者決定の実行時間についても同じことが言えます。組み合わせオークションでは指数関数的でした。逐次単一項目オークションでは、全体的な最小の入札を見つけるだけなので、入札の数、したがってロボットの数に線形で、未割り当てのターゲットの数に依存しません。バンドルビットを持つ逐次単一項目オークションでも、一定のバンドルサイズの場合、それは入札の数、したがってロボットの数に線形で、未割り当てのターゲットの数に依存しないままです。再び、非常に良い性質が得られます。

ここでまとめたいと思います。オークションについてお話したかった理由は、マルチエージェントシステムのコンテキストで非常に興味深いと思うからです。特に、このような研究を行うために何を知る必要があるかというコンテキストで考えると興味深いです。人工知能やロボティクスについて何かを知る必要があります。なぜなら、経路計画や調整について何かを知る必要があるからです。経済学について何かを知ることは本当に役立ちます。なぜなら、彼らはロボット調整のためのオークションメカニズムの作成からインスピレーションを得ることができる興味深い理論メカニズムを研究してきたからです。最後に、オペレーションズリサーチや理論的コンピュータサイエンスについて何かを知る必要があります。なぜなら、マルチロボットルーティング、つまりここでオークションベースのロボット調整を適用した問題は、本質的に車両ルーティング問題だからです。そのため、良いオークションメカニズムを作成するために、構造について何かを理解することが役立ちます。

これで冒頭に言ったことに戻ります。良いマルチエージェントシステムを作成するためには、人工知能だけでなく、他の多くの分野を知りたいと思います。さまざまな分野が良い決定をする方法について考えてきました。だから、AIクラスだけでなく、これらの他の分野のクラスも取りたいと思います。それによって、より大きなツールチェストが得られます。

声がうまく持ちこたえたことを嬉しく思います。途中で少し声を失いそうな感じがしましたが、大丈夫でした。ワークショップでみなさんにお会いできることを楽しみにしています。ありがとうございました。

少し声を失ってしまいましたが、急いで言いたいことがあります。なぜこの話をしたかというと、このワークショップのサブタイトルには「ヒューマン」という言葉が入っていますが、私の話には人間は登場しませんでした。この研究を選んだ理由は、私たちのプロジェクトは完了していましたが、そのようなシステムにどのように人間のオペレーターを組み込むことができるかについて多くの考えを巡らせたからです。この領域では完全に研究されていません。ここに興味のある学生がいるなら、強化学習だけでなく、これらのメカニズムについても考え、人間をループに入れる方法を考えてください。それは非常に興味深い研究になるでしょう。

2.2. Maria Gini教授（ミネソタ大学）：チームメイトを信頼できるか？彼らは友達か敵か？

私は既に完了した研究ではなく、将来の研究について話すことにしました。ワークショップは常にアイデアを議論し、投げかける良い場所だと思います。私が答えようとしている質問は「チームメイトを信頼できるか？彼らは友達か敵か？」というものです。

これについて話すとき、コンピュータサイエンスコミュニティについて考えています。私は長い間このコミュニティにいました。皆さんはアカウントにパスワードを使い始めたことを覚えているかもしれませんが、私は誰もパスワードを使っていなかった長い期間を覚えています。AIラボのポストドクだった私は、ラボに行ってコンピュータにログインするとき、なぜパスワードが必要なのかと思っていました。人々がパスワードを使い始めるまでには長い時間がかかりました。サイバーセキュリティについて考えてみてください。今では公式な用語で、多くのプログラムがありますが、それが認識されるまでには長い時間がかかりました。

これはコミュニティの一部なのか、わかりませんが、仮説として、私たちは根本的にお互いを信頼するのが好きで、注意する必要があるとは思っていませんでした。悪いことが何度も起きた後でやっと、注意しなければならないと考え始めました。パスワードは単なる簡単な例ですが、ある意味で私たちの仕事を保護するものです。

マルチエージェントマルチロボットシステムが現在非常に人気がありますが、始まった頃、コミュニティは分散AIと呼ばれていました。自律エージェントの分散AIコミュニティが始まり、それから一緒になりました。分散AIでは、誰もが互いに友好的で助け合い、チーム内に悪いエージェントがいる可能性さえ考えませんでした。スウォームロボティクスについて考えてみてください。Kaiaが今朝言及したように、通常ロボットは互いに友好的であると仮定され、互いに話しませんが、同じ目標を達成します。これは採餌や他のタスクでも同様です。おそらくコンピュータサイエンスコミュニティに根付いているものだと思います。皆が親切で友好的であると信頼することは好きですが、これが最善のことかどうかはわかりません。私にとっては非常に浸透しているように思えます。

物理的なロボットを導入し始めると、少し厄介になります。物理的なロボットでは、ソフトウェアだけでなく、ロボット自体のハードウェアも故障する可能性があります。私はロボットに「出かけてランチを持ってきて」と指示できますが、ロボットが故障し、それはソフトウェアが悪いのではなく、ハードウェアが悪いからかもしれません。センシングハードウェアなど、他にも考慮すべき多くのことがあります。信頼について考えるとき、これらを考慮する必要があります。

エージェントコミュニティでの信頼のさまざまな概念を見てみましょう。Castelfranchiが書いた古典的な論文があります。彼はローマ出身で、何年も前に非常に長い論文を書きました。この人は信頼について書いた非常に長い論文を書きました。エージェントコミュニティについて考えてください。人間のコミュニティについてではなく、エージェントコミュニティについて考えています。私たちは物事をモデル化する方法に焦点を当てており、プログラムできるようにしています。

彼らが議論した長い論文のひとつは、信頼と制御の概念です。これらはしばしば正反対と考えられています。なぜなら、誰かを信頼していれば、その人を制御する必要はありません。あなたは彼らが正しいことをしていると信頼しているからです。しかし、実際には信頼と制御は互いに関連していると示しています。これらは反対のものではなく、彼らは信頼が制御を調整するのに役立つ動的な力であり、制御メカニズムが信頼を育むことができる構造を提供するというフレームワークを提案しています。これら二つのものは互いに接続されており、互換性がないわけではありません。

彼らは、信頼は二進状態ではなく、分散システムでの協力に不可欠な継続的に進化する要因だと主張しています。これは別の重要なことです。「はい、あなたを信頼します。それで終わりです」とは言えません。あなたの信頼が正しいことに置かれていることを継続的に評価しなければなりません。これによって、いくつかの問題が生じます。それは単なる合格か不合格か、「はい、あなたを信頼します」か「いいえ、信頼しません」かではなく、継続的に確認する必要があるからです。

一般的にエージェントコミュニティで使用される信頼メカニズムは何でしょうか？ここでエージェントコミュニティについて話すとき、先ほどの質問にあったように、人間がループに入っていることを考えると、エージェントコミュニティは単にエージェントだけを指しています。人間は複雑で、生活を難しくします。エージェントだけに焦点を当てましょう。これは人間を入れられないという意味ではなく、自律性の部分に焦点を当てているということです。

分散環境では、エージェントが複数の存在であるため、さまざまな種類の信頼メカニズムが開発されています。これらのメカニズムは、エージェントが決定を下すのを助けます。アイデアは、信頼を測定し、その測定結果を使用して情報に基づいた決定を行うことです。「あなたを信頼します」と言うだけでなく、「あなたを信頼するので、これをすることを許可します」というようなものです。重要な部分は、エージェントが互いに協力し、不確実性を減らすことを促進しようとすることです。エージェントが互いに協力し、不確実性が多すぎないようにしたいからです。

何年も前に構築されたTRAVOSというシステムがあります。論文への参照を記載しました。それはCastelfranchiの論文から始まり、信頼の概念を取り、概念化しアルゴリズム形式にして、信頼を実装する方法を提案しています。TRAVOSはエージェント間の相互作用に基づいてマルチエージェントシステムでの信頼を評価するために設計されたフレームワークです。これにより、あるエージェントが別のエージェントがどの程度信頼できるかを評価できます。これは通常、中央のコントローラーではなく、ペアワイズのものです。そして、これは信頼に基づく相互作用であり、信頼を評価する能力が必要です。信頼はテイム経過とともに変化する可能性があるため、継続的に評価し、信頼レベルを更新する必要があります。基本的なアイデアは、信頼を測定する方法を持ち、時間の経過とともにこの測定値が変化するということです。TRAVOSはこれらのさまざまなことをすべて組み込み、可能な限り情報に基づいた決定を行おうとしています。

信頼モデルとは何でしょうか？主なアイデアがどこから来たのかを見て、何人の人がこれに精通しているかわかりませんが、これは私の仕事ではなく、いくつかの主なアイデアを紹介しています。信頼者と被信頼者がいます。信頼とは、被信頼者が義務を果たす確率の信頼者の推定値です。私は他のエージェントを見て、「そうだね、それが何をすべきか推定しています」と言います。問題は、この推定値をどのように算出するかです。この推定値は、観察回数に基づいて計算できる信頼値の精度を表すためのメトリックです。これは時間とともに変化するため、信頼が義務を果たす確率の期待値が信頼値になり、これはベータ確率密度関数のファミリーを使用して表現されます。

これはベータファミリーの例です。ベータ分布は確率的または偶発的な事象を記述するためによく使用されます。それらはアルファとベータという2つのパラメータを使用する分布です。パラメータの値によって、分布が時間とともにどのように変化するかがわかります。アルファとベータが1に等しい場合、分布は一様です。つまり、最初は一様分布から始まり、時間が経つにつれてアルファとベータの値を更新します。

モデルは各エージェントのアルファとベータを評価し、これは通常ペアワイズです。信頼の期待値はアルファをアルファとベータの合計で割ったものです。これを計算する非常に簡単な方法であり、これらのパラメータだけを持ち、それらのパラメータの値を更新してから値を計算するだけです。これによりエージェントへの信頼の期待値が得られます。継続的に計算する必要があるため、計算が簡単であることが重要です。

少し脱線しますが、私たちが行った研究、今朝簡単に発表したものについて、私たちはこの信頼の概念とTRAVOSシステムを少し拡張し始めました。TRAVOSでは、すべての相手が同じように考慮され、どれだけ信頼するかを測定します。もし皆さんを見て、それぞれの顔を識別し、それぞれにどれだけ信頼するかという数字を付けることができたら、人間のシステムにとっても素晴らしいと思いませんか？「この人をどれだけ信頼すべきか」と素早く確認できれば、「ああ、あなたを信頼すべきでしょうか？私のコンピュータに触れないでください、あなたと話したくありません」と言えるでしょう。アイデアは、簡単に更新できるものを持ち、それが推定値を与え、もちろん、エージェントがこれらの推定値で何をするかはプログラム次第です。エージェントは「非常に高いレベルの信頼が必要です、これは非常に重要な操作だから」と決めることもできますし、そうでないこともあります。ここでのアイデアは、この推定値を与える簡単な方法を持つことです。

私たちが行ったことは、すべてのエージェントが同じ特性を持っているわけではないと考えました。本当に敵対的なエージェント、つまり私に困難を与えようとするエージェントがいる場合があります。時には怠け者であったり、時には時折怠け者であったり、時折敵対的であったりすることもあります。信頼できないエージェントにはさまざまなタイプがあり、同じ方法を異なるクラスのエージェントに適用できるかどうかを検討し始めました。使用する式は同じですが、異なるアルファと異なるベータの値が必要です。今朝の講演とポスターで示したように、いくつかの実験を行い、時間とともに値がどのように変化するか、システムをトレーニングしてその値がどのように変化するかを確認できます。

この時点で何ができるかについて、潜在的なアクションプランをまとめてみました。これらは最善のものではなく、コミュニティからさらに多くのアイデアを得たいと思っています。あまり示唆しすぎないようにしたいと思います。

ここでのアイデアは、メトリクスを考案することです。信頼を測定する方法があり、アルファとベータの値を取得しますが、それらは実際に何を意味するのでしょうか？異なるアプローチを比較する場合、私の信頼の計算方法があなたの方法よりも優れているかどうか、より正確に測定する方法を考え出す必要があります。そして、このような情報を取得するシステムを構築し、概念実証を開発し、これらのシステムを統合して使用することができます。

ロボティクスにとって特に重要な問題の一つは、エージェントを信頼できないことに加えて、ハードウェアとセンシングの信頼の問題もあることです。ロボットのセンサーは欠陥がある可能性があります。例えば、ロボットが「そこに行ける」と言って壁にぶつかるのは、センサーが壁を検出しなかったからかもしれません。または「コーヒーを持ってくる」と言いながら、コーヒーが来ない場合、それはバッテリーが切れたなどの理由かもしれません。物理的な存在や具現化されたエージェントがある場合、信頼の問題はより複雑になります。なぜなら、信頼の欠如はシステムが設計不良だからではなく、物理的なセンシングやモーター制御の問題かもしれないからです。

信頼は非常に広範であり、エージェントから期待することの種類を少し分類し、信頼の欠如の原因を特定することが有用かもしれません。それは意図的なものなのか、そうでないのか。明確な応用の一つは軍事応用で、これは私が一般的に行わないことですが、ドローンのセットがあれば、敵のドローンが侵入するのは非常に簡単です。これにより別の問題の集合が生じます。実際に、システムに侵入し、ミッションをサポートするのではなく、悪いことをしようとする者がいる可能性があります。あなたのドローンを妨害したり、他のことをしたりするかもしれません。

非常に広範なスペクトルがあり、個人的には、できるだけ証明可能な、あるいは科学的な方法で、さまざまな種類の信頼を測定する方法を考案することに非常に興味があります。そうすれば、お互いに共有し、エージェントの信頼に関する集合的な理解を持つことができるでしょう。そして人々は複雑すぎるので、彼らを除外します。学術界では、自分がやりたいことを選び、他の誰かに「人々のことは任せよう」と言えます。Kaiがそれをしてくれるでしょう、多くの人が人々と対処できます。私は人々を扱うのが難しすぎると思います。私はエージェントを扱います。最終的に、すべてをまとめて、うまくいくことを願っています。

これが私が言いたかったことであり、信頼について話す時間を取りたいと思いました。信頼は会議やワークショップで大きなトピックになっていると思います。研究のための豊かな分野があると思います。以前言ったように、信頼に関する論文はそれほど多くありません。アルゴリズムの実装に興味があれば、多くの余地があります。より理論的な問題や社会科学的な問題、人間に興味があれば、多くの問題があります。これは私が望むことですが、人々がどう思うか、研究の方向性などについての提案を聞きたいと思います。しばらくすると同じことをするのは少し退屈になります。ある時点でタスク割り当てにも飽きて「何か新しいことをしよう」と思いました。しかし、いくつかの提案やアイデアが必要です。コミュニティとして、何かを議論するのは良いことだと思います。

3. ポスターセッション2

3.1. 拡張トポロジーの分散型ニューロ進化を使用したロボットスウォームの適応型採餌行動のトレーニング

皆さんこんにちは。私の名前はタミムで、テキサス大学リオグランデバレー校の修士課程の学生です。今日は、NEATアルゴリズムを改良して、自律エージェントがより効率的に食料収集を行えるようにする研究を発表します。

NEATとは「ニューロ進化拡張トポロジー」の略です。従来のニューラルネットワークとは異なり、NEATはバイアスと重みを更新するだけでなく、ネットワークトポロジーも更新します。また、どのネットワークトポロジーが最も良いパフォーマンスを示すかを確認するために進化関数を使用します。

私たちの以前の研究では、NEATがエージェントの採餌行動をトレーニングするために活用され、簡略化された適合度関数を使用していました。この関数は「エージェントが食料を取ると+1、食料を戻すと+2」と説明できます。つまり、配送システム全体では、各ボットは配送ごとに+3を獲得します。

しかし、この適合度評価関数には問題があります。エージェントは時間制約を考慮していませんでした。実際、単一の食料を配達するのに多くの時間がかかりました。左側の画像を見ると、以前の研究では、エージェントが食料を取った後に不必要に長い曲線を生成していることがわかります。これにより、食料の配達に多くの時間がかかりました。

そこで、私たちは新しい適合度関数を導入しました。シミュレーションの各タイムステップで負の報酬を与え、ボットが一定時間内に食料を配達するよう促しました。右側の画像が私たちの実装版です。この2つの画像を比較すると、右側では長い曲線が生成されなくなっていることがわかります。食料を拾った後、真っ直ぐ巣に戻り、これにより多くの時間が節約されます。

右下の隅を見ると、以前のアルゴリズムと私たちの負の報酬ベースのアルゴリズムを比較しています。3つの異なる分布（ランダム、半ランダム、クラスター）でテストしました。クラスターを除いて、ランダムと半クラスターでは、私たちの負の報酬ベースの関数が非常に良いパフォーマンスを示しました。クラスターの場合、パフォーマンスはほぼ同等でした。

将来の研究では、同質のロボットではなく、異質のロボットを使用して、エージェントの異なる行動がパフォーマンスにどのように影響するかを調査する予定です。

3.2. 「私の行動を謝罪します」：生成エージェントの創発的特性と技術的課題

皆さん、こんにちは。私はショモと申します。以前に発表したケイは私の元学生で、イギリスのケンブリッジからやってきました。これから、私の別の元学生であるネオマの研究を紹介します。この研究は、非常に興味深いシミュラクラで生活する約20のエージェント（キャラクター）を持つマルチエージェントシステムを調査したものです。これらは大学生のようなキャラクターで、一人はコーヒーを作り、別の一人はどこかで勉強しています。彼らはこの興味深い小さな町のようなシミュレーションに住み、互いに話し合い、会話し、非常に現実的な行動を取ります。

このマルチエージェントシステムでは、意図的に誤情報を広めようとしました。つまり、実際にカフェでバリスタとして働いているカーメンが実際にはお金を盗んでいるという完全に虚偽の情報を、私たちのキャラクターの一人であるクラウスが意図的に広めるようにしました。これは完全に偽りですが、私たちは単に一人のエージェントにこの噂を広めるようにプロンプトを与えました。各エージェントは大規模言語モデル、オープンソースの大規模言語モデルに接続されています。これらのエージェントは会話し、移動し、日常的な活動を行いますが、そのうちの一人が噂を広めようとしています。

完全にプロンプトなしで、完全にプログラムされていないのに、別のエージェントがこのエージェントに実際に対立し、「カーメンを非難するのは間違っていた」と言います。そしてこの人は「はい、私の行動を謝罪します」と答えます。これは再度、完全にプロンプトもプログラムもされていないことであり、このエージェントは「私の行動を謝罪します。カーメンについて言ったことは間違っていました」と言います。私たちはこれをオープンソースのマルチエージェントLLMにおける「内在化された後悔」と呼んでいます。つまり、完全にプロンプトなしでも、これらのエージェントはある種の創発的な内在化された後悔を持ち、シミュレーションを実行するとそれを表現しています。

ここにはシミュレーションの全体的な書き起こしがあり、この人が噂を広めたことを謝罪しています。もちろん、他にも技術的な問題がありました。これらのマルチエージェントシステムでは、大規模言語モデルを使用した場合、当然ながらハルシネーション、停止、多くの行動の毒性があります。例えば、市長選挙について話していたエージェントが突然、偏微分方程式やクロニカデルタ、一般相対性理論について話し始めるようなことがあります。このような会話は時々脱線しやすいのですが、私たちはこれらのエージェントが誤情報の拡散に対して非常に堅牢であることを発見しました。これらは私たちが使用した単なるオープンソースのLLMですが、ある種の内在化された後悔を持っているようです。

これは、これらのマルチエージェントLLMシステムにおけるある種の創発的な心の理論についての思考を残します。もちろん、これらのエージェントは本物の意図性を欠いており、私はここで擬人化しているわけではありませんが、それでもこれらの結果は非常に驚くべきものです。要約すると、これらのLLMにリンクされたマルチエージェントシステムの生成エージェントは、欺瞞、対立、内在化された後悔を示します。また、脆弱性も示します。これらの行動は将来のAI安全性の心の理論研究に情報を提供し、非常に現実的な人間のような行動を持つこれらのシミュラクラを探索するための肥沃な地盤であると主張します。

3.3. MASR：抽象化と推論コーパスのための反射を伴うマルチエージェントシステム

皆さん、ケンブリッジ大学からの研究を発表します。これは「抽象化と推論コーパスのための反射を伴うマルチエージェントシステム」についてです。抽象化推論コーパス（ARC）はAIモデルの推論能力をベンチマークするためのものです。評価用400タスク、トレーニング用400タスク、テスト用200タスクの計1,000タスクがあります。これは単一のLLMやヒューリスティック検索システムでテストされてきましたが、この研究では、これらの異なるアプローチ、つまりLLMとヒューリスティック検索システムを1つの組み合わせたアーキテクチャに統合しようとしています。

まず、ARCのトレーニングデータセットが非常に限られていることを認識したので、それを拡張するための増強技術を作成しました。回転、反転、置換を使用して、初期のトレーニングセットを最大1,800万タスクまで拡張しました。次に、LLM向けに特別に調整された新しい3ショット拡張ARCベンチマークを作成しました。これは初期のARCに似ていますが、2番目と3番目のショットでは90度と270度の回転を行い、問題をモデルに異なる方法で提示します。

左の表では、初期のARCデータセットと私たちの新しいOARCベンチマークでの評価を示しています。7Bの小さなモデルからGPT-4などの大きなモデルまで、さまざまなLLMを評価しました。すべてのモデルで、新しく提案されたOARCベンチマークでのパフォーマンスが向上しており、その差は30%から125%の範囲です。

私たちは、拡張されたARCトレーニングデータセットでいくつかのLLMをファインチューニングし、そのベースバージョンとファインチューニングされたバージョンを評価しました。すべてのモデルがファインチューニングから大きな恩恵を受けており、パフォーマンスの向上は60%から200%の範囲です。

また、LLMとプログラミングに依存するヒューリスティック検索システムが異なる種類のARCタスクを解決することを発見したため、右側に示すようなマルチエージェントシステムを作成しました。このシステムはLLMと他のタイプのソルバーを組み合わせることができます。

私たちのマルチエージェントシステムは2つの段階で構成されています。最初の段階では、すべてのソルバーが独立してタスクの解決策を予測します。2番目の段階では、反省モデルがすべての潜在的な解決策を取り込み、最終的なものを選択します。

私たちの提案するシステムは、異なる数のエージェントと異なるタイプのエージェントで動作できるため、非常に柔軟です。これは大きな利点です。さまざまな構成を採用し、最後の表に示すように、ARCの評価セットで評価しました。2つのソルバーとGPT-4を反省モデルとする構成が最適であることがわかりました。これは評価セットで166を獲得し、以前の同様のアンサンブルアプローチよりも高く、以前の単一のDFS検索よりも高いスコアです。

3.4. 作物計画意思決定支援のためのマルチエージェント強化学習ポリシーの比較分析

みなさんこんにちは。私たちのチームは「作物計画意思決定支援のためのマルチエージェント強化学習ポリシー」というプロジェクトに取り組みました。インドには多くの小規模農家がおり、予測不可能な市場変動や気候変動による大きな財政リスクに直面しています。残念ながら、彼らは多くの財政的債務に直面しており、農業世帯の50%以上が最大200万米ドルの債務を抱えています。従来の作物計画システムは、リアルタイムの需要と供給に適応できない一般的な推奨事項を提供することが多いです。

私たちの解決策コンセプトはマルチエージェント強化学習を使用することです。従来の意思決定支援システムとは異なり、MALは農家が調整された決定を下し、資源の使用を最適化し、市場リスクを軽減することを可能にします。私たちはシステムを、複数のエージェントが環境と相互作用するMDPとしてモデル化しています。エージェントはアクションを取り、それが環境に変化をもたらし、それに基づいて他のエージェントもアクションを取ります。

この画像の下では、農家1が見られます。現在の状態は作物の特徴によって特徴付けられ、「何も植えない」「トマトを植える」「ジャガイモを植える」という3つの異なるアクションが利用可能です。これが次の状態につながり、成熟度が100%になるまで続きます。そうすると収穫して市場に持っていく準備ができます。農家2も同様のことを行います。

私たちは3つの異なる方法に取り組みました。まず、独立Q学習では、エージェントは他のエージェントのアクションや状態を直接見るのではなく、環境に何が起こるかを見ます。ここでは、各エピソードごと、各時間ステップごとに、エージェント1が状態を観察し、ランダムまたはQテーブルから現在の状態での最適なアクションを選択します。Qテーブルには、状態でアクションを取ることの期待値であるQ値があります。その間、他のエージェントはアクションを選択し、最終的にエージェント1は他のエージェントのアクションを個別に見ることなく、報酬と次の状態を観察します。

次に、マルチエージェントロールアウトポリシーについて検討しました。これはポリシー反復フレームワークをマルチエージェントシステムに拡張し、ポリシーを反復的に改善します。例えば、黄色いエージェントに対する最適なアクションを決定したい場合、まず将来の軌跡をシミュレートします。その時間ステップ内で、そのエージェントは前のすべてのエージェントがどのようなアクションを取るかを既に知っており、後のすべてのエージェントは単に基本ポリシーに従うと仮定します。特定のアクションに対して将来の軌跡をシミュレートした後、最高の報酬を与えるアクションを選択します。

私たちの最後のポリシーであるAgent by Agentは、各エージェントに対する最適なポリシーを決定するという複雑なグローバル最適化問題を、複数のローカル最適化問題に分解します。その方法は、残りのエージェントが固定されたポリシーを持つと仮定し、特定のエージェントに対してのみ最適化することです。これにより、残りのN-1エージェントが時間軸N-1から0までの固定ポリシーを持つと仮定することで、マルチエージェント問題を単一エージェント問題に分解します。

結果として、グラフは異なるポリシーの合計合同報酬を示しています。X軸には3つの異なるポリシーがあり、Y軸にはルピーでの合計合同報酬があります。見て分かるように、ABAとロールアウトポリシーは同様のパフォーマンスを示していますが、IQLバッファポリシーはそれほど良くありません。2番目のグラフはエージェント数と実行時間の関係を示しています。X軸にはエージェント数、Y軸には秒単位の実行時間があります。ABAとIQLは低い実行時間で同様のパフォーマンスを示していますが、ロールアウトは非常に高い実行時間を持っており、これは最適ではありません。

結論として、実行時間と合計合同報酬の間には多くの違いがあります。将来の研究では、公平性メトリクスとスケーラビリティの改善に焦点を当てたいと思います。