※本記事は、AAAI 2025 2nd CMASDL Workshop(Cooperative Multi-Agent Systems Deep Learning Workshop)の動画から文字起こしされた内容を基に作成されています。動画は YouTube(https://www.youtube.com/watch?v=gO_dbGB-8gw )でご覧いただけます。
登壇者は、ミシガン大学のベンジャミン・クイパース教授(テーマ:信頼は効用である)とジョージア工科大学のパナギオティス・ツィオトラス教授(テーマ:平均場相互作用を用いたマルチエージェント強化学習ゲームのトレーニング)です。
本記事では、両講演の内容を要約・整理しておりますが、原著作者の見解を正確に反映するよう努めています。ただし、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画をご視聴いただくことをお勧めいたします。なお、本ワークショップは人工知能における協調的マルチエージェントシステムと深層学習の進展に焦点を当てた学術イベントです。
1. ベンジャミン・クイパース(ミシガン大学)のプレゼンテーション - 「信頼は効用である」
1.1. 信頼の定義と重要性
私は信頼とその社会における役割について多く話します。この概念を別の視点から考えると、信頼は私たちが意思決定をする際の効用関数の一部である必要があると言えます。同時に、信頼はエージェントや組織にとって資本資産でもあります。もしこの資産が浪費されてしまうと、それは失われ、そのエージェントはより貧しくなり、物事がはるかに困難になります。
私は長い間人工知能の研究に取り組んできました。これは歴史上の偉大な科学的問題の一つであり、自分の時間を費やす価値のあるものだと深く確信しています。私はキャリアを常識的知識の基礎的領域を中心に構成し、ナビゲーション空間、力学的変化、オブジェクト、アクションなどに多くの時間を費やしてきました。そして最近の10年ほどは、倫理に多くの注意を向けています。これを常識的知識の領域として扱い、「何をすることが許容されるか」を考えています。認知マップを使って目的地へのナビゲーションを計画するのと少し似ていますが、倫理はさらに「目標を達成するために、どの方法が許容され、どの方法が許容されないか」も教えてくれます。
信頼はこの分野全体の中心的な概念ですが、信頼は多くの異なる意味を持つ小さな言葉の一つです。信頼の異なる定義を区別することが重要だと思います。メカニズムに対する予測可能性としての信頼、例えば私が登山をするならロープを信頼する必要があります。しかし私がここで興味を持っているのはそのような定義ではありません。私が関心を持つ信頼は、エージェント間の信頼です。あなたと私が何かに協力している場合、私たちはお互いを信頼する必要があります。この種の信頼は、それぞれが独自の目標を持ち、それを達成するために独自の行動を取るエージェント間のものです。
なぜ信頼が必要なのか、なぜ倫理が必要なのか、という根本的な疑問に戻ると、効用最大化だけではなぜ不十分なのでしょうか。信頼は協力を可能にする重要な特性であることがわかります。協力は正の和のインタラクションを提供します。社会内のインタラクションが主に正の和である場合、その社会はより繁栄し、より安全になり、進歩する可能性が高くなります。
1.2. 協力とその社会的価値
社会全体は複数のエージェントシステムです。私たちは皆個々のエージェントであり、何をするかについて個別の決定を下しています。社会全体は私たち全員の集合体です。私たちが認識すべきことの一つは、AIを構築していることです。これらのAIは私たちのより大きな社会内でエージェントとしての役割を担うことになります。ですから当然、それらが適切に振る舞うことを確実にすることに関心があります。ここで私が考えたいことの一部は、人間社会がなぜうまく機能しているのか、そしてそこから様々な種類の人工エージェントもうまく機能させる方法を学ぶ方法です。
人間社会はなぜそれほど成功したのでしょうか?それは部分的に、人々がお互いに協力するからです。協力はポジティブサムゲームであり、関係する個人と社会全体の両方にとって、より多くの資源を生み出します。これは基本的に、資源の分配などの問題(これらは重要です)を脇に置いて、社会全体の資源が良いものであると言っています。
協力を可能にするために、時間をかけて進化してきた認知能力がいくつかあります。マイケル・トマセロが「共同的・集合的意図性」と呼ぶ2つの非常に重要な能力があります。これらは協力することが困難な認知能力です。実際にこの論文、というよりは本を推薦します。
さらに、私たちの社会は文化的に進化し、より大規模な協力をサポートする構造を作り出してきました。ロバート・ライトの「非ゼロ」という本を強く推薦します。彼が本当に意味しているのは、ポジティブサムのインタラクションです。そして社会は、その文化的進化を通じて、ポジティブサムのインタラクションを促進するためのより良い構造を発展させてきました。ノヴァックの本も非常に価値があります。ジョセフ・ヘンリックの著書「私たちの成功の秘密」では、文化的進化の価値について述べています。私たちの成功の秘密を知ることは本当に価値があります。彼は特に累積的文化進化の価値を指摘しています。この部屋には非常に賢い人々がいますが、私たちの誰も、生存し繁栄するために知る必要のあるすべての知識を発明したり学んだりするほど賢くはありません。そのため、私たちは社会の文化的進化に依存しています。
協力は社会にとってより多くの資源への鍵ですが、協力には脆弱性が伴います。なぜなら、あなたは協力パートナーに対して脆弱だからです。彼らは自分の取り分よりも少なく貢献したり、報酬の取り分を多く取ったりする可能性があります。そのため、協力パートナーを信頼しなければなりません。しかし信頼とは何を意味するのでしょうか?
信頼の定義は難しいと先に述べましたが、私が好む定義は経営学文献からのものです:「信頼は、他者の意図や行動に対するポジティブな期待に基づいて、脆弱性を受け入れる意図を含む心理的状態である」。カツは非常に類似したものを使用しました。これは1995年のメイヤー、デイビス、ショーマンの論文に基づいており、信頼と信頼性の非常に良いモデルを持っています。
信頼はあなたのパートナーが信頼に値するならば価値のあるものですが、そうでなければあなたは困ることになります。社会が依存する重要なことの一つは、信頼に値する方法を持ち、他の人々にあなたが信頼に値することを示す方法、そして他の人々が信頼に値するかどうかを認識する能力です。そして後で触れますが、私は倫理とはそのためのものだと信じています。倫理は社会がそのメンバーに教える知識体系であり、彼らがこれらの重要な評価を行うことを可能にするためのものです。
1.3. 信頼の例と現実世界での適用
ここで、信頼についていくつかの一般的な日常的な人間の例を紹介したいと思います。これらの多くの場合において、実際にAIシステムにこの種の信頼を示してほしいと考えています。
例えば、あなたが私にお金の貸し出しを頼みに来て、私はそれを貸すかもしれませんし、貸さないかもしれません。しかし、あなたがその返済をすると信頼できれば、状況はより良くなります。これは特定の既知の他の個人に対する評価です。
同様に、私たちは道路を運転し、他の人々がいます。彼らが誰であるかは知りませんが、彼らが赤信号で停止すると信頼しています。これは社会の一般的な未知の他のメンバーに対する一種の信頼です。
信頼は言語にも関わっています。あなたが私に何かを伝え、私はあなたがそれを真実だと信じていると信頼します。明らかにこれは普遍的な定理ではありませんが、私はその信頼に依存しています。
AIで長年研究してきたデフォルトのようなものもあります。例えば「ツイーティーは鳥である、したがってツイーティーは飛ぶことができると結論付ける」というようなデフォルトです。これは「何か異常なことが起きていたら、飛べない鳥について話していたら、あなたは私に教えてくれただろう」と信頼していると解釈できると思います。
私が仕事に応募すれば、あなたは私を公平に扱い、差別しないでしょう。そして仕事を得れば、従業員として公平に扱われるでしょう。
一般的に、信頼によって無限に複雑な世界のモデルを単純化することができます。世界のすべてに対処しなければならないとしたら、それは完全に手に負えません。信頼は頼りにできる声明を提供しますが、もちろんそれらは常に真実とは限りません。それはヒューリスティックかもしれませんが、脆弱性の一部を受け入れながらも、その脆弱性の程度を制御できる必要があります。
高信頼社会では、こうした前提を立てることができる傾向があり、限られた種類の偶発的計画を行う傾向がありますが、詳細な偶発的計画(これは手に負えないでしょう)をする必要はありません。
なぜそれが可能なのでしょうか?一部には、私はあなたを信頼し、そしてあなたが信頼に値しないことが証明されたとします。それは貴重な事実、持続的な属性を私に教えます。それはあなたを将来信頼したり、あなたと協力したりする可能性がないことを意味します。つまり、他人の信頼を侵害することには深刻な機会コストがある資本資産が浪費されたということです。
お金の返済について話しましょう。あなたが「100ドル借りる必要がある」と言います。私は「まあ、あなたは友人だ、返済できる可能性はどのくらいだろうか」と考えます。おそらく必ずしもそうではないかもしれませんが、100ドルの損失なら対処できるでしょう。しかし、もしあなたが100ドルを返済しなければ、次にあなたが頼んだ時には、おそらく貸してもらえないでしょう。
あなたが「本当に本当に1万ドル必要だ」と言うとします。それはあなたにとって大きすぎる負担かもしれませんし、私にとっても大きすぎるリスクかもしれません。そのため、おそらく貸さないでしょう。つまり、潜在的な協力状況の信頼性を評価しているのです。
もちろん、私はスタートアップを立ち上げていて10億ドル必要です。まあ、それもほぼ同じことです。
運転手は赤信号で停止します。これはほぼ常に真実ですが、常に真実とは限りません。人々は戦略を学び、見守り、待ち、信頼が侵害された場合に対応する準備をしますが、交差点を通過するたびに詳細な偶発的計画を立てることはできません。こうした危険に関する統計を変える一般的な信頼のレベルが、生活をより効率的で安全にします。
あなたが私に何かを伝え、あなたが良い人だから私はそれを信じます。通りで誰かが私に近づいてきたとしても、あなたの動機や信頼性のレベルについて何か知りたいと思います。オオカミ少年の有名な民話があります。彼は最初は信頼されていましたが、冗談を言っていたため、しばらくすると人々は彼を信頼しなくなりました。そして本当にオオカミがいたとき、誰も来ず、彼は食べられてしまいました。私たちはこれを経験から学びます。
ポール・グライスの素晴らしい理論が古くからありますが、彼は会話の公理を作りました。基本的には、話すときは情報提供的で、真実を語り、関連性があり、明確で、言うことに注意するということです。そして他の人々はそれを信頼することを学びます。
私は「あなたは今、Amazonが聞いたこともない別の人に22,000ドルのコンピュータを送ることを承認しました。このトランザクションを停止するには私たちのウェブサイトをクリックする必要があります」というテキストメッセージを受け取ります。私がそれにどれだけの信頼を置いているか、そして運が良ければあなたも同じレベルの信頼を持っていて、削除してジャンクとしてマークするでしょう。
1.4. ゲーム理論と囚人のジレンマ
後ほど、世界にはどのような種類の意思決定エージェントが存在するのかという質問に入ります。人間が主要なものですが、デジタルコンピュータに基づくAIを開発しています。しかし、営利、非営利の企業、政府、教会、その他の組織も、目標指向の問題解決をし、世界に影響を与える決定を下す人工的なエージェントです。彼らの動機は何でしょうか?利益を最大化する?それはあなたが彼らの言うことをどれだけ信頼するかについて何を意味するでしょうか?聴衆にある種の懐疑心を感じます。
世界は非常に複雑な場所です。注目すべき最初の公理の一つは、世界が無限に複雑であり、それについて効果的に考えることができないという事実です。そのため、前進するためには、その世界の単純化されたモデルを構築する必要があります。人間だけがエージェントではありません。私たちはAIを構築し、すでに強力な企業に囲まれています。それらは信頼に値する必要があります。
ここでのテーマは、社会が協力に依存し、協力が信頼に依存し、信頼が浪費される可能性のある資本資産であるということです。そして、私たちはこれを使って他の多くのことを考えるためのレンズとして使う必要があります。
信頼の重要性と協力の重要性について学びました。どのように物事が間違った方向に進むのでしょうか?すでに触れたように、信頼とは特定の規則性を信じることですが、その規則性は保証されておらず、自分自身を守る必要があります。
特定の方法は、次のアクションをどのように選択するかと言うときです。一般的に期待効用を最大化しますが、私たちの効用、私たちの効用尺度が実際に気にかけているすべてのものを含んでいるかどうかを言う必要があります。なぜなら、そうでなければ、実際に気にかけていないものを本当に最適化し、気にかけているものを省略して、困ることがあります。
ゲーム理論は素晴らしい方法で、強力な数学を使用し、効用尺度を持つ状況の単純化されたモデルを取り、その効用尺度を最適化するためのアクションを選択します。素晴らしいことです。ポジティブサム、ゼロサム、ネガティブサムゲームの概念は、この分野への最初のレベルの貢献です。他にも重要な概念がたくさんあります。
しかし、数学的にどんなに素晴らしく信頼性があっても、それでも「ゴミ入れ、ゴミ出し」の定理に従います。間違ったモデルを与えれば、間違った答えを得る可能性が高いのです。
非常に単純で馴染みのあるゲーム理論の例を見てみましょう。囚人のジレンマです。ここでは実際に囚人については話しません。少し変わったことですし、マイナス記号が入ってしまうからです。同じ問題ですが、ポジティブな報酬の枠組みでやってみます。
あなたと私は報酬のために協力しています。報酬に向かって一緒に働きます。ドル、金の延べ棒、何でも構いません。私が協力し、あなたも協力すれば、私たちはそれぞれ3を得ます。これはマトリックスの左上のセルです。あなたが裏切るとしましょう。いや、ここでは私のことを言うつもりでした。私が裏切る(下の行)とし、私のパートナーが協力するなら、私は5を得て、パートナーは0を得ます。私は彼をバスの下に投げ込んだのです。私たち両方が裏切れば、両方とも1を得ます。これは対称的なゲームです。
奇妙なことに、何が起きても、裏切ることが私の最良の選択です。あなたが協力するか裏切るかわかりません。もしあなたが協力するなら、私は3と5の間で選択することになります。明らかに5というアクションを選びます。しかし、もしあなたが裏切るなら、それは0と1ですので、裏切らなければなりません。つまり、あなたが何をしても、私の最良の一手は裏切ることです。
しかし、パートナーも同じ決断をします。対称的なので、私たちは両方とも裏切り、1と1を得ます。これは合理的な決定として宣伝されています。スチュアート・ラッセルとピーター・ノーヴィグは、知性の目標は合理的な決定を下すことだと言っています。これは多くの証明可能な特性を持つ効用最大化アルゴリズムであり、それが私に可能な限り最悪の集合的結果をもたらしました。そして、個人としての私にとっても、バスの下に投げ込まれるほど悪くないかもしれませんが、かなり悪い結果です。
もし最悪の効用を与える効用最大化アルゴリズムを持っているなら、それは何を意味するのでしょうか?おそらくゴミが出たということなので、おそらくゴミが入ったのでしょう。ラッセルとノーヴィグはこの質問に答えようとしています。
囚人の領域での話をしているので、少し変えますが、協力だけでやってみます。ジレンマは均衡結果が両方のプレイヤーにとって、両方が協力した場合に得られるよりも悪いということです。彼らは協力することが許されていますが、合理的なエージェントがそこにたどり着く方法を見つけるのは難しいのです。
問題は、効用尺度に信頼が全く関係していなかったことです。信頼、資本資産としての信頼は、その効用関数に含める必要があります。それがなければ、不適切なモデル、効用の不適切な定義で効用最大化を行うと、信頼が侵食され、人々はお互いを信頼しなくなり、協力が減少し、物事は悪化します。
実際、これを学生に試みると、心理学者や社会心理学者は常に人間の被験者にこれを行いますが、彼らが発見するのは、人間の大多数はゲーム理論があなたにその効用尺度でするように言うことをしないということです。彼らは別のことをし、より良い結果を得ます。ビジネスと経済の専攻者を除いては。なぜなら、ビジネスと経済の専攻者はゲーム理論で訓練されており、「ああ、この効用最大化を適用できる、パートナーを裏切る必要があることを知っている」と言い、そしてパートナーも同じことを見て、彼らは悪い結果になります。
囚人のジレンマ、それがどれほど重要かと言うなら、実世界の例を挙げましょう。これは実際に世界で深刻な破壊的影響を持っています。1970年、ミルトン・フリードマン、超有名で超著名な経済学者が「ビジネスの社会的責任は利益を増加させることである」というタイトルの論文を発表しました。これは投資家のための効用を意味し、顧客、労働者、供給者、隣人、環境への影響を無視しています。これらは基本的に見えず、最適化に含まれていません。そして驚くことではありませんが、悪い結果が得られます。
その論文を読んでみてください。実際に非常に興味深いですが、読むときには財布に手を置いておいてください。彼はあなたのポケットを掘り出そうとしており、上手くやっています。多くの学生が「このような素晴らしい」と言ってきましたが、注意深く読むと、それは知的に非常に不誠実です。私たちが見ているのは、社会全体にわたる信頼の広範な欠如です。これはその影響のいくつかの一つに過ぎませんが、私は読者の演習として、注意深く見て、私たちの世界で信頼に何が起きているのかを見るよう残しておきます。
1.5. 信頼の資本資産としての性質
社会、これらの例はすべて、信頼がただ注目する必要があるニッチな属性ではなく、どこにでもあることを示そうとしています。私たちの社会は協力の上に構築されており、協力には信頼が必要です。そのため、これが必要なのです。人々は信頼に値しない行動を検出し制裁することについて多くのことを研究してきました。しかし、私たちが見てきたように、社会全体がそれに苦しむ程度までです。
文化には、それらの制裁を課す方法が含まれていますが、規制も作成しています。規制は諸刃の剣です。それらは信頼に値する行動を促進し強制するのを助けることを意図していますが、あまりにも多くの規制は行動を抑制する可能性があります。そのため、多くの規制があると、何かを行うことが困難または不可能になる可能性があります。また、人々が何かをしようとするときに発生する挫折感の増加も見てきました。これはしばしば誤解されていますが、人々は怒りを感じ、投票し、悪いことが起こる可能性があります。
したがって、規制は有益にも有害にもなり得ます。そこには重要なバランス取りがあります。これはAIにとっての別の機会です。コンピュータサイエンスがアルゴリズムの効率性を分析し、ネットワーク理論がネットワークプロトコルなどを調べるのと同じように、規制の効果も分析し最適化できるはずです。これは誰かが新しい分野を開拓する大きな機会です。
政府規制の失敗と、デジタル時代にどのように物事が悪化しているかを真剣に検討している本をお勧めします。その後半は、どうすればより良くできるかについてです。本の約3分の2まで読んだとき、ほとんど「一体何ができるのだろう」と感じていました。多分すべてを吹き飛ばす必要があるのかもしれません。それは選挙で勝った立場だと判明しました。そして、それは多くの難しい問題を引き起こすと思います。彼女は他の中でも、最近イーロン・マスクとUSドージサービスと改名された人々に引き継がれたアメリカ合衆国デジタルサービスの創設者の一人でした。そのグループの初期のリーダーの相当数、約20人が最近、この1〜2週間以内に辞任しています。
私たちの社会の生存と繁栄は、ほとんどのインタラクションがポジティブサムであること、つまり協力的であることに依存しています。協力には信頼が必要です。信頼について推論する方法について明示的である必要があります。読むほとんどの研究は明示的ではなく、ただ「これは注意を払う必要があるもの」と言うだけです。しかし、私はそれが効用関数の一部として認識される必要があり、エージェントの資本資産として認識される必要があると思います。そして、物事はひどく悪くなる可能性があります。
また、制度が人工的に知的なエージェントであることを認識する必要があります。そして、もしデジタルコンピュータベースのAIを規制することについて話しているなら、企業構造や制度にも同じ規制の概念を適用する必要があります。これは、知識はどこにあるのか、エージェントは何を最大化しようとしているのかなど、全く別の技術的質問のセットを開きます。私たちはすでにその一部を見ていますが、すべての制度が利益を最大化しているわけではありません。そのような制度は、私たち人間が協力するためのメカニズムです。それは深刻な強みを持ち、深刻な脆弱性を持っています。
1.6. 規制、制度、倫理の役割
倫理について、ここではあまり多くの言葉を使っていません。私の目標の一部は、倫理は何のためにあるのかを言うことでした。以前に述べたように、倫理は社会がその個々のメンバーに教える知識体系であり、それによって信頼に値する方法と他の人々が信頼に値するかどうかを認識する方法を教えます。
倫理は、私の主張では、あなたにどのように善良であるかを教えることについてではありません。それはそうしますし、時にはそのように描写されますが、実際には、あなたにどのように信頼に値するかを教えることについてです。徳や規則や効用最大化を強調する様々な哲学的倫理学派は、個々のメンバーに信頼に値する方法、他の人々の信頼性を評価する方法を教える方法として見ることができます。
これもまた、より長く、より詳細に展開できるトピックです。信頼と協力の輪を広げる必要があり、そうすれば私たちはうまくいくでしょう。しかし、もしその輪を狭め、信頼を侵食し、人々が協力しなければ、私たちの社会は悪化するでしょう。
悪化について考えるとき、進化というテーマを使ってきました。もし生き残り繁栄する方法を見つけることに成功しなければ、ダーウィンは大きな革の翼で降りてきて、私たちを連れ去ることができます。
1.7. 質疑応答
質問: あなたはゲーム理論について話し、おっしゃったことはもちろん非常に正確です。ゲーム理論が評判について語る一つのことは、この信頼性を組み込もうとしていることです。評判を失うとコストがかかることがわかります。つまり、この罰則があるのです。これは一つの点です。評判が例えば信頼と何であるか、そしてその関係を見るのは興味深いことです。
もう一つのことはもちろん、囚人のジレンマというよく研究されたものがあります。これはノアークの論文だと思いますが、繰り返しゲームを行うと、最終的にエージェントは協力することを学びます。これはまさに起こることであり、これは社会で起こることとまったく一致します。残念ながらほとんどのゲーム理論は一度限りの同時相互作用に依存していますが、それは社会で起こることではなく、私たちはそれを当然のことと考えています。そして行動経済学と、なぜそうなるのかがわかります。
もう一つ興味深いのは、規制について話していましたが、規範についてです。私たちは規範的推論を持っています。基本的に規範は全体的にこの中に含まれると仮定しています。なぜなら、規範については形式的な論理などがあり、それをプランニングでどのように使用するか、それらをどのように組み込むかということです。昔はこれらのことが重要だった良き時代にNSFが資金提供していました。実際に強化学習と規範を研究するための賞をいただきました。どのように組み合わせるか、私たちはこれを結合効用と呼びました。ここで規範的な部分と、報酬の最大化の部分の両方があります。とても興味深いことがあります。
回答: 私はそれがすべて非常に価値があり重要だと思います。そして、それについてもっと考慮する必要があります。繰り返しゲームを分析する特定の問題、私は例えば次のように考えてきました。囚人のジレンマを人口内の様々なプレイヤーと繰り返しプレイし、何が起こるかを見てみましょう。
時間的制約のある多くの意思決定者がいる社会の中で決定を下す方法として、これは非常に堅牢ではない方法です。部分的には、同じゲームを何度も繰り返すのではなく、様々な決定を下すからです。そして、繰り返しゲームの結論は実際に、それがどのように機能するかによって非常に敏感です。つまり、無限のゲームを持っているのか、それとも非常に長いが有限のゲームを持っているのかなど、このような問題が影響します。
一方で、評判のようなものがあり、それが実際にはそのすべてを要約していると思います。個々のエージェントの属性を定義し、それが彼らの評判、彼らの信頼性であると言いましょう。そして、彼らの行動の様々な側面を観察するためのルールがたくさんあり、それをすべてエージェントの属性として要約します。そして、協力的な企業を検討しているとき、私はこの人は信頼できるかと言うことができます。実際、私はそれが、このような繰り返しゲームの結果を要約し、より堅牢にする方法だと思います。
2. パナギオティス・ツィオトラス(ジョージア工科大学)のプレゼンテーション - 「平均場相互作用を用いたマルチエージェント強化学習ゲームのトレーニング」
2.1. チームゲームの概念と動機付け
今日の私の話は、ゲームについてです。先ほど少しゲームについて聞きましたが、これは今日の最初の2つの講演に関連しています。情報構造に関すること、あなたが何かを知っていて他の人が何も知らない、または同じことを知らないという状況と、大規模な人口ゲームやスウォームについてです。
私が興味を持っているのは、2つの異なるチーム間のゲームです。その理由は、私は数年間ゲームを研究してきており、歴史や文献を見ると、ほとんどのゲーム文献は2人の対戦相手の間のものです。もちろん、連合などに関する多くの研究がありますが、2つのチーム間のゲーム、特に2つの大規模な人口を持つ2つのチーム間のゲームについてはそれほど多くの研究がありません。これを私たちはチームゲームと呼んでいます。
大規模なチームに関する結果は存在しますが、驚くべきことに、大規模な人口を持つ2つのゲーム間のゲームについてはそれほど多くの結果が存在しません。これが現実だと私は主張します。例としては、スポーツ、軍隊などがあります。
ここでの課題は、このような定式化では混合的な協調・協力設定があることです。2つのチームが互いに競争していますが、チーム内で協力する必要があります。多くの課題がありますが、主な課題は複雑性です。エージェントの数が増えるにつれて、基本的に計算上扱いにくくなります。これが今日私が議論するテーマです。抽象化して合理的な結果を得る一つの方法を示します。
もう一つの重要なことは、ゲームを扱うときには常に情報構造です。これを大きな中央集権的問題として解決できると考えるかもしれませんが、それでは情報構造を考慮していないことになります。つまり、誰が何をいつ知っているのかということです。これはゲームを扱う際に重要です。
2.2. 平均場チームゲームの数学的抽象化
詳しく説明せずに、使用する抽象化について少しお話しします。平均場チームゲームというフレームワークを使用します。これは文献で見られる典型的な平均場近似とは少し異なります。通常、文献で平均場チームゲームについて書くとき、基本的には同じグループの人々内でプレイされるゲームを指します。チームメイトの残りの部分と相互作用しようとしています。しかし、ここでは2つのチーム間のゲーム要素があります。これは少し異なります。
これはゼロサムの同時手番ゲームであると仮定します。カイアが言及したように、ここでは数学的結果を得るためにいくつかの仮定があります。基本的に、私は2つのチーム、青チームと赤チームがあると仮定します。各チームは同質なエージェントを持っています。これは重要です。各チームは同質で、ラベル付けはありません。青チームと赤チームがあります。ジョンが決定を下すのか、ジョージなのか、チーム内の誰なのかは気にしません。
もう一つの重要なことは、この抽象化を可能にするために、エージェントがいわゆる「弱結合」されていることです。これは、エージェントの次の状態、時間tのエージェントiの次の状態(t+1)は、前のステップでどこにいたか、どのアクションを取ったか、そして2つのチームの分布によって決まるということです。つまり、彼のアクション、彼のアクションの結果は、特定のエージェントがどこにいたかによって決まるのではなく、チーム全体の平均的な行動によって決まります。これが「弱い相互作用」と呼ばれるものです。
この経験的分布を導入します。基本的に、有限数のエージェントがある場合、これは実際の分布です。これは有限分布です。つまり、これは経験的な近似、分布の経験的近似であり、エージェントの数が無限大に向かうときにのみ計算されます。
2.3. 弱結合と同質エージェントの前提
ここで平均場情報構造を導入します。これは重要です。各エージェントは2つのことを観察します。現在自分がどこにいるかを知っています。これが局所情報です。また、自分のチームと相手チームの経験的分布も知っています。これが共通情報と呼ぶものです。つまり、情報が何かを一人のエージェントだけが知っているものと、他の全員が知っているものに分解されています。これが共通情報です。この場合、共通情報は両方のチームの経験的分布です。
各エージェントは何らかの決定を下し、先ほど述べたように、それはエージェントが現在いる場所、取るアクション、そして基本的に共通情報に基づいて報酬が支払われます。
表記に関しては、個々のエージェントの全時間に渡る戦略をF_サイと呼ぶことができます。これが各エージェントの戦略です。そして、それらをすべてN_1(チーム1のエージェント数)とN_2(チーム2のエージェント数)のように収集します。
情報構造は次のようになります。各エージェントは、この環境内の自分の現在位置と、両方のチームの分布、あるいはむしろ経験的分布について少し知っています。そしてこの情報に基づいて決定を下します。
ここでの目標は何でしょうか?青チームの目標は、ゲームを最大化または最小化することです。実際には同じ報酬を使用しています。一方は最大化しようとし、もう一方は最小化しようとしています。これはゼロサムゲームです。この結果を一般化する最近の成果がありますが、それはおそらく数か月前のことで、ニューヨーク大学のLaurerや同様の問題に取り組んでいるShankaiによるものです。しかし、ここでは単純化のためにゼロサムに留めておきます。
この報酬があります。一方はこの報酬を最大化しようとし、もう一方はそれを最小化しようとしています。目的は解決することですが、この問題の値は必ずしも存在するとは限りません。上値と下値が異なる反例があります。例えば青チームは、最悪の場合のパフォーマンスのみを使用します。これは基本的にこの問題を解こうとしています。この問題では、最大最小は必ずしも最小最大ではありません。
2.4. 情報構造と調整戦略
ここで行う近似を紹介します。両方のチームのエージェント数が無限大に向かうとき、そこで何かを計算し、それを有限人口ゲームに適用します。そしてこれが機能するかどうかを確認したいと思います。
同一チーム戦略というものを導入します。同一チーム戦略とは、同じチーム内のすべてのエージェントが同じ戦略に従うというものです。これはもちろん近似であり、あなたは好きなことをすることが許されていますが、誰か(超人的な存在ではない人間)があなたにこれを行うように指示するとします。これが同一戦略であり、質問は「どの程度うまくいくか」です。
まず、非同一チーム戦略が与えられたとき、同一チーム戦略が存在し、その戦略によって誘導される分布がもう一方の戦略によって誘導される経験的分布に近いという近似レマがあります。本質的には、この近似を行っても非常に悪い結果にはならないと言っています。つまり、ほとんどの経験的分布をある程度の境界内でキャプチャすることができます。そして、この境界は実際にエージェントの数が増えるにつれて減少します。つまり、境界はどんどん良くなっていきます。
これは到達可能性の結果に基づいています。例に進みたいので詳細には触れませんが、論文にすべて記載されています。本質的には、同一戦略を使用する場合、あなたの分布がここにあり、同一戦略を取ると、次のステップで達成可能なすべての可能な分布は何かという到達可能集合に移行します。そして、非同一戦略を使用する場合にできることはもちろんより多いですが、本質的にこの誤差はそれほど大きくなく、エージェントの数が増えるにつれてより良くなります。
これを使用して、問題を2つのステップに分解します。共通情報として状態分布を持つ等価システムを構築でき、調整戦略を生成します。本質的に、各プレイヤーの戦略を2つの要素に分解します。これは、共通情報のみに依存するポリシーです。この場合、両方のエージェントの経験的分布です。2つのコーディネーターの間でゲームが行われ、これらが選択されます。これらは同じチーム内のすべてのプレイヤーに送信され、これらのチームは何をするかを選択します。
つまり、この分解では、共通情報でゲームをプレイするコーディネーターがいて、その結果はポリシーになります。これらのポリシーはエージェントに展開され、エージェントはこれらのポリシーを確率的に適用します。それがアイデアです。
2つのコーディネーター間のゲームをプレイします。これは私が呼ぶコーディネーター間のゼロサムゲームであり、青と赤の思考、各チームの将軍やコーチなどとして考えてください。彼らは共通情報である経験的戦略μとνでのみゲームをプレイします。その結果はアクションではなくポリシーです。これらはαとβという調整戦略であり、各エージェントに展開されます。
良いことは、コーディネーターゲームが両方のチームのエージェント数が無限大に向かうときにプレイされるため、無限大では大数の法則のため、分布の振る舞いは完全に決定論的になるということです。そのため、この問題は例えば動的プログラミングや強化学習を使用して完全に解くことができます。
2.5. 同一チーム戦略の性能保証
どのような性能保証が得られるでしょうか?これが重要なことであり、主な結果です。この結果をどのように使用するかをお話しします。もし同一戦略を使用すれば、自分自身を制限することになります。そして問題は、最善を尽くすとどうなるかということです。
結果は次のようになります。もし無限人口近似を使用して計算されたコーディネート戦略を展開し、それを有限次元近似で使用すると、どれだけうまくいくでしょうか?結果として、ε境界内で問題なくうまくいくことがわかります。そして、これは相手が非同一チーム戦略を選択した場合でも有効です。これは非常に強力な結果です。基本的に、相手が何をするかわからないという状況でも、自分のチームに対してこの平均場近似を行うことができますが、相手も同じことをすると仮定しています。しかし、それは真実ではないかもしれません。相手には最善を尽くすことを許可します。この場合、相手は任意の非同一戦略を使用できます。そして結果は、あなたはまだ問題なくうまくいくことを示しています。
これは非常に強力な結果であり、基本的に両方のチームのエージェント数が増加するにつれて、より良くなります。同一チーム戦略を仮定して平均場ゲームを解き、それを有限人口ゲームに展開することができます。そして、チーム人口のサイズが増加するにつれて、誤差は減少します。
最初に簡単なゲームで検証してみましょう。計算が正しいかどうかを確認するための非常に簡単なゲームです。ここでは、両方のチームに2つの状態、1と2があります。これは2ステップの解決策であり、最初のステップでは何も起こりません。2番目のステップで、赤チームがしていることは、基本的にy2にv2を使って移動しようとしています。つまり、集団があり、2番目の時間ステップでできるだけ多くをy1に移動させようとしています。しかし、その分布を選択する方法は、相手の分布に依存します。
例えば、もし相手、青チームがゼロを選択すれば、移動できません。これは一種のブロックです。本質的に赤のエージェントが正しい状態に移動するのをブロックできます。赤のエージェントは状態番号2にいるエージェントの数を最大化しようとしているからです。そして青のエージェントであるμは、適切な分布を選択することでこれをブロックできます。
この問題の最適分布は1マイナス1/√2-1、1/√2、これは無理数です。有限の人口数でプレイする場合、これを正確に得ることはできません。つまり、解決策は無限人口ゲームでのみ可能です。
有限人口ゲームを試してみると、何かが得られます。これは非常に単純な問題なので、動的プログラミングで解くことができます。期待通り、m_x1から最大値1/√2を得ますが、これは無限人口に対してのみ機能します。有限人口に適用すると、最適ではなくなりますが、どれだけ悪くなるでしょうか?
ここに数字があります。誤差がどのように減少するかを示しており、実際に計算した誤差の上限である1/√nによって上限が設定されています。これはうまくいっているようです。定理が機能しているようで、期待通りの結果が得られています。
2.6. マルチエージェント強化学習への適用
これは数ヶ月前に得た結果ですが、これは興味深いことです。なぜなら、これらのタイプの問題に対するパフォーマンス境界を与える結果が得られたからです。そして、これをマルチエージェント強化学習に適用したいと思いました。
マルチエージェント強化学習の問題は、典型的には古典的なアルゴリズムであるMADDPGのようなものですが、多数のエージェントがいて、各エージェントにネットワークがあり、非常にうまくスケールしません。6、7エージェント以上になると非常に時間がかかります。各チームに何百、何千というエージェントを持つ問題を解決できるようにしたいと考えています。そして実際にそれができることをいくつかの例で示します。
ここでのアイデアは、この考え方を取り、非常に人気のあるPPOアルゴリズムのバリエーションであるMean-Field Multi-Agent PPOというアルゴリズムを開発しました。基本的にこれは非常にシンプルで、この情報構造の分解を使用し、問題を解く、あるいは批評ネットワークのために使用しています。それは共通情報のみに基づいており、これはシンプルです。
ネットワークの複雑さはエージェントの数に依存しません。なぜなら、基本的に2つのコーディネーター間でこのゲームをプレイし、これを得たらエージェントに展開できるからです。エージェントは1000でも100万でも構いませんが、コーディネーターは共通情報に関してゲームをプレイし、それははるかに単純です。
これは中央集権的訓練と分散実行と互換性がありますが、チーム全体に単一のVF(Value Function)がありますが、ここでの重要な点は、チーム自体が共通情報のみを使用することです。これは最小限の情報を持つ批評ネットワークです。なぜなら、経験的分布のみを使用するからです。
各チームの報酬は、もう一方の負であり、平均場近似のみに基づいています。
2.7. 制約付きじゃんけんゲームの実験
私たちが考案した一つの例を紹介します。二つの例があり、ランチに行くのを待っていることを知っているので要約します。
古典的なじゃんけんゲームがありますが、少し変更しました。制約付きじゃんけんゲームにしました。その理由は、プレイヤーの可視領域または到達可能集合を制限したかったからです。じゃんけんゲームは以下のようになっています:あなたがはさみの場合、現在の位置にとどまるか、グーにだけ変わることができます。グーの場合、現在の位置にとどまるか、パーに変わることはできません。これはサイクルのようなもので、例えばはさみの場合、戻ることはできず、パーをプレイするにはグーを通る必要があります。これにより、エージェントができることがある程度制限されます。
アクション空間は、常に反時計回りに移動するか、現在の位置にとどまるかです。遷移は決定論的であり、もちろん均衡状態は1/3、1/3、1/3であることがわかっています。問題は、一度に1/3、1/3、1/3を得ることができないということです。通常のじゃんけんであれば可能ですが、好きなように遊べないので、そこにたどり着くことはできません。
いずれにせよ、実行してみると、1、2回の反復で1/3、1/3に素早く収束することがわかります。これが結果です。私たちのアルゴリズムは青と赤で、ほぼ非常に早く収束しています。これは最近提案された別のアルゴリズム、DDPG-MFGですが、著者はコードを持っていなかったので実装しましたが、収束するのに時間がかかりすぎていたり、時には収束しませんでした。私たちの場合は常に非常に迅速に収束し、実際に最適値に収束します。実装が間違っているのかもしれません。著者がコードを公開するのを待ちますが、論文に書かれていることを実装しようとしましたが、うまくいきませんでした。
異なる例があります。重要なことは、各チームに1,000エージェントのポリシーを計算し、それを100、1,000、5,000、10,000など異なる値に展開することです。うまく機能しているようです。この平均場近似は、例えば1,000エージェントで計算したからといって、同じ数のエージェントに展開する必要はありません。異なる数のエージェントに展開でき、非常にうまく機能しているようで、常に収束します。
2.8. 戦闘シナリオのシミュレーション
もう少し興味深いシナリオで、より挑戦的なものがあります。これは別の戦闘シナリオです。二つの軍隊があります。赤軍と青軍があります。青軍は目標に向かって進もうとしています。赤軍の目標は、青からできるだけ多くのエージェントをブロックして目標に到達できないようにすることです。目標に到達するエージェントが多いほど青の勝利となり、ブロックされるエージェントが多いほど赤の勝利となります。非常にシンプルです。
赤は防御側で、青は目標に到達しようとしています。しかし、状態はより複雑です。エージェントが特定の区画で出会うと戦闘が発生し、誰が勝つかは一方のチームの他方に対する数的優位性に依存します。基本的に、ここに20エージェント、こちらに30エージェントがいる場合、一方のチームは10エージェントの優位性を持ち、高い確率で他方のエージェントを無効化できます。
つまり、状態は位置とステータスです。ステータスはエージェントがアクティブか非アクティブかを示します。チームは生き残ることを学ぶかもしれません。対戦相手のチームメイトエージェントによって無効化されないようにします。これは先ほど言及したように、数的優位性と勝利の確率に依存します。もちろん、障害物を迂回します。
繰り返しになりますが、エージェントの観察は二つのことです。各エージェントは自分の位置を知っていますが、他のエージェントの位置は知りません。自分の位置と自分のチームと対戦相手チームの分布だけを知っています。これが共通情報です。両方のチームが共通情報を知っています。
いくつかのシミュレーションを紹介します。3つを示しますが、他にもたくさんあります。これは興味深い行動が生まれることを示す例です。私たちは特別に訓練していません。何をすべきか指示せず、ただ訓練して何が起こるかを観察しました。
これはキーピングシナリオです。基本的に、赤チームがここでブロックしようとしています。青チームが二つに分かれているのを見て、一方の小さなチームをブロックしようとしています。それから、もう一方のチームが上部の目標に向かおうとしているのを見て、この上部の目標をブロックするために移動します。例えば、最初はこのチームをブロックしようとし、このチームがそこに到達しようとしているのを見て、上に移動してブロックしようとします。それが一つの興味深いシナリオです。
もう一つの興味深いシナリオは、すべてのチームを中央に置いたところ、彼らは分かれることを学びました。一方は目標をブロックしようとし、もう一方はある種の戦闘を行おうとします。そして時には勝ち、時には負けます。異種の行動が得られます。これは全員が同じポリシーを持っていても、これを適用するだけで興味深い行動が生まれます。
もう一つの例です。例えば青チームが最も近い目標に移動しようとしています。ここに一つの赤チームがありますが、多数の小さな青チームがあります。彼らはこの目標に移動しようとします。それは分裂していますが、その後、数的優位性を持つために合流し、ここでいくつかの戦闘に勝ちます。そして、下部をブロックしようとします。これは興味深いことです。
とても素晴らしいです。これらは3つのシナリオであり、視覚化したいなら再生できます。それが重要かどうかはわかりませんが、再生可能です。
2.9. 質疑応答
質問1: 次のステップの一つとして、ここで転移学習は考えられますか?例えば、問題の設定で環境の構成を変更したり、さらに複雑にしたりした場合、ブロックがあったりする場合、どうなるでしょうか?
回答: 現時点で言えるのは、環境が訓練されているからということだけです。これは訓練環境に基づいています。ここで訓練したのは同じ環境であり、初期条件などを変えましたが、環境は固定されていました。多くの異なる環境で訓練する場合、新しく見るであろう環境に条件付けする方法を見つける必要があります。良い答えはありません。アイデアとしては、もちろん再訓練しないことです。例えば都市環境で訓練して、突然都市環境に行って戦うなど、あるいはその逆の場合もそうでしょう。
質問2: これはすべて非常に興味深いと思います。講演をありがとうございます。しかし、もちろん一つの疑問は、効用尺度が固定されて与えられているか、あるいはこのモデルを異なる状況下で異なる効用尺度で適用する必要があるかどうかです。サッカーをプレイすることを考えると、同様の人々の対等なチームとサッカーをプレイすることは一つのことですが、幼稚園児のグループとサッカーをプレイするなら、もちろん私はゲームに勝つことができますが、それは空虚であり、おそらく否定的な結果です。そして、実際の効用尺度は、これらの幼稚園児にスポーツの技術と喜びを促進することです。
同様に、ゲーム理論モデルはしばしば戦争の状況に適用されており、あなたが説明してきたモデルはすべて非常に対称的です。しかし、今日の世界で起こっている大きなことの一つは非対称戦争であり、戦闘員だけでなく人口全体を考慮に入れる必要があります。そして、このフォーマルなモデルを世界の複雑さに適用する際の異なる適用について推論できる必要があります。それについて何か言うことはありますか?
回答: 二つのことを素早く言います。まず、ここで行ったすべてのこと、良い厳密な数学的境界を得るために、報酬は私たちに与えられています。アイデアは、これらの問題を効率的に解決できれば(何であれ)、その場で解決できるでしょう。そうすれば適応する方法になるでしょう。そうでなければ、あらゆる状況をキャプチャするのは非常に難しいです。この問題を解決できて、例えば新しい報酬関数を与えられたら、それを5分で解決できるなら、やり直すことができます。すべてをキャプチャする方法はないからです。
しかし、ここでの報酬は固定されています。あなたが言及した非対称情報についての興味深いことは、私たちが非対称情報ゲームで同様の結果を行っていることです。ここではありませんが、ここでのような抽象化は本質的に二人のプレイヤー間の非対称性につながります。
この問題の難しさは、自分のチームに対して好きなことができるということであり、それがゲームが重要な理由です。この無限人口や何でも好きな抽象化を行って計算しますが、対戦相手について特定の仮定をしなければならず、それが非常に大きな「もし」です。対戦相手がこの仮定をするかどうかわかりませんし、対戦相手が超知的で最適な個別戦略を計算できるかもしれません。
結果に基づいて、彼がこれをしても、あなたはまだεの最適性の範囲内にあると言いましたが、複雑さの別のレベルは次のように言うことです:これをベイジアンゲームとして扱います。対戦相手が超知的かそうでないかを推測しようとし、それに基づいて対応する方法を考えます。これは少し異なり、より難しいもので、より多くのベイジアンゲームのようなものです。なぜなら、相手がどのタイプかを推測しようとしているからです。本当に無限の無限近似を使用しているのか、プレイ方法に基づいて観察でき、それをしているか何か他のことをしているかを言うことができるからです。そしてそれを学び、もしそうなら、あなたは最良の応答をプレイし、これよりも良くなるでしょう。これは両方のチームが無限人口近似を行うという仮定に基づいています。ここには非対称性があり、対戦相手についてどのような仮定をするかから来ています。この場合、対戦相手のタイプ。しかし、いくつかの限られた結果はありますが、6ヶ月か1年後に、このベイジアンゲームについて何か強力なものを提示できるかもしれません。