※本記事は、AAAI 2025 2nd CMASDL Workshopの「Section 4: Invited Speaker Session 4 and Expert Panel Discussion」の内容を基に作成されています。 登壇者はMatthew E. Taylor氏(アルバータ大学、テーマ:「報酬はどこから来るのか?マルチエージェントの視点からの報酬の検討」)、Kevin Leyton-Brown氏(ブリティッシュコロンビア大学、テーマ:「機械学習を通じた人間らしい戦略的推論」)、およびパネルディスカッションにはKatia Sycara氏、Maria Gini氏、Benjamin Kuipers氏、Kevin Leyton-Brown氏が参加しています。 本記事では、ワークショップの内容を要約・構造化しております。なお、本記事の内容は登壇者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画をご覧いただくことをお勧めいたします。動画はYouTubeの https://www.youtube.com/watch?v=PU6jmhfXQN0 でご覧いただけます。
1. 招待講演1: マシュー・E・テイラー(アルバータ大学)
1.1. 報酬はどこから来るのか?マルチエージェントの視点からの報酬の検討
私の目標は今日、少し挑発的な問いを投げかけることです。「報酬はどこから来るのか?」。私たちは強化学習が素晴らしいことを知っています。エージェントが環境と相互作用し、報酬を得る—しかし、その報酬はどこから来るのでしょうか?
実際、強化学習の研究者として、私たちは誰かが報酬関数を渡してくれると仮定しています。それが正しく、利用可能であり、あなたが行っていることを定義し、タスクを定義し、ベンが言うように効用を表しています。では、その報酬関数はどこから来るのでしょうか?
今日、私はいくつかのアイデアを非常に簡潔に紹介します。最初のアイデアは、報酬は人々から来るものなので、私たちはそれを人間-エージェントシステムとして認識すべきだということです。二つ目は、明確に定義された報酬関数があっても、私たちは常にそれを見ることができるとは限らないということです。
まず一つ目の点について話しましょう。その報酬はどこから来るのか考えてみると、私の友人であるテキサス大学のブラッド・KNXがAIJに論文を発表し、自動運転車のために設計された報酬関数に問題があることを示しました。そして数年前のTriple AIでは「試行錯誤による報酬設計の危険性」について発表しています。
この論文では、エージェントに何かをさせたい場合に目的関数をどのように設計するかについての議論がなされています。多くの人が行う一つの方法は、試行錯誤のプロセスです。最初に推測して報酬関数を書き下げ、その後で強化学習エージェントを訓練します。もちろん強化学習をよく知っている方ならわかると思いますが、一度訓練しても上手くいかないのでハイパーパラメータやニューラルネットワークを変更する必要があります。しかし、それは無視して、訓練が一日だけかかると仮定しましょう。
訓練したら、学習中や学習後のエージェントを観察しますが、望んだことをしていないことに気づきます。そこで報酬関数を変更し、再訓練し、反復します。これは訓練に時間がかかるため遅いプロセスですが、さらに厄介なことに、このプロセスでバイアスを導入している可能性があります。
ブラッドがしたことは、自律走行に関する8つの論文を調査し、著者らと話をして、彼らが全員報酬関数に対して試行錯誤設計を使用していることを発見しました。また、多くの実務者にも話を聞き、ほとんどが同様の方法を用いていました。
なぜこの試行錯誤が問題なのでしょうか?時間とともに新しい報酬関数を作成し、パフォーマンスが向上していくように見えるかもしれません。しかし問題は、「これはこのコンテキストでは正しいが、実際には目的をここで定義しているのだ」と考えるかもしれないことです。つまり、エージェントに依存する訓練を繰り返しています。ハイパーパラメータやエージェントのアルゴリズムを変更すると、特定のコンテキストに合わせて報酬関数を微調整してしまったため、パフォーマンスが実際に低下する可能性があります。彼の論文では、これがなぜ、どのように起こるかが示されています。
したがって、私たちが本当にしたいのは、報酬関数をより適切に設計する方法を考えることです。報酬関数がエージェントの目的を定義し、効用を定義するのであれば、人からそれをどのように引き出すのか?
私は、ここでその道を歩み始めたと言って皆さんに伝えられることを嬉しく思います。まだ完全には解明していませんが、ブラッドや私の学生、プリンストン大学のC・レクチャー、この秋ブラウン大学に着任するセリーナと一緒に、いくつかの予備的な進展を遂げました。私はそれについてお話ししたいと思います。皆さんからのフィードバックも得たいですし、私たちの最終的な目標は、タスクに適した報酬関数を引き出すためのツールと手順を開発することです。
1.2. 報酬設計の試行錯誤プロセスの問題点
今日私が紹介したい最初のステップは少しシンプルなものです。人々に報酬関数を設計してもらうのではなく、報酬関数の中から選択してもらうことにしました。おそらく皆さんは、LLMを使って報酬関数を定義している人々を見たことがあるでしょう。「私のタスクはこれで、自動運転車があり、燃料効率と安全性のバランスを取る必要がある」といったことをLLMに伝え、LLMが複数の報酬関数を出力し、それらを反復させることもできます。しかし、どうやって人にこれが欲しいものだと言ってもらうのか?
理想的には、皆さんもおそらく「アライメント」という言葉を聞いたことがあるでしょう。私たちがアライメントについて考える方法は、報酬関数が人間と整合している(aligned)とは、人間が望むことを実行するということです。これは少し循環的ですが、私たちが考えているのは、訓練されたエージェントではなく、報酬関数自体が整合しているかどうかです。報酬関数が良いのか悪いのかだけを考え、訓練サイクルを繰り返す必要がなければ、はるかに速く進むことができます。
文献にはアライメントを測定するためのいくつかの方法がありますが、それらは多くの場合、真の報酬関数を持っていることを前提としています。実際、真の報酬関数がすでにあるなら、他の報酬関数を用いる意味は何でしょうか?そこで、私たちはそれを取り除き、方法論もポテンシャルベースのシェーピングに対して不変です。報酬関数がうまく設計されていれば、シェーピング報酬を追加してもこのメトリクスは変わりません。
ここでの設定は、現実世界ではMDPが提供されるのではなく、私のような強化学習の専門家がMDPを定義する必要があります。つまり、報酬関数を書き下げる必要があるのです。私は自律走行の専門家でも飛行機のパイロットでもなく、これらは私たちが取り組んでいるドメインの一部ですが、良い報酬関数が何かを知ることはできません。しかし、主題の専門家にアクセスすることはできます。
もちろん、その主題の専門家はおそらく強化学習や報酬関数を本当に理解していないので、この不一致を解消する必要があります。私たちが決めたことは、主題の専門家に選好(preference)を提供してもらうことです。多くの方が選好ベースの学習に馴染みがあるでしょう。「この二つの軌跡のうち、どちらが好きですか?あるいは同じくらい好きですか?」というように尋ねます。いくつかの軌跡を取得し、人に対比較をしてもらうか、それらをランク付けしてもらい、このランキングと報酬関数によって誘導される選好の違いを見ます。
覚えておいてください、私たちは報酬関数を書き下げています。例えば、二つの報酬関数があり、これらの報酬関数のそれぞれについて、異なる軌跡のリターン値を見ることができます。それぞれの報酬関数について、これらの軌跡のリターン値をソートし、このソートされたリストがどのように人の選好に対応するかを確認できます。
1.3. 人間からの報酬関数の引き出し方
より具体的な例を挙げましょう。例えば自律走行の場合、左側には人間のステークホルダーが次のように言うかもしれません:「4つの軌跡があります。最良は『成功』、2番目に良いのは『車が全く動かない』、3番目は『90%の時間は成功し、10%の時間は衝突する』、最悪は『衝突する』です。」報酬関数を記述すると、上位の軌跡に対しては10のリターン、その他の軌跡には0、4、50というリターンが得られます。この場合、不一致があります。人間はアイドル状態を衝突の可能性よりも好みますが、報酬関数では可能性のある衝突をアイドル状態よりも好むことになります。
私たちのアライメント指標は-1(完全に反対)から+1(完全に一致)までの範囲で表されます。ここで別の例を示します。人間のA、Bという軌跡があり、人間はAよりBを好みますが、右側にある特定の割引率の報酬関数では、BよりAが好まれます。私たちはケンドールのタウを使用しています。これはランク付けされたリスト間の不一致を測定する方法です。
このケースでは、一致するペアが1つと一致しないペアが2つあり、結果は-1/3という値になります。これは報酬関数を評価する方法であり、別の報酬関数を選んで人間との整合性が良いかどうかを確認することができます。
軌跡を取得し、軌跡に対する選好を得て、それらをソートし、マイナス1からプラス1までの値を得るというプロセスです。私たちは「Hungry Thirsty」と呼ばれるドメインを調査しました。多くの方がご存知かもしれませんが、これは食べているときに喉が渇いていなければ報酬を得るというものです。少なくとも私には理解できます。このドメインは様々な方法で報酬関数を形式化できるため興味深いものです。
最近のユーザー研究では、4つの異なるケースを検討しました。最初のケースでは、人間に2つの報酬関数を見せて、どちらが好きかを尋ねます。ネタバレになりますが、これはあまり効果がありません。人間に2つの報酬関数を見せるだけでは、どちらが良いかを判断するのは難しいのです。
うまく機能するのは、報酬関数とこのメトリクスを与えることです。ほとんどの人はすぐに「この数値が高いほど、軌跡が選好により整合している」ということを理解します。3番目にできることは、報酬関数、メトリクス、そして可視化を提供することです。これは左側で見たような、選好と報酬関数のアライメントを示す視覚化です。実はこの追加の可視化は冗長なものですが、一部の人は視覚化を好むので含めました。
いくつかの質問をしました。まず、知覚されるメリットがあるか?つまり、人はどのケースをより好むか?ワークロードは低いか?使いやすさは高いか?理解度は高いか?そして実用的なメリットがあるか?これによって実際に正しい報酬関数を選ぶことができるか?より速く選べるか?
10人のユーザー研究を行い、全体として報酬関数だけを与えた場合(青い棒グラフ)、ワークロードは高く、労力も大きいことがわかりました。右側では、自信は低く、使いやすさも低いことがわかります。メトリクスを提供すると、彼らはそれをより好むようになりました。
私にとって興味深かったのは、視覚化が大きな違いをもたらさなかったことです。余計な情報を提供しても、ユーザーはそれを気にしませんでした。2番目の質問は、実用的なメリットがあるかどうかです。時間を見ると、報酬関数だけを見ている人々は、情報量が少ないにもかかわらず、決定に長い時間を費やしています。これは2つの報酬関数を理解し、どちらが良いかを判断するのが非常に難しいタスクだからです。また、視覚化があると少し時間がかかることがわかります。「視覚化は必要ないかもしれない、メトリクスだけで十分かもしれない」と言えるかもしれませんが、私たちの質的結果では、一部の人々は実際に視覚化を好んでいました。まだ検討中であり、どのように使うべきか正確に判断しようとしているところですが、重要なのはこのメトリクスが人々により良い報酬関数をより速く選ぶのに役立つということです。
1.4. 報酬関数選択のための指標開発とユーザー研究
私たちはこのメトリックを導入しました。これは選好に基づいており、主題の専門家がデモンストレーションを提供する必要はなく、軌跡のリターンを記述したり報酬を与えたりする必要もありません。専門家がすべきことは、「AよりBが好き」「CよりDが好き」といった選択をするだけです。
このメトリックを使えば、私たちは人間が訓練されていない(少なくとも半訓練された)状態でも効果的にこのメトリックを使用できることを確認しました。強化学習の経験がある大学院生を対象に実験を行いました。
次に私たちが進みたい方向は、2つの報酬関数から選択するのではなく、実際に報酬関数を構築することについて考えることです。例えば、ある人に「報酬特徴は何か」「それらの重みは何か」などを尋ね、実際に報酬関数を構築してもらうのです。これはより難しいUIと課題になりますが、私たちが目指しているのは、Hungry Thirstyという素晴らしいおもちゃのドメインだけでなく、もっと興味深いことに取り組むことです。
私たちがこの研究で目指しているのは、人間が行ってほしいことを反映した良い報酬関数を得るための、より原理的な方法を開発することです。
これが講演の第一部でした。報酬関数は人間から来るものであり、それを認識する必要があるという議論をしました。次に考えるべきは、報酬関数は常に見ることができるわけではない場合です。
これはマイク・ボウリングが数年間取り組んできたことです。私たちの学生であるアリ・レザはマスターの学生で、マンタは博士課程、シモーネはポスドクで、私たちは報酬関数が存在するがエージェントが常にそれにアクセスできない場合について考えてきました。
例えば、あなたの家に植物に水をやるロボットがいるとします。ロボットが植物に水を与えすぎるとじめじめして黴が生え、少なすぎると乾燥して不幸せになります。では、ロボットはどうやって正しい水の量を知るのでしょうか?
一つの方法として、スマートホームがセンサーを持っていて、植物がどれだけ水を与えられているかをロボットに正確に伝えることができます。しかし、スマートホームがダウンしたり、センサーが故障した場合はどうなるでしょうか?ロボットはもはや報酬を得られませんが、それでも報酬は存在します。センサーの読み取りができないからといって、植物を枯らしているかどうかという事実は変わりません。
あるいは、ロボットが小さなプローブを持っていて、水をやった後にプローブを挿入し、約5分待って読み取りを得るかもしれません。ロボットがその測定をしなくても、植物に水がやられているかどうかに対する報酬は依然として存在します。
もう一つ考えられるのは、ロボットが植物の水分を見ることができるのは、ライトがついているときだけかもしれません。ロボットが暗闇で植物に水をやっていても、依然として報酬は存在するのです。
1.5. モニタリングされた強化学習環境(Mon-MDP)
この設定でのエージェントの目標は、報酬が観測されなくても、報酬を最大化することです。私たちは報酬を常に観測できない設定にいるわけです。場合によっては、報酬を観測するために行動する必要があるかもしれません。たとえば、ライトスイッチを押しに行く必要があるかもしれません。
おそらく、ロボットはライトスイッチを押せば光が点灯し、読み取りができることを知っているか、あるいはそれを学ぶ必要があるかもしれません。これは決定論的かもしれませんし、確率的かもしれません。たとえば、ライトスイッチを押しても、配線が良くないので複数回押す必要があるかもしれません。あるいは停電で光が全く点かないかもしれません。
私たちはこれを「モニタリングされたMDP」と呼んでいます。最初に受ける質問の一つは、「モニタリングされたMDPは〇〇と同じではないか」というもので、そこには15ほどの異なる提案が入ります。これはPDPではありません。なぜなら状態は可視であり、見えないのは報酬だけだからです。これはスパース報酬とも異なります。スパース報酬の設定では、単に情報のない報酬、例えば多くのゼロを得るだけですが、ここでは報酬値そのものを得ないということを言っています。
もし興味があれば、なぜこれが他のものと異なるのかについてさらに詳しく説明することもできますが、これは実際に新しいもので、形式化は次のようになります。エージェントが環境と相互作用するだけでなく、間に別のものが入ります。これがモニターです。
エージェントは環境で行動を取り、モニターでも行動を取るかもしれません。これは懐中電灯をつけたり、スマートホームに読み取りを依頼したりすることかもしれません。次に環境の次の状態、モニターの次の状態があります。環境からの報酬があり、エージェントには見えません。環境からの報酬(上付きeで表記)はモニターを通過し、エージェントはモニターからの報酬と環境からの報酬をモニターから受け取ります。
モニターからの報酬(帽子付きrで表記)は、懐中電灯をつけると電気を使うことや、マットに植物が水やられているか尋ねると彼が迷惑になり5ドル払わなければならないといった、モニター使用のコストかもしれません。そして、モニターが有効なら、私はそのモニターを通して環境の報酬を見ることができます。
いくつかのケースでは、モニターがオフの場合、このr帽子eは単に「ボトム」、つまり報酬について何も知らないことを示します。あるいは今回の講演では、二つの選択肢があると仮定しましょう。何も得られないか、正しい値を得るかのどちらかです。これをより難しくして、モニターがノイズを加えたり他の何かをしたりすることもできますが、それは別の話です。
エージェントはこれら二つの量、つまりモニターを通した環境の報酬とモニターからの報酬を観測し、実際の環境の報酬と追加のコストの合計、つまり割引された将来の報酬の期待和を最大化しようとしています。しかしここで問題なのは、エージェントは環境の報酬を実際には見ることができず、r帽子eつまり実際の環境の報酬か何も見えないかのどちらかしか見ることができないということです。
これにより問題空間の種類が生まれます。例えば、Mon-MDPという大きなクラスがあり、その特定のインスタンスとしてMDPがあります。これらはモニターのコストがゼロで、モニターが常に環境の報酬を与える場合です。つまり、Mon-MDPは通常のMDPに還元できるというわけです。
また、「解決可能なMDP」というケースもあります。これは報酬を見るために何かをして、報酬について学んだ後、通常の強化学習のような方法でこの報酬を最大化する方法を見つけることができるケースです。
これが本当に興味深くなるのは「絶望的なケース」です。環境の報酬を懐中電灯をつけることでしか見ることができず、その懐中電灯に電池がない場合、環境の報酬を決して見ることができないので絶望的です。まるで大学院生のような気分になりますね。何もできることがない状況です。
興味深いケースは「解決不能なケース」です。報酬を見ることができない場所がある場合、どうすべきでしょうか?安全な方法は、可能であればそれらの状態を避けることかもしれません。グリッドワールドを歩いていて、一つのセルがあり、そのセルに金の袋があるのかワニがいるのか報酬を見ることができないとしたら、安全策としてそれを避けるべきかもしれません。
1.6. 報酬が常に観測可能ではない場合の対応策
ここでMon-MDPタスクの例を一つ示します。左側のケースでは、9つの状態があり、エージェントは上下左右に移動できます。モニターするよう依頼でき、目標に到達しようとし、有毒廃棄物を避けます。しかし、モニタリングされている場合、つまり懐中電灯をつけている場合には、コストがかかります。
できる単純なことの一つは、モニターから情報が得られない場合はいつでも、それを報酬ゼロとみなすことです。その場合、エージェントはどうするでしょうか?モニターをオフにして、毒の中にいるときに報酬ゼロを得て、目標に向かって歩くときにモニターをオンにします。旗に到達すると、プラス10またはプラス1という報酬を得ます。これはあまり良くありません。エージェントが「モニターするよう依頼しなければ報酬はカウントされない」と言ってしまうと、それは世界がどのように機能するかの良いモデルではありません。
もう一つできることは、モニターから情報を得られない場合、Q値の更新を行わないことです。この場合、モニターはオンになり、エージェントは旗を得るために周りを歩くことを学びます。しかし、これはエージェントが各タイムステップでそのコストを常に支払うことを意味し、エージェントが報酬についてすでに学んだ後は、報酬をすでに知っているので、モニターを使わずにこれを行うことを学ぶと思うでしょう。
このAMOS論文で行った最後の方法は、報酬関数を学習することです。ここでの最適な方針は、状態空間を学ぶためにモニターを使用した後、エージェントは毒を避け、モニターをオフにしたまま旗に到達することを学びました。
私たちはいくつかの異なるアルゴリズムと異なるタスクを検討し、報酬が常に可視でなくても合理的な行動ができることを示しました。モニターを使って明示的に報酬について推論するために賢くなければならないという課題です。
このMon-MDP設定について、これが最初の論文ですが、シリーズで4つの論文があります。ここでは報酬は存在するが常に見ることができないという新しい定式化があります。これが見られる別の場所として、訓練とデプロイメントを考えてみましょう。研究室でエージェントを訓練し、実世界にデプロイすると、報酬信号を与えてくれる人がいないかもしれませんが、それでもエージェントには適切に行動してほしいのです。
これらのMon-MDPを解くためのいくつかのアルゴリズムがあり、最新の研究ではモデラー方法を持つ方法を検討しています。つまり、報酬を見つけるために探索する計画を考えることができます。
もしこれに興味を持たれたなら、ここに私が言及した3つの主要な論文があります。今日の午後に私がしようとしたことは、MDPフレームワークを超えて考えるよう皆さんを励ますことでした。報酬が人間から来ること、報酬が常に利用可能かどうかなど、いくつかの方法がありますが、MDPの定式化を押し広げたり、変更したり、疑問視したりする方法はたくさんあります。私はそうすることを奨励します。
今日お話したのは、誰が報酬を設計するか、報酬は利用可能かなどについて考えることでしたが、実際には、必ずしもMDPに完全にフィットしない非常に多くの興味深い問題があります。それらが存在することを認識し、これが何らかの議論を生み出すことを望みます。
さて、私は次の発表者のケビンの講演を聞くために残るべきですが、アルバータ大学で面接があるため、急いで移動しなければなりません。質問があれば4分ほど時間がありますが、その後面接に行かなければなりません。もし質問がさらにあれば、明日も会場にいますし、メールでも連絡できます。ご清聴ありがとうございました。
2. 招待講演2: ケビン・レイトン=ブラウン(ブリティッシュコロンビア大学)
2.1. 機械学習を通じた人間らしい戦略的推論
混乱をお詫びします。皆さんこんにちは。昨晩、医療上の緊急事態がありました。氷の上で滑って顔を切ってしまったのです。これはマスクを着けている理由ですが、呼吸器の問題ではなく、単に私の顔を見せたくないからです。マイクに近づいて話します。
さて、二つの異なる研究の流れについてお話ししたいと思います。うまくいけば両方についてお話しできると良いですが、一つだけになってもそれも良いでしょう。途中で質問があれば遠慮なく手を挙げてください。対話形式の方が楽しいと思います。
この最初の研究の流れは、主にジェームズ・ライトとグレッグ・ディオンとの共同研究で、長年にわたって他の学生たちも参加してきました。行動ゲーム理論について話したいと思います。多くの方が私がこの分野で長く研究していることをご存知かもしれません。私の研究の広範な視点を説明し、最近取り組んでいる研究について紹介します。
ゲーム理論は、皆さんご存知の通り、戦略的な環境で人がどのように推論するかについての美しい理論です。しかし、時には非常に直感に反する推奨をすることがあり、実際に人間が行うことと一致しません。そこから、世界は完全に合理的なエージェントだけで構成されているわけではないと結論付けることができます。これは、洗練されていない人間のプレイについて良い予測をしたいなら、人間の行動のモデルが必要だということを意味します。
このワークショップの文脈では、人間とロボットの協力システムを構築したいなら、人間自身がどのように推論するかについて予測を行うことが必要です。これらの予測が冷戦時代のゲーム理論的思考に基づいているため根本的に誤っているならば、私たちは出発点から間違った方向に進むことになります。だからこそ、このトピックについて考えるべきだと思います。
行動ゲーム理論は、ゲーム理論内の領域で、戦略モデルを開発する問題を分析的な思考実験ではなく、本質的に機械学習問題として扱います。特に、任意のゲームを入力として与えられた場合、そのゲーム内の特定のプレイヤーが実際に何をするかを予測したいのです。これは本当に重要です。任意のゲームと言っています。特定の環境を徹底的に研究し、その環境で人々が何をするかを知りたいわけではありません。人がどのように推論するかのモデルが欲しいのです。
ゲーム理論の素晴らしい点は、どこでも使えることです。間違っているかもしれませんが、どこでも使えます。同様に一般的で、しかし間違いの少ないものを見つけたいのです。任意のゲームを入力として取り、そのゲーム内の特定のプレイヤーについて、そのプレイヤーが実際にゲームで何をするかを予測する出力を出したいのです。その予測は、プレイヤーの行動に対する確率分布として表現します。
モデルを評価するため、その一般化性能を評価します。一般化とは、訓練されていない別のゲームをモデルに見せ、保留されたデータでどの程度人間の行動を予測できるかを確認することを意味します。保留されたゲーム全体で一貫してそれをうまく行うことができれば、人間のパフォーマンスについて何かを捉えたと言えるでしょう。
では、人間のパフォーマンスをどのように判断するのでしょうか?これは行動ゲーム理論のアキレス腱で、このような機械学習を行うためのデータをどのように得るかという問題があります。特に、私たちは文献を調査しました。ここでは、繰り返されない同時手番ゲームに焦点を当てます。これらが世界で唯一重要なゲームだとは思いませんが、最もシンプルな設定であり、すでにかなり挑戦的な課題です。方法論を最もクリーンな場所で理解したいと考えています。現在の研究ではこれを超えようとしていますが、繰り返されない同時手番ゲームを調査し、文献を調べました。
基本的に、世界中の行動経済学者が被験者に報酬を支払い、ゲームごとにプレイの観察を行った研究です。彼らは人間被験者研究の承認を得て、プレイヤーの効用が実際に意図した効用に対応するよう確保します。そしてゲームをプレイする様子を観察し、実際に報酬を支払います。こうして、8から200の異なるゲームを含むデータセットが生まれ、誰かがゲームをプレイして報酬を得た数百から数千の観察データがあります。
私たちは1994年から2023年までに見つけることができるすべてのデータを集め、単一のデータセットにまとめました。報酬を正規化し、自分たちに課した課題は、人間に示された366の異なるゲーム(囚人のジレンマだけでなく、あらゆる種類のゲーム)と26,000以上の観察データに対して、パターンを見つけるモデルを構築することです。
2.2. 評価指標としての損失関数の選択
前のスライドで述べたように、モデルの一般化性能を評価して、「このモデルがどの程度良いか」という声明をするためには、性能とは何を意味するのかを知る必要があります。ここで覚えておくべきことは、タスクは確率分布を予測することであり、その分布からのサンプルを観察することです。これは難しい問題です。なぜなら、一様分布を予測し、正解も実際に一様分布だったとしても、観測するのは単一の選択肢にしか過ぎないからです。
おそらくこのような理由から、行動ゲーム理論の文献では、このようなモデルをフィッティングするためにどの損失関数を使うべきかについて、合意が全くありません。もしあなたがこの特定の問題に興味がなくても、人間のプレイの例を観察し、予測が確率分布で、機械学習モデルをどのようにスコアリングするかを知りたい場合、昨年のAAAIでの論文が参考になるかもしれません。
私たちは、どの損失関数が最適かについて、原則的な公理論的議論を行いました。実験環境で人々がどのようにプレイするかを説明しようとする損失関数は、5つの公理を満たすべきだと主張しました。最初の2つの公理は、「整列公理」と呼ばれるもので、損失関数が予測に対して適切な選好を誘導すべきだというものです。
もし評価関数に詳しければ、これは「プロパー性」公理に似ていることがわかるでしょう。スコアリング関数はプロパーでなければならないという考えです。評価関数と私たちが言っているものの違いは、評価関数は通常、生成関数が学習される関数のクラスに含まれる可能性があることを考慮していない点です。これは、関数自体が誤特定される可能性がある難しいケースへの一般化です。
また、解釈可能性のための他の3つの公理があります。損失は観測の数や順序に依存すべきではなく、経験分布が予測に近づくにつれて損失は低くなるべきであり、完璧な予測はゼロの損失を得るべきです。
これらの5つの公理を持っていると、様々なことが導かれます。ここに、文献で人々が使用してきた主な損失関数があります:負の対数尤度、誤差率、平均絶対誤差、クロスエントロピー、KLダイバージェンス、ブライアスコア、二乗誤差L2です。以前の研究では負の対数尤度を使っていましたが、常に不満がありました。特に、ゲームのサイズや観測数を変えると損失の単位が変わり、考えるのが非常に難しくなることに不満を感じていました。
私たちの論文は、ただ一つの損失関数だけが使えるというわけではなく、「対角バウンデッドブレグマンダイバージェンス」と呼ぶクラスの関数が、すべての公理を満たすことを示しています。過去に使われてきた異なる損失関数の中で、私たちの公理をすべて満たすのは一つだけで、それは二乗L2誤差です。
したがって、オリー・プランスキーがうまくやったと言えるでしょう。彼は文献の中でこの損失関数を実際に使用した唯一の人物です。私たちはこれに切り替えています。簡単にできますし、これらの有益な特性を持っています。これが最近の研究について最初に言及したかったことです。
<userStyle>Normal</userStyle>
2.3. 人間の戦略的行動をモデル化するためのQuantal Cognitive Hierarchy
では、行動ゲーム理論のモデルがどのように機能するかについて少し説明しましょう。ここにいる皆さんの中で、量子認知階層(Quantal Cognitive Hierarchy)モデルについて聞いたことがある人はどれくらいいますか?
残りの方々、手を挙げなかった方々、またはもう一度聞きたい方々のために説明します。仕組みはこうなっています。行列ゲームを見せて、プレイヤー1が何をするかの確率分布を予測したいと考えます。量子認知階層モデルは、2つのアイデアを組み合わせてこれを行います。
最初のアイデアは、「ゲーム理論では、相手が何をするかに対して最適に応答し、自分にとって最適な行動を選ぶ」というものです。これは理にかなっていますが、もし二つの行動がほぼ同等に良い場合はどうでしょうか?人々はそこまで正確に最大化しないかもしれません。量子最適応答は基本的に、プレイヤーは得られるすべての効用に対してソフトマックスを取るということです。
これは実験経済学者から来ているので、彼らはソフトマックスとは呼びませんでしたが、それが実質的に行っていることです。つまり、二つの行動がほぼ同じ効用を持っていても、一方がわずかに良い場合、プレイヤーはそれらをほぼ同じ確率でプレイします。また、何かが本当に悪いなら、ゼロではなく、ほとんどプレイしないことになります。これが量子応答のアイデアです。基本的に、確率分布が常に完全なサポートを持つようになります。
第二のアイデアは、「反復的な戦略的推論」と呼ばれます。これは、レベル0エージェントと呼ばれる架空のエージェントを想像するというものです。これらは非戦略的に行動するエージェントで、これから話す話にとって非常に重要になるので、レベル0エージェントの部分に注目してください。
レベル0エージェントは非戦略的に何かをします。非戦略的とは何を意味するのでしょうか?確かではありませんが、直感的には彼らは相手に対する信念を形成し、それに対して最適応答するわけではないということです。彼らは何か別のことをします。文献では実にシンプルで、ほとんどの場合、これらのエージェントは単に一様にランダム化するとされています。今は一様にランダム化すると仮定しましょう。後でこれを再検討します。
重要なことは、世界に実際にレベル0エージェントが存在する必要はないということです。これは単に私たちの心の中の構成概念かもしれません。彼らは実際に存在するかもしれないし、存在しないかもしれません。
レベル1エージェントは、レベル0エージェントの存在を知っていて、それに対して戦略的に行動するエージェントです。レベル1エージェントはレベル0エージェントに対して最適応答、または量子的に最適応答します。世界にレベル1エージェントが存在する必要もありません。これもまた構成概念かもしれません。
レベル2エージェントは、レベル0とレベル1エージェントの間の真の人口分布を知っていて、これら二つのエージェントがすることの混合に対して最適応答します。このように階層をどこまでも上げていくことができます。
量子認知階層の予測は、最終的にはこれらの異なるエージェントの真の人口比率であり、それぞれが何をするかということと、それらを混合して「エージェントが取る行動に対する確率分布」とするものです。
これは固定点計算ではないことに注意してください。無限に賢いエージェントが互いについて推論しているとは考えていません。これは一種の行動的予測です。また、このモデルはいくつかのフリーパラメータを持つことにも注意してください。効用の違いをどのようにトレードオフするかのパラメータ(「近いとほぼ同じ確率になる」と言った時の「近さ」パラメータ)と、私が言及した真の人口比率があります。これらはデータからフィットするパラメータです。
2.4. レベル0エージェントのモデル化の重要性
ジェームズと私が約10年前に行った研究では、レベル0エージェントの明示的なモデルが本当に役立つことを示しました。おそらくコンピュータサイエンスの聴衆にとってはそれほど驚くことではないでしょうが、経済学者はこのように考えるのを本当に好みません。彼らは実際にはレベル0エージェントは存在しないので、彼らをどのようにモデル化するかは問題ではないと信じたがります。
しかし、私たち全員が人々について知っていることは、世界には非戦略的な人々が確かに存在するということです。だから、彼らが実際に何をするかを考えることは特に重要です。一様なランダム化は非常に酷い選択であり、おそらく彼らがやっていることではありません。
さらに、たとえレベル0エージェントの存在を信じていなくても、レベル0の仕様を変更すると、上位レベルのエージェントの定義も変わります。なぜなら、それが彼らが反応しているものだからです。だから、これを正しく理解することはモデルにとって本当に重要です。
ジェームズと私は基本的に認知心理学の文献を調査し、人々が持つかもしれない様々な種類の認知バイアスを探しました。これらは非戦略的であるようなものです。私たちはこれらの異なるアイデアを組み合わせた複合モデルを作り、それらをすべて実験データでテストして、どれが予測的かを確認しました。
私たちは素晴らしいと思われ、心理学的に妥当なモデルをたくさん試しました。しかし、それらは機能しませんでした。実際の人々のデータを説明する必要があったからです。ここで説明しているのは、実際に機能したモデルです。私にとっては少し残念ですが、そこまで悪くはありません。他のいくつかのアイデアの方が良かったのですが、実際には機能しませんでした。
これらのモデルはバイナリ特徴です。ゲーム内のアクションを見て、「このアクションは決定論的な最悪のケースで最良か?」というYes/Noの質問をします。もしYesなら、そのアクションに一定の重みを割り当て、Noなら割り当てません。
次に、「このアクションは、相手が魔法のように私に最高の結果をもたらすようなことをした場合(それは支配された戦略かもしれないし、馬鹿げているかもしれないが)、自分の最高の報酬結果に貢献するか?」と考えます。
また、「このアクションは最も不公平さの少ない結果に貢献するか?」とも問います。他にもほぼ同じくらい公平なものがあるかもしれませんが、それは関係ありません。ただYes/Noだけです。最も不公平さの少ない結果ですか?
さらに、「ゲームが対称的なら、相手が私の戦略をコピーした場合、このアクションが最良になるか?」という質問をします。
これら4つの特徴を取り、各概念に対して線形の重みを学習します。さらにもう一つのダミーの重みも加えます。すべてのアクションに対するすべての重みを加算し、それを再正規化したものが、レベル0の予測となります。
それでも他のパラメータ、レベル1、2、3のパラメータがあり、両方を同時に端から端まで学習します。レベル0モデルの重みと、それに反応する上位レベルモデルの予測の両方を学習します。
これらのことを一緒に行い、今判明した新しい損失関数を使うと、次のような結果が得られます。これらの小さな帯はエラーバーで、一様分布、量子認知階層、そして最初の2つの特徴だけを使用する線形モデルを示しています。ご覧のように、損失において統計的に有意な改善が見られます。
<userStyle>Normal</userStyle>
2.5. GAMETニューラルネットワークアーキテクチャ
約10年前、私たちはGAMETというものを考案しました。これはジェームズと私が考え出すのではなく、レベル0の仕様を学習しようとするニューラルネットワークアーキテクチャです。他のことに興味がない方にも独立して興味深いかもしれません。
これは面白い問題です。任意のサイズのゲームを入力として取り、その行列の任意の行数の確率分布を出力したいのです。そのため、スケール不変で置換同変性のあるニューラルネットワークアーキテクチャが必要になります。行列の行と列を置換しても、全く異なる何かをするのではなく、置換された答えを与えて欲しいのです。
そこで私たちは、そのすべてを行うアーキテクチャを考案しました。実際に行列を渡し、行列ごとに一つの重みを学習します。ネットワークのノードは実際にスカラーではなく行列に対して操作を行います。今日では、一種の1x1のグラフ畳み込みを使用して同等に実装することもできますが、当時はそのようには考えていませんでした。
いずれにせよ、ゲームを渡すことができるニューラルネットワークアーキテクチャがあり、実際にはプレイヤー1の効用関数とプレイヤー2の効用関数を渡します。行と列の最大値を計算し、これらすべてに重みを付けます。そして多くのレイヤーがあり、それらがゲームについて推論しながら前方に供給されます。
最終的には、これらの中間状態で学習するこれらの関数をソフトマックスし、それらの凸結合を取り、それが予測となります。このすべてがレベル0の予測です。その上に量子応答レイヤーを積み重ねることもでき、すべてを端から端まで学習します。
以下が私たちが行ったことです。最初の結果は、66%信頼区間が太い棒の中央に、95%信頼区間が細い棒にある誤差範囲です。以前見たのと同じ損失関数で表示しています。GAMETのみでレベル0の仕様、レベル1エージェントも含むGAMET、レベル1と2を含むGAMET、レベル1、2、3を含むGAMETを示しています。
興味深いことに、GAMETはすでに線形2プラス量子認知階層よりも優れており、エージェントが戦略的であることを許可していない場合でも、レベル0エージェントだけでもうまく機能します。これは私たちと私たちの経済学の査読者にとって驚きでした。査読者は私たちが間違っていると思っています。
さらにレベル1の最適応答を一つ追加すると、さらに良くなります。以前のモデルよりも統計的に有意に良くなります。それに加えて他のレベルを追加しても、それ以上良くなりません。これは私たちにとって驚きでした。
特に、ここで新しい研究に入りますが、これによって私たちは疑問を持ちました。GAMETはかなり表現力のあるアーキテクチャを持っています。私がレベル0アーキテクチャだと言いましたが、それを信じるべきでしょうか?この奇妙なニューラルネットワークは、実際には戦略的推論だけでなくレベル0推論も表現できるほど十分に表現力があるのかもしれません。もしそうなら、その上に明示的な推論を積み重ねることは、最初からアーキテクチャにその表現力があるため、実際には限界収益が減少していくのかもしれません。
しかし、どうやってそれを知ることができるでしょうか?ニューラルネットワークでは、何かを指して「これが戦略的である部分だ」と言うことはできません。では、このアーキテクチャが戦略的であるかどうかをどのように推論すればよいのでしょうか?
ここで理論に頼る必要がありました。行動モデルが戦略的であるか非戦略的であるかを肯定的に表現するために、いくつかの理論論文を書くというウサギの穴に入りました。これによって、どのカテゴリに属するかを理論的に証明できるようになりました。これも、この領域を超えた領域で興味を持つかもしれません。
理論はかなり複雑なので、ここではとても高いレベルの説明だけをします。パンチラインだけをお伝えしますが、行動モデルは「強い戦略性」を持つと言います。それが何らかの行動に対する量子最適応答と一致する場合で、その行動自体が「支配応答性」を持つ場合です。支配応答性とは、ゲームの支払いを変更して何かを支配するようにすると、その行動をより多くプレイするということです。
つまり、レベル0エージェントは狂ったことをしているのではなく、自分の支払いに対してある程度配慮しているように見えるということです。行動モデル自体は、そのようなエージェントについて推論し、ある意味でそれに最適応答しています。これが戦略的と考えられる唯一の条件ではないかもしれませんが、戦略的であるための十分条件だと思います。
もしそれに同意いただけるなら、このテオレムは私たちにとって悲しいものです。GAMETはそのレベル0仕様において強く戦略的です。それは私が以前話したmaxmax戦略に対する量子最適応答を表現することができ、それは支配応答性があります。これは、以前の研究で査読者に「これは本当にレベル0仕様として属するものだ」と言ったことが誤っていることを意味します。実際、このGAMETアーキテクチャは強すぎるのです。
<userStyle>Normal</userStyle>
2.6. 非戦略的モデル(Elementary models)の定義と実装
それで、この問題を解決したいと考えました。理論的な研究の中で、「基本モデル」(Elementary models)と呼ぶものを特徴づけました。これは形式的で強い意味で非戦略的であることを証明できる行動モデルのクラスです。基本的な仕組みはこうです:ゲームを取り、ゲーム内のすべての行動プロファイル(ゲームの各セル)に対して、ある関数fiを適用します。これはゲーム内のプレイヤー数から実数への関数です。
例えば、2×2のゲームであれば2人プレイヤーのゲームなので、行列の各セルに対して2つの実数値を1つの実数値にマッピングする関数を適用します。これは非符号化の意味で、ビット送り出しのようなことをしないという意味です。つまり、操作を反転できないような非可逆的な関数でなければなりません。
このようにして、2つの数値を持つ行列を取り、スカラー値の行列にマッピングします。基本的にここで情報を捨てているのです。両方のプレイヤーの利得を追跡できないようにしています。両方のプレイヤーの利得を追跡できなければ、最適応答することはできません。なぜなら、相手が何を望んでいるかについて推論すると同時に、自分にとって何が良いかについて推論することができないからです。これらは異なる方法で値を見る必要があるからです。
ある意味で、このゲームから「ポテンシャル行列」を作り、情報を潰してしまいます。一旦情報を捨ててしまえば、そのポテンシャル関数を任意の非線形関数で変換できます。好きな関数を学習できます。このような構造に基づいたモデルは、戦略的パフォーマンスを表現することができません。
そこで私たちは、実際にこのレシピに従ったニューラルネットワークアーキテクチャを構築することにしました。効用関数を様々な基本モデルにマッピングするニューラルネットワークアーキテクチャを作りました。これらは青いボックスで示されています。これらはそれぞれ、ゲーム内の二重セットの利得を取り、各セルに一つだけ利得を持つ行列に変換します。各セルで同じ関数を要素ごとに適用することでです。
その関数が何であるかを学習することができますが、どこでも同じ関数を適用する必要があります。それが完了すると、基本的に以前と同じ種類のGAMETアーキテクチャをこれらのポテンシャル関数に対して実行できます。情報を捨てた後で、任意に複雑な深層学習を実行できます。最後に、それらをすべて凸結合して単一の予測にまとめることができます。
これをレベル0の仕様と呼びますが、以前のGAMETとは異なり、これは本当に非戦略的なレベル0の仕様です。私たちの定理がこれに直接適用されるからです。これは非戦略的なモデルでなければなりません。
ここが結論の結果です。表示するのは簡単ですが生成するのは難しいでしょう。上の4つの線は以前お見せしたものです。まず、レベル0の仕様だけでは非常に悪いことがわかります。GAMETよりもずっと悪く、これは良いことです。つまり、戦略的に推論しないレベル0エージェントだけでは、人間の行動を予測するのに十分ではありません。人々は実際に戦略的に考えています。
次に、同じレベル0モデルのアーキテクチャ(端から端でフィッティングしているので異なるかもしれませんが)の上に量子応答レイヤーを追加すると、結果は大幅に改善します。レベル0モデルの上に1レベルの最適応答を追加すると、GAMETモデルと同等になります。
より多くのレイヤーを追加すると状況が悪化する理由はよくわかりません。データセットには26,000の観察しかないため、おそらく過剰適合が起きていると考えています。まだ調査中ですが、少なくとも改善は見られません。
新しいモデルが同じパフォーマンスを達成しながらも、経済的により理解しやすいことは嬉しいことです。なぜなら、レベル0エージェントを他のエージェントから適切に分離しているからです。
青い棒グラフについてだけ説明しました。緑の棒グラフは青い棒グラフと同じですが、ポテンシャル関数を以前の論文で知っていた4つの値に制限しています。任意のポテンシャル関数を学習するのではなく、過去の研究から知っていた4つのポテンシャル関数を表現するよう強制しています。
しかし、過去の研究(点線で示されています)では、これらの特徴の線形モデルを学習しただけでした。ここでは、それらの上にクレイジーな非線形ニューラルネットワークを適用することができ、解釈可能な特徴を使用していても、統計的に有意に優れたパフォーマンスが得られることがわかります。
これを行う本当の利点はパフォーマンスのためではなく、これらの特徴が何を意味するかを実際に理解しているからです。これにより、本当に理解できるモデルが得られます。モデルが異なるレベルに属するエージェントの数、人々がどれだけ戦略的か、凸結合がこれらの異なる認知科学的特徴にどれだけの重みを与えるかなどを見ることができます。このすべてから経済的な洞察を得ることができます。
つまり、Elementary netは、非戦略的なプレイがどのようなものかについての理論と、確かにレベル0のパフォーマンスと仕様を与えることができる深層学習アーキテクチャの間の橋渡しとなるものです。その上に高レベルのモデルを積み重ね、過去に見たのと同じパフォーマンスを達成します。
将来の方向性としては、フィッティングされたパラメータからより多くを解釈しようと考えています。より複雑なポテンシャル関数を注入し、QCHの上に積み重ねている戦略的行動の代替仕様を検討しています。全体として、この問題に具体的に興味がなくても、自分が関心を持っていることにどのように注入できるかが見えるレシピが提供できたと思います。
<userStyle>Normal</userStyle>
2.7. 大規模言語モデルの経済的合理性の評価
2分30秒しか残っていないので、講演の第二部については完全に話すことができません。でも面白い内容なので、少なくともそれが何であるかをお伝えしたいと思います。
私たちはシステムを構築し、実験を実行するのに非常に労力のかかる論文をいくつか作成しました。これらはすべて、大規模言語モデルがどれだけ経済的に合理的かを理解するためのものです。このスライドに記載されているすべての共同研究者に感謝します。
基本的なアイデアはこうです。大規模言語モデルからエージェントを構築したい場合、そのモデルが少し分布から外れた問題に対しても適切に推論していることを知りたいと思います。私たちが考える最良の方法は、合理的な意思決定がどのようなものであるべきかについて多くの考察を行ってきた経済学に目を向けることです。
効用理論の公理のような合理性の異なる要素を見つけます。これらは、合理的なモデルが理解できるはずのアイデアの種類です。公理が何であるかを必ずしも言えるわけではありませんが、それらと一致する方法で決定を下すことができるのです。選好の集約について社会的選択理論が教えてくれる方法で推論したり、ミクロ経済理論が教えてくれる方法で需要と供給のトレードオフについて推論したりする能力も含まれます。
全体として、大規模言語モデルのためのタクソノミーを構築しました。これは大規模言語モデルのためのミクロ経済学の教科書全体と考えることができます。経済学のカリキュラムを取り、それを多くの小さな「合理性の要素」に分解します。それぞれについて、スクリプトの上に大規模言語モデル自体を使用して、10の異なるドメインでインスタンス化します。
ヘルスケア、求職活動、食料品店などについての質問をすることができます。異なる難易度でインスタンス化し、異なる人称でインスタンス化することもできます。たとえば、一人称で自分自身について尋ねる、他の人について尋ねるなどです。そして、意味的には似ているが構文的には異なる何千もの質問をランダムにサンプリングして、すべてを大規模言語モデルに提示します。これにより、データからの過剰適合ではないことを確認できます。
これらの数字は、これらの異なるモジュールがそれぞれ持つ合理性の要素の数です。上部にあるものはアルゴリズム的ゲーム理論のようなトピックで、下部にあるものはミクロ経済学の需要と供給の種類の問題です。
結論としては、このURLとQRコードをご覧ください。これは実際に利用できるライブシステムです。すべてのデータを取得し、すべての実験の結果を見ることができます。追加したり、調整したりすることもできます。このウェブインターフェイスの一部であるサイドを見ることで、このモデルにどのような種類の質問があるのかを感じることができます。
LLMに対して本当に幅広い戦略的意思決定問題でテストを実施することができます。時間があればどのような結果が出たかをお伝えしたいところですが、少し触れておきます。Claude 3.1は本当に優れています。まだすべてを完璧にこなすわけではありませんが、GPT-4よりはるかに優れています。他のすべてのモデルは、高レベルの経済推論タスクではかなり悪い結果でした。
視点取得や認知バイアスへの感受性、例えば所有効果などについて非常に一貫した間違いを見つけることができました。モデルが最先端のフロンティアモデルよりも小さくなると、急速に悪化します。自分でコントロールできるコンピュータで実行できるモデルから合理的な意思決定者を構築しようと考えているなら、おそらく数年待つ必要があるでしょう。現時点では本当にそこまで達していません。
より広く言えば、これはあなたが選んだモデルを評価し、それがいつプライムタイムの準備ができたと思うかを判断するために使用できるツールを提供します。
3. 専門家パネルディスカッション
3.1. 人間とAIの相互理解のための重要な要素
司会者: 最初の質問です。人間とAIの間の相互理解のためのアーキテクチャを構築する際に最も重要な要素は何でしょうか?
Maria Gini: まず何より、共通基盤が必要です。互いを理解できなければなりません。例えば、私がスェーデン語で話し、相手が火星語で話すなら、会話を始めることさえ非常に困難です。だからこそ、コミュニケーションの基盤となる共通理解が必要です。
もちろん、コミュニケーションの方法によって、トークンやその意味を理解できなければなりません。例えば、私が「テーブル」と言うとき、私たちは同じ物体を意味していなければなりません。あなたが「キャベツ」と考えてはいけないのです。
また、とても重要なのは、相互作用を構造化する方法、そして私が理解でき、あなたが理解できる共通の経験や体験を持つことです。これらは理解に向けての第一歩です。推論などはもっと長い話になりますが、まずは理解から始めるべきでしょう。
Benjamin Kuipers: 人間社会は何千年もの間進化してきました。その一部は生物学的進化ですが、多くは社会的進化であり、知識や規範、その他多くのものの蓄積でもあります。私たちは部分的にしか理解していない非常に洗練された社会に住んでいます。
AIシステムを含むシステムを構築し始め、フィードバック駆動型の複雑なシステムである私たちの文化にそれらを挿入する際には、現在のシステムがどのように機能するかを理解する必要があります。少なくとも、私たちは種として文化がどのように機能するかについて学んできた知識を活用する必要があります。
例として信頼の役割を挙げます。私の講演では、Michael Tomaselloの本について触れました。これは、意図性を共有するために認知的に可能にする生物学的進化について述べています。あなたと私は協力して、一種の仮想的な第三者である「私たち」を作り出すことができます。「私たち」は目標を達成するために私たち一人一人を使います。さらに集合的意図性もあり、「私たち」は共同体全体です。
また、私たちは文化的進化のプロセスも持っており、そこで様々な種類の知識を発見し、その知識は世代を超えて伝達・蓄積されます。その結果、私たちは非常に洗練された知識体系を持っています。どれほど賢くても、誰一人として即座にこれを思いつくことはできません。単に時間が足りないのです。
AIシステムが社会の一部となることの意味を考え始めると、社会がどのように機能するかを理解する必要があります。例えば、AIシステムを車に組み込むなら、単にハンドルを回したりペダルを踏んだりできるようにするだけでなく、置かれた状況について相当に洗練された推論を行う必要があります。
人々が人工知能システムを構築し、複雑な社会構造に挿入しようとすることで、容易に多くの損害を与える可能性があることを私は恐れています。
Kevin Leyton-Brown: この質問は多くの意味で、最初の質問と同じことを尋ねているように思います。少なくとも、そのように解釈させてください。協力や提携することは、相手が何をするかを理解できない限り非常に難しいと思います。
これはある意味でベンの信頼の考え方ですが、抽象化のレベルを変えると、「もし私があなたが私を殺そうとしていることを知っているなら、少なくとも私はあなたが私を殺そうとしていることを知っているので、適切に対応することができる」というようなものです。つまり、あなたの行動が私の観点から予測可能である限り、私はどのように対応すべきかを理解できるということです。
お互いに理解できないとき、一緒にパートナーとなることが最も難しくなります。例えば、カナダ人として現在の世界で生きていると、アメリカは私たちにとって非常に理解可能なものから、まったく理解できないものに変わってしまいました。それにより提携が非常に困難になっています。すべてが不確実で混沌としていると、どうすればいいのか分からなくなるのです。
明確な期待を持っていれば、それに対してどう対応すべきかを知ることができます。大規模言語モデルは、一般の人が理解できる言葉で説明できるようになったことで、状況が大幅に改善されました。同時に、人々は非常に不信感を抱くようになりました。なぜなら、モデルが時々言っていることをしなかったり、言っていることが現実と一致しなかったりするからです。
特に幻覚のような現象について人々が感じる裏切り感は、モデルが非常に理解可能になり、本当に意味があるように見えるものを言えるようになったのに、それが完全には意味をなさないという、不気味な理解可能性に根ざしていると思います。人間とロボットの相互作用に関しては、これが特に問題となるでしょう。
Katia Sycara: もう少し謙虚になって、まずビジョンの問題はまだ解決されていないと言いたいです。雑然とした環境や、グレア、雪、霧などがある場合、私に何が見えるか、何を期待できるかはまだ未解決の問題です。
たとえば自動運転車が霧の中で何かを見ることができ、事故を避けるにはどうすればいいか、社会のことは忘れて、そういった基本的なことだけ考えても、まだ難しい問題があります。もし何かが霧の中にあって見えず、車が何かを言ったとしても、私はそれを理解する必要があります。これが私が話していた共通理解の部分です。テーブルと言ったときに、キャベツと思わないようにするということです。
これらの問題については、現在のテクノロジーの実態についてもっと現実的になる必要があります。マリアが言うように、センサーから感覚から始めて、個人、社会、その他の要素を構築していく必要があります。
時々、大きな漠然としたことの方が簡単です。LLMはいろいろなことを言います。しかし「4は3より大きいですか?」と尋ねると、4回中3回は「はい」と答えるかもしれませんが、4回目には「いいえ」と言うかもしれません。算術が確率的になってしまったら、私たちは終わりです。幻覚やその他のことよりも、まずは基礎が正しいことを確認する必要があります。
司会者: おそらく結論として、現在のAI技術は人間の姿を反映しているということでしょうか?
Benjamin Kuipers: 私は人間のように振る舞う人工知能を作ろうとする努力に賛成です。私たちの社会には膨大な知識があり、人工知能がそれを利用できるようにする必要があります。そうしないと、すべてを一から作り直さなければならず、それはほぼ不可能です。
<userStyle>Normal</userStyle>
3.2. ロボットの社会統合について
司会者: 次の質問は、ロボットが社会のメンバーやパートナーとなって人間社会に統合されることについて、皆さんはどう思われますか?
Maria Gini: それは確実に起こると思います。すでに病院や介護施設にはロボットがあり、患者に質問して回っています。彼らはもっと役立つようになれば、社会の一部になっていくでしょう。現在はまだできることが非常に限られていますが、一部のタスクはそれほど難しくありません。LLMは会話能力があるので役立つでしょう。
将来的には、「買い物に行って、物を持ち帰り、冷蔵庫に入れる」とか「テーブルを用意して」など言えるロボットが登場すると思います。これは不可能ではないと思いますよ。
Kevin Leyton-Brown: この質問は多くの点で最初の質問と同じことを尋ねているように思えます。あるいは少なくともそのように解釈させてください。協力したり、パートナーになったりすることは、相手が何をするか理解できない限り非常に難しいことです。
ゲーム理論の大きな教訓の一つは、相手の行動が私の視点から予測可能であれば、私はそれに対してどう応答すべきかを理解できるということです。私たちがお互いを理解できないとき、一緒に物事を行うことが最も難しくなります。
大規模言語モデルは、一般の人が理解できる言葉で説明できるようになったことで状況が改善されました。同時に、時々言っていることをしなかったり、現実と一致しなかったりするため、人々の不信感も生み出しています。幻覚についての裏切り感は、モデルが非常に理解可能になり、意味のあることを言えるようになったのに、それが完全には正しくないという、この不気味な理解可能性から来ています。
Katia Sycara: LLMを企業と比較するというのは少し不明確です。なぜなら、LLMはいつでも電源を切ることができますが、日本の電源を切ることはできません。違いがあります。また、私たちは企業に特定の権限を与えていますが、人工的なエージェントにそのような権限を与えるとは思いません。
もう一つは、これらの企業や組織には規制機関があることです。私は彼らの帳簿を見ることができ、不正があれば指摘できます。しかし、これらの大規模基盤モデルについては、どのようなデータで訓練されているのか、その脆弱性は何か、その他何が起こりうるのかなど、まったく分かりません。
それはある意味、ソーシャルメディアのようになり、何でもありの状態になる可能性があります。AIがそのようになることを許せば、それはソーシャルメディアのように制御不能で管理不能になるでしょう。
司会者: 自己意識や自己認識について話していますが、本当にそこまで到達できるのでしょうか?
Katia Sycara: これは簡単に「AI」などの流行語を使うことができますが、自己意識は人間にとって意味があります。ロボットにとって意味があるのかどうかは分かりません。同じ言葉を使いすぎるべきではないと思います。
Maria Gini: 人間が「私は誰か」「私の未来は何か」と自問するとき、それは自己意識の一種を示しています。ロボットを作り、それが「私は誰か」「私の未来は何か」と尋ねるようになったとき、それは深刻な問題ですが、人間をあまりにも擬人化しすぎるべきではありません。
Benjamin Kuipers: 人工知能を人間のように作ろうとする試みについては懐疑的です。人間と企業はどちらも知的エージェントですが、人工知能は第三の種類になるでしょう。ある意味、企業は人間よりも「超知能的」です。複雑な行動を取り、完全に理解したり予測したりするには複雑すぎる決定を下します。
日本を例に考えると、日本は信じられないほど複雑ですが、何をするか完全に予測できなくても、その複雑さを管理するためのツールを時間とともに進化させてきました。監査できる、拘束力のある約束を結ぶことができる、特定の方法で規制することができるなど、自分よりもはるかに複雑なものとどのように相互作用するかについての一連のツールを持っています。
これから、AIは企業のような存在になると思います。完全に内部の意思決定プロセスを理解することはできませんが、透明性のレベルは企業よりも高いかもしれません。これをどう管理するかを理解することが、今後10年か20年の人間とコンピュータの境界における重要な課題の一つになるでしょう。そして、これはすべて目から死の光線が出るような段階に達する前に起こります。それが固執すべきことではないと思います。
Katia Sycara: LLMと企業や国を比較することは少し不明確です。なぜなら、例えばLLMは電源を切ることができますが、日本の電源を切ることはできません。大きな違いがあります。また、これらの営利企業や組織については規制機関があり、帳簿を見ることができます。不正があれば指摘できます。しかし、これらの大規模基盤モデルについては、訓練データも監査の証跡もなく、これが最大の問題です。
Kevin Leyton-Brown: データの監査可能性がそれほど重要な部分だとは思いません。モデルを作成するのに使用される何十億ものデータポイントがあります。むしろ、エージェントが行うことができるコントロールの種類や行動を制限する方が重要です。
Katia Sycara: もし営利企業や誰かが「地球は平らだ」と言う例を何兆も提供したらどうなるでしょうか?そして、「地球は平らですか?」と尋ねると、モデルは「はい、もちろん平らです。それらの衛星からの偽の写真を見せられているだけで、地球の曲率を示すものは捏造されています。あなたの目が教えてくれることを信じなさい。地球は平らです」と答えるかもしれません。
Kevin Leyton-Brown: これらの質問は、私たちが十分に知らない空想科学的な未来について尋ねているため、答えるのが少し難しいと思います。この研究コミュニティのほとんどは、今日の世界で人間とロボットの協力システムを機能させるためのもっと実用的な問題について考えています。
これらの質問の多くは、政治学や法律、規制、社会契約に関する問題だと思います。これらのトピックについては、一般の人々よりも特に情報が豊富であるとは思いません。
根本的に私たちの社会は私たち自身の創造物です。社会がどのように機能するかのルールを決めることができます。大規模なモデルがエージェンティックになり、より直接的に私たちに影響を与えるようになると、交渉の期間に入り、社会が何を許容するかを決定していくでしょう。
ヘルスケア領域での作業を許可するでしょうか?おそらくそうではありません。弁護士だと主張することを許可するでしょうか?おそらくそうではありません。建築基準法に従わずに人々が住む家を建設することを許可するでしょうか?おそらくそうではありません。あるいは許可するかもしれませんが、これらは私たちが選択できる決断なのです。
ゲーム理論家として言えることは、それらはすべて私のコントロール下にあるわけではないということです。私とは非常に異なる方法で機能する外国の国家からの人々がこれらのものをインターネット上に投げ込むでしょう。ベンが言う企業も、私が望まないような行動を取るかもしれません。
中央計画によってこれらすべてを人間主義的原則に従って設計することはできないと思います。ある程度、世界がそうであるように航海することを学ぶ必要がありますが、そこに到達するには時間がかかり、それが起こるにつれて解決していくでしょう。
Katia Sycara: あなたが言及したコントロールの問題は非常に重要です。誰が決定するのか?企業や誰かが決めて、私たちがコントロールを失うのか?コミュニティが「いいえ、これはできません」と言う能力には確かに疑問があります。ここで信頼が主要な問題になります。誰かが強力なシステムを出して、皆がそれを使うようになれば、私たちは運命に任せるしかありません。
<userStyle>Normal</userStyle>
3.3. 強いAIエージェント開発への対応
司会者: 強いAIエージェント、例えばデータやアルロンのようなポジティブなエージェント、あるいはターミネーターやスカイネットのようなネガティブなエージェントを構築した場合、私たちはどうすべきでしょうか?
Kevin Leyton-Brown: ベンが最後に言ったことは本当に素晴らしく、この質問に対する答えとしても正しいと思います。AIが単に人間のようになるとか、企業のようになるとか考えるのは、あまり役立たないと思います。企業も人間とは違います。私は、知的エージェントには人工知能、企業、人間という3つの異なる種類があると考えるのが啓発的だと思います。
SF映画からの比喩で理解しようとすることはあまり役に立たないと思います。AIの時代の到来を理解するための方法としては、現実から気をそらしてしまいます。私たちが今まさに生きようとしている時代は、人工的な企業の時代だと思います。
超知能エージェント、つまり人間より知能が高く、完全に理解したり推論したりするには複雑すぎる行動を取れるエージェントとの経験はすでにあります。それは組織、例えば企業や赤十字国際委員会、日本などです。これらは超人的知能です。
日本は信じられないほど複雑ですが、完全に何をするか予測できなくても、その複雑さを管理するためのツールを時間とともに進化させてきました。監査できる、拘束力のある約束を結ぶことができる、特定の方法で規制することができるなど、自分よりもはるかに複雑なものとどのように相互作用するかについての一連のツールを持っています。
時に言ったことをしないかもしれませんが、一般的に私たちはこれらのツール一式を持っており、私たちよりも複雑なものとどう接するかを考えています。AIを企業のような存在と考え、大きな複雑なアクターとして捉えることで、完全に内部の意思決定プロセスを理解することはできないかもしれませんが、それでも透明性の度合いは企業よりも高いでしょう。これをどう管理するかを理解することが、人間とコンピュータの境界における今後10年か20年の重要な課題の一つになると思います。
目から死の光線が出るという段階に達する前に、こういったことが起こると思います。それが私たちが固執すべきことではないと思います。
Katia Sycara: LLMが企業や国のようだという考えは少し不明確です。理由は単純で、いつでも電源を切ることができますが、日本の電源を切ることはできないからです。大きな違いがあります。
また、企業に与えてきた特定の権限がありますが、人工的エージェントにそのような権限を与えるとは思いません。人々は常軌を逸しているので、歴史を通じて見てきたように、何でも可能ですが、そのようなことが可能だとは考えたくありません。
もう一つの点は、企業や組織の場合、規制機関があり、帳簿を見ることができます。不正があれば、それを指摘することができます。しかし、これらの大規模基盤モデルについては、どのようなデータで訓練されているのか、その脆弱性は何か、起こりうる他のことは何かなど、まったく分かりません。
それはある意味、ソーシャルメディアのようなもので、何でもありの状態になる可能性があります。AIがそのようになることを許せば、それは社会的メディアのようではなく、企業のようでもなく、むしろ集合的な意味での社会的メディアのようなものになります。それは制御不能で、管理不能なものになるでしょう。
Benjamin Kuipers: 人工知能を人間や企業のいずれかと比較することは、単に比較のための比較ではなく、AIが社会の中でどのように機能するかを理解するための重要な方法だと思います。各種類の知的エージェントには、それぞれ強みと弱みがあります。AIが企業のようなものとして機能する場合、私たちは企業を規制する方法から多くを学ぶことができます。
例えば、企業の悪い行動を防ぐために、透明性要件、監査、説明責任のメカニズムなどの制度的な保護措置を設けています。同様の保護措置をAIシステムに適用する必要があるでしょう。
キャリアが言うように、コントロールの問題は極めて重要です。しかし、そのコントロールは単に電源を切る能力だけではありません。むしろ、行動の境界を設定し、有害な行動の発生を防ぐために制度的な保護措置を設けることについてです。
Kevin Leyton-Brown: データの監査可能性はそれほど重要な部分だとは思いません。これらのモデルの作成に使用される何十億ものデータがあります。エージェントが行うことができるコントロールや行動の種類を制限することの方が重要だと思います。
この問題は少し難しいです。なぜなら、SF映画のような未来について尋ねているからです。私たちのコミュニティのほとんどは、今日の世界で人間とロボットの協力システムを機能させるためのもっと実用的な問題について考えています。
これらの質問の多くは、実際には政治学や法律、規制、社会契約に関する問題です。私たちはこれらのトピックについて、一般の人々よりも特に情報を持っているわけではありません。
根本的に、私たちの社会は私たち自身の創造物です。私たちは社会がどのように機能するかのルールを決めることができます。大規模なモデルがエージェンティックになり、より直接的に私たちに影響を与えるようになると、交渉の期間に入り、社会が何を許容するかを決めていくでしょう。
Maria Gini: 大きな問題は、様々なAIシステムが発展する中で、それらをどのように規制できるかです。ソーシャルメディアの例を見ると、「素晴らしい、自分だけのニュースを持てる」と思われていましたが、結果を見てください。私たちには何のコントロールもありませんでした。
新しいテクノロジーに対しても同様のコントロールはないでしょう。強力な規制がない限り、人々は好きなように使うでしょう。そして、そのような規制が存在するという明確な兆候は見えません。悲観的に聞こえるかもしれませんが、すべてが素晴らしくなる可能性もありますよね?誰にも分かりませんが。
Benjamin Kuipers: 進化を何百万年も観察してきました。もし私たちがこれを正しく理解できなければ、ダーウィンが来て私たちを連れ去り、ゴキブリがチャンスを得るでしょう。そして、複数のサイクルを経た後で、遅かれ早かれこれをどうやるか理解できるでしょう。それが私の楽観的な見方です。
<userStyle>Normal</userStyle>
3.4. 産業界へのAI統合と規制
参加者: 社会がAIの安全性について疑問を持ち始めているこの段階で、文化や政府、国によって優先事項が異なる中、専門家として今後数十年でどの産業にAIを統合できると思いますか?そして、システムのバランスを維持するためにどのような規制や介入が必要でしょうか?例えば、来年教育にAIを導入すべきだと思いますか?
Katia Sycara: 彼らが果たす役割のタイプによりますね。例えば、ゴミを運んだり部屋を掃除したりするだけでなく、病院にはすでにロボットがいます。放射線科医が診断をより良く行うのを助けるためにX線を見るシステムもあります。すでにこれらのシステムがあり、人間とロボットが相互作用するような役割を持っています。AIエージェントが人間の能力を向上させるのです。
ターゲット追跡システムなど、すでに様々なシステムがあります。これらはすべて、ある程度AIから来たシステムです。ビジョンシステムがAIエージェントであるとは思わないかもしれませんが、AIから来ています。X線をより良く診断できるなら、それはすでに私たちが持っているエージェントです。
社会としては、「これは素晴らしい、何でも決めさせよう」と言うのではなく、もっと慎重にこれらのエージェントを浸透させることが賢明だと思います。少なくとも、社会的な何かに助言するとしたら、そう言うでしょう。段階的に導入していくべきです。
Maria Gini: 悲観的に聞こえたくはありませんが、正直なところ、これらのシステムがどうなるかをコントロールすることはできないでしょう。お金が物を言います。そして、そこには多額のお金があります。
私たちにできる唯一のことは、何らかの規制を得ようと努力することですが、それも簡単に策定できるとは思いません。物事は徐々に社会に浸透し、どのようなものであれ、それらがここにあることに気づくでしょう。あまりコントロールできないと思います。
Benjamin Kuipers: 私たちは主に学術研究コミュニティであり、産業研究コミュニティも含みます。これらの問題についての議論に特定の概念を導入することで、方向性に影響を与えることができると思います。「殺人的なAI」のような話は、議論に生産的に導入する方法ではないと思います。
私は「信頼」という概念について話すことが非常に好きです。信頼は人々が自分たちの社会で安全に相互作用できると信じる能力において非常に重要な役割を果たすと思います。これは、AIについて議論するときに使用すべき明示的な用語であるべきです。誰が何を信頼する必要があるのか、これらは大きな質問です。それらは非常に多様な答えを持っていますが、決定を下すためには、それらが直接テーブルの上の質問である必要があります。
私たちは非常に多様な社会であり、互いに調整せずに、自分たちの最善の利益だと認識するものに基づいて決定を下す多くの強力な企業や政府を含んでいます。私たちにできることの一つは、四半期ごとの利益を最大化することが最善の利益だと思うかもしれないが、四半期を超えて年単位、あるいは10年単位で見始めると、これらの問題に注意を払う必要があることを彼らに認識させることです。
人々に特定の方法で行動させる方法は、その行動が彼らが本当に望むものであると彼らを納得させることです。私たちのような人々は、人々がそれらの質問をどのように見るかに影響を与えることができます。一部の人は私たちに同意し、一部の人は同意しないかもしれませんが、これらの概念を言説に導入することは重要な貢献であり、影響を与えるものです。
Kevin Leyton-Brown: あなたの質問に直接答えると、個人的にはテクノロジーの規制方法は、その内部動作ではなく、用途によるべきだと思います。LLMがどのように構築されているかを監査することはできないと思いますし、特に重要だとも思いません。
代替情報がたくさんあり、異なる方法で同じ場所に到達することができます。テクノロジーを規制する方法は、通常、それがどのように機能するかではなく、何に使用されるかによるものです。「LLMをどのように構築してもいいが、それは弁護士だと主張することはできない」「子供をどのように教育してもいいが、カリキュラムをカバーする必要がある」というように言うでしょう。
結果と行動の面からこれらのものをコントロールしようとすることに、より楽観的です。何かの内部動作を規制するのは非常に難しいですが、「鉱山会社は尾鉱を川に捨てることはできない」と言うのはそれほど難しくありません。あなたはあらゆる種類の複雑なことを行うかもしれませんが、最終的に他の人々の利益を踏みにじる行動は、社会的関心事であり、規制することができます。AIと社会のインターフェースは、次の10年でそのような見た目になると思います。
Katia Sycara: これは私が言っていたことです。例えば放射線科の診断を助けるビジョンシステムについて。これはAIだと思いますし、おっしゃる通りです。
社会として理性的なのは、これらのことを見て、「これができる、あれができる」と言い、企業や開発者に責任を持たせることです。「もしあなたのものが事故を起こしたり、社会が望むような方法で動作しなかったりしたら、罰金を支払う」というように。それは一種の装置のようなものです。エラーを出し始めると、開発した人に「大きな罰金を支払う」と言います。
これらのことについて言うのは難しいですが、少なくとも始まりです。飛行機も機械です。航空機の制御が間違っていれば、ソフトウェアを作成した人が罰金を支払います。これは簡単な解決策かもしれませんが、それを回避できるかどうかは確信できません。
ソーシャルネットワークを思い出してください。コンピューティングコミュニティから出てきて、素晴らしいと思われていました。「自分だけのニュースを持てる」などと言われていましたが、結果を見てください。何のコントロールもありませんでした。この新しいテクノロジーについても同様のコントロールがあるでしょうか?明確で強力な規制がない限り、それは明確ではありませんし、どのようなものであるべきかも明確ではありません。
テクノロジーは出回っており、人々は好きなように使うことができます。ソーシャルネットワークと同じです。だから悲観的な側にいるのです。しかし、おそらくすべてが素晴らしくなるでしょう。誰にも分かりません!
司会者: ブロードレベルでは、現在のAI技術は人間の本質を反映しているに過ぎないと言えるかもしれませんね。そこが私たちが考えるべきキーかもしれません。
<userStyle>Normal</userStyle>
3.5. 若手研究者へのアドバイス
司会者: 各パネリストの方から、若手研究者に向けた技術的側面に関するアドバイスをいただけますか?研究の面白い未解決問題や、これから取り組むべき課題について一言ずつお願いします。
Katia Sycara: 技術的な観点から言えば、一つ言及したいのは、LLMやその他の基盤モデルのエネルギー消費についてです。他のことを話す前に、これらのモデルがエネルギー消費に与える影響を考えましょう。彼らに私たちをコントロールさせる前に、私たちは電気が不足し、電力網を吹き飛ばし、原子力エネルギーを見ることになるでしょう。気候変動と組み合わせれば、これは素晴らしい組み合わせです!
若手研究者にとって非常に役立つことの一つは、小さいモデルでも、より大きなモデルと同じ予測精度や特性を持ちながら、より速くトレーニングでき、監査も可能で、デプロイも速くなるような方法を研究することです。これらの精度や性能を維持しながら、どのように組み合わせてより良いパフォーマンスを得るかも重要です。
これは技術的側面であり、蒸留などの技術を見ることもできますが、これは重要な技術的課題であり、非常に重要です。
Maria Gini: 技術面では、信頼が非常に重要です。信頼に戻りましょう。また、安全性やその他の問題、倫理なども出てきています。これらについて真剣に考え、技術的な方法で取り組むべきです。アルゴリズムやその他の方法でも構いませんが、単に話すだけではなく、技術的なソリューションを考えることが重要です。これらはすべて非常に良い研究分野だと思います。
Benjamin Kuipers: 特定の技術分野を提案するつもりはありませんが、私のウェブページをブラウズして様々なことを見つけていただければと思います。若い人々、特に若い人々に言いたいことは、世界は非常に落胆するように見えるということです。
過去数週間、いくつかのグループとランチをしましたが、世界は非常に落胆するように見えます。そこで皆さん一人一人に言いたいのは、自分の人生に前向きな貢献をしたいということです。さらに、皆さんは本当に賢く、国や世界でも最高の教育を受けています。これは皆さん一人一人に当てはまります。
そこで、物事を改善するために何ができるでしょうか?物事が厳しく見えても、各自が何ができるかを言うことが重要です。皆さんには他の多くの人々が与えられていない才能や機会が与えられています。もちろん、挑戦もあります。私が直面した挑戦よりも、ある意味ではより厳しい挑戦もあるでしょう。しかし、何をするかを決め、自分が与えられた才能を理解する必要があります。
私が成長した時代、核戦争の脅威が至る所にありました。小学校の校長は机の下に隠れるように言いました。私たちはベトナム戦争やその他の恐ろしい脅威など、様々な危機を経験してきました。あなたがすべきことは、「私に何ができるか」と自問することです。多くの他の人々が与えられていない才能と機会を与えられています。あなたは挑戦に直面しています。確かに、私が直面した挑戦よりもある意味ではより厳しい挑戦かもしれません。しかし、あなたは何をするかを決断し、与えられた言葉を理解する必要があります。
Kevin Leyton-Brown: 私も特定の技術分野を提案するつもりはありません。私のウェブページを見て、興味深いものを見つけていただければと思います。若い人々に言いたいことは、世界は非常に落胆するように見えるということです。
過去数週間、いくつかのグループとランチをしましたが、世界は非常に落胆するように見えます。そこで皆さん一人一人に言いたいのは、自分の人生に前向きな貢献をしたいということです。さらに、皆さんは本当に賢く、国や世界でも最高の教育を受けています。これは皆さん一人一人に当てはまります。
そこで、物事を改善するために何ができるでしょうか?物事が厳しく見えても、各自が何ができるかを言うことが重要です。皆さんには他の多くの人々が与えられていない才能や機会が与えられています。もちろん、挑戦もあります。私が直面した挑戦よりも、ある意味ではより厳しい挑戦もあるでしょう。しかし、何をするかを決め、自分が与えられた才能を理解する必要があります。
司会者: 皆さん、素晴らしいディスカッションをありがとうございました。これで本日のセッションを終了します。