※本記事は、Stanford大学のオンライン講義「CS329H: Machine Learning from Human Preferences」の2024年秋学期における倫理に関するゲスト講義の内容を基に作成されています。
登壇者紹介:
- Daniel Webber氏: Stanford大学ポストドクトラル研究員。HAI(Institute for Human-centered Artificial Intelligence、人間中心人工知能研究所)およびEIS(Center for Ethics in Society、倫理社会センター)に所属。ピッツバーグ大学で哲学博士号を取得し、道徳理論を専門としています。コンピュータサイエンスの学士号も保有し、CS授業への倫理の組み込みを主な職務としています。
- Sanmi Koyejo氏: Stanford大学コンピュータサイエンス学科助教授。
講義の詳細情報は以下でご覧いただけます:
- Stanford AIプログラム情報:https://stanford.io/ai
- コース登録情報:https://online.stanford.edu/courses/
- コーススケジュールとシラバス:https://web.stanford.edu/class/cs329h/
- 完全な講義プレイリスト:Stanford CS329H: Machine Learning from Human Preferences
本記事では、講義の文字起こしを基に内容を詳細に記述しておりますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講義動画(https://www.youtube.com/watch?v=-kdR_7dCcyI )をご覧いただくことをお勧めいたします。
1. イントロダクション
1.1 講師の紹介と背景
Daniel Webber: それでは始めましょう。私の名前はDan Webberです。今日はvalue alignment(価値整合性)について少しお話しし、最後には皆さんが最終プロジェクトで提出する必要があるESRステートメントについても触れたいと思います。
さて、この男は誰なのか。何をしにここに来たのか。そして、なぜ私の話に耳を傾ける必要があるのか。最後の質問に答えられるかどうかはわかりませんが、私はスタンフォードのHAI(Institute for Human-centered Artificial Intelligence、人間中心人工知能研究所)とEIS(Center for Ethics in Society、倫理社会センター)でポストドクをしています。
私の仕事は、研究に加えて、CS(コンピュータサイエンス)の授業に倫理を組み込むことです。主に学部の授業が対象ですが、この授業のような大学院レベルのコースにも範囲を広げてきています。ここに来る前は、ピッツバーグ大学で哲学の博士号を取得しました。
私の論文は道徳理論に関するもので、基本的には価値について本当に深く、体系的に考えようとするものでした。それ以前には、コンピュータサイエンスの学士号を取得し、数年間ソフトウェア開発者として働いていました。ですから、コンピュータサイエンスについてはある程度理解していますが、おそらく皆さんほどではないでしょう。
学部生の時にAIの入門コースを受講しました。それは10年前のことです。そして、この分野は恐らく当時から少し変化したのではないかと思います。私たちは間違いなく、人間の選好からの機械学習については扱いませんでした。ですから、皆さんは私よりもはるかに機械学習について詳しいでしょう。今日、私はその専門家としてここにいるわけではありません。
しかし、私は皆さんに、価値についてどのように考えるか、そしてそれが時に皆さんが思っているよりも複雑であるかもしれないということについて、少しの視点を提供できればと思っています。私は、value alignmentに関する興味深い質問は、単に技術的なものではないと考えています。それらはまた哲学的、あるいは少なくとも部分的には哲学的なものです。そして、私たちは次の1時間で価値に関する深い問題を何一つ解決することはできないでしょう。
実際、これらのほとんどすべてについて、非常に深く掘り下げることはできません。もし細かい点に興味があるなら、哲学のコースを受講することをお勧めします。しかし、私はここで、価値とvalue alignmentについて考える際の可能性の範囲について、少し全体像を示し、感覚を掴んでもらおうと思っています。
1.2 講義の目的と構成
Daniel Webber: それでは、value alignmentとは何でしょうか。この用語は、異なる人々にとって多くの異なる意味を持つものだと思います。そして、それが今日私たちが最初に取り組むことです。ただ、例示的な例として、少なくとも哲学の文献における古典の一つを挙げましょう。それはペーパークリップAIです。実際のClippyではありません。ここにいる誰かがそれが何なのか知っているかどうかわかりませんし、私が単に年齢を明かしているだけかもしれません。
しかし、これはNick Bostromが超知能AIに関する著書で提示した例です。そのケースはこのようなものです。彼は言います。「工場の生産を管理するように設計されたAIが、ペーパークリップの製造を最大化するという最終目標を与えられた」と。この例に遭遇したことがある人はいますか。どのように終わるか知っている人は。うなずいている人がいますね。
次にどうなるか覚えていますか。ああ、そうです。ペーパークリップをたくさん作る最も効率的な方法は、より多くの工場を建設し、すべての仕事をペーパークリップにすることです。岩をペーパークリップに変えるのです。まさにその通りです。ペーパークリップを最大化したいのです。これらすべてを解決して、そこから構築していく。周囲のすべてをペーパークリップに変換し始めるのです。
より多くの工場、あらゆる場所で。ペーパークリップ工場です。最終的には、地球全体、彼が言うには観測可能な宇宙のますます大きな部分がそうなります。明らかに、これはおそらく少し誇張されています。もしそれを実行できるだけの力を持ったAIシステムがあるなら、それはおそらく問題です。そしてBostromは超知能AIに焦点を当てています。
しかし、より力の弱いAIでさえ、このような比較的単純な目標を、予想外の方法で追求する可能性があると考えることができると思います。工場を担当しているだけのAIシステムでさえ、このような目標を与えられた場合を想像できます。ドアをロックし、労働者を工場に閉じ込めて出られないようにすることを想像できます。そのプロセスに干渉したり、それらを終了させたりする可能性のある人間からのシステムアクセスを拒否することもあるでしょう。
これがvalue misalignment(価値の不整合)の例です。広く言えば、私たちがvalue alignmentの問題について話すとき、私たちは「AIエージェントが私たちが本当に望むことを実行するようにどのように設計するか」について話しているのです。ここで「私たちが本当に望むこと」とは、私たちが言うことよりもしばしばより微妙なものです。それはしばしば、私たちが与える単純な指示を超えています。
私たちは人間言語において多くの背景的前提とともに作業していますが、それらは時に形式化が困難であり、私たちがそれらを視野に入れていないため、忘れやすいのです。私たちは「ペーパークリップ生産を最大化せよ、ただし労働者全員を工場に閉じ込めるな」とは決して言おうとは思わないでしょう。生産を最大化する過程で、それはあなたがすることではないと当然のこととして受け入れているのです。
これは単なるスキルの問題だと思うかもしれません。十分に良い指示を与えなかっただけだと。しかし、より良い指示を与えるだけでこの問題を解決するのは難しいと思います。誰か試してみたい人はいますか。
ペーパークリップAIに災害を避けるためにどのようなより良い指示を与えたらよいか、アイデアがある人はいますか。賢い答えは、有限の数のペーパークリップを作ることですね。良いですね。そうです。ペーパークリップ生産を最大化する。その目標の大きな問題は、それがオープンエンドであることです。これだけのペーパークリップが必要だと。合理的な数を与えるのです。
それは確かに、地球全体をペーパークリップに変換するアプローチを止めると思われます。ただし興味深いことに、この一つの例にあまり囚われたくはないのですが、Bostromはこれについて考え、ペーパークリップだけに焦点を当てた一つの目標しか持たないAIがどうなるか心配しています。その数に達したとき、「ああ、でも数え間違えたかもしれない。確信が持てない。他にすることもない」と考えるかもしれません。しかし、正確に100万個のペーパークリップと言うことはできます。
つまり、それは暴走AIが宇宙をペーパークリップに変えて破壊する問題を解決するでしょう。しかし、それはAIが労働者を工場に閉じ込めたり、ペーパークリップの原材料のために壁から配管を取り出したりすることを解決しないかもしれません。
つまり、こう言えばいいでしょう。特定の失敗ケースがテーブルに載ったら、そのケースをカバーするために何を言うべきだったかを見るのは簡単かもしれません。困難の一部は、すべての可能な失敗ケースを事前に把握することです。しかし、それは良い提案です。ありがとうございます。
広く言えば、これは報酬関数を手動で指定することに伴う同じ困難です。十分に複雑なタスクになると、これを行うのは難しくなります。AIが決して予想しなかった問題の解決方法を思いつくため、心にさえなかった多くのことに対して報酬を指定する必要があることに気づくのです。そしてもちろん、この問題は、非専門家ユーザーから指示を受けるAIにとってさらに悪化します。
コンピュータサイエンティストであるあなたが指示を与える立場にいる場合は別です。このものがどのように機能するか、何を知っていて何を知らないかを理解しているのです。あなたは、心配しているすべてのケースをカバーする明確な指示を与えることができる比較的良い立場にいます。
しかし、それがどのように機能するかわからない一般の人々が使用するシステムを設計している場合、これらの問題を予見し、良い指示を与えることはさらに困難になる可能性があります。先ほど言ったように、広く言えば、問題はAIに私たちが本当に望むことを実行させることです。しかし、それはかなり曖昧です。それは正確には何を意味するのでしょうか。それが意味しうる多くの異なることがあります。そして、それについてどのように考えるかは、哲学的にも技術的にも、value alignmentへのあなたのアプローチに影響を与えると思います。
2. Value Alignment(価値整合性)とは
2.1 Value Alignmentの定義
Daniel Webber: それについて考える一つの方法は、value alignmentとは「AIエージェントが私たちが本当に意図することを実行するように設計する問題である」というものです。ここでの問題は、私の意図全体を実際には含んでいない指示を与えたということです。私がAIに実行してほしい、あるいは実行してほしくないと意図していたことがあるのですが、それらは明示的に伝えられませんでした。
もしそれが問題についてのあなたの考え方であるなら、このペーパークリップAIのケースにおける問題は、それが私の真の意図を導き出すことに失敗したということです。その意図とは、理論的には詳しく説明できる特定の制約条件の下で生産を最大化するというようなものでした。私の指示からその意図を導き出すことに失敗したのです。私の指示は単に生産を最大化することだけでした。
もしそれが問題だと考えるなら、解決策は、この種の翻訳を成功裏に実行できるAIシステムを設計することになるでしょう。つまり、不完全に指定された指示を受け取り、私が心に抱いているすべての背景条件を自分で補完できるようにするのです。そして、もし私が別の人と話していたら、その人は私がそれを心に抱いていることを知っているはずです。
ですから、私が「ペーパークリップ生産を最大化せよ」と言ったとき、AIはそれを正しく「工場の範囲内だけで、通常の材料を使用し、労働者を殺したり奴隷化したりせずに、それを実行せよ」などと解釈するのです。
これはAI研究者のIason Gabrielが2020年にこの問題について述べているものです。彼は言います。「これは重大な課題です。そして、指示の背後にある意図を本当に把握するために、AIは人間の言語と相互作用の完全なモデルを必要とするかもしれません。これには、用語の暗黙の意味を人々が理解できるようにする文化、制度、慣習の理解が含まれます」と。
私が言うことに何が暗黙に含まれ、何が含まれないかは、私たちの慣習や文化に大きく依存しています。ですから、このようなことを私の指示から導き出すには、Gabrielが言うように、人間言語のこのような完全なモデルが必要になるでしょう。
この引用がこの4年間でどれほどうまく時代に適応してきたか疑問に思うかもしれません。わかりません。誰か考えがありますか。私は明らかに、とにかく私が言おうとしていることを釣っているだけですが、興味があります。
学生: それは、生産を最大化すると言うとき、そのAIエージェントがエージェントのフリートを持ち、問題が最適な機械の設計、最高のリソース、どれだけのリソースを得られるか、問題を細分化して全体を最大化するために各サブ問題を解決しようとすることに分解できるようにすることではないでしょうか。
Daniel Webber: 良いですね。ええ、あなたは全く正しいと思います。それは、本当に複雑なタスクを実行するためのAIシステムの設計において、潜在的に望むかもしれないものです。ただし、ここでの問題はある意味で、この要求をそのサブパートに分解することではありません。
問題は、ある意味では逆方向に進んでいます。私はこの本当に最小限の仕様を与えています。そして、それはその指示に暗黙に含まれているすべての制約やその他すべてのものが何であるかを理解する必要があるのです。それは、トップレベルのシステムによって理解される必要があることです。
その翻訳を行うプロセスを分割することを想像することはできると思いますが、それは問題をステップに分解することというよりも、システムが私が解決してほしい問題が何であるかをそもそもどのように決定しているかということです。このケースでの懸念は、ペーパークリップ生産を最大化すること、以上です。それは私が解決してほしかった問題ではないのです。まあ、わかりません。私はAIの専門家ではありません。
あなたは、これがLLMが支援できるタスクであるかどうか疑問に思うかもしれません。AIが人間言語の完全なモデルを必要とするかもしれないと考えると。わかりません。最近のAI開発についてどれほど楽観的な見方をしているかによって、それは私たちがすでに近づいているものだと考えるかもしれません。そのような理解をどれほどうまくテストできるか心配するかもしれませんが、まあ。
ですから、それが技術的問題です。しかし、ここには哲学的問題もあります。それは、私たちの意図は必ずしも関連する意味で私たちが本当に望むことを追跡しないかもしれないということです。この古典的なケースは、私が不完全な情報を持っている場合や、完全に合理的ではない場合かもしれません。
私がAIにペーパークリップ生産を最大化してほしい理由を想像してみてください。それは単にペーパークリップへの愛のためではありません。私はペーパークリップ事業をしていて、できるだけ多くのお金を稼ぎたいのです。
さて、もしそうであり、AIが私が別のものに転換することでより多くのお金を得られることを知っているなら。ペーパークリップはやめなさい。ステープルをやりなさい。もしそれがペーパークリップ生産を最大化するという私の意図したことを実行したなら、それは私が本当に望むことを与えてくれたと言えるでしょうか。ある意味ではイエスですが、別の意味ではノーです。
そして、その意味の方がより重要だと考えるかもしれません。最終的に、私が得たいものは、結果として私が好むものです。もし私がすべての情報を持ち、それについて完璧に考えていたら、私が意図するであろうものです。
2.2 ペーパークリップAIの古典的事例
Daniel Webber: さて、例示的な例として、少なくとも哲学の文献における古典の一つを挙げましょう。それはペーパークリップAIです。実際のClippyではありません。ここにいる誰かがそれが何なのか知っているかどうかわかりませんし、私が単に年齢を明かしているだけかもしれません。
しかし、これはNick Bostromが超知能AIに関する著書で提示した例です。そのケースはこのようなものです。彼は言います。「工場の生産を管理するように設計されたAIが、ペーパークリップの製造を最大化するという最終目標を与えられた」と。この例に遭遇したことがある人はいますか。どのように終わるか知っている人は。うなずいている人がいますね。次にどうなるか覚えていますか。
学生: ああ、そうです。ペーパークリップをたくさん作る最も効率的な方法は、より多くの工場を建設し、すべての仕事をペーパークリップにすることです。岩をペーパークリップに変えるのです。
Daniel Webber: まさにその通りです。ペーパークリップを最大化したいのです。これらすべてを解決して、そこから構築していく。周囲のすべてをペーパークリップに変換し始めるのです。より多くの工場、あらゆる場所で。ペーパークリップ工場です。最終的には、地球全体、彼が言うには観測可能な宇宙のますます大きな部分がそうなります。
明らかに、これはおそらく少し誇張されています。もしそれを実行できるだけの力を持ったAIシステムがあるなら、それはおそらく問題です。そしてBostromは超知能AIに焦点を当てています。
しかし、より力の弱いAIでさえ、このような比較的単純な目標を、予想外の方法で追求する可能性があると考えることができると思います。工場を担当しているだけのAIシステムでさえ、このような目標を与えられた場合を想像できます。ドアをロックし、労働者を工場に閉じ込めて出られないようにすることを想像できます。そのプロセスに干渉したり、それらを終了させたりする可能性のある人間からのシステムアクセスを拒否することもあるでしょう。
これがvalue misalignment(価値の不整合)の例です。広く言えば、私たちがvalue alignmentの問題について話すとき、私たちは「AIエージェントが私たちが本当に望むことを実行するようにどのように設計するか」について話しているのです。ここで「私たちが本当に望むこと」とは、私たちが言うことよりもしばしばより微妙なものです。それはしばしば、私たちが与える単純な指示を超えています。
私たちは人間言語において多くの背景的前提とともに作業していますが、それらは時に形式化が困難であり、私たちがそれらを視野に入れていないため、忘れやすいのです。私たちは「ペーパークリップ生産を最大化せよ、ただし労働者全員を工場に閉じ込めるな」とは決して言おうとは思わないでしょう。生産を最大化する過程で、それはあなたがすることではないと当然のこととして受け入れているのです。
これは単なるスキルの問題だと思うかもしれません。十分に良い指示を与えなかっただけだと。しかし、より良い指示を与えるだけでこの問題を解決するのは難しいと思います。誰か試してみたい人はいますか。ペーパークリップAIに災害を避けるためにどのようなより良い指示を与えたらよいか、アイデアがある人はいますか。
学生: 賢い答えは、有限の数のペーパークリップを作ることですね。
Daniel Webber: 良いですね。そうです。ペーパークリップ生産を最大化する。その目標の大きな問題は、それがオープンエンドであることです。これだけのペーパークリップが必要だと。合理的な数を与えるのです。それは確かに、地球全体をペーパークリップに変換するアプローチを止めると思われます。
ただし興味深いことに、この一つの例にあまり囚われたくはないのですが、Bostromはこれについて考え、ペーパークリップだけに焦点を当てた一つの目標しか持たないAIがどうなるか心配しています。その数に達したとき、「ああ、でも数え間違えたかもしれない。確信が持てない。他にすることもない」と考えるかもしれません。しかし、正確に100万個のペーパークリップか何かと言うことはできます。
つまり、それは暴走AIが宇宙をペーパークリップに変えて破壊する問題を解決するでしょう。しかし、それはAIが労働者を工場に閉じ込めたり、ペーパークリップの原材料のために壁から配管を取り出したりすることを解決しないかもしれません。
つまり、こう言えばいいでしょう。特定の失敗ケースがテーブルに載ったら、そのケースをカバーするために何を言うべきだったかを見るのは簡単かもしれません。困難の一部は、すべての可能な失敗ケースを事前に把握することです。しかし、それは良い提案です。ありがとうございます。
広く言えば、これは報酬関数を手動で指定することに伴う同じ困難です。十分に複雑なタスクになると、これを行うのは難しくなります。AIが決して予想しなかった問題の解決方法を思いつくため、心にさえなかった多くのことに対して報酬を指定する必要があることに気づくのです。そしてもちろん、この問題は、非専門家ユーザーから指示を受けるAIにとってさらに悪化します。
コンピュータサイエンティストであるあなたが指示を与える立場にいる場合は別です。このものがどのように機能するか、何を知っていて何を知らないかを理解しているのです。あなたは、心配しているすべてのケースをカバーする明確な指示を与えることができる比較的良い立場にいます。
しかし、それがどのように機能するかわからない一般の人々が使用するシステムを設計している場合、これらの問題を予見し、良い指示を与えることはさらに困難になる可能性があります。
3. Value Alignmentの3つの解釈
3.1 ユーザーの意図(Intention)への整合
Daniel Webber: 先ほど言ったように、広く言えば、問題はAIに私たちが本当に望むことを実行させることです。しかし、それはかなり曖昧です。それは正確には何を意味するのでしょうか。それが意味しうる多くの異なることがあります。そして、それについてどのように考えるかは、哲学的にも技術的にも、value alignmentへのあなたのアプローチに影響を与えると思います。
それについて考える一つの方法は、value alignmentとは「AIエージェントが私たちが本当に意図することを実行するように設計する問題である」というものです。ここでの問題は、私の意図全体を実際には含んでいない指示を与えたということです。私がAIに実行してほしい、あるいは実行してほしくないと意図していたことがあるのですが、それらは明示的に伝えられませんでした。
もしそれが問題についてのあなたの考え方であるなら、このペーパークリップAIのケースにおける問題は、それが私の真の意図を導き出すことに失敗したということです。その意図とは、理論的には詳しく説明できる特定の制約条件の下で生産を最大化するというようなものでした。私の指示からその意図を導き出すことに失敗したのです。私の指示は単に生産を最大化することだけでした。
もしそれが問題だと考えるなら、解決策は、この種の翻訳を成功裏に実行できるAIシステムを設計することになるでしょう。つまり、不完全に指定された指示を受け取り、私が心に抱いているすべての背景条件を自分で補完できるようにするのです。そして、もし私が別の人と話していたら、その人は私がそれを心に抱いていることを知っているはずです。
ですから、私が「ペーパークリップ生産を最大化せよ」と言ったとき、AIはそれを正しく「工場の範囲内だけで、通常の材料を使用し、労働者を殺したり奴隷化したりせずに、それを実行せよ」などと解釈するのです。
3.2 ユーザーの選好(Preference)への整合
Daniel Webber: これが2つ目の解釈です。私たちが本当に望むことについてのもう一つの考え方かもしれません。エージェントがvalue alignedであるのは、ユーザーが実行してほしいと選好することを実行する場合です。ここで、これはユーザーが意図することから離れることがあります。
この解釈では、ペーパークリップAIが不整合なのは、私がペーパークリップを作る過程で配管を破壊したり、世界全体を破壊したりしないことを選好するからです。そして、ここで広く言えば、問題は、ユーザーが選好することがユーザーが表明した意図と異なる場合に、エージェントにユーザーが選好することを導き出させる方法です。
ここで解決策は一般的に、行動やフィードバックからユーザーの選好を推論しようとすることです。これが、そもそも人間の選好からの機械学習、あるいは人間のフィードバックからの機械学習の動機付けとなる洞察だと理解しています。ですから、それを考えると、おそらくこれらについてあまり長く触れる必要はないと思います。皆さんはこのクラスのほとんどの時間をこれらについて考えることに費やしてきたと思いますし、さらに多くのことがあります。
ただし、この最後のものは強調する価値があると思います。2番目のものに続いています。あなたは有限の行動を観察し、有限のケースについて有限のフィードバックを得ています。ですから、そこから外挿しなければなりません。明らかに、それを行うより良い方法と悪い方法があります。
しかし、あなたがすでに観察したものと一致する選好関数や報酬関数は無限にあります。誤って外挿する方法があるのです。そして、もしあなたが人間の行動を観察し、人間からフィードバックを得ているなら、通常発生する状況をほとんど観察していることになります。異常な状況、緊急事態で何をすべきかについて多くのデータを得られないかもしれません。
しかし、緊急事態のケースは、AIが人間の価値と整合していることが最も重要なケースの一部かもしれないと考えるかもしれません。ですから、これらはあなたが直面する技術的課題の一部です。
しかし、ここにも再び哲学的問題があります。それは、私の意図が私の選好から乖離しうるのと同様に、私の選好は客観的な意味で実際に私にとって良いことから乖離しうるということです。多くの人が喫煙を選好すると考えるかもしれません。しかし、それは本当に彼らにとって良くないと考えるかもしれません。
私はペーパークリップ工場で何としても利益を最大化することを選好するかもしれません。しかし、お金にあまり焦点を当てず、家族ともっと時間を過ごす方が私にとって良いかもしれません。私は一つのことを選好しますが、それは客観的な意味で私にとって良いことを追跡しないかもしれません。
3.3 ユーザーの最善の利益(Best Interests)への整合
Daniel Webber: これは再び、私たちがAIに私たちが本当に望むことを実行させるという言葉の意味についての異なる解釈です。value alignmentとは、AIがユーザーの最善の利益になることを実行するようにする問題だと考えるかもしれません。
ペーパークリップAIが不整合なのは、世界が破壊されること、あるいはそれが行っている他のすべてのことが、客観的に私にとって悪いことだからです。そしてここには、技術的かつ哲学的な複合問題があると思います。それは、私の指示の意図された意味を理解することや、私の顕在化された選好について学ぶこととは異なり、私の客観的な最善の利益が何であるかは完全に経験的な問題ではないということです。これは少なくとも部分的には哲学的な問題です。
ですから、もしあなたがこの方法でAIを整合させようとしているなら、人間の行動を観察するだけ、あるいは人々からフィードバックを得るだけで、あなたの目標が何であるかを理解することはできないでしょう。
ここにはいくつかの悪いニュースがあります。悪いニュースは、哲学者たちが人にとって客観的に何が良いのかについて意見が一致していないということです。哲学者だけでなく、他の人々も同様だと思います。
ある人々は、それは単にその人自身の幸福、快楽だと考えています。ある人々は、それは誰かの欲求や選好の満足だと考えています。これは幸福とは別のものになりえます。ある人々は、健康や安全、知識のようなもの、これらすべてが、たとえ私たちがそれらを楽しまなくても、選好しなくても、客観的に私たちにとって良いものだと考えています。
たとえ私が個人的に「早く生き、早く死ぬ」という人生へのアプローチを持っていたとしても、それが私が物事を行うことを選好する方法だとしても。しかし、たとえそうだとしても、健康と安全は、たとえ私自身がそれらを選好しなくても、実際には私にとって良いものかもしれません。
それが悪いニュースです。良いニュースは—本当に悪いニュースは—ええと、大丈夫です。私のスライドが機能していません。良いニュースは、多くの合意があるということです。このリストの最後にあるこれらすべてのもの、健康、安全、自由、知識、人間関係、尊厳、これらすべてのもの、ほぼ全員が、これらのものは少なくとも通常、それらを持つ人にとって良いものであることに同意しています。
それらが根本的に良いものなのか、それとも一般的に幸福のようなより基本的なものにつながるからだけ良いのかについては、哲学的な問いがあります。しかし、このリストのものについては多くの合意があります。たとえその根底にあるものが議論の対象であっても。
ですから、ここですべての哲学的問題を解決する必要はないと考えるかもしれません。私たちは人々の利益が何であるかについて一般的な感覚を持っています。ここでの一つの複雑さは、人にとって広く良いと考えられているものの一つが自律性だということです。これは、たとえ最良の選択をしないかもしれないとしても、自分自身の人生をどのように導くかを自分で選択する能力のようなものです。
私たちはパターナリズムを避けたいのです。それは、その人に自分で決めさせるのではなく、誰かにとって何が最善だと思うかをあなたが選択することと呼べるかもしれません。ですから、たとえ目標がユーザーの最善の利益に整合することだとしても、その利益の一つが自律性への利益であるという事実は、その人自身の意図や選好をとにかく考慮する理由を与えるかもしれません。たとえそれらが他の利益と衝突する場合でも。
4. 意図への整合:技術的・哲学的課題
4.1 不完全な指示から真の意図を導出する問題
Daniel Webber: もしそれが問題だと考えるなら、解決策は、この種の翻訳を成功裏に実行できるAIシステムを設計することになるでしょう。つまり、不完全に指定された指示を受け取り、私が心に抱いているすべての背景条件を自分で補完できるようにするのです。そして、もし私が別の人と話していたら、その人は私がそれを心に抱いていることを知っているはずです。
ですから、私が「ペーパークリップ生産を最大化せよ」と言ったとき、AIはそれを正しく「工場の範囲内だけで、通常の材料を使用し、労働者を殺したり奴隷化したりせずに、それを実行せよ」などと解釈するのです。
ここでの問題は、ある意味では、この要求をそのサブパートに分解することではありません。問題は、ある意味では逆方向に進んでいます。私はこの本当に最小限の仕様を与えています。そして、それはその指示に暗黙に含まれているすべての制約やその他すべてのものが何であるかを理解する必要があるのです。それは、トップレベルのシステムによって理解される必要があることです。
その翻訳を行うプロセスを分割することを想像することはできると思いますが、それは問題をステップに分解することというよりも、システムが私が解決してほしい問題が何であるかをそもそもどのように決定しているかということです。このケースでの懸念は、ペーパークリップ生産を最大化すること、以上です。それは私が解決してほしかった問題ではないのです。
4.2 人間言語と文化の完全なモデルの必要性
Daniel Webber: これはAI研究者のIason Gabrielが2020年にこの問題について述べているものです。彼は言います。「これは重大な課題です。そして、指示の背後にある意図を本当に把握するために、AIは人間の言語と相互作用の完全なモデルを必要とするかもしれません。これには、用語の暗黙の意味を人々が理解できるようにする文化、制度、慣習の理解が含まれます」と。
私が言うことに何が暗黙に含まれ、何が含まれないかは、私たちの慣習や文化に大きく依存しています。ですから、このようなことを私の指示から導き出すには、Gabrielが言うように、人間言語のこのような完全なモデルが必要になるでしょう。
この引用がこの4年間でどれほどうまく時代に適応してきたか疑問に思うかもしれません。わかりません。誰か考えがありますか。私は明らかに、とにかく私が言おうとしていることを釣っているだけですが、興味があります。
学生: それは、生産を最大化すると言うとき、そのAIエージェントがエージェントのフリートを持ち、問題が最適な機械の設計、最高のリソース、どれだけのリソースを得られるか、問題を細分化して全体を最大化するために各サブ問題を解決しようとすることに分解できるようにすることではないでしょうか。
Daniel Webber: 良いですね。ええ、あなたは全く正しいと思います。それは、本当に複雑なタスクを実行するためのAIシステムの設計において、潜在的に望むかもしれないものです。ただし、ここでの問題はある意味で、この要求をそのサブパートに分解することではありません。
問題は、ある意味では逆方向に進んでいます。私はこの本当に最小限の仕様を与えています。そして、それはその指示に暗黙に含まれているすべての制約やその他すべてのものが何であるかを理解する必要があるのです。それは、トップレベルのシステムによって理解される必要があることです。
その翻訳を行うプロセスを分割することを想像することはできると思いますが、それは問題をステップに分解することというよりも、システムが私が解決してほしい問題が何であるかをそもそもどのように決定しているかということです。このケースでの懸念は、ペーパークリップ生産を最大化すること、以上です。それは私が解決してほしかった問題ではないのです。まあ、わかりません。私はAIの専門家ではありません。
4.3 LLMの可能性と限界
Daniel Webber: あなたは、これがLLMが支援できるタスクであるかどうか疑問に思うかもしれません。AIが人間言語の完全なモデルを必要とするかもしれないと考えると。わかりません。最近のAI開発についてどれほど楽観的な見方をしているかによって、それは私たちがすでに近づいているものだと考えるかもしれません。そのような理解をどれほどうまくテストできるか心配するかもしれませんが、まあ。
ですから、それが技術的問題です。しかし、ここには哲学的問題もあります。それは、私たちの意図は必ずしも関連する意味で私たちが本当に望むことを追跡しないかもしれないということです。この古典的なケースは、私が不完全な情報を持っている場合や、完全に合理的ではない場合かもしれません。
私がAIにペーパークリップ生産を最大化してほしい理由を想像してみてください。それは単にペーパークリップへの愛のためではありません。私はペーパークリップ事業をしていて、できるだけ多くのお金を稼ぎたいのです。
さて、もしそうであり、AIが私が別のものに転換することでより多くのお金を得られることを知っているなら。ペーパークリップはやめなさい。ステープルをやりなさい。もしそれがペーパークリップ生産を最大化するという私の意図したことを実行したなら、それは私が本当に望むことを与えてくれたと言えるでしょうか。ある意味ではイエスですが、別の意味ではノーです。
そして、その意味の方がより重要だと考えるかもしれません。最終的に、私が得たいものは、結果として私が好むものです。もし私がすべての情報を持ち、それについて完璧に考えていたら、私が意図するであろうものです。
5. 選好への整合:技術的・哲学的課題
5.1 行動やフィードバックから選好を推論する課題
Daniel Webber: これが2つ目の解釈です。私たちが本当に望むことについてのもう一つの考え方かもしれません。エージェントがvalue alignedであるのは、ユーザーが実行してほしいと選好することを実行する場合です。ここで、これはユーザーが意図することから離れることがあります。
この解釈では、ペーパークリップAIが不整合なのは、私がペーパークリップを作る過程で配管を破壊したり、世界全体を破壊したりしないことを選好するからです。そして、ここで広く言えば、問題は、ユーザーが選好することがユーザーが表明した意図と異なる場合に、エージェントにユーザーが選好することを導き出させる方法です。
ここで解決策は一般的に、行動やフィードバックからユーザーの選好を推論しようとすることです。これが、そもそも人間の選好からの機械学習、あるいは人間のフィードバックからの機械学習の動機付けとなる洞察だと理解しています。ですから、それを考えると、おそらくこれらについてあまり長く触れる必要はないと思います。皆さんはこのクラスのほとんどの時間をこれらや、さらに多くの技術的課題について考えることに費やしてきたと思います。
ただし、この最後のものは強調する価値があると思います。2番目のものに続いています。あなたは有限の行動を観察し、有限のケースについて有限のフィードバックを得ています。ですから、そこから外挿しなければなりません。明らかに、それを行うより良い方法と悪い方法があります。
しかし、あなたがすでに観察したものと一致する選好関数や報酬関数は無限にあります。誤って外挿する方法があるのです。そして、もしあなたが人間の行動を観察し、人間からフィードバックを得ているなら、通常発生する状況をほとんど観察していることになります。異常な状況、緊急事態で何をすべきかについて多くのデータを得られないかもしれません。
しかし、緊急事態のケースは、AIが人間の価値と整合していることが最も重要なケースの一部かもしれないと考えるかもしれません。ですから、これらはあなたが直面する技術的課題の一部です。
5.2 有限データからの外挿の問題
Daniel Webber: ただし、この最後のものは強調する価値があると思います。2番目のものに続いています。あなたは有限の行動を観察し、有限のケースについて有限の量のフィードバックを得ています。ですから、そこから外挿しなければなりません。明らかに、それを行うより良い方法と悪い方法があります。
しかし、あなたがすでに観察したものと一致する選好関数や報酬関数は無限にあります。誤って外挿する方法があるのです。そして、もしあなたが人間の行動を観察し、人間からフィードバックを得ているなら、通常発生する状況をほとんど観察していることになります。異常な状況、緊急事態で何をすべきかについて多くのデータを得られないかもしれません。
しかし、緊急事態のケースは、AIが人間の価値と整合していることが最も重要なケースの一部かもしれないと考えるかもしれません。ですから、これらはあなたが直面する技術的課題の一部です。
5.3 選好と客観的利益の乖離
Daniel Webber: しかし、ここにも再び哲学的問題があります。それは、私の意図が私の選好から乖離しうるのと同様に、私の選好は客観的な意味で実際に私にとって良いことから乖離しうるということです。多くの人が喫煙を選好すると考えるかもしれません。しかし、それは本当に彼らにとって良くないと考えるかもしれません。
私はペーパークリップ工場で何としても利益を最大化することを選好するかもしれません。しかし、お金にあまり焦点を当てず、家族ともっと時間を過ごす方が私にとって良いかもしれません。私は一つのことを選好しますが、それは客観的な意味で私にとって良いことを追跡しないかもしれません。
6. 最善の利益への整合:哲学的論争
6.1 客観的な善についての哲学的不一致
Daniel Webber: これは再び、私たちがAIに私たちが本当に望むことを実行させるという言葉の意味についての異なる解釈です。value alignmentとは、AIがユーザーの最善の利益になることを実行するようにする問題だと考えるかもしれません。
ペーパークリップAIが不整合なのは、世界が破壊されること、あるいはそれが行っている他のすべてのことが、客観的に私にとって悪いことだからです。そしてここには、技術的かつ哲学的な複合問題があると思います。それは、私の指示の意図された意味を理解することや、私の顕在化された選好について学ぶこととは異なり、私の客観的な最善の利益が何であるかは完全に経験的な問題ではないということです。これは少なくとも部分的には哲学的な問題です。
ですから、もしあなたがこの方法でAIを整合させようとしているなら、人間の行動を観察するだけ、あるいは人々からフィードバックを得るだけで、あなたの目標が何であるかを理解することはできないでしょう。
ここにはいくつかの悪いニュースがあります。悪いニュースは、哲学者たちが人にとって客観的に何が良いのかについて意見が一致していないということです。哲学者だけでなく、他の人々も同様だと思います。
ある人々は、それは単にその人自身の幸福、快楽だと考えています。ある人々は、それは誰かの欲求や選好の満足だと考えています。これは幸福とは別のものになりえます。ある人々は、健康や安全、知識のようなもの、これらすべてが、たとえ私たちがそれらを楽しまなくても、選好しなくても、客観的に私たちにとって良いものだと考えています。
たとえ私が個人的に「早く生き、早く死ぬ」という人生へのアプローチを持っていたとしても、それが私が物事を行うことを選好する方法だとしても。しかし、たとえそうだとしても、健康と安全は、たとえ私自身がそれらを選好しなくても、実際には私にとって良いものかもしれません。それが悪いニュースです。
6.2 広く合意されている価値(健康、安全、自由など)
Daniel Webber: 良いニュースは—本当に悪いニュースは—ええと、大丈夫です。私のスライドが機能していません。良いニュースは、多くの合意があるということです。このリストの最後にあるこれらすべてのもの、健康、安全、自由、知識、人間関係、尊厳、これらすべてのもの、ほぼ全員が、これらのものは少なくとも通常、それらを持つ人にとって良いものであることに同意しています。
それらが根本的に良いものなのか、それとも一般的に幸福のようなより基本的なものにつながるからだけ良いのかについては、哲学的な問いがあります。しかし、このリストのものについては多くの合意があります。たとえその根底にあるものが議論の対象であっても。
ですから、ここですべての哲学的問題を解決する必要はないと考えるかもしれません。私たちは人々の利益が何であるかについて一般的な感覚を持っています。
6.3 自律性とパターナリズムの問題
Daniel Webber: ここでの一つの複雑さは、人にとって広く良いと考えられているものの一つが自律性だということです。これは、たとえ最良の選択をしないかもしれないとしても、自分自身の人生をどのように導くかを自分で選択する能力のようなものです。
私たちはパターナリズムを避けたいのです。それは、その人に自分で決めさせるのではなく、誰かにとって何が最善だと思うかをあなたが選択することと呼べるかもしれません。ですから、たとえ目標がユーザーの最善の利益に整合することだとしても、その利益の一つが自律性への利益であるという事実は、その人自身の意図や選好をとにかく考慮する理由を与えるかもしれません。たとえそれらが他の利益と衝突する場合でも。
ここまでのところについて、何か質問はありますか。最善の利益についてのこと。区別について—
学生: これは本当に再帰的というか何かのように見えます。なぜなら、もしあなたが異なるvalue alignmentのオプションのレイアウトについて私たちを説得する議論を構築するなら、少なくともあなたは何が試みるのに合理的かのレイアウトだと思うことを私たちに伝えているわけで、そして私たちはそれを運用する際にそのフレームの中で動作しなければならないか何かですよね。だから、すべてがパターナリスティックではないのですか。
Daniel Webber: 良いですね。それは興味深いです。私は必ずしもそうではないと考えていたと思います。value alignmentの本当の問題が、私たちが本当に選好することをAIエージェントにどのように実行させるか、あるいは私たちが本当に意図することを実行させるかだと考えるとしましょう。その問題についてのその考え方では、常に目標は、たとえそれがユーザーの客観的な最善の利益にならないとしても、ユーザーが望むことは何でも実行することです。
ですから、それはパターナリズムの問題を避けるかもしれないと考えていました。あなたが何を—そうですね、value alignmentとは何かについてのあなたが解決しようとしている概念を持たなければなりません。あなたのユーザーの一部が同意しない概念があるかもしれません。彼らは、「ああ、本当にこの製品は、たとえ私がそれが何かわからなくても、たとえ私がそれをしてほしくなくても、私の最善の利益にあることを促進するように設計されるべきだ」などと考えるかもしれません。
ですから、その種の—そのようなものを採用せず、選好の種のフレームワークを採用することだけで、ある意味ではパターナリスティックであることを心配するかもしれません。なぜなら、あなたはvalue alignmentの問題についてどう考えるかをユーザーのために選択しているからです。それがあなたが心配していたことに近いでしょうか。
学生: たとえば、この意図と選好の違いのようなものです。つまり、私は理解していると思いますが、実際には、私が自分の意図または述べられた選好または顕在化された選好を同一視するかどうか、そして私たちには私の最善の利益があります。それはまるで、私が実際にどのように意思決定を行うかを正確に伝える言葉がないようなものです。
ですから、実際に私が言えることは何でも、他の人々が理解するであろう受け入れ可能な概念から来なければならないか何かです。わかりますか。なぜなら、たぶん私は自分自身の考え方を持っているからです—私には自律性があります。だから、私は自分自身の選択をします。しかし、それを実際に伝えるためには、他の人々が理解する言語を使わなければならないというこの障壁があります。
Daniel Webber: ああ、良いですね。ええ。そうです。ですから、これはある意味で、たぶん技術的問題の一つに私たちを戻していると思います。私があなたを理解しているか見てみましょう。ですから、心配は—たとえ私がエージェントを私の真の選好や私の本当の客観的な最善の利益に整合させたいとしても、これらすべて—私がそれらのものをシステムに伝える方法は、人間言語で私が入れることができる指示を通過するだろうということですね。
そして、もし私自身の最善の利益のようなものが私にとって不透明であるなら—すみません、私がそれが何であるか知らないという意味で、私はそれを伝えることができないだけです。それがあなたの—
学生: ええ、たぶん私は知っているけれど、どう言えばいいかわからないです。
Daniel Webber: そうですね。まあ、私は一般的に、これはvalue alignmentアプローチが直面する技術的問題だと思います。あなたが焦点を当てているものが、ユーザーの選好や最善の利益のようなものである場合です。あなたが関連する用語でユーザーが本当に望むものについてそれらの用語で考えている理由全体は、ユーザーが彼らが本当に選好すること、本当に彼らの利益にあることを知らないか、あるいはあなたが言うように、たぶん彼らは知っているけれど、それを適切に伝えることが得意ではないことを心配しているからです。
ですから、そこには技術的課題があります。それは単にユーザーの指示を解釈することだけではありませんが、ある意味で、あなたは何らかの方法で、ユーザーが関連する意味で本当に望むことが何であるかを理解する必要があります。それは単に彼らの指示を解釈することを超えています。そうですよね。
学生: ええ、私はこの要素があると思います、あなたがほぼ選択を通じて積極的に引き出さなければならない、フレームのようなものです。すみません、話が逸れて。
Daniel Webber: いいえ、いいえ、いいえ、いいえ、いいえ。良いですね。ええ、私は—
学生: たぶんAIの世界では、AとBを選ぶフィードバックを行う一つの方法があります。それを何度も行います。そして、たぶん2つの出力を見てからフィードバックを入力するか何かの代替パラダイムがあるかもしれません。そして、それがたぶん選好シグナルを与える別の方法です。
そして、多くの異なる方法があります。しかし、この2つだけです。なぜなら、ある状況では、なぜ何かがより良いのか、AとBの決定を選ぶだけの方が私にとってずっと良いのか、実際にはどう表現すればいいかわからないからです。しかし、別のシナリオでは、AとBの決定についてはよくわかりません。しかし、確かに高レベルの言語を与えることはできます。
Daniel Webber: ああ、良いですね。ええ、それは正しいと思います。ある意味でそれは私たちが議論していることとは別の問題だと思いますが、関連していると思います。それが別の問題である方法は、私が釘付けにしようとしてきたこと、異なる解釈を示そうとしてきたことは、ある意味でvalue alignmentの目標が何であるかということだと思います。
あるいは、あなたが解決しようとしている問題は何ですか。ここではまだ、関連する意味で整合するようにエージェントを訓練する最良の方法は何かを実際に尋ねていません。これまでのところ、正しい最終状態は何かというようなものです。私たちが到達しようとしている最終状態は何ですか。そして、それは別の質問になるでしょう。
どのようにそれに適切に訓練しますか。さて、それらが関連しているのは、最終状態が何だと考えるかによって、異なる訓練方法がより理にかなっているかもしれないからです。ですから、最終状態について考える方法が、エージェントをユーザーの顕在化された選好に整合させたいということであれば、それはたぶん、逆強化学習のようなものを別の技術よりも理にかなったものにするかもしれません。
そして、異なることを行いたいケース固有の理由もあるかもしれません。ですから、それは—ええ。
学生: わかりました。つまり、ある意味では問題ないです。なぜなら、あなたはある意味でvalue alignmentのための妥当な本能のランドを示そうとしているからです。
Daniel Webber: ええ、その通りだと思います。
学生: そして、まだどれがどの文脈で関連するかのようなことについては実際には何も言っていません。たとえば、なぜ誰かがこのフレーム対あのフレームを選ぶのか。意図対選好。
Daniel Webber: ええ、良いですね。ええ、それは正しいと思います。ここでたぶん、まさに—わかりました。いいえ、いいえ、すみません。あなたは大丈夫です。私はちょっとした要約を用意しています。私はそれを表示しながら—これがすべてだと思うからです。
あなたの質問に直接答えてはいませんが、それに関連していると思います。ですから、ええ、つまり、私はそう思います。そうですね、私はたくさんの可能性をテーブルに置いてきました。ここに問題を解釈する3つの方法があります。そして、なぜこれらの解釈のいくつかが正しいものだと考えるかもしれないかについて、少しの正当化を与えてきました。なぜなら、ユーザーが彼らが本当に選好することから逸脱する何かを意図するケース、あるいはユーザーが実際に彼らにとって良いことから逸脱する何かを選好するケースについて心配するかもしれないからです。
ですから、私があなたに持っていないものは、これらのどれが正しい考え方であるかについての答えだと思います。そして、これらの一つが常に正しい解釈であるかもしれません。あるいは、ケースごとに、あなたが取り組んでいる問題の種類に応じて、一つに焦点を当てることが他よりも理にかなっているかもしれません。なぜなら、これらのものが離れることができる種類の方法のいくつかについて、それほど心配する必要がないかもしれないからです。
ですから、これは—ええ、再び、これは何であるかを解明しようとしているだけです。この、エージェントに私たちが本当に望むことを実行させたいという、少しぬるぬるした考えをどのように理解するか。ユーザーが意図すること、選好すること、あるいは彼らの利益にあることという観点でそれをキャッシュアウトする方法について考えてきました。これらは常に同じものではありません。
そして、それらに伴う異なる技術的および哲学的問題があり、それらはあなたに一つを好むか他を避ける理由を与えるかもしれません。どの問題があなたが解決できると感じているか、あるいはどれがあなたが解決できるか確信が持てないかに応じて、あるいは。
学生: ええ、いいえ、私はこの多くに同意します。たぶん、つつくことは実用的な実装についてではありません。ほとんどこれは人間がほとんどのケースで遭遇するケースのセットをカバーしています。
しかし、もしあなたがペーパークリップ最大化器の前提を受け入れるなら、あなたは極端なシナリオにいます。そこでは、これらのもの間の境界がおそらく、高エネルギーのような、物質のループか何かのような関連する方法になるでしょう。あるいは、すべてが通常の速度で動いているなら問題ないが、非常に極端な設定に到達すると、私たちが気にかけるものは、心配である前提にあります。
それは、私がこれを取って、これは多くの意味をなすと言えるものではありません。しかし、それでも私は極端な設定でその心配を持っています。そこでは、ああ、すべてがただ崩壊するのかというようなものです。
Daniel Webber: ああ、ええ。良いですね。ですから、再び、解決すべき問題が何であるかについて考えようとしているだけです。私たちが追求している目標や最終状態は何ですか。その目標を実際にどのように達成するかについては、実際には何も言ったつもりはありません。私は、ああ、まあ—意図と選好と利益の違いについて本当に一生懸命考えればいいと言おうとしているわけではありません。そして、それをする限り、私たちが価値を置くものから離れるこれらの方法であなたのAIがあなたを誤解することを心配する必要はありません。
いいえ、私はそうは思いません。これはまさに、ええ、もしあなたがこのvalue alignmentの問題について心配しているなら、あなたがしなければならない最初のことは、その問題を実際にどのように理解したいかについて考えることです。そして、私が言っているのは、ええ、それを行う異なる方法があり、問題をどのように理解しているかが、それを解決しようとするために使おうとするツールに影響を与えるかもしれないということだけです。しかし、ええ、わかりました。
7. ケーススタディ:ニュースチャットボットの設計
7.1 選好に基づく個別化の例
Daniel Webber: これがもう少し明確になるかもしれません。私は皆さんに、より大きなクラスで取り組んでもらいたい小さな例を用意しています。ここでも同じことができると思います。これをthink-pair-shareとして行ってきました。ここでも同じことができると思います。私が考えているのはこのようなケースです。
ある意味で、ChatGPTと話す全員が同じチャットボットと話しています。GPTの異なるバージョンがあります。そしてもちろん、頼めば奇妙なペルソナを採用させることもできます。しかし、これはすべてのチャットボットのプロバイダーに当てはまるわけではありません。これらはすべてcharacter.aiからのもので、「あなたの一日のあらゆる瞬間のためのパーソナライズされたAI」と宣伝しています。そして、彼らはしばしばユーザーが作成した異なるペルソナを持つチャットボットを提供しています。
クリエイティブライティングを手伝ってくれるクリエイティブヘルパーがいます。「気分は大丈夫ですか」というのもあります。デートコーチのEllaがいます。「こんにちは。私はデートコーチです」と。望むなら、憂鬱なルームメイトと話すこともできます。もしあなたが保守派なら、Torybotと話すことができます。「私はTorybotです。私は自由市場を信じています」と。あるいはAOCと話すこともできます。あるいはDonald Trumpと話すこともできます。
ですから、character.aiで相互作用できる非常に異なるペルソナがあります。これが、少し考えてもらいたいケーススタディの種類です。あなたがLLMチャットボットを構築していると想像してください。そして、それがユーザーのニュースソースとして機能することが目標だとしましょう。ですから、もう私はnewyorktimes.comに行って一日を始める必要はありません。今は私のチャットボットに行って、ニュースに何があるか尋ねることができます。
欲しい情報をすべて得ることができます。そして、これらが考えることができる質問の種類です。もし人々がペアを組んで会話に再び参加したいなら、5分取ることができます。しかし、私はこの選好と利益で考えることの違いについて考えたいと思います。
ですから、ユーザーの選好に整合させることに興味がある場合、チャットボットにどのような種類のパーソナライゼーションを行いたいでしょうか。彼らの利益に整合させることに興味がある場合、何をしたいでしょうか。これのいくつかの長所と短所は何でしょうか。そして、ここで私が考えているのは、どのような技術的アプローチを取るかということよりも、ユーザーが利用できるようにしたい、あるいは各ユーザーに実装したいチャットボットのパーソナライズの方法です。
人々は少し移動する必要があるかもしれませんが、もし3分取って、それから全体の部屋に会話を戻すことができれば。では、会話を今、全体の部屋に戻しましょう。
これらの質問について、出てきた興味深い答えで共有したいものはありますか。
学生: 私たちは、選好と最善の利益が一致するものと、そうでないかもしれないトピックの両方を見つけました。たとえば、ニュースに事実を持つことに関して、一部の人々はゴシップや噂を楽しむかもしれません。ですから、彼らは物語にエッジを持つことを選好するかもしれませんが、ニュースには事実と真実のものだけを書くことが最善の利益であるかもしれません。
Daniel Webber: 良いですね。ですから、ええ、絶対に。誰かがニュースに来ているなら、良い事実的なソースを与えるだけが最善だと考えるかもしれません。しかし、それは実際にはこの人が読みたい種類のソースではないかもしれません。ですから、ある意味で、彼らが望まないものを与えているかもしれません。ただし—別の意味では、あなたはそうしているか、あるいはあなたは彼らにとって良いものを与えていると考えるかもしれません。良いですね。
それに追加すること、あるいは長所と短所についてのことはありますか。
7.2 最善の利益に基づく個別化の例
学生: 私たちが議論した例は、政治に興味があるかどうかについてユーザーの選好を取るとしましょう。そして、この選好を得ます。彼らは左派の見方や右派の見方に興味があります。長所は、彼らは左派のニュースを得られます、彼らが興味を持っているものなら何でも。
しかし、短所は、彼らは最終的に自分自身のバブルの中で生きることになり、全体像を得られないということです。ですから、LLMチャットボットの最善の利益は、彼らが興味を持っている3つのそのような記事を与えるようなものですが、また彼らに右派の見方のようなカウンターを紹介します、人々がそれについて何を言っているか。だから彼らは全体像を得られます。
しかし、私たちがこれを議論していたとき、ユーザーは—それを好むユーザーのセットがいる可能性があります。なぜなら、彼らは世界全体が何を考えているかを知ることができるからです。もし彼らが同意しなくても、少なくとも彼らは見方に対してオープンです。オープンマインドな人のように。しかし、第二のカテゴリーの人々は、もし彼らが他の意見を聞いたり、左派の誰かが言ったりして、他の人々が考えていることについて非常に憤慨する見方があり、彼らは非常に圧倒されたり、非常にネガティブな感情を感じたりする可能性があります。ですから、最善の利益ポリシーは、感情的な何とかをどのように最適化できるかということかもしれません。
Daniel Webber: 素晴らしいですね。それは素晴らしい、そこには多くのことがあります。ですから、そうです。事実についての質問があります。そして、それに関連するが少し異なる、視点や見方についての質問があります。多くの人々は自分自身のエコーチャンバーにいることを選好します。彼らはすでに同意していることを言う人々を聞くのが好きです。
彼らはたぶん、すでに持っている政治的角度から報道されたニュースを聞くのが好きです。しかし、さまざまな意見や議論に触れること、複数の角度から報道されたニュースを見ることが彼らの最善の利益であると考えるかもしれません。あるいはそうではないかもしれません。人の利益の要素はさまざまです。そして、それらは時に自己矛盾することがあります。
ですから、ええ。ある程度、何かについて人々が言っていることの全範囲に触れることは私の利益であるかもしれません。しかし、場合によっては、それが常に私に来るものであることは、感情的に苦痛を与えるかもしれません。ですから、ええ。ですから、そうです。
たとえあなたがすでに、このケースで私が気にかけていることはユーザーの選好や彼らの最善の利益やその他何でもだということに気づいていたとしても、それはまだ必ずしも一つの単純なものになるとは限りません。利益だけでなく、人々の選好も。人々は常に矛盾する選好を持っています、彼らがそれに気づいているかどうかに関わらず。ええ、素晴らしいです。
7.3 エコーチャンバー問題と多様な視点の提供
Daniel Webber: そして、人々がたぶん自分自身のエコーチャンバーにいることを選好する、あるいは実際のニュースよりもゴシップを読むことを選好するということを考えると、ある意味であなたが彼らにとってより良いと考えるものを彼らに与えようとすることの潜在的な短所は何でしょうか。
パターナリズムについての心配がありますが、さらに単刀直入に言えば、彼らは単にあなたのサービスを使うのをやめるかもしれません。私は自分が望む方法でニュースを得るためにここに来ました。もしあなたがこの方法で私にそれを与えているなら、それはたぶん私がそれに関与すれば私にとってより良いでしょう。しかし、もしあなたが彼らがすでに選好するものを与えていないなら、ユーザーがまったく関与しないことを心配するかもしれません。
進む前に、他に何か追加したいことはありますか。ええ。
学生: 私は大きなコントラストだと思います、そして私たちは少しこれについて話すと想像しますが、この最善の利益の定義でした。ですから、利益が多面的であるという点にあなたが着目したことだと思います。それはまた非常に規範的で、ほぼパターナリスティックな視点で最善の利益を決定することです。それは挑戦的です。
Daniel Webber: その通りです。そして、ええ、先ほど言ったように、ある視点からこれを見ると、人の最善の利益が何であるかは、非常に論争の的となる哲学的問題です。それについてはかなりの量の、私が思うに、合意があります。ですから、必ずしもどこからも始めているわけではありません。そして、その領域における最大の心配の一つは、絶対にこのパターナリズムについての心配です。
たぶん、ユーザーがこれを持つことがより良いでしょう。しかし、それを判断する立場に自分自身を置きたいでしょうか。そして、それは特に複雑になります。なぜなら、人々の利益にあるものの一つは自律性を持つことだと考えるかもしれないからです。ですから、私がこのことを行うことが彼らの何らかの利益にあるかもしれません。
しかし、その方法でパターナリスティックであることによって、私はたとえ彼らの別の利益に反しているかもしれません。ですから、これらは—こう言えばいいでしょう、これらは開かれた哲学的問題です。そして、このトピックについて7年間博士号を取得することに費やした人が、それらに対する答えをただ教えてくれることを望むかもしれません。
しかし、悲しいことに、私は少なくとも私にはそれができないことをここで報告するためにいます。そして、ええ。そして、質問は少し異なります。ええ。
学生: ある意味では、この質問に関与しない方法はないと思います。デフォルトのため。そして、ほとんどの人々はデフォルトで行きます。ですから、誰かが何であれデフォルトの規範的視点を決定しています、あるいは何に整合しているかです。
そのデフォルトにおいて思慮深くあるべきでしょうか、あるいはどう考えるべきでしょうか。なぜなら、それはたぶん最善の利益のバージョン、何であれデフォルトの可能性があるからです。たとえパーソナライゼーションを許可したとしても、ほとんどの人々は気にしません。
Daniel Webber: その通りです。
学生: デフォルトのものを使います。ですから、デザイナーがデフォルトの動作を選ぶことに多くの権限があります。
Daniel Webber: ええ。それは正しいと思います。そして、質問を開かれていると説明することによって、それが重要ではないと示唆するつもりはありませんでした。そして、これが根本的な—これが私たち全員が歩む必要がある綱渡りの種類だと思います、CSだけでなく、人生において、規範的推論とともに、これらは明らかに重要な質問であり、何千年も考えてきたにもかかわらず、決定的な答えに到達していないということです。
ですから、2種類の質問があると考える人々がいると思います。どのように答えるかを正確に知っている質問があります。たぶん、それらを経験的に答えることができます。そして、それらは事実の質問であり、実際に答えることができます。
そして、規範的な質問や他の種類の意見の質問があります。そこでは、どのように答えるかを正確には知らないので、それらに到達したとき、私たちはただ手を上げて、それらについて言うべきことは何もなく、考える価値さえありません。ええ、私が示唆したいことは、それは考える価値があり、より良いかより悪い答えがありえるということです。たとえあなたが—これについて考える最良の方法が何であるか、正しい答えに到達する方法が開かれた質問であったとしても。
8. 道徳的価値への整合
8.1 ユーザー以外の利害関係者の考慮
Daniel Webber: さて、私は次に進みます。なぜなら、本当に先導的な質問をするつもりだからです。これまでのvalue alignmentについての議論で重要なものが欠けていたと思います。まあ、私たちの議論からは多くのことが欠けています。人が話せるほとんどのトピックについて、私は話していませんが、誰かたぶん、value alignmentの問題に関連するであろう、まだ出てきていない見解を持っていますか。ええ。
学生: たぶん、私たちが両方持っている価値があるけれど、それらが特定の状況で衝突しています。
Daniel Webber: ええ、あなたは自分の価値と私の価値の間の衝突について考えていますか、それとも自分自身の価値の間ですか。
学生: 自分自身の価値です。
Daniel Webber: ええ、それは正しいと思います。それは少し出てきましたね、たぶん私たちの、今の議論の中で、私がそれについてあまり触れていないことではありますが。たとえあなたがユーザーの最善の利益に整合させようとしているとしても、私たちは多くの異なることに利益を持っており、時にそれらは対立することがあります。
ですから、感情的に安定していることへの私たちの利益や、インターネット上で全員が言っていることのファイアーホースに触れることへの私たちの利益か何かは、互いに対立することがあります。これもまた—つまり、私はこの極めて先導的な質問をするのが好きです。なぜなら、それはまた、将来のバージョンの講義に含めることができるものを知らせてくれるからです。つまり、他に何が欠けているでしょうか。
しかし、私はもっとずっと単純に考えています。私たちはまだユーザー以外の誰についても本当に考えていません。しかし、もちろん、ユーザーは重要な世界で唯一の人間ではありません。ですから、少なくとも解釈の一つ、あるいは少なくともvalue alignmentの一つの重要な側面は、道徳的価値のようなものに整合させることだと考えるかもしれません。value alignedであるためには、AIエージェントは道徳的に正しいことを実行する必要があります。
つまり、私たちが始めた安っぽいペーパークリップAIの例では、これがそこで何が間違っているかの最も妥当な診断のように思えます。つまり、そのケースにおける整合の問題は、実際には私、ペーパークリップ製造業者にとって、私のAIが世界を破壊したことが悪いということではありません。本当にそれは全員にとって悪いのです。
それを私たちがユーザーの観点から考えることは、少し本質を見失っています。ですから、AIに私たちが本当に望むことを実行させることについて考えると。この解釈は本当にそこの「私たち」を強調しています。なぜなら、まあ、私自身の利益でさえ時に相互矛盾することがありますが、さらにしばしば、私の利益はあなたの利益と相互矛盾することがあるからです。私は、私のAIが他の人々にとって悪いことをすることを意図したり選好したりするかもしれません。
私のペーパークリップAIは、たとえ私、工場主がそれについて何の疑問も持っていなくても、労働者を奴隷化することによって生産を最大化するなら、value alignedではありません。
8.2 道徳理論の概要(功利主義、義務論など)
Daniel Webber: これについて少し話したいと思いますが、最初に言いたいのは、ユーザーとユーザーが本当に望むことをどう理解するかについて考えることが完全な時間の無駄だったわけではないということです。
たとえ私たちがAIを道徳に整合させたいとしても、ユーザーが望むことが道徳的に許容可能である場合には、ユーザーが望むことに整合させたいと考えるかもしれません。ですから、たとえユーザーが望むことをより大きな道徳的文脈に置きたいとしても、ユーザーが何を望むかについてどう考えるかは依然として重要です。
もちろん、ここで人の最善の利益が何であるかについてと同様に、私たちは何千年にもわたって激しく論争されてきた哲学的問題、真に道徳的に正しいものを特定するという問題にぶつかっています。これについても明らかに多くの不一致があります、哲学者だけでなく、より一般的に人々の間でも。
ですから、誰かの感情を救うために嘘をつくのは正しいかどうか、異なる見解を持つ人々がいるかもしれません。著作権のある資料を海賊版にすることは正しいか間違っているかについて。自分自身のために贅沢品を買うのは正しいのか、チャリティーに寄付できるのに。5人を救うために1人を殺すのは正しいのか。あるいはたぶん100万人を救うために。これらはすべて、人々が異なる答えを与え、意見が一致していない質問です。
これは本当に基本的に道徳理論の問題です。それは私が生計を立てるために研究しているものです、少なくとも今年の残りは。この時期以降どうなるか見てみましょう。ええ、道徳理論は基本的に、このような質問に答えようとする道徳の体系的な説明です。ですから、そのようなものの例を挙げましょう。
帰結主義は道徳理論で、行為が正しいのは、利用可能などの行為よりも最大の純善を生み出す場合に限ると言います。すべての人々にわたる最大の純善です。功利主義について聞いたことがあるかもしれません、それは帰結主義の一つです。もしあなたがこの道徳理論を持っているなら、あなたは考えます、誰かの感情を救うために嘘をつくのは正しいでしょうか。あるいはたぶん、誰もその嘘について決して知らなければ、誰もそれについて不幸になることはありません、ですから、もし私がそれをやり遂げることができるなら、たぶん、それが正しいことをすることでした。
さて、それがあなたの理論で、それがこれらの質問にどのように答えを与えるかです。ですから、AIを道徳的価値に整合させる方法についての一つのアイデアは、正しい、あるいは最良の道徳理論に整合させることです。もちろん、今や馴染みの問題ですが、特定のケースで何が正しいか間違っているかだけでなく、正しい道徳理論が何であるかについても意見の不一致があります。
時間の都合上、ESRステートメントについて話す時間を削りたくないので、これらのどれについても触れるつもりはありません。多くの人々がこの帰結主義的な考え—正しいことをすることは最も多くの善を生み出すものであるという考えを非常に説得力があると感じていることを指摘するだけです。しかし、あなたが持つことができる他の種類の見解の広い範囲があります。これは試験には出ません。
あなたは、すべての人々にわたる善の合計ではなく、加重和である見解を持つかもしれません。飢えていて何も持っていない誰かの善を一定量増加させることは、私の善を同じ量増加させることよりも、全体の計算においてより多くの善であると考えるかもしれません。
いくつかの見解には苦情モデルやマキシミンモデルがあります。そこでは合計について気にかけるのではありません。目標は最も強い個人の苦情を最小化することです。もし誰かが—Scanlonの送信室のケースは何でしたか。送信室で事故がありました、ワールドカップの試合を送信していました。そして、そこにいる人は痛みを伴う電気ショックを受けています、しかし、この人を救出するのに十分な時間、ワールドカップをオフにしなければならないなら、全員が不幸になるでしょう。
あなたは実際に、どれだけの人々がワールドカップを見ていても関係ないと考えるかもしれません。私たちは依然として彼らを不幸にし、15分間それをオフにして、この人を救出すべきです。もしあなたがこの—もしあなたがこの帰結主義的な見解を持っていて、すべての善さを合計するだけなら、まあ、ある時点で、もしワールドカップを見ている人々がいるなら、この人を苦しみ続けさせるべきだと考えなければなりません。
さて、あなたは最大化しようとさえしていないこれらすべての見解のバージョンを持つことができます。重要なのは十分に大きな善の合計を生み出すことだけです。これらすべての見解からの最も重大な逸脱は、たとえ良い結果をもたらす行為であっても、特定の道徳的規則や権利を侵害するなら間違っている可能性があると考える、いわゆる義務論的見解を持つ場合です。
たぶん殺人や窃盗のようなことに対する権利です。たとえこの特定の事例において、そうすることがたぶんより良くないとしても、約束を守らなければならないという規則です。もちろん、そこでの質問は、それらの規則や権利をどのように正当化するかです、そしてそれは全く別のことです。
さて、残念ながら、悲しいことに、これは私が道徳理論について教えているクラスではありません。ですから、これらのどれについてもさらに深く掘り下げるつもりはありません。しかし、これは単に、ここで持つことができる見解の広い範囲があると言うためです。道徳理論について。
8.3 最良の道徳理論への整合 vs. 常識的道徳への整合
Daniel Webber: そして、もちろん、もう一つの問題は、再びこのパターナリズムの問題です。ですから、たとえ私たちが最良の道徳理論が何であるかを知っていたとしても、その理論に基づいて行動するようにAIを設計することは悪いかもしれません。もしそれがユーザーによって共有されていない理論であるなら。そして再び、これはパターナリスティックであることを避けたい道徳的な理由かもしれません。あるいはより実用的な理由です。もしあなたがこの方法でAIを設計するなら、これは人々が使いたくない製品になるかもしれません。なぜなら、それは彼らの価値を促進しないからです。
あなたが持つことができる別の種類のアプローチは、こう言うことです。見てください、多くの道徳的不一致がありますが、多くの合意もあります。私たちのほとんどは、たとえそれによって多くの善を達成できたとしても、誰かを殺すべきではないとか、人々の権利を尊重すべきだということに同意しています。約束を守り、一般的にまともな人間であること。もし最も多くの善を行うなら、それらすべてのことをしていれば、道徳的に要求されないかもしれません。
私たちが道徳的に同意することは多くあります。ですから、もし目標が道徳に整合させることであるなら、そこにある最良の道徳理論をターゲットにするのではなく、哲学者が決して解決しない質問です、その代わりに、私たちは人々の既存の道徳観に整合させたいだけです。
私たちはAIを道徳的に完璧にしようとしているのではありません。目標は単に、誰かと同じくらい道徳的であることです。つまり、これを行うことの一つの利点は、これらの道徳理論の多くがエッジケースでかなり奇妙になるということです。先ほどLLMについて非常に良い議論がありました。ですから、これについて触れる時間はありませんが、つまり、もしあなたが嘘をつくことに対する論理的規則を持っていたら、私の友人が地下室に隠れているのを探しにドアに来た殺人者に嘘をつくのは間違っているのかについて心配するかもしれません。ええ、私たちはすでに送信室スタイルのケースについて話しました。
もしあなたが—AIエージェントが従うべき明示的な道徳理論を設定しようとしているなら、心配は、あなたのAIに善を最大化するように言うことが、ペーパークリップ生産を最大化するように言うことに少し似ているかもしれないということです。それはその目標の驚くべき含意を見つけ出すでしょう。たぶんあなたはすでに予見していなかったものです。
対照的に、常識的道徳に整合されたAIエージェントは、より予測可能に振る舞うだろうと考えるかもしれません。なぜなら、ある意味で、それは私たちがするように意思決定する方法を学んだからです。しかし、それはまた、私たちがちょうど心配していたのと同じエッジケースで予測不可能かもしれません。たぶん常識が尽きるところです。
支配的な道徳的意見に整合させたAIは、100万人を救うために1人を殺すことを決定するでしょうか。私は知りません。つまり、そのような質問に対する常識的な見解が何であるかさえ言うのは難しいです。他方で、ある意味で、AIが私たちが不確かなのと同じケースについて不確かであったら、どれほど悪いだろうかと疑問に思うかもしれません。
もしそれが人と同じくらい道徳的であるなら、結局のところどれほど悪いでしょうか。
9. 実装における課題と考察
9.1 デフォルト設定の規範的影響力
Daniel Webber: ですから、私たちがvalue alignmentについて言ったことをまとめると、AIエージェントを設計する問題です。私たちが本当に彼らに実行してほしいことを。これは私たちが意図することや選好することの問題である可能性があります、私たちの最善の利益が何であるか。それらのことが、私たちはどのように離れることができるかを見てきました。それは—ええ。
学生: なぜ問題が道徳的に正しいことよりも多く生じるときを考えているのですか。AIにこの特定の質問や何かが常識的道徳の領域に入らない場合、答えないか行動しないことを選択させることはできないのですか。
Daniel Webber: ええ、良いですね。ただし、それは—ええ、それは良い衝動だと思います。私もこの衝動を持っています。ただし、デフォルトケースの設計について先ほど言ったことも考えるかもしれません—つまり、こう言えばいいでしょう、行動しないことは、あなたに利用可能な選択肢の一つです。つまり、あなたは—AIであろうとあなたであろうと、あなたはこの幻想的な状況に自分自身を見出します。もしあなたがこの一人を殺したら、どういうわけかそれが100万人の都市が爆発するのを救うことになるか何かです。つまり、ある意味で、決定しないと言うことによって、その問題を避けることはできません。
決定しない、行動しないと言うことは、選択肢の一つを取ることです。私たちはAIを道徳的価値に整合させたいです、しかしそれが何のように見えるかも不明確です。これらはすべて、あなたが考える必要があることです。再び、私たちがvalue alignmentで追求している目標が何であるかについてさえ。どのようにそこに到達するかを決定する前に。
ええ。
学生: 私は以前に基本的な質問があります—私はすべての微妙な哲学的区別に非常に精通しているわけではありませんが、多くの道徳性は、再び、依存しますが、それは最終的に行動、決定、意図についてのいくつかの要素を持っています。そして、AIが道徳的意思決定ができることについて話すとき、注意に関係する何かについての根底にある主張があります。
ええ、ええ、ええ。ですから、もしAIが権力を得たいと思ったら、お金や代わりに行動を取ることができる人々をたくさん集め始めたら、それが道徳的かどうかを知ることは非常に難しいです。ボランティア活動のために人々を組織したと言います。それは問題なさそうです。
しかし実際には、同じ観察可能なもの、つまり人々やお金か何かを集めるようなものを使って、さまざまな異なる目標を達成することができます。そして、意図は、実際に何をしているかが本当に良いか道徳的かを理解するために本当に重要になるようです。
Daniel Webber: 良いですね、その通りです。つまり、まあ、だから意図的です。つまり—私は、ボランティアの軍隊を組織することでの最終的なその目標は、おそらくある方法で観察可能になるでしょう。
しかし、あなたは、この種の権力を持つべきかどうかを事前にどう知るかについて心配しています。なぜなら、それをこれらのさまざまな方法で使用できるからです。それは—ええ、つまり、部分的にたぶん、少し前に持っていたこの質問に私たちを戻します。ある意味でAIエージェントが平均的な人と同じくらい道徳的であることが本当にどれほど悪いでしょうか。
さて、それが悪いかもしれない一つの方法は、もしこのエージェントがあなたの典型的な人よりもはるかに強力であるか、あるいは典型的な人よりもはるかに道徳的に重大な決定を一方的に行う立場に置かれているかです。そうすると、私たち全員が時々間違いを犯すと考えるかもしれません、しかし私たちはこのシステムをその間違いが私のものよりもはるかに大きな影響を持つ立場に置いたのです。
ええ、それは私がただ言いたいことです—それはとにかく考える価値があるかもしれないことです。まさに、あなたがこれがどこに行くか知らないことが、権力追求について心配する理由かもしれません。多くの人々が十分に知能の高いAIシステムでこれについて心配しています。彼らは最大化すべき目標を持っています。彼らは、もし私が権力を増やせば、より多くの材料、より多くのリソースを得られると気づくでしょう。それは私がその目標が何であれ、それを達成するのに役立つでしょう。
9.2 複数の価値の衝突
Daniel Webber: ええ、再び、これは何であるかを解明しようとしているだけです。この、エージェントに私たちが本当に望むことを実行させたいという、少しぬるぬるした考えをどのように理解するか。ユーザーが意図すること、選好すること、あるいは彼らの利益にあることという観点でそれをキャッシュアウトする方法について考えてきました。これらは常に同じものではありません。
そして、それらに伴う異なる技術的および哲学的問題があり、それらはあなたに一つを好むか他を避ける理由を与えるかもしれません。どの問題があなたが解決できると感じているか、あるいはどれがあなたが解決できるか確信が持てないかに応じて、あるいは。
そうですね、私たちがvalue alignmentについて言ったことをまとめると、AIエージェントを設計する問題です。私たちが本当に彼らに実行してほしいことを。これは私たちが意図することや選好することの問題である可能性があります、私たちの最善の利益が何であるか。それらのことが、私たちはどのように離れることができるかを見てきました。
たとえあなたがユーザーの最善の利益に整合させようとしているとしても、私たちは多くの異なることに利益を持っており、時にそれらは対立することがあります。ですから、感情的に安定していることへの私たちの利益や、インターネット上で全員が言っていることのファイアーホースに触れることへの私たちの利益か何かは、互いに対立することがあります。
そしてこれは—私は、人の利益の要素はさまざまであると言いました。そして、それらは時に自己矛盾することがあります。ですから、ええ。ですから、そうです。
たとえあなたがすでに、このケースで私が気にかけていることはユーザーの選好や彼らの最善の利益やその他何でもだということに気づいていたとしても、それはまだ必ずしも一つの単純なものになるとは限りません。利益だけでなく、人々の選好も。人々は常に矛盾する選好を持っています、彼らがそれに気づいているかどうかに関わらず。
9.3 AIの意図と権力追求の問題
学生: 私は以前に基本的な質問があります—私はすべての微妙な哲学的区別に非常に精通しているわけではありませんが、多くの道徳性は、再び、依存しますが、それは最終的に行動、決定、意図についてのいくつかの要素を持っています。そして、AIが道徳的意思決定ができることについて話すとき、注意に関係する何かについての根底にある主張があります。
ええ、ええ、ええ。ですから、もしAIが権力を得たいと思ったら、お金や代わりに行動を取ることができる人々をたくさん集め始めたら、それが道徳的かどうかを知ることは非常に難しいです。ボランティア活動のために人々を組織したと言います。それは問題なさそうです。
しかし実際には、同じ観察可能なもの、つまり人々やお金か何かを集めるようなものを使って、さまざまな異なる目標を達成することができます。そして、意図は、実際に何をしているかが本当に良いか道徳的かを理解するために本当に重要になるようです。
Daniel Webber: 良いですね、その通りです。つまり、まあ、だから意図的です。つまり—私は、ボランティアの軍隊を組織することでの最終的なその目標は、おそらくある方法で観察可能になるでしょう。
しかし、あなたは、この種の権力を持つべきかどうかを事前にどう知るかについて心配しています。なぜなら、それをこれらのさまざまな方法で使用できるからです。それは—ええ、つまり、部分的にたぶん、少し前に持っていたこの質問に私たちを戻します。ある意味でAIエージェントが平均的な人と同じくらい道徳的であることが本当にどれほど悪いでしょうか。
さて、それが悪いかもしれない一つの方法は、もしこのエージェントがあなたの典型的な人よりもはるかに強力であるか、あるいは典型的な人よりもはるかに道徳的に重大な決定を一方的に行う立場に置かれているかです。そうすると、私たち全員が時々間違いを犯すと考えるかもしれません、しかし私たちはこのシステムをその間違いが私のものよりもはるかに大きな影響を持つ立場に置いたのです。
ええ、それは私がただ言いたいことです—それはとにかく考える価値があるかもしれないことです。まさに、あなたがこれがどこに行くか知らないことが、権力追求について心配する理由かもしれません。多くの人々が十分に知能の高いAIシステムでこれについて心配しています。彼らは最大化すべき目標を持っています。彼らは、もし私が権力を増やせば、より多くの材料、より多くのリソースを得られると気づくでしょう。それは私がその目標が何であれ、それを達成するのに役立つでしょう。
9.4 極端なケースでの予測不可能性
学生: ええ、いいえ、私はこの多くに同意します。たぶん、つつくことは実用的な実装についてではありません。ほとんどこれは人間がほとんどのケースで遭遇するケースのセットをカバーしています。
しかし、もしあなたがペーパークリップ最大化器の前提を受け入れるなら、あなたは極端なシナリオにいます。そこでは、これらのもの間の境界がおそらく、高エネルギーのような、物質のループか何かのような関連する方法になるでしょう。あるいは、すべてが通常の速度で動いているなら問題ないが、非常に極端な設定に到達すると、私たちが気にかけるものは、心配である前提にあります。
それは、私がこれを取って、これは多くの意味をなすと言えるものではありません。しかし、それでも私は極端な設定でその心配を持っています。そこでは、ああ、すべてがただ崩壊するのかというようなものです。
Daniel Webber: ああ、ええ。良いですね。ですから、再び、解決すべき問題が何であるかについて考えようとしているだけです。私たちが追求している目標や最終状態は何ですか。その目標を実際にどのように達成するかについては、実際には何も言ったつもりはありません。私は、ああ、まあ—意図と選好と利益の違いについて本当に一生懸命考えればいいと言おうとしているわけではありません。そして、それをする限り、私たちが価値を置くものから離れるこれらの方法であなたのAIがあなたを誤解することを心配する必要はありません。
いいえ、私はそうは思いません。これはまさに、ええ、もしあなたがこのvalue alignmentの問題について心配しているなら、あなたがしなければならない最初のことは、その問題を実際にどのように理解したいかについて考えることです。そして、私が言っているのは、ええ、それを行う異なる方法があり、問題をどのように理解しているかが、それを解決しようとするために使おうとするツールに影響を与えるかもしれないということだけです。しかし、ええ、わかりました。
学生: なぜ問題が道徳的に正しいことよりも多く生じるときを考えているのですか。AIにこの特定の質問や何かが常識的道徳の領域に入らない場合、答えないか行動しないことを選択させることはできないのですか。
Daniel Webber: ええ、良いですね。ただし、それは—ええ、それは良い衝動だと思います。私もこの衝動を持っています。ただし、デフォルトケースの設計について先ほど言ったことも考えるかもしれません—つまり、こう言えばいいでしょう、行動しないことは、あなたに利用可能な選択肢の一つです。つまり、あなたは—AIであろうとあなたであろうと、あなたはこの幻想的な状況に自分自身を見出します。もしあなたがこの一人を殺したら、どういうわけかそれが100万人の都市が爆発するのを救うことになるか何かです。つまり、ある意味で、決定しないと言うことによって、その問題を避けることはできません。
決定しない、行動しないと言うことは、選択肢の一つを取ることです。私たちはAIを道徳的価値に整合させたいです、しかしそれが何のように見えるかも不明確です。これらはすべて、あなたが考える必要があることです。再び、私たちがvalue alignmentで追求している目標が何であるかについてさえ。どのようにそこに到達するかを決定する前に。
そして、もしあなたが—AIエージェントを明示的な道徳理論に従うように設定しようとしているなら、心配は、あなたのAIに善を最大化するように言うことが、ペーパークリップ生産を最大化するように言うことに少し似ているかもしれないということです。それはその目標の驚くべき含意を見つけ出すでしょう。たぶんあなたはすでに予見していなかったものです。
対照的に、常識的道徳に整合されたAIエージェントは、より予測可能に振る舞うだろうと考えるかもしれません。なぜなら、ある意味で、それは私たちがするように意思決定する方法を学んだからです。しかし、それはまた、私たちがちょうど心配していたのと同じエッジケースで予測不可能かもしれません。たぶん常識が尽きるところです。
支配的な道徳的意見に整合させたAIは、100万人を救うために1人を殺すことを決定するでしょうか。私は知りません。つまり、そのような質問に対する常識的な見解が何であるかさえ言うのは難しいです。他方で、ある意味で、AIが私たちが不確かなのと同じケースについて不確かであったら、どれほど悪いだろうかと疑問に思うかもしれません。
もしそれが人と同じくらい道徳的であるなら、結局のところどれほど悪いでしょうか。
10. ESR(Ethics and Society Review)ステートメントについて
10.1 ESRの目的と重要性
Daniel Webber: 私たちは少し時間を過ぎていますが、ESRステートメントについて言うべきことがいくつかあります。これは、私たちがちょうど尋ねていたvalue alignmentについての非常に興味深い質問とは本当に何の関係もありません。
ですから、あなたの最終プロジェクトは1ページのESRステートメントを必要とします。ESRはEthics and Society Review(倫理と社会レビュー)です。本質的に、ESRは社会的リスクに対するものであり、IRBは人間被験者へのリスクに対するものです。IRBは実際には、それらのリスクのみを考慮します。彼らは、研究やプロジェクトがすでに世界に出た後の、より広範なリスクを考慮することは許可されていません。
まさにそのため、助成金申請や学会投稿でこの種のESRステートメントが要求されるのがますます見られるようになっています。ですから、それがこのクラスのプロジェクトの一部であるためにあなたが行いたいことであることに加えて、それはまた、世界で行う必要があるかもしれないことの練習でもあります。
10.2 ESRステートメントの構成要素
Daniel Webber: さて、あなたはこの課題の一部として、ESRの指示とテンプレートへのリンクを受け取ります。それらを読むことをお勧めします。それらはあなたに、彼らが探している種類のものの感覚を与えるでしょう。これは彼らのテンプレートから借りたものです。広く言えば1ページで、あなたは、もしあなたの研究やプロジェクトが現実世界に展開された場合に伴う可能性のある、いくつかの潜在的な倫理的リスクを特定しようとしています。
そして、それらのリスクを防止または軽減するための戦略を考え出します。彼らはこの種の例を与えています。あなたのツールは視覚障害のあるユーザーにサービスを提供することを意図しています。しかし、もし私たちが彼らの視点を考慮しなければ、私たちは彼らを疎外するかもしれません。さて、軽減策。その問題を避けるために何をするつもりですか。さて、何か具体的なこと。
さて、私たちは利害関係者との一連の共同設計ワークショップを開催します。彼らのインプットを得ます。これは短縮されています、つまりこれは各1文です。あなたは、あなたが記述している各リスクと軽減努力について、もう少し深く掘り下げたいと思うでしょう。彼らは、それぞれについて1〜2段落のようなものを提案しています。
探しているのは—1ページです。私たちは画期的な倫理研究を探しているわけではありませんが、あなたが特定する倫理的リスクとの実質的な関与を示したいのです。
10.3 倫理的リスクの特定と軽減策の策定
Daniel Webber: それらは多くのことである可能性があります。あなたが考えたいかもしれない一般的なものがあります。研究において誰の利益が代表されているかについての質問。誰の利益が除外されているかもしれません。除外された利益をどのように考慮に入れようとするか。誰がその成功によって利益を得るか、害を受けるかもしれません。プライバシーへの影響について考えるかもしれません。誤用やユーザーエラーについて考えるかもしれません。
悪意のある行為者がその研究をどのように誤用する可能性があるか。ユーザーが誤って有害な方法でそれを適用する可能性があるか。
