※本記事は、Stanford大学コンピュータサイエンス学部のSanmi Koyejo助教授による講義「Stanford CS329H: Machine Learning from Human Preferences」の内容を基に作成されています。本講義は2024年秋学期に開講されたもので、動画の全コースプレイリストは https://www.youtube.com/@stanfordonline でご覧いただけます。
本記事では、講義の内容を要約しております。なお、本記事の内容は原講義の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講義動画(https://www.youtube.com/watch?v=-bych9RfQvw )をご覧いただくことをお勧めいたします。
Stanfordのオンライン人工知能プログラムの詳細については https://stanford.io/ai を、本コースの履修登録については https://online.stanford.edu/courses をご参照ください。また、コースのスケジュールとシラバスは https://web.stanford.edu/class/cs329h/ でご確認いただけます。
講師紹介: Sanmi Koyejo氏は、Stanford大学コンピュータサイエンス学部の助教授として、機械学習と人間の選好に関する研究と教育に従事しています。
1. イントロダクション
1.1 講義の目標と概要
講師: それでは始めましょう。今日の目標は選択モデル(choice models)を取り扱うことです。計画通りに進めば、今日の授業が終わる頃には、皆さんは現代の、少なくとも多くの現代的な人間の選好学習パイプラインにおける人間の選好学習部分を理解するために必要な技術的ツールをすべて身につけることになります。今日は基礎的な内容が多くなります。
しかし、これから見ていくように、人々が使用する多くのモデルやアプローチは、結局のところこれらのアイデアの多くを再利用することになります。ですから、これらは基礎的方法論の講義の一つだと考えてください。今日の目標は、先ほど述べたように、標準的な、いわゆる「合理的選択モデル(rational choice models)」について少し話すことです。そして離散設定に焦点を当てます。
選択モデリングには長い歴史があります。少し後で歴史的な文脈についてお話しします。しかし選択モデリングの目標について考える一つの方法は、特定の文脈内で個人またはグループの選択行動を予測するのに役立つ一連のツールだということです。機械学習やAIモデル内で私たちが好んで行う多くのことと同様に、選択モデルにおけるアイデアは、個人または複数の人々が選択を行うのを観察できるということです。これが私のデータセットになります。そして選択モデルとは文字通り、このデータセットにどのようなモデルを適合させることができるかということです。そうすれば、新しい文脈が与えられたときに、人々が行うかもしれない選択を予測できます。
そして話を進める中で、私たちが行っている仮定と有意義に関わることを皆さんに奨励したいと思います。私は進めながらそれらを指摘するよう努めます。これらの仮定は重要です。そしてこのクラスの一部は、選択モデルを構築しようとするときに私たちが行う仮定を批判することになります。
1.2 選択モデル(Choice Models)の基礎
講師: 選択モデリングには長い歴史があります。少し後で歴史的な文脈についてお話ししますが、選択モデリングの目標について考える一つの方法として、特定の文脈内で個人またはグループの選択行動を予測するのに役立つ一連のツールだということが挙げられます。
機械学習やAIモデル内で私たちが好んで行う多くのことと同様に、選択モデルにおけるアイデアは次のようなものです。私は個人または複数の人々が選択を行うのを観察することができます。これが私のデータセットになります。そして選択モデルとは文字通り、このデータセットにどのようなモデルを適合させることができるかということです。そうすれば、新しい文脈が与えられたときに、人々が行うかもしれない選択を予測できるのです。
そして話を進める中で、私たちが行っている仮定と有意義に関わることを皆さんに奨励したいと思います。私は進めながらそれらを指摘するよう努めます。これらの仮定は重要です。そしてこのクラスの一部は、選択モデルを構築しようとするときに私たちが行う仮定を批判することになるでしょう。
1.3 歴史的背景
講師: 選択モデリングには長い歴史があります。記録に残っている最も古い歴史の一部は、1920年代にThurstonが食品の選好を調べた研究です。この研究の一部は、最終的には70年代にミクロ経済学や効用理論への応用へと発展しました。
実際、この時期に行われた研究の一部は、最終的に2000年にMcFaddenが離散選択の理論的基礎に関する研究でノーベル賞を受賞することにつながりました。これもまた、今日私たちが少し話す内容の一部です。心理学の分野でも研究がありました。
実は彼らがかなり以前に構築したこれらのモデルの一部は、今でも非常に有用であり続けており、今私たちが使用している主要なツールの一部となっています。例えば、1959年にLuceが質的選択行動のためのロジット分析について行った研究があります。マーケティング応用についてはすでに述べました。新製品の需要を予測し、それを制約されたコスト設定内で行おうとすることは、おそらく驚くことではないでしょう。
つまり、異なる製品が非対称的に生産コストが高い場合、需要の感覚をつかみたいと思うわけです。そうすれば、実際に生産するものについて計画を立てることができます。応用についても少し話しました。
特に、ここにいる皆さんにとって興味深いかもしれない点として、BARTのような交通機関の元々のルート計画や交通計画の一部は、McFaddenが行った研究でした。駅をどこに配置するか、どのように計画するかを予測する方法として、人口全体の選好の可能性を把握するためです。ですから、これらのものはかなり前から存在しています。
それらは多くの有意義な用途を見出してきました。そしていくつかの非常に重要な、しばしば非常に興味深い実世界の応用があります。ここにはいくつかの参考文献、あるいは参考文献への言及があります。調べるのは簡単です。ぜひご覧ください。
2. 選択モデルの応用例
2.1 マーケティング応用(車の選択予測)
講師: 応用はあらゆる場所にあります。ここに簡単な例があります。私はマーケティング応用のために、例えば人々がどのような選好やどのような選択をするかをモデル化することに興味があるとしましょう。
例えば、私が車のディーラーであるか、車を比較して人々に車を販売するウェブサイトを運営しているとします。私のウェブサイトに来る人々や車を見る人々が望むかもしれない選好について何かを予測できるようになりたいと思うかもしれません。
そして学習で私たちが行うすべてのことにおいて、一般的に必要なものは、オブジェクトを説明する何らかの特徴量のセットです。例えば車の場合、車のブランドを持っているかもしれません。価格、請求書、その他の情報の束があるかもしれません。これらを様々な方法でエンコードすることができます。そして意思決定者について何かを知りたいと思うかもしれません。
ここには載っていませんが、個人について、おそらく表明された選好について何かがあるかもしれません。人口統計は予測シグナルとなることが多いです。他のシグナル、つまり背景に関すること、彼らが以前運転していた車などがあれば、これらは抽出するのに良い特徴量かもしれません。彼らがあなたのインターフェースに来たときに、好みの車として何を選択するか、あるいはこれらのアイテムのセット全体で異なるオプションをどのようにランク付けするかを予測しようとする際にです。
2.2 交通・ルートプランニング
講師: 交通についてもこれを行うことができます。これは実際には非常に人気のある実世界の応用です。例えば、私はルート計画をしたいという質問をするかもしれません。つまり、いくつかのルートのセットの間で選択を行いたいのです。
これを行う方法は、ルートを複数のステップに分割し、取るべき特定の経路について選択を行うというものです。あるいは、これをグローバルな選択モデリングとして考えることもできます。つまり、可能な経路の離散的なセットがあり、特定の個人にとって経路に関する彼らの選好がどのようなものかを理解し、モデル化し、予測したいのです。
このようなものは、多くのマッピングアルゴリズムの一部であるルート計画アルゴリズムでよく使用されています。これらはさらに、物流計画のようなものに使用されています。前回これについて言及しました。しかし配送や物流応用の他の側面では、天候のようなものを考慮に入れるかもしれません。交通を考慮に入れるかもしれません。
ユーザーについては、できるだけ速く運転することを好むが、より長いルートを取ることをいとわないのか、あるいは彼らがより遅く運転することを意味しても実際の文字通りの最短経路を好むのか、そのようなことを考慮に入れるかもしれません。これにコストを含めることもできます。ですから、これを再び特徴量を通じて行うことができます。あるいは他の種類の説明メカニズムを通じて行うこともできます。
応用については少し後で詳細を見ていきますが、特定のユーザーがどれだけ支払う意思があるかについて、何らかのシグナルが欲しいかもしれません。これを燃料について考えることができます。通行料について考えることができます。その他多くの選択を、あなたの選択モデルの一部として考えることができます。
2.3 物流計画
講師: 前回これについて言及しました。配送や物流応用の他の側面では、天候のようなものを考慮に入れるかもしれません。交通を考慮に入れるかもしれません。
ユーザーについては、できるだけ速く運転することを好むが、より長いルートを取ることをいとわないのか、あるいは彼らがより遅く運転することを意味しても実際の文字通りの最短経路を好むのか、そのようなことを考慮に入れるかもしれません。これにコストを含めることもできます。ですから、これを再び特徴量を通じて行うことができます。あるいは他の種類の説明メカニズムを通じて行うこともできます。
応用については少し後で詳細を見ていきますが、特定のユーザーがどれだけ支払う意思があるかについて、何らかのシグナルが欲しいかもしれません。これを燃料について考えることができます。通行料について考えることができます。その他多くの選択を、あなたの選択モデルの一部として考えることができます。
2.4 エネルギー・活動計画
講師: 他の応用として、エネルギーのようなものがあります。これも計画や物流にうまく適合すると思います。ですから、たくさんの楽しい応用があります。
もし誰かが応用に興味があれば、ここに論文があります。その他多くの文脈もあります。見てみることをお勧めします。もう一つの楽しいものですが、十分に単純化されているので私たちが取り組めるものがあります。個人の活動シーケンスを計画し、活動の順序付けについて選択を行いたいとします。特に、どのようなものが調整可能かに依存し、彼らが運転するか歩くかに依存します。
ですから、一日の中で彼らが何をするかのモデルが欲しいかもしれません。いくつかの活動は固定されています。いくつかの活動は物事を調整する能力があるかもしれません。繰り返しになりますが、個人の、行為者の行動をモデル化し、それから選好をモデル化するためのシグナルとしてこれを使用したいかもしれません。
2.5 言語モデルへの応用
講師: これについてはすでにかなり話しました。これは過去数回の講義で最も時間を費やした議論です。
言語については、同様のツール、同様のアイデアを使用して再びモデル化します。ここでは、典型的には第2段階で意思決定者の選択をモデル化しています。しかし第2段階に進み、文書全体の選好にわたって意思決定者の選択をモデル化しようとするかもしれません。
そして、このような離散選択問題にどのようなモデルを使用するかについて話していきます。
3. 選択モデリングの歴史
3.1 1920年代:Thurstoneの食品嗜好研究
講師: さて、文脈を設定するために少し歴史を見ていきましょう。選択モデリングには長い歴史があります。記録に残っている最も古い歴史の一部は、1920年代にThurstonが食品の選好を調べた研究です。
3.2 1970年代:ミクロ経済学と効用理論への発展
講師: この研究の一部は、最終的には70年代にミクロ経済学や効用理論への応用へと発展しました。実際、この時期に行われた研究の一部は、最終的に2000年にMcFaddenが離散選択の理論的基礎に関する研究でノーベル賞を受賞することにつながりました。これもまた、今日私たちが少し話す内容の一部です。
3.3 2000年:McFaddenのノーベル賞(離散選択の理論的基礎)
講師: 実際、この時期に行われた研究の一部は、最終的に2000年にMcFaddenが離散選択の理論的基礎に関する研究でノーベル賞を受賞することにつながりました。これもまた、今日私たちが少し話す内容の一部です。
3.4 1959年:Luceのロジット分析
講師: 心理学の分野でも研究がありました。実は彼らがかなり以前に構築したこれらのモデルの一部は、今でも非常に有用であり続けており、今私たちが使用している主要なツールの一部となっています。例えば、1959年にLuceが質的選択行動のためのロジット分析について行った研究があります。
3.5 BART路線計画への応用事例
講師: 応用についても少し話しました。特に、ここにいる皆さんにとって興味深いかもしれない点として、BARTのような交通機関の元々のルート計画や交通計画の一部は、McFaddenが行った研究でした。駅をどこに配置するか、どのように計画するかを予測する方法として、人口全体の選好の可能性を把握するためです。
ですから、これらのものはかなり前から存在しています。それらは多くの有意義な用途を見出してきました。そしていくつかの非常に重要な、しばしば非常に興味深い実世界の応用があります。ここにはいくつかの参考文献、あるいは参考文献への言及があります。調べるのは簡単です。ぜひご覧ください。
4. 離散選択モデルの数学的定式化
4.1 効用(Utility)の概念
講師: さて、選択モデルは、冒頭で述べたように、選択をモデル化しようとするとき、あるいは学習の文脈内で選択モデルを使用しようとするときに、機械学習において最も有用なツールの一部として、選択モデルの量化と数学的形式主義が最終的になっています。
繰り返しになりますが、述べたように、標準的な設定は、代替案にわたる選択について人間、個人またはグループに尋ねるというものです。これを、私たちが機械学習モデルを構築するときによく行うように、何らかの特徴量化と組み合わせます。ですから、アイテムについてのシグナル、個人についてのシグナルを得て、その上に予測モデルを構築しようとします。
選択モデルの中核技術の多くは、述べたように、最初は50年代、40年代、60年代に定義されましたが、今日でも同じモデルを使用しているのでしょうか?これは驚くことではないかもしれません。長い間前からの多くの数学的概念が、今日私たちが行うことの主要な技術であり続けています。
そして、Bradley-TerryやPlackett-Luceのようなものについて話していきます。これらはかなり前に開発された標準的な選択モデルの一部であり、離散選択をモデル化するために今でも有用です。数回述べたように、私はこれらのモデルを通過する際に、私たちが行う仮定に取り組んでほしいと思います。ですから、質問、フィードバックなどです。私はクラスに質問をするかもしれません。しかし例えば、合理性についての質問が出てくるかもしれません。
私たちがカバーするモデルのほとんどは、離散的または有限の選択に焦点を当てます。なぜなら、それらが私たちが最も多く取り組む種類の問題だからです。しかし興味がある人のために、他の種類の選択モデルへの言及もします。そして機械学習の問題では、繰り返しになりますが、しばしば膨大な文脈があります。文脈はまた、多くの古典的な設定では、文脈は特徴量化されています。
ですから、アイテムのための特徴量のセットとユーザーのための特徴量があります。そして私たちはこれらの選択モデルを、それらの特徴量を使用して予測を行うモデルを学習するものとして考えます。多くの機械学習応用では、明示的な特徴量化はありません。ですから、繰り返しになりますが、おそらくあなたにとって驚くことではありません。しかし例えば、文脈として文を使用するかもしれません。あるいはフレーズの完全な補完を使用し、フレーズの補完から選択の予測に直接行くモデルを構築するかもしれません。過去に選択モデルを構築していた方法とは対照的にです。
過去には、予測を行う前に明示的な特徴量化ステップがあったでしょう。
講師: さて、ここまでで何か質問はありますか?繰り返しになりますが、非常に高レベルです。もしこれを見たことがなければ、文脈なしかもしれませんが、舞台を整えるのに役立ちます。
講師: さて、離散選択モデルは、個人の意思決定プロセスを捉えるのに有用であることがわかります。少なくとも、それらは個人の意思決定プロセスを捉えるように設計されています。あるいは時にはグループに使用されることもあります。
それらは、何らかの効用が存在するという仮定を行います。これを利益として考えることができます。価値として考えることができます。報酬として考えることができます。なぜなら、多くの応用、例えば強化学習では、報酬と呼ばれるものは、経済学者が効用と呼ぶものと等価だからです。
そして多くの選択モデルにおける重要な仮定は、個人がアイテムのペア、例えばモデルアイテムA対アイテムBから得る効用は、それらのアイテム間で選択する機会を繰り返し与えられた場合に、アイテムAをアイテムBの代わりに選択する頻度の関数であるということです。ですから、うまくいけば、これのモデルをどのように考えるかが明確になり始めています。
繰り返しになりますが、データは何らかの方法で記述された個人です。彼らはアイテムのペアを見ることができると思います。あなたは彼らの選択を測定することができます。彼らが一方のアイテムをもう一方のアイテムよりも選択するかどうかを、複数回にわたって測定します。そしてこれが、将来彼らが行うかもしれない選択を予測するモデルを構築するデータになります。
一般的に、そしてこの空間の多くにおいて、真の効用は観測不可能であると仮定されています。ですから、効用が存在するという仮定があります。個人が行っている選択を完全に記述する何らかの関数が存在するのですが、あなたはそれを見ることができません。そして主張または希望は、これを実際に述べられた、または選択にわたって顕示された選好を通じて測定できるということです。
4.2 観測可能な選択と潜在的効用の関係
講師: では、これを数学でどのように行うかもしれないでしょうか?追加の仮定があります。少なくともこの種の選択モデルでは、これをモデル化する簡単な方法は、再びこの効用のアイデアを使用することです。効用は、繰り返しになりますが、何らかの根底にある真の選好を捉える潜在変数です。
個人nまたはサンプルnについて、アイテムiとアイテムjが与えられたとき、あなたが観測できるものは人々が選択するものです。ですから、比較i対jを与えた場合、彼らはiを選択したかjを選択したかを見ることができます。そしてここでのラベルは、彼らがiをjよりも選択した場合は1、そうでない場合は0です。ですから、ペアワイズ選好設定では、これらが2つのオプションです。
2つ以上の多くの異なる選択についても同じことができます。ですから、K個のオプションのうち1つを選択することを観測することも同様にモデル化できます。そして全く同じモデリング設定が機能します。
ですから、異なるオプションのセット全体で人が何を選んだかという、これらの離散的な観測を見ることができます。そして、ここでの重要なモデリング設定は、観測、選択にわたるyes/noです。彼らは何を選んだのか?モデリングでは、これらの選択が根底にある効用関数によって生成されると仮定します。人々が行っている選択を確率的に完全に記述する効用関数が存在します。そして、もう少し形式的に言うと、
あなたは特徴量を持っているかもしれません。ですから、ここでは特徴量を一般的にZとして記述しています。これらは個人の属性を記述する変数です。それらはまた代替選択も記述するかもしれません。ですから、個人、彼らが選んでいるオプション、そして他のすべてのオプションの代わりに、両方を記述する大きな特徴量化を持つことができます。これを行う方法はたくさんあります。いくつかの例について話していきます。
そして、これらの特徴量から、特徴量を効用にマッチングする何らかの関数があります。ですから、標準的な機械学習では、私はZを選択しました。しかし、これを標準的な表記にマッピングしたい場合は、誰も混乱しないように、Xを使用することができます。ですからXは個人と選択、それらの選択の何らかの記述の特徴量化です。Yはラベルです。
彼らはAをBよりも選んだのか?そして、入力から選択への関数マッピングがあります。そして関数マッピングは、この効用関数によって記述されると仮定されます。そして一般的に、私たちは、人々の意思決定を駆動する特徴量から効用への合理的な記述子であると思われる何らかの関数クラスを選択します。簡単な例は、線形モデルかもしれません。
4.3 特徴量(Features)と効用関数のモデリング
学生: Zベクトルについてですが、個人の属性だけを捉えるので、添え字iが必要でしょうか?それともZ of nだけでいいのでしょうか?
講師: ええ、質問は、あなたのZベクトルはアイテムiの属性を捉える必要があるのか、あるいは本質的にどれだけ豊富である必要があるのか、ということですね。ほとんどの応用、特に古典的な選択モデルでは、Zはかなり豊富である可能性があります。多くの場合、それは個人です。
ですから、これを複数の個人に使用する場合は、追加の添え字が必要かもしれません。それは、わかりません。サンプルにnを使用し、アイテムiに対してi、アイテムjに対してj、そしておそらく個人に対してkのようなものを使用することを想像できます。古典的な設定では、Z変数は一般的に個人の属性、アイテム、そして代替選択の何らかの大きな特徴量化であることが多いです。なぜなら、よく考えられることとして、
少し後で例を示します。しかし、あなたの選択は、あなたが好きなアイテムだけでなく、それを何と比較しているかによっても駆動されるかもしれません。ですから、その直感を捉えるために、他の選択/代替案を特徴量化Zの一部として持ち、あなたのモデルに捉えさせたいかもしれません。
ですから、うまくいけば、あなたが適合させたときのベータは、あなたのモデルがこれらすべての特徴量がどのように相互作用するかを捉え、それが効用と、アイテムiをアイテムjよりも選ぶ確率を定義します。また、nは個人を表します。ここでは、nをサンプルとして使用しています。しかし、nを個人にしても何も壊れません。個人にしましょう。一貫性があるかもしれません。それで大丈夫です。
4.4 線形モデルの例
学生: Y_niは、n番目の人が他のすべてよりも最高のアイテムを選んだ場合は1です。しかし、すべてのiに対してY_niが0である場合があり得ます。1つのアイテムに対する厳密な選好がない場合です。
講師: ええ、質問は、実際に話すのが興味深いのですが、選択がない場合はどうなるか、そして個人がどのアイテムも代替案よりも選ばない場合、どのようにモデルを構築できるか、ということですね。それがあなたの言っていることだと思いますか?
学生: ええ。
講師: この基本モデルは仮定しています。それは代替案の中から選んだことを仮定しています。もしそれを壊したいなら、少なくともこのクラスのモデルでは、主要なアイテム全体で選択がないのは不都合でしょう。良い直感を持っていません。
学生: 同じことを言おうとしているのかもしれません。
講師: 1つのオプションは、棄権することで、それをUとして扱うことです。
学生: はい、棄権という選択肢を持つことができます。それがあなたの言っていることですか?
講師: 確かに。それはオプションです。今のところその拡張を避けていますが、実際にそれは良いかもしれません。
学生: 確かに。
講師: はい、わかりました。ですから、これを処理する良い方法は、棄権オプションです。ですから、棄権する選択もモデル化します。確かに。それから出てきた他の質問があると思います。
学生: いいですね。信号をありがとうございます。
講師: 全体的な設定について何か質問はありますか?もしあなたにこのようなデータを与えたら、関数を固定して、モデルを適合させるとはどういう意味か、簡単に言うと?そして、このデータにどのようにモデルを適合させるかもしれませんか?意図的に素朴な質問ですが、私たちが同じページにいることを確認したいだけです。
気まずい間の取り方をします。明白なことです。ですから、たくさんのデータサンプルが与えられたとき、何を推定する必要があるか、だと思います。ここでのデータサンプルはZとYの観測ですが、それがあなたのデータセットになります。
学生: はい、それを出力したいです。おそらく、特定のiの選択でYが1である確率の分布かもしれません。
講師: ですから、これをいくつかの方法で行う必要がありますが、何らかのパラメータ化されたものです。おそらくZからYへの線形モデル[聞き取れない]です。
学生: 確かに。
講師: ええ、ですから、このような単純な線形モデルを選択する場合、適合する必要があるもの、あなたの機械学習プロセスが行うことは、ベータの設定を見つけることです。これにより、新しい個人が与えられたときに、彼らの選択を予測する方法を持つモデルが得られます。なぜなら、もし私がベータを知っていれば、個人の新しいアイテムが与えられると、その新しいアイテムがZを固定するからです。ですから、これはモデルのこの部分を固定します。そこから、少なくともHの期待値をすぐに計算できます。ノイズモデルがあるかもしれないし、ないかもしれません。
これはノイズを捉えますが、Hの期待値を捉えます。Hは正確に効用関数です。そして私は、Hを差し込むだけで、ノイズまで、それが行う選択を予測できます。アイテムiのH関数がアイテムjのH関数よりも大きいかどうかということです。それが私が解決したい予測問題です。推定問題はベータの設定を見つけることです。ですから、これは線形モデルのためのものです。
もしこれをニューラルネットワークにすれば、この全体がニューラルネットワークモデルになります。私はそのニューラルネットワークモデルを適合させる必要があるだけです。さて、これがどのように見えるかについて、もう少し詳細に入ります。
5. 選択モデルの重要な性質
5.1 スケール不変性と単調変換
講師: さて、選択モデルのいくつかの含意について見ていく価値があります。ですから、繰り返しになりますが、選択モデルは効用を仮定していることを覚えておいてください。実際には効用を推定しないことがわかります。
あるいは少なくとも、あなたが得る情報は実際に効用を完全に推定するには不十分であることがわかります。ですから、これはZと何らかの関数クラスHを知っていれば、明示的な効用関数を持っていると書かれていますが、実際には、このモデルで、もし私がシフトすることができるなら、効用を推定することはできないことがわかります。まあ、おそらく明白で簡単なことは、もし私が何らかの任意の値を加えるなら、ですから、すべてのHに何らかの正の定数を加えます。
選択モデルは全く同じままです。なぜなら、左辺と右辺の両方が増加し、順序情報が増加するからです。実際の選択の予測では何も変わっていません。また、様々な種類の多くの単調変換も順序を保ちます。
ですから、これがすべて捉え、保持しているのは、実際に得ている情報という点では、代替案にわたるこの順序情報です。しかし、それは実際にはUが何であるかの正確な値を教えてくれません。これはこの種のモデルの既知の問題です。これは後で出てきます。そして、これらのものを機能させることにいくつかの困難があります。
5.2 効用の推定可能性の限界
講師: もう少し数学的に言うと、私たちが捉えようとしているものは、特定の選択を行う確率です。つまり、選ぶことができる他のすべての代替案よりも代替案iを選ぶ確率です。繰り返しになりますが、私たちの選択を測定する上での重要な量は、アイテムiの効用が他のすべてのアイテムの効用よりも大きい確率です。ですから、この項、U_niが他のすべてのアイテムに対してU_njよりも大きい、ということです。
そして述べたように、いくつかの変換を適用することができます。特に、これを左辺に移動するだけで書き直すことができます。これを差が0より大きい確率として考えることができます。スケールフリーで単調変換に対して不変です。自分自身を納得させるのが良いでしょう。加法的なものは自明です。
うまくいけば、簡単にわかるでしょう。私は2つを引いています。ですから、もし両方に正の数を加えれば、引き算で正の数は消えます。おそらく、自分自身を納得させることも有用でしょう。もし私が、例えば、任意の値でスケーリングすれば、スケーリングは消えます。あるいはすべてのスケーリングは等価な選択、等価な確率を持ちます。
ですから、任意のグローバルなスケーリングや任意のグローバルなシフトは、様々な種類の単調変換についても同様のことが真であることを示すこともできます。これは問題を引き起こします。もし文脈を固定し、すべての代替案が比較可能であると期待される場合、問題はありません。
しかし、私たちはしばしば、あるモデル、ある文脈で訓練された効用モデルと、別のデータセット、別の文脈で訓練された別の効用モデルを取り、それらを何らかの形で比較したいと思います。なぜなら、私たちが学習するH、出力するUは、単調変換に対してのみ良いからです。一般的に、文脈をまたいで意味のある方法で比較することはできないことがわかります。
5.3 正規化の必要性
講師: 文献では、私は機械学習の文献ではこれをそれほど見かけません。しかし、選択モデルを使用する経済学や他の分野、心理学を見ると、しばしば比較可能性を可能にする正規化の仮定があります。これが十分かどうか、あるいはものを確定するためにより多くの情報が必要かどうかについての批判があります。
しかし、標準的な実践として、例えば、スケールと標準化された分散を仮定するかもしれません。これにより、同じスケール上にあり、したがって異なる文脈にわたって比較可能な効用関数を得る方法として使用します。
5.4 文脈間での比較可能性の問題
講師: 先ほど述べたように、私たちが学習するH、出力するUは、単調変換に対してのみ良いものです。一般的に、文脈をまたいで意味のある方法で比較することはできないことがわかります。文献では、私は機械学習の文献ではこれをそれほど見かけません。
しかし、選択モデルを使用する経済学や他の分野、心理学を見ると、しばしば比較可能性を可能にする正規化の仮定があります。これが十分かどうか、あるいはものを確定するためにより多くの情報が必要かどうかについての批判があります。
しかし、標準的な実践として、例えば、スケールと標準化された分散を仮定するかもしれません。これにより、同じスケール上にあり、したがって異なる文脈にわたって比較可能な効用関数を得る方法として使用します。
6. 二項選択モデル(Binary Choice Models)
6.1 ロジスティック回帰への帰着
講師: さて、これの一例は、2つのオプションだけがある場合です。ですから、うまくいけば、これが馴染み深く感じられる地点に到達します。なぜなら、設定の一部が少し変わって見えるかもしれないからです。ですから、2つのオプションがあります。
私のオプションは、アイテムを選ぶか選ばないかです。ですから、代替案のj添え字を無視することができます。そして、個人とアイテムについての特性を持っている可能性があります。そして効用関数は、以前行ったのと同じ線形モデルです。もしこれを効用から選択への写像と組み合わせれば、以前と同じように、それは単一の効用数値です。
それは0より大きいか0より小さいか?そして0より大きければ、私はアイテムを選ぶか選ばないかの選択をモデル化しています。ノイズモデルがロジスティックであれば、示すのは簡単で、自分自身で良い練習になりますが、選択の確率として出てくるものは、うまくいけばロジスティック回帰で見るかもしれない馴染み深いロジスティック関数になります。そして実際、もしこのモデルを適合させたければ、代替案にわたる選択のデータセットを取得し、実際に使用するアルゴリズムは文字通りロジスティック回帰です。
ですから、たくさんの特徴量があるとしましょう。ここでは特徴量にS_nを使用しているとします。すべての選択に対するたくさんの特徴量、アイテムを選択したか選択しなかったかのたくさんの観測がデータセット全体にあります。ですから今、私は二値のラベルを持っています。yes/no、いくつかのベクトル、ベクトルのセットであるS_nである入力を持っています。そして私は文字通りロジスティック回帰モデルを適合させます。そしてこれは私にパラメータベータを与えます。
そして、これにより、同じアイテムのセットを持つ新しい個人に対して、今度は個人のSを差し込み、ベータを通してプッシュし、彼らがアイテムを選択するかしないかについて予測を行うことができます。ですから、前回の授業で述べたように、うまくいけばロジスティック回帰は馴染み深いものです。繰り返しになりますが、機械学習101です。
ですから、あなたはいつも実行する同じ機構を実行するでしょう。うまくいけば、ロジスティック回帰で実行するものです。しかし今、あなたが適合しているデータは、選択にわたるこれらの選択です。あるいは二値選択です。たくさんの楽しい高度なこともできます。ですから、明白で、おそらく興味深いものは、異なるノイズモデルを選択することです。
ですから、ロジスティックの代わりに標準正規分布を選択すると仮定します。そうすると、ロジスティックモデルではなく、プロビット型の二値選択モデルが得られることを示すことができます。
6.2 ノイズモデルとしての極値分布
講師: これについて何か質問はありますか?先ほど、誰かが選好を持たない場合に何が起こるかについて質問がありました。これがどのようにそれを説明するのか理解できません。なぜなら、誰かが選好を持たない場合、あなたのベータパラメータを学習すると、それでも何らかの推論された選好が生じるように思えるからです。
学生: ええ、二値設定ではうまく適合しないでしょう。ですから、おそらく少なくとも3つのオプションが必要です。選ぶ、選ばない、選好なし。
講師: この問題の代替設定として議論したことを使用したい場合、私は新しい選択、いわゆる「選択」を作ります。それは無選択です。そして、それを私の、ですから今、可能なオプションの三つ組があります。もしそのようにするなら、このモデルは使えません。少し違うことをします。すぐに示します。それは一般的な文脈に適合します。3つのオプションのために修正する必要があるだけです。
あなたの質問は、暗黙的に無選択の選択をモデル化しているということでもあったと思います。
学生: はい、それがこの種の設定を使用するトレードオフです。
講師: 2つのサンプルまたは2人の個人が異なる選択をすることについて、どう考えればよいでしょうか?それは異なる個人に対して異なる学習につながるでしょうか?
学生: ええ。質問は、複数の個人をどう扱うか、そして潜在的に異なる選択を行うかということです。いくつかの異なるオプションがあります。繰り返しになりますが、機械学習の他のすべてのものと同様に、あなたは明示的なモデリング仮定を行います。
そしてモデリング仮定は重要であり、結果の質に影響を与えます。そして、あなたは通常私たちが仮定を行うすべての方法でこれらすべての仮定を行います。例えば、いくつのサンプルがあるか、のようなことです。ですから、過学習する可能性が高いか?そのため、より制限的な仮定またはより制限的でない仮定を行います、そのようなことです。これについては少し後で簡単に話します。
ですから、複数の個人のような何かについて、1つのモデリングオプションは、彼らが全員同じ根底にある効用関数を持つと仮定することです。ですから、彼らは同じ方法で選択を行います。ですから、私は彼らを同じ根底にある効用モデルの複数の観測として考えるだけです。別のオプションは、彼らが異なる効用を持つということです。
ですから、少なくともこのモデルでは、彼らを共同でモデル化することから何の利益も得られません。ですから、彼らのすべてに対して個別の選択モデルを持つこともできます。他のモデリング仮定を行うこともできます。別のモデリング仮定は、彼らが異なるベータを持つが、ベータが何らかの形で結びついているということかもしれません。おそらく、彼らは互いに加算されているか、個人のセット全体で。
ベータのセットは低ランクであるというのも、例えば、あなたが行うことができる別の暗黙的な選択です。ですから、通常持つであろうすべての自由度です。これが満足のいく答えかどうかわかりませんが、明確な答えは、あなたがモデリングについて行う決定は、合理的だと思う仮定に依存するということです。実用的な移動性の低さ、機械学習モデルを実際に適合させるために通常行う実用的な選択とトレードオフします。
6.3 特徴量の差分による表現
学生: 少し混乱しています。このスライドと前のスライドのつながりを説明していただけますか?
講師: 確かに。前のスライドは話していました。実際、これを文字通り行うと思います。いや、していません。さて、2つ前のスライドだと思います。うまくいけばシリーズが明確になります。
ですから、ここでは任意のセットにわたる離散選択について話しています。ここでの重要な仮定は、何らかの集合的に網羅的で、相互に排他的で、有限のオプションのセットがあるということです。ですから、これらすべてのオプションにわたって、私が行っている重要な仮定は、個人が特定の文脈で、アイテム全体で行う選択は、何らかの根底にある効用関数によって支配されているということです。それは決定論的な成分と、それからいくつかのノイズ成分を持つ何らかの確率的関数です。そして学習における私の目標は、決定論的な成分を推定することです。そうすれば、サンプル全体で期待される選択を行うことができます。
ですから、これが私たちがこの問題について与えようとしている最も一般的なフレーミングです。さらに一般化する他の方法がありますが、このクラスでは私たちが行くのと同じくらい一般的です。そして、私たちがちょうど今行ったさらなる制限は、選択するkセットの選択肢を持つ代わりに、yes or no、アイテムを選ぶことに制限するだけだということです。
ですから今、私は2つのオプションしかありません。そしてjは1または2、あるいは0または1です。使いたいインデックスに依存します。あなたはjを明示的に保持する必要がないことがわかります。なぜなら、実際、私が見ていたギャップもあるかもしれません。さて、この差を明示的にモデル化することができます。
ですから、2つのオプション、二値オプション選択のためにU_n1、U_n2を持つかもしれません。ここで示すように、実際の値は重要ではありません。重要なのは差だけです。2つのオプションしかなく、単一のUを持ち、それから定数または0を持つことと等価なだけです。ですから、一度それがあれば、これまでは明確ですか?ですから、ここで再び述べられている声明は、有限の選択にわたる効用仮定のための一般的なモデルです。
私は2つのオプションに自分自身を制限するつもりです。そして私は2つのオプションを持っています。私が持っているのと同じ正確なモデルです。U_n1、U_n2。そしてここでなされている主張ですが、オフラインで自分自身で確認するのが有用です。それは、Y_n1が1に等しいこのモデル、U_n1がU_n2より大きい場合は0、そうでない場合は、効用モデルの世界では等価であるということです。
これをU tildeと呼びましょう、nが0より大きい場合、Y_n1は1に等しく、そうでない場合は0です。ここでU tildeは、まだ見えるかどうかですが、U tildeのnは、U_n1引くU_n2と呼んでいたものに等しいです。そして、これができる理由は、効用関数、またはこの全体の設定がスケール不変性、単調不変性であり、重要なのは効用の差だけであることを知っているからです。ですから、ものを折りたたむことと等価です。
ですから、折りたたむことができます。そして、もしそうすれば、ボード上にあるこのモデルで終わります。これは一般的なケースの二値バージョンです。明確ですか?ありがとうございます。良い質問です。これについて他に質問はありますか?ですから、繰り返しになりますが、うまくいけばさらに明確になります。
文字通り、このように見えるデータセットにロジスティック回帰を実行します。これは私にベータの設定の選択を与えるはずです。そして、将来の選択の予測を行うためにベータを使用します。
6.4 実装と学習アルゴリズム
講師: さて、もう少し複雑にすることができます。もう少し興味深いモデルを持つことができます。今、繰り返しになりますが、2つの選択を保持します。
しかし、効用が、ちょうど前と同じように、アイテム1対アイテム2の特徴量に明示的に依存することを許可します。ですから、実際にこのモデルと非常に似ています。似た場所に行き着くことになります。そして、ノイズ項について異なる選択をすることができます。便利な1つの選択は、アイテム1とアイテム2の異なるノイズ項に対するIID極値です。
もしそうすれば、数学を少しマッサージすると、ここでのマッサージは、明確にするために、この声明から行っています。効用はこれによって与えられ、これがオプション、yes or noです。そして、Yが1に等しい確率は何かを理解したいと思います。それは正確にU_nが0より大きい確率に等しいですか?ですから、私は文字通りそれを計算しています。
そして、それを行うために、この関数をU_nにプラグインして、代数がどう計算されるかを見るつもりです。ですから、もしこの設定でそれを行えば、解決策をいくつかの異なる方法で書くことができます。1つの方法は、効用を分離しておくことです。ですから、アイテム1を選択する確率は、アイテム1のベータのeに、それらが合計して1になることを確認するための正規化定数を加えたものです。ちょうどここで示したように、全く同じトリックを行うことができます。
これを行うことができます。これを行う異なる方法があります。しかし、もし共有ベータを持っていれば、ですから、パラメータが同じであると仮定します。それは、1 over 1 plus ベータ、Z_n1引くZ_n2のために分子項を正規化することと正確に等価です。ですから、これをどこで見たことがあるかもしれませんか?これを見た可能性が最も高い場所は、多クラスロジスティック回帰の数学を計算し、それがどのように見えるかを計算した場合です。ですから、多クラスを行うことができますが、何らかのデフォルトクラスを許可します。
そして、すべての重みが差のように見えることを示すことができます。あるいは、多クラスロジスティック回帰を見て、もし私がそれを2つのオプション間の選択だけに減らしたらどうなるか、と尋ねることができます。全く同じ数学です。ですから、もしそれを行ったことがあれば、これは馴染み深いかもしれません。もしそうでなければ、有用な練習です。
そして、実際にこのようなものをテストするかもしれません。簡単であることを確認するためです。簡単であるべきです。もしそうでなければ、計算する必要があります。ですから、代数の操作です。
7. ノイズモデルの選択
7.1 極値分布(Extreme Value)とロジスティック回帰
学生: 現実では、ノイズがIID分布であるという仮定は妥当で現実的な仮定でしょうか?
講師: ええ、素晴らしい質問です。ですから、ノイズが独立であるということは現実的な仮定かということですね。ですから、この文脈でこれが意味することは、アイテム1の選択におけるランダム性が、アイテム2の選択におけるランダム性から独立であるということです。実際の設定では、おそらく、実際にはこの2つの間にいくらかの相関があるかもしれません。数学は少し複雑になります。しかし、現代のツールでは、実際にはそれを行うのにそれほど困難ではありません。
ええ、例えば、いくつかの方法を述べますが、明らかに行うことは、おそらくパラメータを持つ階層モデルかもしれません。ノイズ、イプシロン1、イプシロン2に対して、それから相関を捉える何らかの階層的なものがあり、それを推定しようとします。それは非常に合理的なモデリング仮定だと思います。
実際に、ほとんどの応用で見るものは、このIID仮定です。ありがとうございます。ちょうど私たちが実用的にどこでもIID仮定を行い、物事が十分にうまく機能するように。それはおそらく現実ではありませんが、ここで現実ではない他のものも壊れています。ですから、私は意図的に焦点を当てています。私はこの質問が好きです。なぜなら、繰り返しになりますが、システムの設計者として、あなたがモデルについて選択を行っていることを明確にしたいからです。
そして、いつもそうであるように、あなたのモデリング選択が現実に近いほど、モデルはより正確になります。しかし、それはまた一般的にサンプルサイズのようなものとのトレードオフであり、実際にものを適合させることを可能にする実用的な選択です。ですから、私たちは真実を得ていますか?いや、おそらくそうではありません。しかし、しばしばこれは合理的な近似です。
7.2 標準正規分布とプロビット(Probit)モデル
講師: 他の選択をすることもできます。すでに述べた、あるいは少なくとも言及したように、標準ガウスノイズモデルを選択することもできます。残りの部分は、繰り返しになりますが、同じオブジェクトで遊んでいるだけです。ものと遊んでいるだけです。この場合、主に関数クラス、ノイズ分布、そしてアイテムの範囲です。
ですから、少し異なる設定です。J個の代替案までのアイテムのセットがあります。そして極値分布を使用します。あなたは再び、これが何らかの形で実用的に正しい選択であると決定することができます。あるいは、私が言うことを言うこともできます。それは、これは多クラスロジスティック回帰に到達するということです。ですから、どちらにしても、私はそれで問題ないと思います。
そして同じ方法で、極値ノイズをプロビットノイズに置き換えることができます。あなたは同じもののガウス版を得ます。私がこれを言及しているのは、これらが一般的なモデリング選択であり、人々が構築したい多くの実用的な応用だからです。
7.3 IID仮定の妥当性についての議論
講師: 相関についての質問がありました。ですから、1つのオプションは、もし私が特に相関を捉えることに興味がある場合、1つの良い選択は、例えば、ノイズがそれらがどのように互いに相関しているかを記述する何らかの共分散を持つガウスであると仮定することかもしれません。
そして今、私の仕事は線形モデルのパラメータとノイズの相関の両方を適合させ、これを使用することです。ですから、相関の構造は私の適合手順を少し変えます。標準的なツールです。ですから、本質的に、もし私が、私たちのモデル適合パッケージまたはこれらのいずれかに行けば、まあ、パッケージは今私から逃れています。scikit-learnには相関ノイズがあるとは思いません。
しかし、おそらくstatsmodelsを使用することができ、Pythonがそれを行います。あるいはRを使用して、任意の標準パッケージに投げ込みます。質問ですか、それとも自分で行うこともできますか?それも問題ありません。ですから、ますます必要ではなくなっています。
7.4 実証データとの整合性の検証
学生: ノイズが実際にどのように見えるかということですが、例えばランキングエンジンや投票のようなもので。
講師: それは良い質問です。ですから、これは、私たちが見る実証的なノイズ分布は何かということです。そして、それはここで行われた選択に似ているでしょうか?機械学習では、私が見た分析、私が見たことのある分析はほとんどありません。これはおそらく、私たちが自分たちのモデルをどれだけ検証するかについて物語っています。
私はその質問の答えを知りません。良い質問だと思います。おそらく確認するのは簡単です。どうぞ。
学生: そして、それがどのように見えるかを気にしない場合、私たちはただそれがこのように見えるかもしれないと仮定するだけです。そして、それは私たちにこのモデルを与えます。そして、私たちはそれで作業できます。私たちは実際にノイズをモデル化しようとはしません。
講師: ええ。ですから、はいといいえです。ですから、コメントは、私たちは実際にノイズが何であるかを気にするかということです。ですから、実用的に、方法は、実際に私の機械学習の帽子をかぶると、あるいは統計の帽子をかぶりたい場合でも。しかし、適合度をチェックする方法があります。これが文字通りのデータセットです。訓練-テスト分割を行うことができます。
データのサブセットに適合させ、予測セット、標準的な機械学習の用語で、どれだけうまく機能したかをチェックすることで、私のモデルがどれだけうまく機能したかを確認できます。合理的な選択を行っているかどうかの感覚を得るために、将来のデータを予測する際に高い精度を持っているからです。ですから、その観点から、エラーが高い場合、私は選択できるいくつかの介入があります。
私は特徴量化が正しくないと決定するかもしれません。ですから、もう少し特徴量を追加しようとします。ノイズモデルが間違っていると決定するかもしれません。そして、もし私が注意深ければ、実際にノイズモデルを検証し、何らかの形でノイズが間違った場所にあるかどうかを見るつもりです。そして、私のデータにより適合するようにノイズモデルを変更しようとするかもしれません。より洗練された関数クラスを試すかもしれません。ですから、ここには線形モデルがあります。
ディープラーニングモデルを試すかもしれません、何でも。あなたがするであろうすべての標準的なことです。ですから、私が本当に焦点を当てようとしていることは、繰り返しになりますが、これはエキゾチックに見えるかもしれませんが、問題を設定し、適切に変換すると、これは文字通り標準的な機械学習問題のように見えるということです。
ですから、作業は選択モデルのフレーミングから、これが予測推定のように見える方法で設定することです。そして、その設定から使用するであろうすべての標準的なツールが直接適用されます。ですから、それが機械学習の帽子です。もし私が統計の帽子をかぶれば、様々な種類の適合度のテストを行うかもしれません。他に何をしたいか行うかもしれません。しかし、良いモデルを適合させたかどうかをチェックするためのエコシステムの異なる部分のすべての標準的なトリックは、ここで直接使用するだけです。
私は、質問は最初、ノイズモデルは正しいかということだったと思います。そして、私たちが気にするかどうかについてのコメント。ですから、私たちは、最終的に良い適合を得るという範囲で気にします。そして、私たちが適合をどのように測定するかは何でもです。私は主に機械学習の世界で働いているので、通常、訓練-テスト分割を使用し、適合度の測定として標本外性能を見ます。
それは皆にとって意味がありますか?他に質問はありますか?わかりました。
8. 多項選択モデル(Multinomial Choice Models)
8.1 K個の選択肢への拡張
講師: さて、少し異なる設定です。J個の代替案までのアイテムのセットがあります。そして極値分布を使用します。あなたは再び、これが何らかの形で実用的に正しい選択であると決定することができます。あるいは、私が言うことを言うこともできます。それは、これは多クラスロジスティック回帰に到達するということです。ですから、どちらにしても、私はそれで問題ないと思います。
8.2 多クラスロジスティック回帰
講師: 少し異なる設定です。J個の代替案までのアイテムのセットがあります。そして極値分布を使用します。あなたは再び、これが何らかの形で実用的に正しい選択であると決定することができます。あるいは、私が言うことを言うこともできます。それは、これは多クラスロジスティック回帰に到達するということです。ですから、どちらにしても、私はそれで問題ないと思います。
そして同じ方法で、極値ノイズをプロビットノイズに置き換えることができます。あなたは同じもののガウス版を得ます。私がこれを言及しているのは、これらが一般的なモデリング選択であり、人々が構築したい多くの実用的な応用だからです。
8.3 相関ノイズモデル
講師: 相関についての質問がありました。ですから、1つのオプションは、もし私が特に相関を捉えることに興味がある場合、1つの良い選択は、例えば、ノイズがそれらがどのように互いに相関しているかを記述する何らかの共分散を持つガウスであると仮定することかもしれません。
そして今、私の仕事は線形モデルのパラメータとノイズの相関の両方を適合させ、これを使用することです。ですから、相関の構造は私の適合手順を少し変えます。標準的なツールです。
8.4 ガウスノイズとの組み合わせ
講師: ですから、本質的に、もし私が、私たちのモデル適合パッケージまたはこれらのいずれかに行けば、まあ、パッケージは今私から逃れています。scikit-learnには相関ノイズがあるとは思いません。
しかし、おそらくstatsmodelsを使用することができ、Pythonがそれを行います。あるいはRを使用して、任意の標準パッケージに投げ込みます。質問ですか、それとも自分で行うこともできますか?それも問題ありません。ですから、ますます必要ではなくなっています。
9. モデル適合における実践的考慮事項
9.1 複数個人のデータの扱い
学生: 2つのサンプルまたは2人の個人が異なる選択をすることについて、どう考えればよいでしょうか?それは異なる個人に対して異なる学習につながるでしょうか?
講師: ええ。質問は、複数の個人をどう扱うか、そして潜在的に異なる選択を行うかということです。いくつかの異なるオプションがあります。繰り返しになりますが、機械学習の他のすべてのものと同様に、あなたは明示的なモデリング仮定を行います。
そしてモデリング仮定は重要であり、結果の質に影響を与えます。そして、あなたは通常私たちが仮定を行うすべての方法でこれらすべての仮定を行います。例えば、いくつのサンプルがあるか、のようなことです。ですから、過学習する可能性が高いか?そのため、より制限的な仮定またはより制限的でない仮定を行います、そのようなことです。これについては少し後で簡単に話します。
9.2 プーリング vs 個別モデリング
講師: ですから、複数の個人のような何かについて、1つのモデリングオプションは、彼らが全員同じ根底にある効用関数を持つと仮定することです。ですから、彼らは同じ方法で選択を行います。ですから、私は彼らを同じ根底にある効用モデルの複数の観測として考えるだけです。別のオプションは、彼らが異なる効用を持つということです。
ですから、少なくともこのモデルでは、彼らを共同でモデル化することから何の利益も得られません。ですから、彼らのすべてに対して個別の選択モデルを持つこともできます。
9.3 階層モデルによるアプローチ
講師: 他のモデリング仮定を行うこともできます。別のモデリング仮定は、彼らが異なるベータを持つが、ベータが何らかの形で結びついているということかもしれません。おそらく、彼らは互いに加算されているか、個人のセット全体で。
ベータのセットは低ランクであるというのも、例えば、あなたが行うことができる別の暗黙的な選択です。ですから、通常持つであろうすべての自由度です。これが満足のいく答えかどうかわかりませんが、明確な答えは、あなたがモデリングについて行う決定は、合理的だと思う仮定に依存するということです。実用的な移動性の低さ、機械学習モデルを実際に適合させるために通常行う実用的な選択とトレードオフします。
9.4 バイアス-バリアンストレードオフ
講師: さて、何回か述べましたが、これを少し具体化したいと思います。ですから、問題を設定し、選択モデルの問題を設定し、個人が行っている選択を完全に記述する根底にある真の効用が存在するという重要な仮定があると述べました。そして、その問題を効果的に多クラス問題に変換する方法を示しました。
二値選択を行っている場合は二値です。バイアス-バリアンストレードオフ、過学習など、機械学習モデルを訓練しようとする際に重要なすべての標準的な決定選択が、選択モデルを適合させる際にも同じように重要です。
一般的に、ますます複雑なモデルを選択できます。一般的に、ここでのあなたの選択モデル、xからyへのマッピングのために選択する関数クラスは、複雑であればあるほど、一般的により多くのデータが必要になります。十分なデータがない場合、一般的に過学習します。つまり、実際に二重チェックですが、誰かが過学習の簡単な説明をしてくれますか?
うまくいけば、1、2回前のクラスから馴染みがあります。
9.5 過学習の問題
学生: はい。もしモデルを訓練データだけで、あるいは訓練データとテストデータで長い間訓練すると、実世界のテストデータではあまりうまく機能しない可能性があります。
講師: 正しいです。ですから、ええ、訓練性能は良いが、テスト性能は悪い。なぜなら、モデルが訓練データのすべての微妙な点を拾い上げたが、新しいデータに一般化しないからです、非公式には。しかし、繰り返しになりますが、うまくいけば以前にこれを見たことがあります。たとえ夏の間に忘れていたとしても。あるいは皆さんの中には実際にこれを実践で使用しているかもしれません。
さて、ですから、関数クラスの選択、ノイズの扱い、モデリング選択に関するすべての標準的なものは、ここで適用されます。個人間のこの問題について少し話しました。あなたが質問をしたと思います。ですから、非常にしばしば、プーリングを行うだけです。実際、私が知っているこれらのほとんどの機械学習応用では、ほとんどのモデルは個人間で区別しません。心理学や経済学のほとんどの選択モデルは区別します。
なぜなら、彼らはそれを重要なシグナルとして考えるからです。私は、私たちのこれらのツールボックスの機械学習応用が、ゆっくりとますます重要になるかもしれないことを理解しつつあるものだと思います。しかし、個人差が重要である場合、アイテムについての特徴量だけでなく、その特定のアイテムを評価している個人についての特徴量も持つモデルを選択したいかもしれません。その特定のアイテム全体で選択を行っている。
10. 順序選好モデル(Ordered Choice Models)
10.1 リッカート尺度(Likert Scale)への対応
講師: さて、これをもっと洗練させることができます。これまでは二値選択について話してきました。しかし、例えば、リッカート尺度スタイルの選好が欲しいかもしれません。ですから今、代替案と比較してアイテムをどれだけ好むかを選択しています。ですから例えば、この授業をこれまでどれだけ楽しんでいますか、という質問です。そして、これを1から5でランク付けしようとするかもしれません。
10.2 閾値パラメータの導入
講師: ですから、このようなものの標準的なモデルは、効用に加えて、二値選択だけでなく、最大k個の順序付けられた選択を同時に行うためのこれらの閾値があります。ですから、H関数のパラメータを適合させることに加えて、A、B、C、Dも見つける必要があります。それは依存します。
ほとんどの実装では、A、B、C、DとHの両方を適合させます。実際には、A、B、C、Dを事前選択することがかなりうまく機能します。ですから、閾値を事前選択し、それらの事前選択された閾値に対して最良の仕事をする関数を適合させるだけです。
10.3 Ordered Logitモデル
講師: 繰り返しになりますが、これは標準的な最尤推定問題として設定することができます。勾配降下を使用します。すべてのパラメータを適合させます。
さて、スライドを少し扱う必要があります。しかし、これを使用して実装することができます。例えば、順序付きロジットモデルのようなものを与えます。ですから、裏にある線形モデル、k個のオプションのための閾値です。効用と閾値から、すべてのk個のオプションの確率を計算することができます。ですから、1、2、3などを選択する確率です。そして観測が与えられたら、このモデルを適合させます。
10.4 パラメータ推定の方法
講師: ですから、H関数のパラメータを適合させることに加えて、A、B、C、Dも見つける必要があります。それは依存します。
ほとんどの実装では、A、B、C、DとHの両方を適合させます。実際には、A、B、C、Dを事前選択することがかなりうまく機能します。ですから、閾値を事前選択し、それらの事前選択された閾値に対して最良の仕事をする関数を適合させるだけです。繰り返しになりますが、これは標準的な最尤推定問題として設定することができます。勾配降下を使用します。すべてのパラメータを適合させます。
11. ランキングモデル
11.1 Plackett-Luceモデル
講師: スライドをここから修正しようとします。少し異なるバージョンで、一般的にPlackett-Luceモデルと呼ばれ、70年代に出てきたモデルに起因するものです。生物医学文献でランキングのために大量に使用されています。遺伝学応用に使用されることがあります。時々計量経済学で使用されます。彼らはこれを爆発ロジットモデルと呼ぶのが好きです。実際、正確には理由がわかりません。ただこれが名前だということだけ知っています。
ここに誰か知っている人はいますか?もしそうでなければ、調べるのが楽しいかもしれません。私はたぶん調べて、次のバージョンでこれを持っているべきです。しかし、非常に似た設定です。しかし今、J個のアイテムのランキングをモデル化しています。ですから、繰り返しになりますが、確率モデルです。Plackett-Luceモデルの動作方法は、この累積和があるということです。ですから、これは最初の選択の確率です。
最初の選択が与えられたら、2番目の選択の確率です。ですから、これは2から最後まで行きます。2番目の選択が与えられたら、3番目の選択の確率、あなたが行っている最後の選択まで、ずっと。ですから、それはオプションのランク付けされたセットの確率です。そして繰り返しになりますが、あなたができるすべての他の標準的な拡張です。これらは線形モデルです。そこに何らかの一般的な関数クラスを投げ込むことができます。ノイズを拡張することができます。
極値スタイルのノイズを使用する代わりに、プロビットノイズ、相関ノイズ、そのすべてのものを使用するかもしれません。
11.2 Exploded Logitモデル
講師: 時々計量経済学で使用されます。彼らはこれを爆発ロジットモデル(Exploded Logit Model)と呼ぶのが好きです。実際、正確には理由がわかりません。ただこれが名前だということだけ知っています。
ここに誰か知っている人はいますか?もしそうでなければ、調べるのが楽しいかもしれません。私はたぶん調べて、次のバージョンでこれを持っているべきです。
11.3 累積確率による定式化
講師: しかし、非常に似た設定です。しかし今、J個のアイテムのランキングをモデル化しています。ですから、繰り返しになりますが、確率モデルです。Plackett-Luceモデルの動作方法は、この累積和があるということです。ですから、これは最初の選択の確率です。
最初の選択が与えられたら、2番目の選択の確率です。ですから、これは2から最後まで行きます。2番目の選択が与えられたら、3番目の選択の確率、あなたが行っている最後の選択まで、ずっと。ですから、それはオプションのランク付けされたセットの確率です。
11.4 生物医学研究での応用
講師: 一般的にPlackett-Luceモデルと呼ばれ、70年代に出てきたモデルに起因するものです。生物医学文献でランキングのために大量に使用されています。遺伝学応用に使用されることがあります。
12. 合理性と推移性の仮定
12.1 推移性の仮定(A>B, B>C → A>C)
講師: さて、これまで数回述べたことをまとめます。ですから、繰り返しになりますが、重要な設定と問題は、選択クエリの個人の反応を測定し、選好について決定を行う人々を観察していることです。なされている重要な仮定は、この意思決定が効用関数によって支配されているということです。
そして、その効用関数のモデルについて選択を行います。そしてそれがあれば、一般的に、アイテムとおそらく個人を記述する特徴量があります。そして、問題を機械学習問題として設定することができます。そして、そのモデルのパラメータを適合させます。これにより、将来の観測のために使用できる予測、またはモデルが得られます。
そして標準的な最尤推定を使用します。正則化を追加するかもしれません。あなたのモデルのために行うであろうすべての標準的なことです。モデリングやその他の設定について、これまでに何か質問はありますか?
学生: はい。
講師: はい。
学生: 前のスライドは順序ではなくカウントを強制していますよね?ですから、これは観測がランク付けされた順序である設定で有用です。
講師: ですから、あなたが人に行うように求めることは、アイテム1からJまでをランク付けすることです。ランク付けされた順序を観測します。ですから、すべての個人が来るたびに、J個のアイテムを取得し、それらを順序付けます。ですから、観測はこれらの順序付けられたリストです。順序付けられたリストの確率モデルが欲しいです。
そして順序付けられたリストの簡単な確率モデル、Plackett-Luceモデルが行うことは、この順序付けられたリストの分布は、リスト上の最初のものを選ぶ確率です。最初のものを選んだことを条件として、リスト上の2番目のものを選ぶ確率、2番目、3番目、4番目、Jまでずっと選ぶ確率です。
そして、これは正確にリスト上の最初のものを選ぶ確率のように見えます。それは正規化された合計です。最初のもののスコアが正規化されています。ですから、その最初の選択を条件として、私は他のすべての選択を見ます。2からJです。そして、これは2から始まる合計です。1からの代わりに。そして、最後までこれを続けます。明確ですか?
12.2 循環選好の問題
学生: はい。ありがとうございます。
講師: はい。
学生: 例えば、3つのオプションにわたって選好を学習しようとしていて、誰かが循環的な選好を持っている場合、何が起こるのか疑問に思っています。
講師: ええ、素晴らしい質問です。ですから、質問は、このモデリング仮定は、明示的には述べませんでした。述べるべきだと思います。実際、わかりません。
しかし、ここでの重要な仮定は、遠くに行きすぎました。ここでの重要な仮定は、選択が効果的に線形的に順序付け可能であるようなものだということです。これは効用型を使用する上での重要な公理の1つです。人々がこれを言うのが好きな1つの方法、特に経済学では、人々が合理的な選択を行っている、または非合理的だと仮定しているということです。
そして、ここでの合理性は正確に、あなたがこの推移性の混乱、つまりAがBより大きく、BがCより大きく、そしてCがAより大きいというようなことに終わらないことを意味します。この設定はノイズ以外でそれが起こることを許可しません。しかし、少なくとも順序付けの期待される動作の観点では、すべてのオプション、選好は推移的であると仮定します。この変わった順序付けの問題はありません。それをモデル化するためには、根底にあるモデルを変更する必要があります。そしてそれが重要なものの1つです。
実際、あなたがこれを質問したことが本当に好きです。なぜなら、繰り返しになりますが、これはこの種のモデルを使用する上での重要な仮定であり、それは破られる可能性があるからです。ですから、これが破られた場合、何をするかもしれませんか?ですから、1つのオプションは、時々この推移性の欠如は、十分に豊富な特徴量を持っていないことによって説明できることです。もう少し特徴量を加えると、物事が破られます。
同様のクラスでいくつかの非推移的な選好を許容する他のクラスのモデルがあると思いますが、十分に似ています。しかし一般的に、これらの設定のほとんどでは、いわゆる「真の選好」はいわゆる「合理的」であると仮定します。
12.3 合理性仮定が破れる場合の対処
講師: 今年はこれを行っていません。しかし昨年、私たちは部屋に心理学者とマーケティングの人々がいて、この楽しい会話をしました。実際にこのノイズのアイデアと結びついています。これらの仮定を破る選好の観測を説明するかもしれない1つの方法です。そして、私たちが選好の観測を見るとき、これは人間が非合理的であることを意味するのかという質問がありました。ですから、それは問題ですか?それは悪い言い方ですか?そして、これは私が意味することではありませんが、言い方が不足しています。
人間が問題なのでしょうか、なぜなら彼らが私たちのモデルとマッチしていないからですか?それとも私たちのモデルなのか、文脈が正しく設定されていないのでしょうか?そして私にとって説得力のある答えだと思うのは、論文を調べるべきです。そして私たちはそれを読書リストに追加するかもしれないと思います。しかし私にとって説得力のある答えは、あなたが見るとき、さて、1つの極端は、合理性の仮定は完全に破られているということです。そして私たちはそれを使用すべきではありません。私たちは少なくとも1つの講演を持つと思います、1週間かそこらで。
強い合理性の仮定が人間の選択にとって良い仮定であるかどうかについて話します、特に言語モデルのような複雑な設定では。ですから、その質問に少し関わります。別の設定は、私たちが正しい方法で問題をモデル化していないということです。これは「もっと特徴量を追加する」または「もっと文脈を追加する」のバージョンです。
そしてもし十分な適切な文脈があれば、私たちはほとんど常に人間を合理的として考えることができます。私の理解では、これはまだ、例えば経済学や、この問題についてはるかに注意深く考える他の場所での議論です。
私はそれに対する良い答えを知りません。ですから、ここでは、私たちはそれを実用的なモデリング選択として考えるべきだと思います。
12.4 特徴量の追加による改善
講師: ですから、これが破られた場合、何をするかもしれませんか?ですから、1つのオプションは、時々この推移性の欠如は、十分に豊富な特徴量を持っていないことによって説明できることです。もう少し特徴量を加えると、物事が破られるかもしれません。
同様のクラスでいくつかの非推移的な選好を許容する他のクラスのモデルがあると思いますが、十分に似ています。しかし一般的に、これらの設定のほとんどでは、いわゆる「真の選好」はいわゆる「合理的」であると仮定します。
別の設定は、私たちが正しい方法で問題をモデル化していないということです。これは「もっと特徴量を追加する」または「もっと文脈を追加する」のバージョンです。そしてもし十分な適切な文脈があれば、私たちはほとんど常に人間を合理的として考えることができます。
12.5 人間の非合理性 vs モデルの不完全性の議論
講師: 今年はこれを行っていません。しかし昨年、私たちは部屋に心理学者とマーケティングの人々がいて、この楽しい会話をしました。実際にこのノイズのアイデアと結びついています。これらの仮定を破る選好の観測を説明するかもしれない1つの方法です。そして、私たちが選好の観測を見るとき、これは人間が非合理的であることを意味するのかという質問がありました。ですから、それは問題ですか?それは悪い言い方ですか?そして、これは私が意味することではありませんが、言い方が不足しています。
人間が問題なのでしょうか、なぜなら彼らが私たちのモデルとマッチしていないからですか?それとも私たちのモデルなのか、文脈が正しく設定されていないのでしょうか?そして私にとって説得力のある答えだと思うのは、論文を調べるべきです。そして私たちはそれを読書リストに追加するかもしれないと思います。しかし私にとって説得力のある答えは、あなたが見るとき、さて、1つの極端は、合理性の仮定は完全に破られているということです。そして私たちはそれを使用すべきではありません。私たちは少なくとも1つの講演を持つと思います、1週間かそこらで。
強い合理性の仮定が人間の選択にとって良い仮定であるかどうかについて話します、特に言語モデルのような複雑な設定では。ですから、その質問に少し関わります。
私の理解では、これはまだ、例えば経済学や、この問題についてはるかに注意深く考える他の場所での議論です。私はそれに対する良い答えを知りません。ですから、ここでは、私たちはそれを実用的なモデリング選択として考えるべきだと思います。
私たちは、これが確実に破られているいくつかの例と、それが破られたときに何をすべきかを考えるためのいくつかのツールを少し後でカバーします。しかし、それはすぐに哲学的になります。興味深く哲学的だと思います。しばしば、これらの種類の合理性の仮定が成り立たないデータを観測します。ありがとうございます。良い質問です。
13. 顕示選好 vs 表明選好
13.1 顕示選好(Revealed Preference):実際の行動観察
講師: さて、これまであまり話してこなかったもう1つの重要なポイントは、実際に選好を観測するとはどういう意味かということです。ですから、少なくとも2つの広い選好観測のファミリーがあります。1つは顕示選好(Revealed Preference)と呼ばれ、私は人々が実際の状況で実際の選択を行うのを観測するということを意味します。
ですから例えば、私は人々が実際に私の車のサイトに来て、彼らが選びたい車を選ぶのを観測します。しばしばこれはオフラインですが、これは実際の文脈における人々の実際の行動を捉えています。ですから、それはそのバージョンの1つです。
13.2 表明選好(Stated Preference):仮想的状況での回答
講師: もう1つのバージョンは、人々を部屋に入れることです。あなたは言います、車を買うつもりだったと想像してください。これが車のいくつかのオプションです。どの車を選ぶと思いますか?ですから、これらはしばしば表明選好(Stated Preference)と呼ばれます。
ここでの重要な違いは、一般的に人間にとって、これは仮想的だということです。ですから、あなたは例えば経済的選択を行っていません。彼らは実際にアイテムを買うためにお金を投入していません。彼らは代わりに、もし実際の設定でこの選択に直面したら、どのように選択を行うかについての心的モデルを考え抜こうとしています。
13.3 それぞれの利点と欠点
講師: ですから、表明選好の大きなプラスは、あなたが文脈の多くを制御できるということです。ですから、よく制御された実験を行うことができます。交絡因子のバランスを取り、制御することができます、そのようなことです。しかし表明選好でよく提起される大きな問題は、それが非現実的かもしれないということです。人々は何かを選ぶかもしれないと述べるかもしれません。これはしばしば、例えば選挙の選択で出てきます。
しかし彼らは特定のオプションを選ぶと述べるでしょうが、実世界で本当に選択を行う必要があるときには、実際には異なる選択をします。ですから、これは意味のある問題です。例えば私たちの分野では十分に関わられていないものの1つだと思います。ですから例えば言語モデルでは、顕示選好と表明選好の間に大きな区別をするために、下流への影響の決定に良い根拠がないという、少し奇妙なギャップがあると思います。しかし私は主張します。そしてしばしば、例えば言語モデルの実験では、私たちは表明選好のレンズを通してこれについて考えています。
誰かが部屋にいます。私は彼らに一連のマイクロ補完を与えます。私は彼らに、どちらを好みますか、と尋ねます。どちらの方法でも決定を行うのにコストはありません。それはあなたの心的モデルです、何が合理的かもしれないかの。ですから、繰り返しになりますが、これは意味のあるギャップです。
それは、あなたがいる設定に依存して、半ば議論の余地があると考えられるものです。繰り返しになりますが、表明選好の大きな問題は、人々が実際に行うであろう本当のことをあなたに話すのかどうか疑問に思うことです、もし彼らが自分の決定プロセスをシミュレートしているなら。しかし、顕示選好では、交絡因子の問題があり、カバレッジの問題があります。
ですから、人々が行う選択のセットは、利用可能なすべての選択を十分にカバーしていないかもしれません。そのため、人々が考えているかもしれないすべての異なる選択オプション全体で、人々がどう考えているかについて良い優先順位を推定できません。
13.4 実験制御 vs 現実性のトレードオフ
講師: これは明確ですか?これは実際に非常に重要なアイデアなので、それが明確であることを確認したいと思います。わかりました。これまでの議論について何か質問はありますか?
学生: ああ、私は実際に視点から好奇心があります。つまり、明らかにこれは重要な区別です。しかし、あなたはまた、モデリング選択の選好、ロジスティック、あなたが使いたいどんなモデルでも、を強調しているように見えます。そして実際にこの3つすべてがあなたの心の中で相互作用するのでしょうか?つまり、実験者は選択します。彼らは表明または顕示、あるいはこれらすべてのものも望んでいます。
講師: ええ。ですから、質問は、例えば実験者の表明対顕示の選択が、あなたが使用するかもしれない根底にあるモデルクラスと相互作用するかということですね?概念的には、選択は直交しているように見えます。実際には、それらは次のように相互作用します。
ですから、繰り返しになりますが、顕示選好では、サンプル空間に対する制御が少しありません。これが意味することは、いくつかの選択が大幅にサンプル不足であり、Xスペースの意識サンプルの一部で、モデルが悪いような推定ギャップに終わる可能性があるということです。そして、その設定での実用的な選択は、より制限されたモデルを選ぶことです。そうすれば、制限された選択肢という観点で、より良い仕事をします。もし制御実験のようなこともやっているなら、ですから、これをオプション間の制御された2サンプルテストのようなものとして考えます。
それなら、観測モデルも、良い参照モデルが何であるかについてあなたがどう考えるかに影響を与えるかもしれません。ですから、それらは相互作用しますが、少し奇妙に微妙だと思います。ですから重要です。わかりません。それは実際に良い質問です。それは私が直接考えていなかったものですが、ここでの重要なデザイン選択です。
学生: これについて考えがありますか、それとも?
講師: いいえ。実際にそれをまとめているのは初めてです。その選好に最も適した異なるモデルを実際に選択しなければならないかもしれないということです。YouTubeで、私は「これを見たくない」と言いました。しかし、とにかく私はそれをクリックし続けました。そして、モデルは誰が正しいかを選択しなければなりません。それはあなたの選択ですか、あなたの顕示選好ですか?それともあなたの表明選好ですか?
学生: 相互作用について言うとき、ですから、私が思うに、以前の質問は、観測されたデータに対して選択する学習モデルと観測プロセスについてであり、それらが、わかりません。彼らは本当に別々のモデルなのか、それとも実際には同じモデルにあるべきなのか?
講師: ああ、わかりました。ええ、ですから、私はこれをうまく言いませんでした。ですから、私が言おうとしたことをありがとうございます、これを提起してくれて。それは明確ではありませんでした。私が言おうとしたことは、そして、概念的には、それらは独立した決定のように見えます。実際には、それらは相互作用します。なぜなら、私が言ったように、もし私が実際の選好設定にいるなら、これはしばしば導きます、多くの興味深い実際の選好設定では、これは私が見るデータの特定の分布の偏りを導きます。ですから、一般的に、表明選好では、すべての人がすべての可能なオプションを選ばなければならないように実験を設計できます、そのようなことです。
本質的に、yとxの観測は、すべての可能なオプションに対して良いカバレッジを持っています。そうすれば、おそらくより複雑なモデルを適合させるのが簡単になるか、そのようなことです。一方、もし私が実際の選好設定にいるなら、サンプリングプロセスに対する制御がありません。私は世界が私に与えているものを見ているだけです。
そして一般的に、サンプリングプロセスに対する制御がないとき、より単純なモデルを使用するのが実用的です。それは行うべき合理的な決定です。そして多くの設定で、それはより良く機能する傾向があります。なぜなら、あるいはそれを行うことができます、またはより洗練されたことを行って分布シフトを制御することができます。例えば、あなたが得る偏った分布という事実に対して、それはあなたが見たいものです。それは開かれた選好のいくつかのカバレッジです。
ですから、私の答えは、それらは互いに相互作用し、相互作用は重要だということです。しかし、私はそれを少し微妙だと考えています。あるいは、それは微妙ではないかもしれません。私はそれを微妙だと考えています。
13.5 言語モデル実験における位置づけ
講師: ですから例えば言語モデルでは、顕示選好と表明選好の間に大きな区別をするために、下流への影響の決定に良い根拠がないという、少し奇妙なギャップがあると思います。しかし私は主張します。そしてしばしば、例えば言語モデルの実験では、私たちは表明選好のレンズを通してこれについて考えています。
誰かが部屋にいます。私は彼らに一連のマイクロ補完を与えます。私は彼らに、どちらを好みますか、と尋ねます。どちらの方法でも決定を行うのにコストはありません。それはあなたの心的モデルです、何が合理的かもしれないかの。ですから、繰り返しになりますが、これは意味のあるギャップです。
14. 実証的考察と実例
14.1 YouTube推奨システムの事例(子供のランダムクリック問題)
学生: ええ。ただ考えているのですが、YouTubeの例に戻ると、ラベル付けされたデータセットがあって、たくさんの人がいて、彼らに関する情報が与えられたときにどのビデオを好むかを見ているとします。私がいつも考える例は、3歳の私の娘が私の携帯電話を取り、狂ったように始めてスワイプし、クリックし、そのようなことをします。そしてそれは起こります。そして時々[聞き取れない]。それはほとんど迷惑です。ですから、もし暗黙的に使用するなら、私はビデオを完了したか、それは非常に良いシグナルですが、ただいくつかのクリーニングが必要です。そして実際には[聞き取れない]を見逃す可能性があります、もしそれを生のまま使用するだけなら。
講師: はい。繰り返しになりますが、私はこれを、現実世界は混乱していてノイズが多く、あなたは[聞き取れない]の選択を行わなければならないと考えています。
14.2 選挙における表明選好と実際の投票行動の乖離
講師: 私は選挙のものが実際に好きです。もし私が、誰に投票しますか、とこの部屋で尋ねたら、私は人々がオプションを選ぶかもしれないと思います。私たちは西海岸、カリフォルニアにいます。皆が同意するかもしれないと思います。あなたは異なる実際の選好を持っているかもしれませんが、この部屋のような場所でそれを述べることに快適さを感じないので、述べたくないかもしれません。ですから、ここには確実にギャップがあります。
表明選好があります。それは、私は選択を想像するつもりです。そして選択を想像することに加えて、あなたはまた、誰があなたに質問を尋ねているか、文脈、あなたの意見、彼らがその選択を行うあなたについてどう思うかもしれないかを考慮に入れているかもしれません。そのすべてのものが折り込まれます。
顕示選好では、あなたは人々が行う実際の選択を見ています。しばしば何らかの結果がかかっているときです。経済的または購買決定があります。それに結びついている何らかの実世界の結果があります。ですから、それは意味のあるギャップです。私はそれを本当に明確にする良い仕事をしたかどうかわかりません。これらは実際に昼と夜のように互いに異なる可能性があります。ですから、あなたの推論と選好を想像しようとすることと、実世界で実際に決定を行うことです。
そして、データは、全く同じ状況で、しかし2つの異なる設定で収集された場合、一般的に実際には一致しません。
14.3 リスク回避行動の文脈依存性
学生: あなたも気にしなければ、私たちは時間に近いことを確認したいと思います。ですから、議論は大好きです。しかし、今日の議論を終えることができるように、残りをオフラインに押すかもしれません。ですから、今日は良い会話をして、これに到達しなかったので、演習をスキップします。理想点モデルを来週に押すと思います。
ですから、実際にここで終わることができます。ですから、おそらく最後の質問だけにしましょう。
学生: 私はただ、あなたが切りたい明確なポイントがあると言おうとしていました。例えば、もし人々自身のお金が絡んでいるなら、彼らはリスク回避的である傾向があります。確かに。カーネギーのリスク選好モデルはわかりません。
講師: 確かに。
学生: そして、もし表明選好とシミュレーションのためにスプーを持っているなら、彼らは代わりに期待効用最大化者かもしれません。なぜなら、それは自分自身のお金がかかっていないからです。そして、ですから、それは私にとって、表明選好に依存して2つの異なる選好モデルが意味をなすように思える明確なケースのように思えます。
講師: ええ、私はそれらがその一部だと思います。私は、私が推測するに、点としての状況のようなそれほど明確な分離ではない追加のニュアンスがあると思います。ええ、おそらく今のところそこで終わるだけでいいかもしれません。
14.4 自己資金投入時と仮想状況での選好の違い
学生: 私はただ、あなたが切りたい明確なポイントがあると言おうとしていました。例えば、もし人々自身のお金が絡んでいるなら、彼らはリスク回避的である傾向があります。確かに。カーネギーのリスク選好モデルはわかりません。
講師: 確かに。
学生: そして、もし表明選好とシミュレーションのためにスプーを持っているなら、彼らは代わりに期待効用最大化者かもしれません。なぜなら、それは自分自身のお金がかかっていないからです。そして、ですから、それは私にとって、状況に依存して2つの異なる選好モデルが意味をなすように思える明確なケースのように思えます。
講師: ええ、私はそれらがその一部だと思います。私は、私が推測するに、点としての状況のようなそれほど明確な分離ではない追加のニュアンスがあると思います。ええ、おそらく今のところそこで終わるだけでいいかもしれません。しかし、それは良いポイントです。気にしなければ、私たちは時間ですので、残りの質問はオフラインで受け付けます。しかし、今日は良い議論でした。皆さん、ありがとうございました。
15. まとめ
15.1 標準的な機械学習問題への帰着
講師: さて、これまで何回か述べたことをまとめます。ですから、繰り返しになりますが、重要な設定と問題は、選択クエリの個人の反応を測定し、選好について決定を行う人々を観察していることです。なされている重要な仮定は、この意思決定が効用関数によって支配されているということです。
そして、その効用関数のモデルについて選択を行います。そしてそれがあれば、一般的に、アイテムとおそらく個人を記述する特徴量があります。そして、問題を機械学習問題として設定することができます。そして、そのモデルのパラメータを適合させます。これにより、将来の観測のために使用できる予測、またはモデルが得られます。
そして標準的な最尤推定を使用します。正則化を追加するかもしれません。あなたのモデルのために行うであろうすべての標準的なことです。
15.2 モデル選択と仮定の重要性
講師: 私はこれをうまく言いませんでした。私が言おうとしたことは、概念的には、それらは独立した決定のように見えます。実際には、それらは相互作用します。なぜなら、私が言ったように、もし私が実際の選好設定にいるなら、これはしばしば導きます、多くの興味深い実際の選好設定では、これは私が見るデータの特定の分布の偏りを導きます。
そして一般的に、サンプリングプロセスに対する制御がないとき、より単純なモデルを使用するのが実用的です。それは行うべき合理的な決定です。そして多くの設定で、それはより良く機能する傾向があります。あるいはそれを行うことができます、またはより洗練されたことを行って分布シフトを制御することができます。
ですから、私の答えは、それらは互いに相互作用し、相互作用は重要だということです。しかし、私はそれを少し微妙だと考えています。あるいは、それは微妙ではないかもしれません。私はそれを微妙だと考えています。
そして、話を進める中で、私たちが行っている仮定と有意義に関わることを皆さんに奨励したいと思います。私は進めながらそれらを指摘するよう努めます。これらの仮定は重要です。そしてこのクラスの一部は、選択モデルを構築しようとするときに私たちが行う仮定を批判することになるでしょう。
15.3 実践的なモデリング判断の必要性
講師: システムの設計者として、あなたがモデルについて選択を行っていることを明確にしたいと思います。そして、いつもそうであるように、あなたのモデリング選択が現実に近いほど、モデルはより正確になります。しかし、それはまた一般的にサンプルサイズのようなものとのトレードオフであり、実際にものを適合させることを可能にする実用的な選択です。
ですから、私たちは真実を得ていますか?いや、おそらくそうではありません。しかし、しばしばこれは合理的な近似です。
一般的に、ますます複雑なモデルを選択できます。一般的に、ここでのあなたの選択モデル、xからyへのマッピングのために選択する関数クラスは、複雑であればあるほど、一般的により多くのデータが必要になります。十分なデータがない場合、一般的に過学習します。
また、関数クラスの選択、ノイズの扱い、モデリング選択に関するすべての標準的なものは、ここで適用されます。これが満足のいく答えかどうかわかりませんが、明確な答えは、あなたがモデリングについて行う決定は、合理的だと思う仮定に依存するということです。実用的な移動性の低さ、機械学習モデルを実際に適合させるために通常行う実用的な選択とトレードオフします。
私が本当に焦点を当てようとしていることは、繰り返しになりますが、これはエキゾチックに見えるかもしれませんが、問題を設定し、適切に変換すると、これは文字通り標準的な機械学習問題のように見えるということです。ですから、作業は選択モデルのフレーミングから、これが予測推定のように見える方法で設定することです。そして、その設定から使用するであろうすべての標準的なツールが直接適用されます。
Stanford CS329H: Machine Learning from Human Preferences | Autumn 2024 | Preference Models
For more information about Stanford's online Artificial Intelligence programs visit: https://stanford.io/ai To learn more about enrolling in this course visit: https://online.stanford.edu/courses/cs329h-machine-learning-human-preferences To follow along with the course schedule and syllabus visit: https://web.stanford.edu/class/cs329h/ Sanmi Koyejo Assistant Professor of Computer Science, Stanford University View the entire course playlist: https://www.youtube.com/playlist?list=PLoROMvodv4rNm525zyAObP4al43WAifZz
youtu.be