2025-09-12 Stanford CS329H: メトリック誘導 — 分類問題における選好駆動型評価指標の選択

出展元

https://youtu.be/7i6WsIzZaeo?si=vOaJ3oIhriDtO9_S

キーワード

メトリック誘導（Metric Elicitation）アクティブラーニング選好学習（Preference Learning）コスト感応型分類（Cost-Sensitive Classification）

初回調査日

Dec 20, 2025 2:25 PM

※本記事は、Stanford UniversityのComputer Science科目「CS329H: Machine Learning from Human Preferences」の講義動画の内容を基に作成されています。講義の詳細情報、コーススケジュール、シラバスについては https://web.stanford.edu/class/cs329h/ でご覧いただけます。Stanfordのオンライン人工知能プログラムについては https://stanford.io/ai を、本コースの受講登録については https://online.stanford.edu/courses/ をご参照ください。

本記事では、講義の文字起こし内容を要約・再構成しております。なお、本記事の内容は講義内容を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講義動画（https://www.youtube.com/watch?v=7i6WsIzZaeo ）をご視聴いただくことをお勧めいたします。また、講義の全プレイリストは Stanford CS329Hのチャンネルでご覧いただけます。

登壇者紹介: Sanmi Koyejo氏は、Stanford UniversityのComputer Science科のAssistant Professorです。機械学習、人間の選好からの学習、アルゴリズム的公平性などの分野で研究を行っています。

1. イントロダクションと講義の位置づけ

1.1. これまでの講義の振り返り

講師： それでは始めましょう。今日の主なトピックはメトリック誘導（metric elicitation）です。この講義の目標は、これまで話してきた内容と、未来に向けた内容の両方に結びつけることです。時間にもよりますが、メトリック誘導をメカニズムデザインに結びつけるトピックにも触れる予定です。メカニズムデザインはクラスのかなり後の方で出てくるテーマですね。

前回の講義はアクティブラーニングについてでした。私たちは主に、多くの選好の引き出しや選好選択のテストを機械学習問題、本質的には分類問題やランキング問題として捉えることができるというアイデアを理解しようとしていました。最初の講義では本質的にその主張を試みました。もちろん、その後のクラスで指摘してきた多くの注意点を含めてですが。

私たちは効用最大化タイプの観点、つまりボルツマン型の効用関数と結びついた観点を仮定しました。これらは一種の規範的な主張を持つ関数です。クラスの最初からの要約を述べると、人々の表情を読み取ろうとしているので、どこまで理解されているか確認したいのですが、私たちは選好モデリングに興味を持っており、この問題を考える主要な方法の一つとして、すべてを効用推定と選好選択の方法論として捉えることを仮定しました。

ここでの鍵となるアイデアは、選択が何らかの根底にある効用によって支配されていると考え、それを推定するのに役立つモデルを構築するということです。2回目の講義で示したように、これらすべては本質的に一種の機械学習問題に帰着します。そこでは、二値選択やランク選択、その他の比較選択といった選好の選択を分類問題に変換しています。つまりこれは機械学習のように見えるわけです。

繰り返しになりますが、これはやや狭い視点ですが、支配的な視点であり、多くの研究がこれを中心に構築されてきました。次のいくつかの講義で私たちが試みたことの一つは、この視点を拡張して、マルチステークホルダーの観点や、この狭い功利主義的な問題の枠組みから欠けているかもしれない他の多くのものを含めることでした。これが前回の講義での立ち位置です。

学生A： 前回のSamによるアクティブラーニングの講義では、ライブラリデータセットの収集について話していましたが、アクティブラーニングは必ずしも効用最大化関数ではないですよね？

講師： はい。アクティブラーニングは選好学習に適用できる汎用的な手順です。今日のピッチの一部として期待しているのは、選好学習の文献に存在するギャップの一つが、より効率的にするためのアクティブラーニングだということです。今日はより強い主張、あるいは少なくとも一つの主張を述べます。実際、今すぐ言及できます。

アクティブラーニングが選好学習の設定で魅力的である理由の一つは、人間の選好から学習する際の主要なタスクが人間に質問することだということを思い出してください。私たちは文献について少し議論してきましたが、この質問が示唆するように、もっとこの点に注目すべきかもしれません。文献があり、また逸話的にも、人々は非常に早く飽きてしまうことを議論するのは難しくありません。

ですから、人々からサンプルを得る際に非常に効率的であることは良いことです。なぜなら、効用関数を学習するために多くの質問をする必要がないからです。これらのことがどのように結びつくかというと、もしあなたが人々の選好関数を学習する方法として人々からサンプルを得ることに興味があり、おそらく規範的あるいは少なくとも観察的な主張として、人々からのサンプル収集は人々が疲れるため問題があり、おそらく高コストであるため、これを非常に効率的にしたいと考えます。そして、学習をスピードアップするために知っているアクティブラーニングのツールと組み合わせることは、全体として良い組み合わせです。

1.2. 選好モデリングと効用推定の枠組み

講師： それでは、今日も前回と同じ種類のアイデアを扱います。主な違いは、効用推定問題を一般的な意味で考えるのではなく、意味のある量の研究が行われてきた特定の分野に絞り込むということです。この分野は本質的に興味深いと思います。興味深いということが、おそらくこれを提示する第一の動機です。また、選好の引き出しに関する質問をより広く捉える際に、潜在的に有用な教訓があると考えています。

具体的には、アクティブラーニングと選好学習の組み合わせという一般的な意味での問題を考えるのではなく、分類問題のメトリックを選ぶという特定の設定に絞り込みます。これは、私たちが興味を持っているより広範な事柄の一種の狭いバージョンです。この場合、引き出そうとしている効用は相対的なトレードオフです。つまり、異なる種類のコスト感応型分類問題に対して人々が持つかもしれない異なるコストです。

今日のクラスのほとんどは、この問題のバージョン、つまりこの狭い深堀りに費やされます。前回の講義との関連は、これも一種の選好引き出し問題ですが、やはり特殊なケースであり、アクティブラーニングの観点を使用するということです。質問する回数に非常に敏感になり、それが成功の主要な基準の一つになります。

良い点の一つは、これを定量化できる設定で作業するということです。これは必ずしも常に真ではありません。現代の機械学習で最も興味を持っている大きな問題の多くでは、実際に良い答えを得るために必要なクエリの数を明示的に定量化することは困難です。つまり、このアクティブラーニング問題とクエリ複雑度の定量化は難しい問題です。具体的に言うと、私はRHLF（人間のフィードバックからの強化学習）に対してこれをどのように行うか分かりません。

しかし、今日取り上げるような設定では、実際に境界を与えることができ、例えばこの種の質問に答えるために必要なサンプルの数を定量化できる研究があります。証明には立ち入りませんが、非常に単純な定理がある場合はそれを述べ、詳細については論文を参照します。

学生B： 分類のシンプルな例を挙げていただけますか？

講師： もちろん、良い質問です。実は次のスライドに入っています。

1.3. アクティブラーニングと選好学習の接続

講師： 前回の講義では、アクティブラーニングをこの問題に結びつけようとしました。アクティブラーニングのアイデアは、機械学習全般において、様々な種類の学習問題をアクティブラーニング問題として捉えることで多くの利点が見出されてきたということです。ここでのアイデアは、ラベル付けするサンプルを自然に与えられるのではなく、どの例にラベル付けが必要かを明示的に探索する手順を持つということです。

主張は、これを賢く行い、世界が正しい方法で十分に構造化されていれば、標準的な既存の発見データスタイルのラベル付けを使用するよりもはるかに速く学習できるということです。ランダムなデータラベル付けは、効率の観点から、この場合サンプル複雑度、あるいは実質的にクエリ複雑度と呼んだものの点で効率が悪い可能性があります。

これは再びここでも出てきました。学習問題で良い仕事をするために、いくつのサンプルにラベル付けする必要があるのか。前回のクラスで私たちが試みたのは、アクティブラーニングを興味深いアイデアとして議論し、それを選好学習に結びつけることでした。アクティブラーニングについて知っている多くのことを選好学習に適用でき、例えば車のナビゲーションの例などでいくつかの例を示しました。これら2つのツールを組み合わせることで、実際に多くの実世界の設定で非常に価値があることを示しました。これが今日の時点での立ち位置です。

それでは、一般的な枠組みについて何か質問はありますか？はい。

学生A： 前回のSamによるアクティブラーニングの講義は、ライブラリデータセットの収集についてでしたが、アクティブラーニングは必ずしも効用最大化関数ではないですよね？

講師： そうですね。アクティブラーニングは汎用的な手順です。

学生A： 適用できる...

講師： ただし選好学習に適用できます。私たちが期待しているピッチの一部は、選好学習の文献に存在するギャップの一つが、より効率的にするための方法としてのアクティブラーニングだということです。今日はより強い主張、あるいは少なくとも一つの主張を述べます。実際、今すぐ言及できます。

アクティブラーニングが選好学習の設定で魅力的である理由の一つは、人間の選好から学習する際の主要なタスクが人間に質問することだということを思い出してください。私たちは文献について少し作業してきました。この質問が示唆するように、もっとこの点に注目すべきかもしれませんが、文献があり、また逸話的にも、人々が非常に早く飽きてしまうことを議論するのは難しくありません。

ですから、人々からの例を得る際に非常に効率的であることは良いことです。なぜなら、これは効用関数を学習するために多くの質問をする必要がないことを意味するからです。これらのことがどのように結びつくかというと、もしあなたが人々の選好関数を学習する方法として人々からサンプルを得ることに興味があり、おそらく規範的あるいは少なくとも観察的な主張として、人々からのサンプル収集は人々が疲れるため、またおそらく高価であるため問題があります。だからこれを非常に効率的にしたいのです。そして、学習をスピードアップするために知っているアクティブラーニングのツールと組み合わせることは、全体として良い組み合わせです。

2. メトリック選択の重要性

2.1. 分類問題における評価指標の選択

講師： さて、今日も前回と同じ種類のアイデアを扱います。主な違いは、効用推定問題を一般的な意味で考えるのではなく、意味のある量の研究が行われてきたサブ領域に絞り込むということです。私はこれが本質的に興味深いと思います。興味深いということが、おそらくこれを提示する第一の動機です。そして、選好の引き出しに関する質問をより広く捉える際に、潜在的に有用な教訓があると考えています。

具体的には、アクティブラーニングと選好学習問題の組み合わせという一般的な意味での問題を考えるのではなく、分類問題のためのメトリックを選ぶという特定の設定に絞り込みます。これは、私たちが興味を持っているより広範な事柄の一種の狭いバージョンです。

この場合、引き出そうとしている効用は相対的なトレードオフです。つまり、異なる種類のコスト感応型分類問題に対して人々が持つかもしれない異なるコストということです。今日のクラスのほとんどは、この問題の狭いバージョン、つまりこの深堀りに費やされます。

前回の講義との関連は、これも一種の選好引き出し問題ですが、やはり特殊なケースであり、アクティブラーニングの観点を使用するということです。質問する回数に非常に敏感になり、それが成功の主要な基準の一つになります。

良い点の一つは、これを定量化できる設定で作業するということです。これは必ずしも常に真ではありません。現代の機械学習で最も興味を持っている大きな問題の多くでは、実際に良い答えを得るために必要なクエリの数を明示的に定量化することができません。つまり、このアクティブラーニング問題とクエリ複雑度の定量化は難しい問題です。具体的な声明として、私はRHLFに対してこれをどのように行うか分かりません。

枠組みや設定について他に質問はありますか？はい。

学生B： 分類のシンプルな例を挙げていただけますか？

講師： もちろん。良い質問です。実は次のスライドにあります。

2.2. 医療診断における非対称なエラーコスト

講師： この問題の設定について説明します。私が興味を持っているのは、例えばシンプルな分類モデルを構築することです。持っていただきたい心理モデル、あるいは具体化してみましょう。この多くは、様々な理由から臨床意思決定において非常に有用であることが分かっています。一般的に、実世界のほとんどの機械学習問題では、異なる種類のエラーが異なる実世界のコストを持ちます。

分類器を構築しているとします。おそらく私が気にかけているのは、分類器が犯す実際の文字通りの間違いの数です。これが私の主要な関心のメトリックであり、精度、つまりエラーの割合を気にかけています。あるいは、偽陽性が非常に高コストかもしれません。

陽性のラベル、陽性の結果を予測したが真の結果が陰性である場合です。医療の設定では、これは癌を誤って診断すること、つまり癌の診断を誤って述べることを意味するかもしれません。もちろん、これは想像できるように患者に多くの害を引き起こします。いかなる種類の誤診もそうです。そして、ご存じかもしれませんが、医療意思決定では、異なるツールや異なる種類のエラー率をより良く理解しようとしています。つまり、単にエラーを犯すということだけでなく、エラーの特定の種類が実際に重要なのです。

学習設定でこの質問を捉える方法の一つは、そのタスクに最も関連する適切なメトリックの選択について考えたり、検討したりすることです。これらの統計の一つを選ぶこと、あるいはこれらの統計を混ぜること、例えば加重平均を考えることが、これについて考える別の方法です。

例えば、私は偽陽性と偽陰性に対してはるかに敏感だとします。そして、学習問題において偽陽性の種類のエラーにはるかに多くの注意を払うように重み付けしたいのです。特定の状態の診断を誤って行うこと対、偽陰性はそうではないかもしれません。私は単に述べているだけです。多くの設定において、エラーは非対称です。つまり、犯す異なる種類の間違いは同じコストではないのです。

分類問題において、これをモデルに組み込む一つの方法は、異なる種類の間違いの非対称なコストをある程度捉える何らかの測度を考え出すことです。これは二値分類に帰着しますが、これらのシーンの多くは他の種類の学習問題に拡張できます。

2.3. 3つのモデルの比較例（精度、偽陽性率、偽陰性率）

講師： この講義では、ほとんど二値分類のケースを扱います。これは簡潔で説明しやすいからです。詳細は必要に応じて述べるようにします。ここでは、モデルが下す可能性のある決定は2種類だけです。陽性か陰性の決定を下すかもしれません。これが唯一の2つの選択肢です。ご存じのように、二値分類問題です。

そして、すべての例について世界の状態は2つだけです。正しいか、陽性か陰性かのいずれかです。不正確さの測度は、何かが陽性だと述べたが実際には陰性だった、あるいはどのようにラベル付けするかによってゼロだった場合か、あるいは何かが陰性だと予測したが真の値は陽性だったと誤って述べた場合かです。

いずれにせよ、これは間違いです。ここでの主張は、間違いのコストが非対称である場合、つまり異なる種類の間違いのコストが異なる場合、ツールを組み込むこと、人間の選好が役立つ、あるいは選好が役立つかもしれない一つの方法は、異なる種類の間違いの非対称なコストを確立するのに役立つということです。

つまり、モデルを構築したとして、それが高い精度を持ち、おそらく90%の偽陽性率、5%の偽陰性率を持っているとします。もし私が全体的なパフォーマンスの精度に敏感であれば、これは良いモデルでしょう。おそらくこれは良いモデルです。しかし、偽陽性の観点からは非常に悪いです。

これが起こる理由はたくさんあります。その一部は母集団全体の有病率に結びついている可能性があります。時にはそれがスキューの一部です。ですから、ここにモデルがあり、統計があります。ここでの重要な主張は、同じモデルに対してエラーを測定する異なる方法があり、ここに少なくとも3つがあるということです。そして、これらの3つのそれぞれが正しい答えになり得るか、あるいは何らかの組み合わせが異なる設定に対する答えになり得るということです。

別のモデルを選びましょう。これは例えば最近傍モデルの例示です。異なる学習モデルで、同じデータセット、同じ問題設定です。異なる精度を持っています。おそらくここでは89%の精度です。全体的なパフォーマンスの観点からは悪化しています。

しかし、偽陽性ではより良いです。90から50に下がりました。偽陰性でもより良いです。ちなみに、これらは実際の問題からの実数です。どこかにスプレッドシートがあるので、これらのいくつかを逆算できます。異なる種類の異なる率を見ると実際に理にかなっています。繰り返しになりますが、有病率がしばしば大きな違いを生みます。

そして、3番目のモデル、この場合はサポートベクターマシンの例示です。異なる精度の数値、異なる偽陽性の数値、異なる偽陰性の数値があります。ここでのデザイナーとしてのあなたの決定は、モデルを選ぶ必要があるということです。私は3つのモデルファミリーを探索しました。すべてのモデルを好きなように適合させました。

私は何らかの意思決定設定にいます。良いパフォーマンスの3つの異なる測度があります。全体的なパフォーマンス、偽陽性エラー、偽陰性エラーという異なるものを捉えています。選択をする必要があります。どのモデルを選ぶべきか、そして何が決定を導くかもしれないかについて、考えはありますか？議論の中でこれについてはいくつか触れましたが、グループへの質問です。もしあなたがデザイナーとしてこれに直面したら、どのモデルを選び、なぜそうするか、そして何があなたの決定を動かすかもしれないでしょうか。

2.4. コンテキストに応じた評価指標の選択

学生C： もし医療応用であれば、私は2番目のモデルを選ぶと思います。なぜなら、偽陰性をできるだけ少なくしたいからです。

講師： そうですね。それはおそらく決定について考える合理的な方法です。他に意見はありますか？

学生D： 私はデフォルトでほとんどの人にとって精度だと思います。それが誰もが見るものだと思います。他の指標をわざわざ見ないかもしれません。

講師： なるほど。偽陰性のために戦いたい人はいますか？それが重要かもしれない何か設定はありますか。

学生E： あなたが言及した癌応用のケースですね。

講師： そうですね。

学生E： 偽陽性として、偽陰性は大丈夫かもしれません。だから私は...

講師： そうですね、おそらく。例えば、過剰診断は大丈夫かもしれません。繰り返しになりますが、コンテキストによります。どうぞ。

学生F： これは別のコンテキストですが、私が考えられるのは、刑事司法システムでは誰かを誤って投獄したくないということです。

講師： それは素晴らしい例です。

学生F： 偽陽性が悪いということです。

講師： そうですね。繰り返しになりますが、少し言い換えますが、もしこれらの種類のモデルを意思決定支援の一部として使用していて、例えば再犯がよくある使用例であれば、実際に後で出てきます。そのコンテキストでは、誤って告発したり、ある種の潜在性について何らかの主張をしたりすることは、そのコンテキストでは確実に、誤った予測、過剰予測が大きな問題です。あなたが非常に心配することです。だから、その設定では異なる方向に保守的になりたいのです。

このスライドから明らかになることを願っているのは、繰り返しになりますが、この非常に狭い設定においてさえも、ほぼ全員が機械学習のコースを受講していて、これに非常に精通していますが、私が強調したい主なことは、ここでさえ、効用関数、コスト関数、損失関数を選ぶことは、実は自由な選択ではないということです。

私たちはしばしばこれを自由な選択として考えます。これについて注意深く考えないことがよくあります。このクラス全体は、効用や報酬関数を選ぶことについて考える、はるかに複雑な設定についてでした。言語モデルのパフォーマンスを測定する報酬関数をどのように選ぶか、あるいは面白さを測定するか。これは最初の例の一つだったと思います。

これらは確実に複雑で込み入ったものです。しかし、単に二値分類器を構築したいだけというような単純なものと考えるかもしれないものにおいてさえ、ここでの議論は、評価の選択は実際に複雑で文脈的であり、興味を持っている応用設定に依存する可能性があるということです。

そして、ほぼ常に、おそらく強い主張として、ほとんどの学習全体において、評価関数や効用関数の選択は、モデル設計で行っている他のすべての選択と同じくらい重要である可能性があります。なぜなら、それらは何を価値あるものとするか、何を良い結果と考えるかを完全に変える可能性があるからです。やや過小評価されていますが、今日話す研究の前提となっています。これを強調することは有用です。

3. 評価指標選択の複雑性

3.1. 単純な二値分類でも評価関数の選択は自明ではない

講師： さて、これはモデルのパフォーマンスをどのように測定するかという選択に帰着します。一つの議論、そして今日の議論の主な論点は、最終的に選ぶものは何らかのパフォーマンスメトリックであるということです。これは、モデルにおけるエラーをどのように評価しているかの定量的な記述です。

繰り返しになりますが、このクラスの観点からは、類似の等価物は本質的に一種の報酬、効用、メトリックであり、これらはほぼ同じことを意味します。異なる領域が異なる仕様を選んできたというだけのことです。しかし、私たちの観点からは、これらはすべて類似のものです。しかし、構築している機械学習モデルや手順の良さの定量的な測度の何らかの記述です。

ここでの議論は、すでに議論したように、選択は相対的なコストと利益に依存し、相対的なコストと利益をどのように定量化するかによって変わる可能性があるということです。これまで、おそらく3つの選択肢として話してきました。精度、偽陰性のみ、偽陽性のみです。

これらを加重組み合わせとして考えることもでき、それは非常に有用であることが多いことが分かります。つまり、相対的に、これらを選択するという絶対的な二値ではなく、実際に偽陽性エラーが偽陰性エラーよりもどれだけ高価かということです。もしこれを定量化できれば、これらの異なる種類の間違いに重みを与えることができ、モデルが犯す可能性のある異なるエラーの加重組み合わせを最適化するモデルの構築を考えることができます。

この場合、モデルが犯す可能性のあるエラーは、一種の異なる種類の分類エラーです。2つのタイプ、偽陽性と偽陰性です。もしエラーが好きでなければ、一種の異なる種類の正しい予測、つまりモデルが行える正しい予測に移行することができます。すぐにこれについて説明します。同じ種類のアイデアです。

真陽性と真陰性について考えることができます。陰性を正しく予測したか、陽性を正しく予測したか。これらは本質的に等価であることが分かります。今日必要であれば、これについて説明するかもしれません。

そこには多くの異なるメトリックがあります。分類の中でも、二値分類の中でも、少なくとも3つを見てきました。異なる種類の学習問題に拡張すれば、多くの異なる学習問題にわたって大量のメトリックがあります。二値分類にとどまるとしても、加重組み合わせを許可すれば、すぐに3つの一般的な選択肢から、実際には無限の選択肢に移行します。なぜなら、すべての実数値の重み付けが、このコンテキストで意味をなす測度の有効な選択だからです。

非常に迅速に、空間が爆発します。この非常に単純な設定においてさえです。クラスでこれまで話してきた、より複雑な設定については言うまでもありません。

3.2. 重み付き組み合わせによる無限の選択肢

講師： もう一つ有用な議論があります。これは今日のクラスでの多くの議論に結びつきますが、このより単純な設定においてさえ価値があると思います。なぜなら、多くの学習問題には、どのメトリックも他のメトリックと同じくらい良いという暗黙の仮定があるからです。

つまり、実際の答えは異なるかもしれないが、モデルを相対的に同じ方法で順序付けるべきであり、したがって、必要なことのためにどれかのメトリックを選べばよく、それらはすべて十分に似たように振る舞うはずだということです。機械学習で使用する必要があることのために、例えばモデルを選択する場合、訓練した後にモデルを選択するため、あるいはメトリックがあれば、それを損失関数に変換して実際に直接最適化できます。

それでは、それらは交換可能なのでしょうか、そうでないのでしょうか？これが真実ではないことを示す多くの例があります。ここに私のお気に入りの一つがあります。なぜなら、私がPhD学生だった当時、これは私にとって少なくともその時点では非常に印象的な例だったからです。メトリックが失敗する可能性がある例です。

Netflixプライズをご存じの方はいますか？まだありますね。Netflixはまだあるので、良かったです。2010年代、私が学生だった頃、これがいつ頃だったか、これより早かったと思いますが、とにかく、学界と産業界全体で、Netflixの推薦システムアルゴリズムを改善しようとする大きな興奮がありました。

彼らはこのプライズを作成し、既存の推薦の大規模なデータセットを送り出し、人々に欠損している推薦を予測するよう求めました。これはコンペティションでした。賞金は100万ドルで、当時は巨額でした。おそらく今でも、この種のコンペティションの賞金としては大したものです。

私の記憶が正しければ、1年間実施されたと思いますが、これは確認可能です。もう覚えていませんが、多くのチームがこのためのツールを構築しました。私の記憶が正しければ、このチームは少なくとも勝利チームのリーダーで、そこでアルゴリズムを展開しました。オフラインで言及できる他の色々な話もありますが、ここでは主要なストーリーだけを話します。

彼らが使用することを選んだ測度、メトリックは、実際の評価番号の予測の二乗平均平方根誤差でした。Netflixでご存じかもしれませんが、1から5つ星で評価します。すべてのユーザーについて、すべての映画について、もし彼らがその映画を評価していれば、1から5の数値があります。

Netflixがコンペティションで測定することを選んだのは、評価に対して与えた予測と実際の1から5の数値との二乗誤差差の平均、そして全体の平方根でした。RMSEがそれです。実際、詳細は重要ではないので明確ですか。それは数値の選択です。

しかし、彼らが実際に望んでいたのは推薦アルゴリズムを改善することであり、推薦について考えると、Netflixインターフェースを思い浮かべていただければ、主に重要なのはランキングの上位を正しく取得することです。上位5つ程度を、あなたが気に入る可能性が高いものにしたいのです。なぜなら、それがNetflixをオンにしたときにダッシュボードで見るものだからです。

しかし、ご存じのように、人々には、リストの上部に強いバイアスがあります。だから、上位のいくつかを取得したいのです。正確である可能性が高いように。人々がそれをクリックする可能性が高いように。そして、うまくいけばそれを気に入る可能性が高いように。しかし、クリックと好きは少し混同されていると考えられます。クリックと好きは非常に近いと仮定されています。

3.3. 評価指標の交換可能性に関する誤解

講師： 彼らが発見したのは、測度として二乗平均平方根誤差を予測することは、必ずしも実際にトップエンドのランキングで良い仕事をすることとは相関しないということでした。特に、非常に単純なアルゴリズムを考え出すことができました。PCAのような非常にシンプルなものや、単なる全体的な人気度のようなものが、このコンペティションから出てきたいくつかの方法よりもはるかに良い結果を出すことがよくありました。

コンペティションはそれ自体のコンテキストでは意味をなしていました。二乗平均誤差を最適化しようとしており、その観点からは良いアルゴリズムを得ました。しかし、実際のタスク、彼らが気にかけていた実際のタスクの観点からは、彼らは正しいメトリックを選んでいなかったことが分かりました。実際、特にトップエンドのランキングのための他の多くのメトリックがあり、それらははるかに意味をなしていました。もし彼らがそれらを選んでいたら、彼らが気にかけていたタスクにより適したモデルを得られたかもしれません。

私にとって、これは非常に顕著な例でした。タスクを考え出し、表面上は極めて合理的に聞こえるメトリックを選ぶということです。平均誤差を探すことになります。私たちは二乗損失を常に使用します。RMSEは二乗損失の小さなバリエーションです。だから非常に合理的に聞こえます。しかし、実際には悪いアイデアであり、このメトリックに関して勝つ方法は、実際にはしばしば、ここでの議論は、これが構築することを意図していた実際のタスクに対して有用でないことが多いということでした。

楽しい余談として、これをご存じの方もいるかもしれませんが、Netflixは実際には勝利した競合者のいずれも使用しなかったことが分かりました。なぜだか知っていますか？歴史の一部をご存じであれば。しかし、その一部はこれですが、最大のものではないと思います。

他に何かありますか？これは学術界や規範についての別の楽しい部分です。

学生G： コンペティションは何年でしたか？

講師： 私の記憶が正しければ、2010年頃の終わりだったと思います。2010年だと思います。

学生G： 2020年？

講師： かなり、ディープラーニングではありませんでした。

学生H： 彼らは行列分解の手法を使っていたと思います。

講師： 彼らはそれと他のコンテンツベースのものを使っていました。それが以前のものでした。短い答えは、この分野が考え出したのは、これが非常に洗練されていない行列の特別な圧縮手法の全盛期だったということです。これらの種類のベイジアン階層的手法やそのようなものがたくさんありました。

それらを実行するのは非常に高コストであることが分かりました。当時その計算レベルで人々が投資していた本番環境では実行できませんでした。そして、彼らが内部で構築していた方法は、実際に重要なことに関しては同等に良かったが、はるかに計算集約的ではありませんでした。

もう一つの楽しい悲しい逸話で、彼らにとって有用ではなかったことが分かりました。しかし、素晴らしい宣伝効果でした。彼らは100万ドル以上の価値を得たと思います。学者たちが費やした努力や、人々を引き寄せて働かせることができたことの価値です。彼らがそこから得た他の多くのものがおそらくありますが、彼らが得ると思っていた実際のものは得られませんでした。楽しい逸話です。

学生I： では、それが現実世界の教訓ですか？

講師： 現実世界の教訓です。

学生I： これが私が気にかけることです。

講師： これがクラスの教訓です。さて、反論があります。これは計算のためだけだという議論です。あなたの議論は、もし彼らが十分な計算能力を持っていたら、コンペティションで勝ったものを実行していただろうということだと思います。

反論は、コンペティションで勝ったものはRMSEに対して良かったが、私が言っているのは、彼らが気にかけていたことに対して必ずしも良くなかったということです。だから、この全体の前提は計算だけではありません。世界が完全に予測可能ではないという仮定の下で、私たちのほとんどがうまくいけば同意すると思いますが、常にノイズがあり、相対的なコスト、相対的なエラーは重要であり、タスクに対して適切に定量化することは大きな違いを生む可能性があります。

4. 実世界での失敗例

4.1. Netflixプライズの事例

講師： もう一つの例があります。これは公平性の研究から来ていますが、別の顕著な例だと思います。これは法的な応用について話していることに結びついています。これは再犯予測です。つまり、再犯のリスクです。これはNorth Pointという会社からの研究です。アルゴリズムはCOMPASSと呼ばれています。

私の記憶が正しければ、まだ存在し、使用されていると思います。しかし、目標は再犯のリスクを予測することであり、それが量刑決定における裁判官を支援するはずでした。North Pointは良いパフォーマンス、精度に興味がありましたが、ある種の公平性の概念にも敏感でした。

つまり、これは異なる人口統計グループをどのように扱うかということです。特に、彼らはキャリブレーションと呼ばれる公平性の概念を使用しました。これは大まかに、リスクの異なる確率ビンについて、異なる人口統計グループ間で合理的にキャリブレーションされているべきだということを尋ねています。それが彼らが捉えようとしていたものでした。

ProPublicaというメディア会社による事後分析がありました。彼らが行ったことは、異なるメトリックを見たことです。彼らは偽陰性率と偽陽性率を見ました。これは公平性の文献では機会均等（Equal Opportunity）と呼ばれることがあります。頭字語を間違えるかもしれません。

実際にはEOと呼ばれる2つのアルゴリズム、2つのメトリックがあり、時々混同してしまいます。しかし、参照を喜んで送ります。とにかく、偽陰性率と偽陽性率の人口統計グループ間の差異が、彼らが実際に見ていたものです。

そして、彼らが発見したのは、黒人被告が白人被告の2倍、誤って高リスクとラベル付けされる可能性が高いということでした。同様の種類の問題です。もし偽陰性を見れば、再び大きな格差を見ました。偽陽性でも大きな格差を見ました。

ですから、これが良いアルゴリズムか、これを展開したい規範的に良いものかという観点から、これは懸念されることでした。私にとって、この研究からの顕著な結論は、COMPASSアルゴリズムが公平性の問題に敏感でなかったという主張は正しくないということです。彼らは実際に公平性の概念を持ち、何かを構築しました。

異なる当事者がアルゴリズムを事後研究しましたが、異なる測度を使用し、完全に異なる結論に到達しました。ここでの議論は、アルゴリズムを構築している、引用符付きで「善意」の2人のアクターが、アルゴリズムにとって何が良い結果かもしれないかについて異なる規範的見解を持つ可能性があるということです。

異なる規範的見解から、彼らは異なる測度を選び、実際に特定のアルゴリズムをどのように評価するかについて完全に意見が一致しません。一方のアクターは、私が行うと言ったことを行ったと言います。この非常に敏感な社会的意思決定タスクのために公平なアルゴリズムを構築しました。

他の誰かが監査人です。彼らは同じタスクを見ます。同じ結果を見ますが、パフォーマンスの異なる測度、この場合は公平性の測度を使用します。彼らは完全に異なる結論に到達します。

これは、私の記憶では、この中にも楽しい逸話があるかもしれませんが、非常に興味深い学術研究につながりました。当時、技術的な公平性コミュニティには、ある種の希望と、おそらくある程度の素朴さがあったと思います。すべての異なる設定で普遍的に公平であるような黄金の測度を考え出すことができるという考えです。人々は、実際に選択するメトリックが大きな影響を与えることを、この記事まで十分に理解していなかったと思います。なぜなら、これは大きな話題を呼んだからです。

外部でもある程度の話題を呼びましたが、これを研究していた技術コミュニティ内では意味深く大きな話題を呼んだと思います。なぜなら、問題を本当に定着させ、その後の研究につながったからです。もし公平性における不可能性定理について聞いたことがあれば、それはこの研究の促進から来ています。

人々はこれをはるかに注意深く研究するようになり、主な結論は、公平性の測度を持つ二値分類問題に興味があれば、大まかに、同時に最大化しようとする1つ、おそらく2つの測度を選ぶことができますが、3つは選べないということでした。

簡単に言えば、普遍性はありません。異なるメトリックは、公平な結果として異なるものを選択するように最適化します。あるいは、純粋なメトリック選択の意味でこれについて考えたい場合、自由度は、複数の公平性の測度を選ぶと、それらすべてを同時に満たすことはできず、いくつかは壊れるということです。

同じ現象の別の例です。

4.2. COMPAS（再犯予測）の事例

講師： この時点で、私のグループはこの質問に興味を持っていました。この質問に関与することを選んだ方法の一つは、人間のステークホルダーを使用できるかどうかを尋ねることでした。これはこのクラスの前提ですが、ステークホルダーが誰であれ、その選好に合致するメトリックを選択する方法としてです。

アイデアは、正しい答えは存在しないが、おそらく特定のステークホルダーにとっては彼らにとっての正しい答えがあるということです。彼らの選好に最も合致するメトリックを効率的に選択するのに役立つアルゴリズムツールを考え出すことができるか。それがこの種の研究の前提であり、これが私たちが最終的にメトリック誘導（metric elicitation）と呼ぶことになったものにつながりました。少なくとも次のいくつかのスライドで、主要なポイントについて説明します。

これは他の多くのものに関連しています。すでにカバーしたものもあれば、後で話すものもあります。バンディットについてはまだあまり話していませんが、これから話します。だからこれらのアイデアのいくつかに関連しています。逆強化学習については少し話しましたが、これらのいくつかを結びつけました。そして、心理学や計量経済学にある種の古い中核的な文献があり、引き出し（elicitation）について考えています。

このクラスの目的では、効用推定とアクティブラーニングの組み合わせとして考えるのが良い要約だと思います。そして、繰り返しになりますが、私たちは良い分類メトリック、あるいは分類モデルに結びついたメトリックを選ぶ方法としてこれを使用することの狭い特殊ケースに興味があります。

主に二値分類メトリックの単純なケースについて話します。興味があれば、公平性の設定、多クラスの設定、他の多くの設定、そしてこれを使用できる他の多くの設定について論文を参照します。

二値分類メトリック、線形二値分類メトリックは、このように見えるものに還元できることを示すことができます。先ほど触れたように、これをエラーの観点から考えることができます。モデルが犯す可能性のある2種類のエラー、偽陽性と偽陰性があります。これは二値分類メトリックです。

そして、これを偽陽性エラー対偽陰性エラーの相対的な重みのようなものとして考えることができます。線形二値分類メトリックを引き出そうとしている場合に解決しようとしている問題は、A1とA2の数値を固定することです。

余談として、スケールは重要ではないことが分かります。これは同じことです。あるいはもっと良い言い方をしましょう。スケールは回復できません。また、スケールは実際には重要ではありません。これを拡大縮小しても、同じメトリックです。同じ分類器を選びます。同じ方法でランク付けします。つまり、実際には単調変換に対して不変です。他にもいくつかのことがあります。

ここでの見せ方は、実際には2つの数値ではないということです。実際には、数値は、例えば合計が1になるように拡大縮小できるように、少し結びついています。もしそこでαと1-αを相対的な重みとして選べば、同じ問題です。

つまり、私は分類器の母集団測度として2つの異なる種類のエラーの相対的な重みを教えてくれる数値を選ぶ必要があります。そして、もしそれらの数値を選べれば、これは二値分類問題のエラーの相対的なコストに対処し、この種の問題を解決しようとするのに有用です。

5. メトリック誘導（Metric Elicitation）の提案

5.1. ステークホルダーの選好に基づく指標選択

講師： では、ノイズなし設定について主に議論します。なぜなら、おそらく最も簡単だと思うからです。少なくともノイズなし設定から始めます。なぜなら、アルゴリズムツールが簡単明快になると思うからです。他の設定への拡張についても言及します。

すでにこれについて少し述べましたが、二値分類問題に興味がある場合、少なくともモデル全体のパフォーマンス、全体的なパフォーマンスという観点では、エラーを定量化する方法は、繰り返しになりますが、これらの4つの数値です。

真陽性、真陰性、真陽性は真の値が1でモデルが1を予測した割合、真陰性は真の値がゼロでモデルがゼロを予測した割合です。偽陽性と偽陰性は、モデルが犯している2種類のエラーです。

つまり、真の値がゼロのときに誤って1を予測する間違いを犯しているか、これがどのくらいの頻度で起こっているか、母集団全体で集約していないか。そして偽陰性エラーは、真の値が1のときに誤ってゼロを予測しているか、そしてこれを母集団全体で集約しています。

これは二値分類の混同行列（confusion matrix）と呼ばれています。これを多クラス分類の混同行列に拡張できます。2つのクラスだけでなく、可能な真の値のすべてのkクラス、可能な予測のすべてのkクラスに対してこれを行う代わりに。そして、真の値と予測のすべての可能な組み合わせに対してk×k行列があります。

通常、それらはボックス内に名前を持ちません。二値を大量に行うことが分かっているので、特定の名前で呼ぶことができます。しかし、より大きな多クラス分類設定では、汎用的な混同行列があるだけです。

明確ですか？ちなみに、クラス問題の例はないと思います。k=1からk=kまでのy、そして予測=1から予測=kまでのk×kのボックスがあり、例のそれぞれがバケットの1つに入る割合をカウントし、k×k混同行列を得ます。

ところで、線形については、少し余談ですが、あまり詳細には立ち入りませんが、人々が使用するほとんどの分類メトリック、あるいはあなたが慣れ親しんでいるものは、混同行列の何らかの関数として書けることも示すことができます。これは有用な量であることが分かります。

特に線形のもの、二値のものについては、合成関数を、この場合は非対角要素の重み付き和として考えることができます。偽陽性の数値に掛ける数値、偽陰性に掛ける別の数値です。繰り返しになりますが、調整できる自由度がいくつかあります。しかし、線形メトリックは、これら2つの数値を選ぶだけとして書けます。

5.2. アクティブラーニングとの組み合わせ

講師： さて、アルゴリズムについて少し説明します。アルゴリズムを提示する前に、少し議論するのが有用です。これには2分ほど費やすと思います。もしデータに対する精度の期待値を最大化したいとすると、指標がh(x)=yであるとします。これを分布として考えてください。もし分布が分かっていたら、最適なクラスは何か、誰か知っていますか？覚えているかもしれません。

分布が分かっているとします。p(y)、p(x)、p(x|y)、そういったものすべてが分かっています。答えが分かっていますが、精度を最大化するモデルの選択は何でしょうか？同様に、エラーを最小化します。つまり、これをhに対する最小化として書き直すことができます。間違いを犯す回数です。まったく同じ問題です。覚えていますか。以前に見たことがあるはずです。誰か推測したい人はいますか？これは確率の観点で何かになるでしょう。

これはオフラインで楽しい演習かもしれません。以前に見たことがあるはずです。あるいは見たことがあると思います。ロジスティック回帰モデルを構築すると、ロジスティック回帰はY given Xの確率を与えます。それを決定にどのように変換しますか？

学生J： 閾値を選びます。

講師： そうです。閾値を選びます。誰もが使う引用符付きの「自然な」閾値があります。分かりますか？では、もし母集団が分かっていたら、これが実際にロジスティック回帰問題で閾値を半分に選ぶ理由であることが分かります。技術文献でもこれの一部を追跡できます。

最適な意思決定規則は、p(y|x)が半分より大きければ1を選び、そうでなければゼロを選ぶことであることが分かります。これが最適な規則のようなものです。真実です。人々がこれをp(y|x)の符号として書くこともあります。申し訳ありませんが、書き直すべきです。細かいことですが重要かもしれません。

通常、陽性確率y=1 given xを使います。同じことです。半分を引き出して、閾値より大きいかチェックします。大きければ1を選び、そうでなければゼロを選びます。負の1も同じです。これをどこかで見たことがあるかもしれません。ロジスティック回帰のセマンティクスがどこから来るかという一種のものです。

アイデアは、ロジスティック回帰がこれを得てくれることを期待し、それを適切に閾値化すれば良いクラスを得るということです。もしこの問題から重み付き問題に移行したらどうなるでしょうか。

これらのセマンティクスで書き、これをより近づけるために、精度ではなくエラーにしたいと思います。これを間違いの数の最小化にします。そして、期待値、母集団を取って、2つの異なる種類のエラーを見る異なる問題を解きたいとします。

これは偽陽性です。陽性を予測したがYがゼロに等しい場合です。プラス、もう一つの種類の間違い、h(X)=0でY=1です。これは、これと全く同じことです。なぜなら、これは間違いを犯す2つの方法だからです。だから分解しているだけです。

しかし、重み付きバージョンがあるとします。ここにα1、α2、またはA1、A2を入れます。最適な分類器、これを実際に最小化する最適なhが何か、誰か知っているか、あるいは推測できますか？最適な分類器も素晴らしいパラメトリックな形式を持つことが分かります。はい。

学生K： 推測ですが、αの何らかの比率のようなものでしょうか？

講師： そうです。再び閾値分類器になります。p(y=1|x)の符号引くあるδになります。そして、実際の比率が何かは、このようなものを定義した他の論文を書いたにもかかわらず、私は覚えていないことを告白します。それは比率です。a1割るa1足すa2のようなものです。

非常に近いものですが、正確に得るためには論文を参照します。自分で証明するのは実は非常に簡単です。驚くほど簡単です。少なくとも非公式にはです。技術的な詳細の一部は面倒かもしれませんが、高レベルの証明は簡単です。

これは、少し後で話すことに使うことになる有用な特性です。ここで私が述べようとしている主なポイントは、重み付き分類損失の最適化器は、ある種の閾値分類器のように見えるということです。重み付き損失を最適化しているなら、閾値分類器、重み付き損失、そしてもう一つ言及すべきことは、重み付き損失を線形関数としても考えられるということの間に、一種のきれいな結びつきがあります。

下に書きます。つまり、重み付き損失は、誰もが適切に見えるでしょうか。多分見えないでしょう。TAやフェローは見る必要がないと思います。見る必要がある人はいますか？何人かの人が見えません。最初のものを消します。なぜなら、使わないからです。汎用的な声明で、後で役立つことが分かります。

重み付き損失や重み付き効用、このタイプのものはすべて、混同行列の線形関数として等価に書けます。あるいはこれをaの転置cとして書くこともできます。そしてトレースを取ります。これをaのベクトル化、転置、cのベクトル化として書くこともできます。

これらはすべて、重み付き効用として同じものです。すべて線形結合のような形式を持っています。私が結びつけようとしている接続は、重み付き損失、一種の重み付きエラーのようなものに興味がある場合、これらすべては、どこかに何らかの閾値を持つ何らかの種類の閾値分類器によって解決されることになります。

5.3. コスト感応型分類問題への特化

講師： では、結びつけましょう。実際には、すべての可能な分類器について、達成可能なすべての混同行列を写像することができることが分かります。これを行う方法は、パラメータ化の好みによって異なる方法でできます。

二値行列でも、4つの数値がありますが、実際には2自由度しかないことが分かります。混同行列を少し見てください。これを示す方法はたくさんありますが、1つの簡単な方法は、TPとTNの和がy=1の確率に合計される必要があることです。これは母集団定数であり、あなたが行っていることには依存しません。

同様に、この列の和も一定の定数に合計されます。あなたが選ぶ分類器とは独立して、4つの数値がありますが、これら2つの行の和が固定されているため、実際には整数の自由度しかないことを示すことができます。分類器が持つ実際の柔軟性は、この設定では4つの数値を調整できますが、2つの数値があれば、そしてこれらの4つの数値があれば、常に他の2つを計算できます。

もしこの数値があれば、全体の割合を取ってそれを除去することで、常にこの数値を計算できます。同様に、黒についても同じことができます。2自由度です。

学生L： 多クラスの場合もそうですか？

講師： 多クラスの場合は2ではありません。k×k引く1だと思います。ダブルチェックする必要があります。

学生L： でも2ではないですね。

講師： 2ではないです。そうです。クラスの数に応じて、おそらく二次的にスケールすることになります。一種の複雑になります。

学生M： カスプか何かの問題があると思うのですが。

講師： ああ、いや、それはまったく別の話で、立ち入りません。

学生M： 違うものですね。

講師： そうです。多クラスの場合は意味深く異なる可能性があり、議論しないことを選んでいる理由の一つです。非常に迅速に複雑になります。だから二値の場合にとどまります。

二値の場合、いくつかの自由度の作業を行いました。ここでの主な観察は、2つの数値ですべてを記述できるということです。ここでは、その2つの数値として真陽性と真陰性を使うことを選んでいます。

もしROC曲線を以前に見たことがあれば、これは実質的にROC曲線です。ROC曲線は本質的に、与えられた確率モデルの異なる閾値の選択をトレースしていくと、何らかの根底にある生成モデル、全体的なデータ分布の下で、特定のモデル、特定のデータセットで構築できるすべての可能な真陽性と真陰性の組み合わせを本質的にトレースできることを示すことができます。これが全空間を写像します。

私たちが気にかけている問題については、通常、ROC曲線の上部のみに関心があります。下部も写像できることが分かります。意図的に悪く分類する奇妙なことをしなければなりません。逆分類をする必要がありますが、望むならすべての可能な分類器を写像できます。

つまり、分類問題、何らかのデータ生成モデルを見て、特定のモデルに対して実行可能なすべてのTP-TNペアを写像すると、実際にその空間を完全に記述でき、素晴らしいことに、その空間の境界は条件付き確率の閾値化によって与えられます。

これは一種の素晴らしい特性です。これが意味することは、選択して使用する関数の詳細を知らなくても、特定の分類問題に対して利用可能なすべての達成可能なトレードオフを伝えることができ、それは根底にある条件付き確率のすべての可能な閾値を試すだけに写像されるということです。はい。

学生N： パレートフロンティアのようなものですか？

講師： パレートフロンティア、それは言う良い方法かもしれません。より良い言い方かもしれません。閾値化への結びつきが有用になります。それを使っていますが、本質的には2つの目的としてのTP-TNのパレートフロンティアです。

学生N： すべての可能なクラスにわたって。

講師： すべての可能なクラス、申し訳ありません。特定のデータ生成分布に対してです。設定について質問はありますか？

学生O： ここのδは何に等しいですか？

講師： δは良い質問です。δはaの何らかの関数になります。ここでδをaのg関数と呼びましょう。もしa1とa2を与えれば、δが何かを計算できます。そして論文を参照します。

学生O： この場合、πは何ですか？

講師： ああ、πは良い質問です。ありがとうございます。πは確率y=1です。自由度を明示的に写像しているだけです。混同行列で、列の和を示しました。確率y=1はπで、他の唯一の選択はy=0で、確率y=0は確率yの1引くだけです。行の和にも追加の自由度の欠如があります。

学生P： これは確率y given xですか、それとも単なる確率yですか？

講師： これは母集団全体の周辺です。y=1です。y=1 given xが完全なものです。それが私たちが扱っているオブジェクトになります。もしこれをすべての可能なxで平均すれば、...

学生P： このグラフでδはどのような役割を果たしますか？

講師： そうですね。δには役割があります。δは条件付き確率モデルの閾値です。私が主張していたのは、それがaの選択に直接写像されるということです。2秒後にその結びつけを試みます。それが有用かどうか見てみましょう。

6. 二値分類メトリックの理論的基礎

6.1. 混同行列（Confusion Matrix）の4つの要素

講師： もう一つのポイントを述べましたが、ここにすでに書いてあります。重み付き測度は混同行列要素の線形結合として機能するということです。すでにその主張をしました。これを見るにはいくつかの方法がありますが、声明として述べておきます。これを自分で証明できるものとして、補題と言うのが最良の言い方かもしれません。

凸基底があり、凸空間上で何かを最大化しようとしている場合、最大値は常に境界にあります。声明として述べます。機械学習101や最適化101の教科書に良い参照があります。ノートに参照があるとは思いませんが、参照されている論文に参照があります。

もしこれに慣れていなければ、オフラインで尋ねていただければ参照を送りますが、凸空間の線形関数を最適化している場合、最適値は常に境界のどこかにあり、使おうとしている直感は、最適値は常に境界にあるということです。

最適値は常にこれらの種類の線形関数になるということを知っています。これらの線形関数がこの種の閾値であることを知っています。条件付き確率の閾値です。この直感を使って、一種の写像しようとしています。

私たちが行おうとしている主なことは、開始点を思い出していただくと、ステークホルダーの選好に一致するaを固定したいということでした。忘れてしまったかもしれません。このすべてのエンジニアリングは、このaを閾値に変換し、一対一の対応があることを示すためのものです。

それが私たちを助ける方法は、ステークホルダーの選好に一致するメトリックを見つけることが、この境界に沿った探索に帰着するということです。したがって、私たちは推測すると、混同行列空間において名目上4次元の問題を、自由度を利用して2次元の問題に変え、分類問題の幾何学を利用して1次元の問題に変えます。

これにより、私たちの問題、人生が楽になります。しかし、根底にある目標は依然として同じです。ステークホルダーの選好に一致する何らかのモデルを見つけたいのです。質問はありますか？

6.2. 線形二値分類メトリックの定式化：A1×FP + A2×FN

講師： では、これをまとめてみましょう。実際にこれをどのように行うのでしょうか？空間を展開するのが合理的な方法であることが分かります。線形分類器、申し訳ありません、線形メトリックを見つけたいのです。つまり、ステークホルダーの選好に最も合致する重みの選択です。

実際にはこれを言及していませんでしたが、これは有用な抽象化だと思います。述べておく価値があります。これら両方について話したことについて、まずモデルが必要です。モデルを得ることを事前学習として考えることができる抽象化を人々が時々好むことがあります。全体的な分布を得るためです。

そして、選好チューニングは、あなたが最も興味を持っている意思決定設定に一致する重みや閾値を見つけることです。これは、私たちが話してきた残りの設定と少し一致します。

では、何を言うのが役立つでしょうか？アルゴリズムに直接進みます。この問題を解決できることが分かります。この論文の興味深い側面は、先ほど話したことと比較して、ノイズの源についてもう少し明示的にしようとしたことだと思います。繰り返しになりますが、ゼロノイズを仮定するのではなく。

これにより、ステークホルダーの分布から来るノイズ、アルゴリズムのある程度の誤差から来るノイズ、不確実性につながる可能性のある他の種類のノイズを考慮できます。

ここでの主なアルゴリズム的な変更は、決定論的なものではなく、探索アルゴリズムの確率的バージョンを使用することです。確率的二分法アルゴリズムを使用できます。詳細は論文、あるいはスライドと論文の両方にあります。

先ほど話したことと非常に似た動作をします。主な違いは、繰り返しになりますが、ある程度の不確実性を許容することです。重要な直感は、可能な閾値点に対する事前分布を構築するということです。

そして、人々からラベルという追加のシグナルを得るたびに、閾値がここにある可能性が高い、あるいはここにはない可能性が高いということを教えてくれる証拠を重み付けします。

実際に、正しい閾値を得るまでどれくらいかかるかという明示的な証明を示すことができます。これを、特定の点周辺の測度がいつ十分に高くなるか、例えば半分より大きくなるかとして考えることができます。

詳細には立ち入りませんが、そこにあることを言及します。時間になったので、ここで終わります。選択肢について話すとき、メカニズムデザインについて話します。おそらく、このスライドを将来の講義に移動させます。

6.3. スケール不変性と相対的な重みの重要性

講師： 今日話した主なことについて要約しましょう。メトリック誘導について話しました。これは、選好推定と分類問題の組み合わせの特定の実装です。そして、分類問題の特性のいくつかを活用することで、特に二値の場合において、メトリック選択問題を本質的に1次元探索問題に変換できることを示しました。

これにより、既製の二分探索アルゴリズムを使用でき、特定の設定において、ステークホルダーの選好に最も一致する重み付けをどれだけ迅速に特定できるかについて、いくつかの特定の主張をすることができます。

集約のためにこれをどのように使用できるかについては、非常に迅速に説明しました。これが2番目の論文です。これについてより多くの時間を費やす時間を見つけようとするかもしれません。興味深いと思うからです。これを他の種類の問題設定、例えばアルゴリズム的公平性の問題などに使用できることについては言及しませんでしたが、述べておきます。そして、最後のものについてはまったく取り上げませんでした。

今日カバーしたかったことのほとんどです。主なものをほとんどカバーしたので問題ないと思います。なぜなら、重要な直感は繰り返しになりますが、重要な結論は、一般的な学習問題と同様に、効用関数やメトリックについて多くの時間を考えてきましたが、非常に単純な、例えば二値分類問題においてさえ、その選択も重要なものであり、クラスで構築してきた多くのツールがそこでも有用であり得るということです。

特にその設定では、アクティブラーニングと選好学習の組み合わせを使用して、うまくいけばステークホルダーの選好をより良く反映する効用を選択するはるかに良い仕事をする方法として使うことができます。これが私がこれから期待したい重要な結論です。詳細はスライドにあり、おそらく宿題にもいくつかのことがあり、将来の講義では、バンディットや選好学習を支援できる他の種類のアルゴリズムツールについて話します。

7. 最適分類器の理論

7.1. ノイズなし設定での最適分類器

講師： さて、アルゴリズムについて少し説明します。アルゴリズムを提示する前に、少し議論するのが有用だと思います。2分ほど費やします。もし私が精度の最大化、つまりデータに対する期待値を最大化する最適な分類器に興味があるとします。指標h(x)=yです。これを分布として考えてください。

もし分布が分かっていたら、最適なクラスは何でしょうか？誰か知っていますか？覚えているかもしれません。分布が分かっているとします。p(y)、p(x)、p(y|x)、そういったものすべてが分かっています。答えは何でしょうか？精度を最大化するモデルの選択は何でしょうか？同様に、エラーを最小化するモデルです。

これをhに対する最小化として書き直すことができます。間違いを犯す回数です。まったく同じ問題です。覚えていますよね。以前に見たことがあるはずです。誰か推測したい人はいますか？これは確率の観点で何かになるでしょう。

これはオフラインで楽しい演習かもしれません。以前に見たことがあるはずです。あるいは見たことがあると疑います。ロジスティック回帰モデルを構築すると、ロジスティック回帰はY given Xの確率を与えます。それを決定にどのように変換しますか？

学生Q： 閾値を選びます。

講師： そうです。閾値を選びます。誰もが使う引用符付きの「自然な」閾値があります。もし母集団が分かっていれば、これが実際にロジスティック回帰問題で閾値を半分に選ぶ理由であることが分かります。技術文献でもこれの一部を追跡できます。

最適な意思決定規則は、p(y|x)が半分より大きければ1を選び、そうでなければゼロを選ぶことであることが分かります。これが最適な規則のようなものです。真実です。人々がこれをsign(p(y|x))として書くこともあります。申し訳ありませんが、書き直すべきです。細かいことですが重要かもしれません。

通常、陽性確率、つまりy=1 given xを使います。同じことです。半分を引き出して、閾値より大きいかチェックします。大きければ1を選び、そうでなければゼロ、負の1を選びます。同じことです。これをどこかで見たことがあるかもしれません。ロジスティック回帰のセマンティクスがどこから来るかという一種のものです。

アイデアは、ロジスティック回帰がこれを得てくれることを期待し、それを適切に閾値化すれば良いクラスを得るということです。

7.2. 精度最大化：閾値0.5の条件付き確率分類器

講師： これらのセマンティクスで書いて、これをより近づけるために、精度ではなくエラーにしたいと思います。これを間違いの数の最小化にします。そして、h に対する最小化です。期待値、母集団を取って、2つの異なる種類のエラーを見る異なる問題を解きたいとします。

これは偽陽性です。h(X)で、陽性を予測したがYがゼロに等しい場合です。プラス、もう一つの種類の間違い、h(X)=0でY=1です。これは、これと全く同じことです。なぜなら、これは間違いを犯す2つの方法だからです。だから分解しているだけです。

学生R： 推測ですが、αの何らかの比率のようなものでしょうか？

講師： そうです。再び閾値分類器になります。sign(p(y=1|x) - δ)です。そして、実際の比率が何かは、このようなものを定義した他の論文を書いたにもかかわらず、私は今すぐには覚えていないことを告白します。それは比率です。a1割る(a1+a2)のようなもの、非常に近いものです。正確に得るためには論文を参照します。

自分で証明するのは実は非常に簡単です。驚くほど簡単です。少なくとも非公式にはです。技術的な詳細の一部は面倒かもしれませんが、高レベルの証明は簡単です。これは、少し後で話すことに使うことになる有用な特性です。

ここで私が述べようとしている主なポイントは、重み付き分類損失の最適化器は、ある種の閾値分類器のように見えるということです。重み付き損失を最適化しているなら、閾値分類器、重み付き損失の間に、一種のきれいな結びつきがあります。

7.3. 重み付き誤差最小化：閾値δの分類器

講師： もう一つ言及すべきことは、重み付き損失を線形関数としても考えられるということです。下に書きます。つまり、重み付き損失は、誰もが適切に見えるでしょうか。多分見えないでしょう。TAやフェローは見る必要がないと思います。見る必要がある人はいますか？何人かの人が見えません。最初のものを消します。なぜなら、使わないからです。

汎用的な声明で、後で役立つことが分かります。重み付き損失や重み付き効用、このタイプのものはすべて、混同行列の線形関数として等価に書けます。あるいはこれをaの転置cとして書くこともできます。そしてトレースを取ります。これをaのベクトル化、転置、cのベクトル化として書くこともできます。

これはどのように有用でしょうか？少し余談です。では、結びつけましょう。実際には、すべての可能な分類器について、達成可能なすべての混同行列を写像することができることが分かります。これを行う方法は、パラメータ化の好みによって異なる方法でできます。

学生S： 多クラスの場合もそうですか？

講師： 多クラスの場合は2ではありません。k×(k-1)だと思います。ダブルチェックする必要があります。

学生S： でも2ではないですね。

講師： 2ではないです。そうです。クラスの数に応じて、おそらく二次的にスケールすることになります。一種の複雑になります。

学生T： カスプか何かの問題があると思うのですが。

講師： ああ、いや、それはまったく別の話で、立ち入りません。

学生T： 違うものですね。

7.4. 重み付き損失と線形関数の等価性

講師： 二値の場合、いくつかの自由度の作業を行いました。ここでの主な観察は、2つの数値ですべてを記述できるということです。ここでは、その2つの数値として真陽性と真陰性を使うことを選んでいます。

学生U： パレートフロンティアのようなものですか？

学生U： すべての可能なクラスにわたって。

講師： すべての可能なクラス、申し訳ありません。特定のデータ生成分布に対してです。

8. ROC曲線と実行可能空間

8.1. 混同行列の自由度（4つの数値だが2自由度)

講師： 設定について質問はありますか？

学生V： ここのδは何に等しいですか？

学生V： この場合、πは何ですか？

学生W： これは確率y given xですか、それとも単なる確率yですか？

講師： これは母集団全体の周辺です。y=1です。p(y=1|x)が完全なものです。それが私たちが扱っているオブジェクトになります。もしこれをすべての可能なxで平均すれば...

学生W： このグラフでδはどのような役割を果たしますか？

もう一つのポイントを述べましたが、ここにすでに書いてあります。重み付き測度は混同行列要素の線形結合として機能するということです。すでにその主張をしました。これを見るにはいくつかの方法がありますが、声明として述べておきます。これを自分で証明できるものとして、補題と言うのが最良の言い方かもしれません。

最適値は常にこれらの種類の線形関数になるということを知っています。これらの線形関数がこの種の閾値、条件付き確率の閾値であることを知っています。この直感を使って、一種の写像しようとしています。

8.2. TPとTNによる2次元表現

講師： 私たちが行おうとしている主なことは、開始点を思い出していただくと、ステークホルダーの選好に一致するaを固定したいということでした。忘れてしまったかもしれません。このすべてのエンジニアリングは、このaを閾値に変換し、一対一の対応があることを示すためのものです。

では、これをまとめてみましょう。実際にこれをどのように行うのでしょうか？空間を展開するのが合理的な方法であることが分かります。線形分類器、申し訳ありません、線形メトリックを見つけたいのです。つまり、ステークホルダーの選好に最も合致する重みの選択です。

8.3. ROC曲線としてのパレートフロンティア

講師： では、何を言うのが役立つでしょうか？アルゴリズムに直接進みます。この問題を解決できることが分かります。この論文の興味深い側面は、先ほど話したことと比較して、ノイズの源についてもう少し明示的にしようとしたことだと思います。繰り返しになりますが、ゼロノイズを仮定するのではなく。

詳細には立ち入りませんが、そこにあることを言及します。いくつかの応用研究も行いました。HCI全体についての講義がありますので、その時にこの例を使うかもしれません。時間の都合でスライドの詳細と論文はスキップします。そこでは、いくつかのステークホルダーと一緒にこのアイデアを実装し、この方法で引き出すことが他のデフォルトのアプローチよりも彼らの選好をより良く反映しているように見えることを示しました。

8.4. 条件付き確率の閾値化による境界の特徴付け

講師： 一般的な枠組みについて何か質問はありますか？大きな全体像を繰り返すと、分類問題のためのメトリック選択に興味があります。ステークホルダーに最も合致するコスト感応型メトリックを選ぼうとしています。そして私たちが行ったことは、分類問題の特性のいくつかを活用して、特に二値の場合において、メトリック選択問題を本質的に1次元探索問題に変換できるということです。

ユーザーに直接質問する方法についての質問です。このような少し複雑なものについて、どのように「このどちらを好みますか」というような質問を得ることができるでしょうか？

これは優れた質問で、実際に私の研究の大きなギャップの一つです。この枠組みは、オラクルが母集団レベルの比較を行う能力に依存しています。この例では、完璧な分類は不可能であり、一般的にこれは真実です。このことを最初に教育する必要があります。

次に、あなたが想像するかもしれない異なるトレードオフがあり、ステークホルダーに、これらのトレードオフが個々の例でどのように見えるかを定着させようとしています。試すことができる方法の一つは、偽陽性や偽陰性のエラーが何を意味するかを捉えるシナリオを考え出し、それらの状況に対する選好を尋ね、基本エラー率のようなものに基づいて、これが母集団レベルでどのように反映されるかを尋ねることです。そこから彼らの選好を得ようとします。

あなたの指摘は非常に正しいと思います。これは実際にこの種の研究の大きなギャップです。これらの種類の比較を行えるように、かなり洗練されたステークホルダーが必要です。なぜなら、これらの比較は母集団比較レベルにあるからです。

この研究の有用な拡張には、全体的な測度を指定しないことが含まれるかもしれません。重み付きコンセンサスメトリックに興味がある場合、比較を行う自然な空間はこの母集団選好レベルにあります。しかし、もし代わりに、選好がはるかに文脈的であると考える場合、つまり全体的な母集団の重みについてではなく、個々の例の重みについてである場合、問題はより複雑になります。なぜなら、測度のセットが条件付きである必要があるからです。

言い換えれば、aはxに条件付けされます。異なる空間の点に対して異なるからです。単一の重みをすべての異なるヘッドにわたってではなく。このような問題を枠組み化する方法はあります。これには、引き出し問題が少し簡単になるという大きな利点があります。なぜなら、母集団レベルではなく例レベルで行えるからです。

この人に例を与えることができます。この間違い対他の間違いのどちらを好みますか？これははるかに粒度が細かく、応答が簡単です。しかし、メトリック空間ははるかに複雑になります。

私たちは、人々の認知バイアスが母集団設定に一致するように、意図的にこのタイプのクエリを与えようとしました。なぜなら、そうでなければ、質問の尋ね方と求めているメトリックの種類との間にミスマッチが生じ、他の種類の間違いやエラーにつながる可能性があるからです。

おそらく大きな結論は、実際、寄せられた質問を考えると、HIL（Human-in-the-Loop）講義でこれについてもう少し時間を費やすかもしれませんが、この有用なバージョンは通常、アルゴリズム問題と人間問題の間の何らかの意味のある結びつきを必要とするということです。非常に重要です。

9. バイナリサーチアルゴリズム

9.1. 1次元探索問題への還元

学生X： 全体的な枠組みを見ると、必ずしも真陽性率である必要はないですよね。複雑な組み合わせで、何らかの幾何学を持っている限り、探索とクエリ複雑度を適用できます。例えば、構築する特定のモデルのコストと精度の間でトレードオフするかもしれませんが、必ずしも偽陽性と偽陰性についてではありません。

講師： そうですね。質問を言い換えると、パレートフロンティア探索を行う一般的な方法、パレートフロンティアで動作点を選ぶ方法として、これを見ることができるかということですね。はい、でもありノーでもあります。

これを実行可能にしているのは、フロンティア上の選択から、その選択を達成する特定のモデルに写像できることです。もしフルループを行うメカニズムがあれば、原理的にはそうです、同じアイデアを一般化できると思います。

これは分類設定で本当にうまく出てきます。精度対訓練速度というような、もっと複雑なものを考えている場合、それは複雑なものですね。そして、このフルループをインスタンス化する良い方法があれば、原理的には同様のアイデアを使用できます。しかし、一般的にははるかに複雑になります。これは物事がうまくいくケースです。

他のケースについては考えていませんが、方法論は、幾何学を活用して人生を楽にしようとしているということです。必ずしも二値分類に特有というわけではないと思います。確かに。

学生Y： 幾何学は特別ですよね。

講師： 幾何学は特別です。はい。

学生Y： それは凸であり、1つのオブジェクトだからですね。

講師： そうです。

学生Y： では、複雑さはどこから来るのでしょうか。線形結合を持っているという事実からですか？

講師： 凸性がどこから来るかということですね。言い方は簡単です。声明は、実行可能な混同行列の集合は凸集合であるということです。これは証明できます。凸性の重要な特性は、任意の2点を取ると、その中間点を見つけられる、あるいは申し訳ありません、任意の補間点が常に集合内にあるということです。ご存じかもしれませんが、機械学習からです。

これが凸集合の声明です。凸集合の重要な特性は、任意の2点を補間しても集合内に留まるということです。そのような集合があれば、集合を離れずに補間できない2点を選べば、それは非凸集合です。

今述べられている声明は、混同行列の凸性の証明は簡単に示せるということです。なぜなら、ROC曲線から、ROC曲線の任意の2点は分類器の重み付き組み合わせによって補間できることを知っているなら、それがその証明に必要なすべてだからです。

学生Y： 確認したかっただけですが、あなたの考えを失わせてしまいませんでしたか。

講師： いいえ、何かもっと抽象的なことについて話すときのことです。訓練速度と他の何らかのメトリックのようなものになると、どのような空間にそれが存在するのかがはっきりしなくなると思います。ランダムに選ぶだけだと主張するかもしれませんが、実際の形状が興味深くないため、同じようにはうまくいきません。

講師： そうですね。分かりません。前提は魅力的だと思います。アイデアを他のものに一般化できるという。批判も正しいと思います。これが機能するためには、探索している空間の凸性を含む、これらの特性のいくつかが真である必要があります。それが結びつきを容易にしているものです。

もし他の設定でこれを使いたい場合、それらの特性をチェックして、何が真であるかを確認するか、他の空間で機能する何かを考案する必要があります。しかし、これはコメントですが、混同空間のアイデア、あるいはどのように表にするかを試みること、パレートフロンティアのアイデア、どのように呼びたいにしても、それは有用で一般化可能なアイデアだと思います。

人々は、それを知らずにROC曲線に非常に近い研究を行うことがよくあります。それを指摘すれば、通常は異なる視点から何かを再考するきっかけになり、それは役立つ傾向があります。

学生Y： 同意します。それは良いコメントですね。一般的な設定では完全なループを持てないかもしれませんが、ここでは閾値を選ぶと、多くのモデルの選択肢になります。しかし実際には、100個のモデルや何かしかない場合があります。コストについては閾値化できません。100ドルかかるモデルがあり、110ドルかかる別のモデルがあり、その間には何もありません。

講師： そうですね、分かりません。もしかしたら、探索プロセスの有用な抽象化かもしれません。設定を超えているので、処理されたものは私が話した設定です。設定を超えると興味があると思います。拡張を試みて少し遊んでみましたが、これを完全な一般性で行ったとは思いません。オフラインで話すことができます。

9.2. ペアワイズ選好クエリによるバイナリサーチ

講師： では、残り3分です。3つの論文があって、1つを終えました。3つ目は簡単にメカニズムデザインに移せます。2つ目について数分使いましょう。興味深いと思うからです。HILについては後でまた取り上げる時間がないかもしれませんが、オフラインで見ていただけます。

2分でこれをどのように行うでしょうか？トークがあり、ポスターがあり、論文があります。見ていただけます。しかし、おそらく問題を枠組み化し、アルゴリズムについて少し説明します。先ほど話したことから多くを借りているので、これは近いと思います。

ネーミングと枠組みは少し異なりますが、先ほど話したことと多くの根底にある結びつきがあります。これも二値分類問題の設定です。心理学における逆決定理論と呼ばれる概念に言及しています。これは、他の人の選好を推測する方法について私たちがどのように考えるかを枠組み化する方法です。

他の人の選好を推測することについて考える一つの方法は、彼らの根底にある選好問題を、何らかの根底にある...私はこれを行いますが、少なくとも人間と機械の相互作用設定で明示的に述べます。

興味深い設定は、機械がいくつかのモデルを持っているということです。つまり、機械は条件付き確率を推定するこの作業を行いました。そして、分類器を見つけようとしています。決定規則を見つけようとしています。そして、いくつかのサンプルからこれを行いたいのです。

前の設定とは少し異なり、母集団レベルではなく個々のサンプルレベルでこれを行おうとします。あなたの質問に少し結びつけると、母集団メトリックを比較するのではなく、実際にもう少し幾何学を活用して、特定の例に対する探索を行い、彼らの選好に最も一致する閾値を得る方法として、異なる例のラベル付けに対する人々の選好を尋ねようとします。

これを閾値として考えることもできますし、彼らが最も興味を持っているトレードオフに最も一致する空間でのトレードオフに写像する閾値として考えることもできます。繰り返しになりますが、私たちが行ってきたことの多くと同様に、先ほど言及しなかったことですが、これは有用な抽象化です。

これら両方について、まずモデルが必要です。人々が時々好む抽象化の一つは、このモデルを得ることを事前学習として考えることです。全体的な分布を得るためです。そして、選好チューニングは、あなたが最も興味を持っている意思決定設定に一致する重みや閾値を見つけることです。これは、私たちが話してきた残りの設定と少し一致します。

では、何を言うのが役立つでしょうか？アルゴリズムに直接進みます。この問題を解決できることが分かります。この論文で先ほど話したことと比較して興味深い側面だと思うのは、ノイズの源についてもう少し明示的にしようとしたことです。繰り返しになりますが、ゼロノイズを仮定するのではなく。

これにより、ステークホルダーの分布から来るノイズ、アルゴリズムのある程度の誤差から来る可能性のあるノイズ、不確実性につながる可能性のある他の種類のノイズを考慮できます。

9.3. ユニモーダル性の仮定：線形効用関数の存在

講師： さて、もう少しアルゴリズムについて説明しましょう。実際にこれをどのように行うのでしょうか？仮にポイントワイズ探索ができるとします。実際には、そうですね。仮に探索ができるとします。最大値を見つけようとする良い方法は何でしょうか？最大値というのは、人々に質問をすることができ、質問するたびに何らかのシグナルを得られるということです。

境界上で彼らの選好に最も近い点を見つけることとして考えることもできます。これは本質的にこのδを見つけることです。あるいは、彼らの選好に一致する線形重み付けを見つけることとして考えることもできます。これは相対的なA1、A2の重みです。これらはすべて等価です。

これは探索101の問題です。この問題を解くための良いアルゴリズムは何でしょうか？繰り返しになりますが、ノイズなし設定です。物事は良好で簡単です。何を試すでしょうか？推測はありますか？

学生Z： 以前にこれを見たことがありますか？あるかもしれません。見ているべきです。もし見ていなければ、それは心配です。

講師： バイナリサーチです。

学生AA： 私のグループにいるので、私の論文のいくつかを読んでいるべきですね。

講師： 要件はありません。ただの推測です。

バイナリサーチが良いものであることが分かります。ポイントワイズで見ることができない場合でも、ペアワイズの選好クエリのみを尋ねることができる場合でも、バイナリサーチは機能することが分かります。

私ができることは、境界に沿って一連のペアワイズ選好クエリを尋ねることです。ここの分類器とここの分類器、どちらを好みますか？点から境界、線形重み付け、分類へと写像する方法を知っています。

つまり、混同空間、分類器空間、あるいは閾値空間のどれで尋ねるのが最も意味があるかに応じて、これらを尋ねることができます。もし彼らがAよりBを好むと言えば、これは最大値がどこであれ、右側のどこかにあるはずだと示唆します。

BとCをチェックします。もし彼らがCを好むなら、右側にあるはずです。これはこのクエリセットの特定のインスタンスです。CとD、何を好みますか？ Dを好みます。では右側にあるはずです。DとE、Dを好みます。だから、この最適なもの、どこにあれ、DとEの間のどこかにあることが分かります。バイナリを行うことで。はい。

学生AB： 凸性や凹性について何か知っていますか？

講師： そうですね。ここで行われている仮定があります。良い指摘です。弱い一意性の仮定が大まかに行われています。これを合理性の仮定に結びつけることもできます。良い指摘だと思います。

つまり、実際に人々の決定を駆動している効用が存在するということです。それ以上に、効用が存在します。つまり、一意の効用があるか、あるいはエラーの異なる重み付けに対するこの線形重み付けで彼らの選好を十分に近似できるということです。

それが崩れると、もちろん、少なくともここでの特定のアプローチは崩れます。このアプローチが機能するためには、このユニモーダルなものが必要で、ユニモーダル性は、探索している効用のクラス内に効用が存在するという事実から来ます。

学生AB： 標準的な探索手順を使用できるようにします。非常に良い質問です。

9.4. クエリ複雑度：log(1/ε)回のクエリでε精度

講師： 資本Aは与えられていません。これらの選好はあるAを使って構築されています。

学生AC： 優れた質問です。クエリしているすべての点は境界上の点に対応し、境界上のすべての点は、閾値の選択、Aの選択、Cの選択のいずれかと等価です。本質的に、それらはすべて等価です。

このすべての導出は、それを一種の定着させようとするためのものでした。問題と分布が与えられたとき、これらすべてを結びつけ、このすべての機構は幾何学を活用して探索空間を1次元に縮小し、これらの結びつきを作り、探索を容易にすることです。

学生AC： はい。

講師： あなたが言っているのは、ノイズフリー設定とは、人々が同じものを何度も比較する場合...

そうです。比較が実際に真の選好を反映し、エラーなしでそれらの選好を与えているということです。もしエラーがあれば、ボルツマン設定のような何らかのノイズ追加があります。もう少しノイジーな設定で拡大できる少なくとも1つの例を見ていきます。

この探索の確率的バリアントを使用できます。想像していたより時間が遅くなっていますが、少なくとも1つの例を見る時間があると思います。さて、論文にはいくつかの証明があります。詳細には立ち入りません。ここでの主な主張は、バイナリサーチの直接的な結果です。

バイナリサーチ問題、良好な問題空間での探索に対してバイナリサーチが与える保証を見るだけです。バイナリサーチ問題では、log(1/ε)ステップでε精度を得られることが分かります。推測ですが、バイナリサーチによる証明という声明です。しかし、繰り返しになりますが、興味があれば詳細は論文にあります。

さらに、より多くの仮定をするか、問題をさらに制約しない限り、これが下限であることをかなり確信しています。つまり、これより速くすることはできません。他の仮定をするか、問題をさらに構築制約しない限り、これが人々からトレードオフを推定できる最速です。

つまり、より少ないクエリを尋ねてより高い精度を得る方法はありません。少なくとも最悪ケースでは、ステークホルダーから引き出すトレードオフを推定することにおいて。これは、再び前のコメントに結びつきますが、クエリ複雑度のようなものを実際に定量化できる、十分に制約された空間です。

いくつかのノイズを追加して様々な種類の作業があります。この研究では人々をオラクルと呼んでいます。ノイズを処理するために確率的拡張を使用できます。これについては立ち入りません。他にも多くの論文があり、多クラス設定、より複雑なメトリック、そして異なる種類のステークホルダーグループ設定を処理するために見ることができます。

より応用的な研究も行いました。HCI全体についての講義があるので、そこに戻るときにこの例を使うかもしれません。時間の都合でスライドの詳細と論文はスキップします。そこでは、いくつかのステークホルダーと一緒にこのアイデアを実装し、この方法で引き出すことが他のデフォルトのアプローチよりも彼らの選好をより良く反映しているように見えることを示しました。

10. ノイズへの対処

10.1. 有限データによる段階的境界

学生AD： この境界は、母集団の真陽性と真陰性率ですよね。人間に展開したい場合、有限データがあります。有限データがどのように影響するのか疑問に思っていました。境界をぼやけさせるのか、何かそのようなものにするのでしょうか？

講師： 優れた指摘です。そうです。有限データで起こることは、滑らかな境界の代わりに段階的なものになります。このように見えることになります。これを修正する方法はいくつかあります。ROC文献で人々が使用する最も一般的な方法は、単にこれらを接続することです。なぜなら、凸包の補間は達成可能であることを示すことができるからです。

凸包を達成できる理由は、分類器の混合を行うからです。これら2つの低いものが、中間やその辺りのRSCを達成します。補間内の任意の点は、端の点を混合することで達成できます。これは少し余談です。

あなたの質問は、有限データがあるとどうなるかでした。答えは、この段階的なものになるということです。これを、このアルゴリズムが合理的なことを行う何かに変換できる問題はかなり簡単です。

学生AD： データが少ない場合、真陽性の推定が有限データセット下であるため、曲線は前後に行ったり来たりできます。

講師： それはノイズの源です。

学生AD： そうです。

講師： そうですね。その場合、バイナリサーチよりもノイズに堅牢な探索方法を使用したいでしょう。そうです。これはすべて実際に説明目的のためのものですが、実際にこの研究の元のバージョンでも、ノイズフリーを仮定してかなり遠くまで行きました。少なくとも私たちの空間での段階的なパターンのような、これらのノイズの源の少なくともいくつかに対処しました。

10.2. 確率的バイセクションアルゴリズム

講師： 論文にはいくつかの証明があります。詳細には立ち入りませんが、ここでの主な主張は、バイナリサーチの直接的な結果です。バイナリサーチ問題、良好な問題空間での探索に対してバイナリサーチが与える保証を見るだけです。

バイナリサーチ問題では、log(1/ε)ステップでε精度を得られることが分かります。推測ですが、バイナリサーチによる証明という声明です。しかし、繰り返しになりますが、興味があれば詳細は論文にあります。

より応用的な研究も行いました。HCI全体についての講義があるので、そこに戻るときにこの例を使うかもしれません。時間の都合でスライドの詳細はスキップします。論文もあります。そこでは、いくつかのステークホルダーと一緒にこのアイデアを実装し、この方法で引き出すことが他のデフォルトのアプローチよりも彼らの選好をより良く反映しているように見えることを示しました。

10.3. 事前分布と事後分布の更新

講師： この問題を解決できることが分かります。この論文の興味深い側面は、先ほど話したことと比較して、ノイズの源についてもう少し明示的にしようとしたことだと思います。繰り返しになりますが、ゼロノイズを仮定するのではなく。

10.4. 不確実性を考慮した探索

講師： 詳細には立ち入りませんが、そこにあることを言及します。時間になったので、ここで終わります。選択肢について話すとき、メカニズムデザインについて話します。おそらく、このスライドを将来の講義に移動させます。

今日話した主なことについて要約しましょう。メトリック誘導について話しました。これは、選好推定と分類問題の組み合わせの特定の実装です。そして、分類問題の特性のいくつかを活用することで、特に二値の場合において、メトリック選択問題を本質的に1次元探索問題に変換できることを示しました。

集約のためにこれをどのように使用できるかについては、非常に迅速に説明しました。これが2番目の論文です。これについてより多くの時間を費やす時間を見つけようとするかもしれません。興味深いと思うからです。

これを他の種類の問題設定、例えばアルゴリズム的公平性の問題などに使用できることについては言及しませんでしたが、述べておきます。そして、最後のものについてはまったく取り上げませんでした。

11. 実装上の課題とギャップ

11.1. 母集団レベルでの比較の難しさ

学生AE： このような少し複雑なものについて、ユーザーに直接質問する方法についてです。どのように「このどちらを好みますか」というような質問を得ることができるでしょうか？

講師： これは優れた質問で、実際に私の研究の大きなギャップの一つです。この枠組みは、オラクルが母集団レベルの比較を行う能力に依存しています。この例では、完璧な分類は不可能であり、一般的にこれは真実です。このことを最初に教育する必要があります。

次に、あなたが想像するかもしれない異なるトレードオフがあり、ステークホルダーに、これらのトレードオフが個々の例でどのように見えるかを定着させようとしています。試すことができる方法の一つは、偽陽性や偽陰性のエラーが何を意味するかを捉えるシナリオを考え出し、それらの状況に対する選好を尋ねることです。

そして、基本エラー率のようなものに基づいて、これが母集団レベルでどのように反映されるかを尋ねることができます。そこから彼らの選好を得ようとします。

11.2. ステークホルダーの理解レベルの要求

講師： この研究の有用な拡張には、全体的な測度を指定しないことが含まれるかもしれません。重み付きコンセンサスメトリックに興味がある場合、比較を行う自然な空間はこの母集団選好レベルにあります。

しかし、もし代わりに、選好がはるかに文脈的であると考える場合、つまり全体的な母集団の重みについてではなく、個々の例の重みについてである場合、問題はより複雑になります。なぜなら、測度のセットが条件付きである必要があるからです。

11.3. 個別例レベルvs母集団レベルのトレードオフ

しかし、もし代わりに、選好がはるかに文脈的であると考える場合、つまり全体的な母集団の重みについてではなく、個々の例の重みについてである場合、言い換えれば、問題はより複雑になります。なぜなら、測度のセットが条件付きである必要があるからです。

aはxに条件付けされることになります。異なる空間の点に対して異なるからです。単一の重みをすべての異なるヘッドにわたってではなく。このような問題を枠組み化する方法はあります。

これには、引き出し問題が少し簡単になるという大きな利点があります。なぜなら、母集団レベルではなく例レベルで行えるからです。この人に例を与えることができます。この間違い対他の間違いのどちらを好みますか？これははるかに粒度が細かく、応答がはるかに簡単です。

しかし、メトリック空間ははるかに複雑になります。母集団レベルの設定に認知バイアスを一致させたかったので、私たちは意図的にこのタイプのクエリを与えようとしました。

11.4. 認知バイアスと質問形式のミスマッチ

講師： 私たちは、人々の認知バイアスが母集団設定に一致するように、意図的にこのタイプのクエリを与えようとしました。なぜなら、そうでなければ、質問の尋ね方と求めているメトリックの種類との間にミスマッチが生じ、他の種類の間違いやエラーにつながる可能性があるからです。

12. 拡張と一般化

12.1. 多クラス分類への拡張(k×k-1の自由度)

学生AF： 全体的な枠組みを見ると、必ずしも真陽性率である必要はないですよね。複雑な組み合わせで、何らかの幾何学を持っている限り、探索とクエリ複雑度を適用できます。例えば、構築する特定のモデルのコストと精度の間でトレードオフするかもしれませんが、必ずしも偽陽性と偽陰性についてではありません。

学生AF： 幾何学は特別ですよね。

講師： 幾何学は特別です。はい。

学生AF： それは凸であり、1つのオブジェクトだからですね。

講師： そうです。

学生AF： では、複雑さはどこから来るのでしょうか。線形結合を持っているという事実からですか？

学生AF： 確認したかっただけですが、あなたの考えを失わせてしまいませんでしたか。

12.2. 他の学習問題への応用可能性

学生AF： 同意します。それは良いコメントですね。

学生AG： 一般的な設定では完全なループを持てないかもしれませんが、ここでは閾値を選ぶと、多くのモデルの選択肢になります。しかし実際には、100個のモデルや何かしかない場合があります。コストについては閾値化できません。100ドルかかるモデルがあり、110ドルかかる別のモデルがあり、その間には何もありません。

では、残り3分です。3つの論文があって、1つを終えました。3つ目は簡単にメカニズムデザインに移せます。2つ目について数分使いましょう。興味深いと思うからです。HILについては後でまた取り上げる時間がないかもしれませんが、オフラインで見ていただけます。

12.3. 凸空間における線形関数最適化の一般原理

それが私たちを助ける方法は、ステークホルダーの選好に一致するメトリックを見つけることが、この境界に沿った探索に帰着するということです。したがって、私たちは推測すると、混同行列空間において名目上4次元の問題を、自由度を利用して2次元の問題に変え、分類問題の幾何学を利用して1次元の問題に変えます。これにより、私たちの問題、人生が楽になります。

12.4. アルゴリズム的公平性問題への応用

講師： いくつかのノイズを追加して様々な種類の作業があります。この研究では人々をオラクルと呼んでいます。ノイズを処理するために確率的拡張を使用できます。これについては立ち入りません。他にも多くの論文があり、多クラス設定、より複雑なメトリック、そして異なる種類のステークホルダーグループ設定を処理するために見ることができます。

一般的な枠組みについて何か質問はありますか？大きな全体像を繰り返すと、分類問題のためのメトリック選択に興味があります。ステークホルダーに最も合致するコスト感応型メトリックを選ぼうとしています。そして私たちが行ったことは、分類問題の特性のいくつかを活用して、特に二値の場合において、メトリック選択問題を本質的に1次元探索問題に変換できるということです。

13. まとめと今後の展望

13.1. メトリック選択の重要性の再確認

講師： 今日カバーしたかったことのほとんどです。主なものをほとんどカバーしたので問題ないと思います。なぜなら、重要な直感は繰り返しになりますが、重要な結論は、一般的な学習問題と同様に、効用関数やメトリックについて多くの時間を考えてきましたが、非常に単純な、例えば二値分類問題においてさえ、その選択も重要なものであり、クラスで構築してきた多くのツールがそこでも有用であり得るということです。

特にその設定では、アクティブラーニングと選好学習の組み合わせを使用して、うまくいけばステークホルダーの選好をより良く反映する効用を選択するはるかに良い仕事をする方法として使うことができます。これが私がこれから期待したい重要な結論です。

13.2. 選好学習とアクティブラーニングの組み合わせの有効性

13.3. 今後の講義：バンディットとメカニズムデザイン

講師： 詳細はスライドにあり、おそらく宿題にもいくつかのことがあり、将来の講義では、バンディットや選好学習を支援できる他の種類のアルゴリズムツールについて話します。

ありがとうございました。

Stanford CS329H: ML from Human Preferences | Autumn 2024 | Model-based Preference Optimization

For more information about Stanford's online Artificial Intelligence programs visit: https://stanford.io/ai To learn more about enrolling in this course visit: https://online.stanford.edu/courses/cs329h-machine-learning-human-preferences To follow along with the course schedule and syllabus visit: https://web.stanford.edu/class/cs329h/ Sanmi Koyejo Assistant Professor of Computer Science, Stanford University View the entire course playlist: https://www.youtube.com/playlist?list=PLoROMvodv4rNm525zyAObP4al43WAifZz

youtu.be

Stanford CS329H: ML from Human Preferences | Autumn 2024 | Model-based Preference Optimization