※本稿は、ICML 2024で発表された"Fair Data Representation for Machine Learning at the Pareto Frontier"の要約記事です。発表者のSho氏と彼のアドバイザーであるThomas Strummer氏による共同研究の成果を紹介しています。
1. はじめに
1.1 機械学習におけるフェアネスの重要性と課題
機械学習とAIの情報共有や意思決定における普及が急速に進む中、フェアネスへの対応が喫緊の課題となっています。特に懸念されるのは、アルゴリズムがデータに内在するバイアスを継承してしまう可能性です。そのため、私たちの研究では、このバイアスをデータから直接除去する方法の開発に焦点を当てています。
本研究では、グループフェアネスの重要な定義の一つである統計的パリティに注目しています。統計的パリティとは、学習の結果(ŷで表される)が、センシティブな情報(zで表される)から統計的に独立していることを要求するものです。
しかし、この問題は少なくとも二つの理由から非自明です:
- センシティブな情報zが、データ内の他の特徴変数と高度に相関または依存している可能性があります。
- 統計的パリティの制約を加えることによる効用のコストが不明確です。
1.2 既存研究の限界と本研究の目的
私たちの研究以前にも、最適なフェア回帰がWasserstein-2バリセンターを用いて特徴づけられることを同時に証明した注目すべき論文が存在します。しかし、これらの研究には以下の限界がありました:
- 1次元回帰に焦点を当てており、多次元への一般化が困難でした。
- 効用の損失と統計的分散のトレードオフの最適化には一般化できませんでした。
- 理論的結果が後処理的な性質を持っているため、前処理やフェアな合成データの開発には使用できませんでした。
- フェアデータ表現やフェア合成データの設計に関する理論的保証や基礎が欠如していました。
これらの限界を踏まえ、本研究では以下の目的を設定しました:
- 理論的に証明可能なパレートフロンティアの確立
- 最適なフェアデータ表現や最適なフェア合成データの設計方法に関する理論的保証と基礎の構築
- 説明可能性と実用性を備えた手法の開発
これらの目的を達成することで、機械学習におけるフェアネスの問題に対する包括的なソリューションを提供し、より公平で信頼性の高いAIシステムの実現に貢献することを目指しています。
2. 背景
2.1 フェアネスの観点:グループフェアネスと個人フェアネス
私たちの研究では、フェアネスの二つの主要な観点のうち、グループフェアネスに焦点を当てています。特に、グループフェアネスの重要な定義の一つである統計的パリティに注目しています。
2.2 統計的パリティの定義と重要性
統計的パリティとは、学習の結果(ŷで表される)が、センシティブな情報(zで表される)から統計的に独立していることを要求するものです。つまり、予測結果がセンシティブな属性に依存しないことを保証します。
この問題は、少なくとも二つの理由から非自明です:
- センシティブな情報zが、データ内の他の特徴変数と高度に相関または依存している可能性があります。
- 統計的パリティの制約を加えることによる効用のコストが不明確です。
2.3 既存研究の成果と限界
私たちの研究以前にも、最適なフェア回帰がWasserstein-2バリセンターを用いて特徴づけられることを同時に証明した注目すべき論文がありました。しかし、これらの研究には以下の限界がありました:
- 1次元回帰に焦点を当てており、多次元への一般化が困難でした。
- 効用の損失と統計的分散のトレードオフの最適化には一般化できませんでした。
- 理論的結果が後処理的な性質を持っていたため、前処理やフェアな合成データの開発には使用できませんでした。
- フェアデータ表現やフェア合成データの設計に関する理論的保証や基礎が欠如していました。
これらの限界を克服するため、私たちは新しいアプローチの開発に取り組みました。次のセクションでは、これらの課題に対する私たちの理論的成果について詳しく説明します。
3. 理論的成果
3.1 多次元回帰への一般化
私たちの研究の最初の理論的成果は、最適フェア回帰の結果を1次元から任意の有限次元へ一般化したことです。
3.1.1 問題の定式化
問題を以下のように定式化しました。x、y、zをそれぞれ独立変数、従属変数、センシティブ変数とします。目的は、yと予測値f(x,z)との距離を最小化することです。統計的パリティを満たすために、予測値f(x,z)がzから独立であることを要求します。
問題1: min E[(y - f(x,z))^2] s.t. f(x,z) ⊥ z
3.1.2 Wasserstein バリセンターを用いた解の特徴付け
私たちは、問題1に対して唯一の解が存在し、それが以下の手順で構築できることを示しました:
- y の x と z に対する条件付き期待値 E[y|x,z] を求めます。これは L2 ノルムの意味で最適な予測です。
- この条件付き期待値のセンシティブグループ E[y|x,z]_z を見つけます。
- これらの予測センシティブグループに対して、Wasserstein-2空間上で最も近い点(バリセンター)を求めます。
- センシティブラベル z によってパラメータ化された最適輸送写像 T_z を構築します。この写像は、センシティブグループをバリセンターに写像します。
- 問題1の唯一の解 E[y|x,z]¯ を構築します。
さらに、統計的パリティを満たす最小損失(V^2と表記)が、以下の2つの部分に分解できることを示しました:
V^2 = L2直交射影損失 + Wasserstein-2独立性射影損失
3.1.3 最適輸送マップの構築
バリセンター特性の直感的理解を提供するために、バリセンター上でクラスタリングを行いました。3つのセンシティブグループ(マイナス、プラス、クロス)に対するバリセンターを求め、そのバリセンター上で5平均クラスタリングを行いました。
結果として、自身のセンシティブグループ内で比較的類似した位置にあるデータポイントが、同じバリセンターラベリングを共有していることがわかりました。これは、バリセンター上に多重マージナルマッチング効果があることを示しています。
バリセンターの構築方法は以下の通りです:
- センシティブグループ内で相対的に類似した位置にあるデータポイントを見つけます。
- それらのデータポイントでマッチングを形成します。
- マッチしたポイントをその重心平均で表現します。
これらの理論的成果により、多次元データに対するフェアな回帰モデルの構築が可能になりました。
3.2 パレートフロンティアの特徴付け
3.2.1 統計的分散の定量化
パレートフロンティアを特徴付けるために、まず厳密な統計的パリティ制約を緩和する必要がありました。そこで、私たちは「Wasserstein分散」という新しい指標を導入しました。これを D(ŷ,z) と表記し、以下のように定義します:
D(ŷ,z) = センシティブグループ間のペアワイスWasserstein距離の平均
この指標には、以下の2つの望ましい特性があります:
- D は非負の量であり、統計的パリティが満たされる場合かつその場合に限り0になります。
- Wasserstein空間上の距離として定義されているため、直感的な物理的解釈が可能です。具体的には、あるセンシティブグループから別のグループに移動するのに必要な最小の作業量の期待値として解釈できます。
3.2.2 問題の再定式化
この新しい指標を用いて、問題1を以下のように再定式化しました:
問題2: min E[(y - f(x,z))^2] s.t. D(f(x,z), z) ≤ d
ここで、d は分散許容レベルと呼ばれるパラメータです。d = 0 のとき、問題2は問題1に帰着します。
各 d に対して、分散許容レベル d における最小損失を V(d) と定義します。この V(d) がパレートフロンティアを特徴付けます。
3.2.3 McCann補間を用いた閉形式解
問題2の解を特徴付けるために、私たちは McCann 補間を用いました。具体的には、問題1の解で用いた最適輸送写像 T_z を、恒等写像と T_z の線形補間で置き換えることで、問題2の最適解を得られることを示しました。
最適解は以下のように表されます:
f*(x,z) = E[y|x,z]z + (1 - t)(T_z(E[y|x,z]z) - E[y|x,z]_z)
ここで、t = 1 - d / √V です。V は統計的パリティを達成するために必要な最小作業量(問題1の下界)です。
この解は、d が 0 から √V の範囲にある限り有効です。d が √V を超える場合、条件付き期待値 E[y|x,z] が自動的に制約を満たすため、トレードオフは存在しません。
この結果の直感的な理解を助けるために、ユークリッド空間上の類推を考えてみました。3つのデータ点がある場合、分散を点間の距離(点線)で、効用損失を点の移動距離(実線)で表現します。この場合、効用損失(実線の平均長)と分散のスケール版(点線)の和は、3点の標準偏差によって下から押さえられます。
同様の関係が Wasserstein 空間上でも成り立つことを証明しました。各点を確率分布に置き換え、点線を Wasserstein 分散に、実線を L2 損失に置き換えると、L2 損失と Wasserstein 分散のスケール版の和は V によって下から押さえられます。この下界は、分布が McCann 補間に沿って移動する場合にのみ達成されます。
この下界が達成される場合、効用損失と分散の間に明確な線形トレードオフが存在します。効用損失をさらに下げようとすると分散が上がり、分散を下げようとすると効用損失が上がります。
これらの理論的結果により、効用と公平性のトレードオフを最適化するための基礎が築かれました。
3.3 フェアデータ表現の最適化
3.3.1 問題設定と目的関数
これまでの理論的結果は素晴らしいものですが、完全な予測である条件付き期待値E[y|x,z]の知識を前提としています。実際には、機械学習モデルを使用してこの条件付き期待値を推定する必要があります。これは、これまでの結果が後処理的な性質を持っていることを意味します。
フェアデータ表現を設計する際の目的関数は以下のようになります:
フェアデータ表現をXδとYδとし、これらに基づいて訓練されたモデルをfθ(Xδ)とします。総効用損失は|Y - fθ(Xδ)|の距離で表されます。この損失は、|Y - E[Y|Xδ]| + |E[Y|Xδ] - fθ(Xδ)|と上限を設定できます。第二項は訓練損失であり、実務者はこれを最小化しようとします。したがって、XδとYδを設計する際の目標は、第一項を最小化することです。
制約条件は以下の通りです:
- X_δはZから独立である必要があります。
- E[Y|X_δ,Z]もZから独立である必要があります。
3.3.2 最適解の特徴付け
これらの考慮事項を踏まえ、最適なフェアデータ表現の問題を以下のように定式化しました:
問題3: min E[|Y - E[Y|Xδ]|^2] s.t. Xδ ⊥ Z E[Y|Xδ,Z] ⊥ Z (Xδ,Y_δ) ∈ A
ここで、Aは許容集合であり、本質的にXδとYδが元のデータに対して可測であることを要求しています。
この問題の最適解の特徴付けにより、X_δの最適な選択はY_barであることがわかりました。Y_barは独立変数Xに対するセンシティブグループのWasserstein-2バリセンターです。
しかし、Yδの構築には課題がありました。一般的に、E[Y|Xδ,Z] = E[Yδ|Xδ]という方程式を満たすY_δを構築する方法は明確ではありません。
3.3.3 アフィン輸送マップの利用
ここで重要な観察結果があります。E[Y|X,Z]のセンシティブグループをそのバリセンターに輸送する最適輸送写像がアフィンである場合、条件付き期待値演算子のYに関する線形性を利用して、これらのアフィン写像を直接Yに適用し、最適なY_δを生成できます。
この観察結果に基づき、アルゴリズム設計では問題3の解のアフィン推定を採用しました。これをXδ^とYδ^で表します。
最後に、問題2の解であるMcCann補間と、問題3のアフィン推定解であるXδ^とYδ^を組み合わせて、パレートフロンティア上のフェアデータ表現を生成しました。これらはXδ(t)とYδ(t)で表され、tによってパラメータ化されています。Xδ(t)はアルゴリズム1の出力であり、Yδ(t)はアルゴリズム2の出力です。
4. アルゴリズム設計
私たちの理論的成果を実践に移すため、パレートフロンティア上のフェアデータ表現を生成するアルゴリズムを設計しました。このアルゴリズムは、問題2の解であるMcCann補間と、問題3のアフィン推定解であるXδ^とYδ^を組み合わせています。
パレートフロンティア上のフェアデータ表現は、Xδ(t)とYδ(t)で表され、tによってパラメータ化されています。ここで、Xδ(t)はアルゴリズム1の出力であり、Yδ(t)はアルゴリズム2の出力です。
これらのアルゴリズムにより、理論的に保証されたフェアデータ表現を効率的に生成することが可能になりました。
5. 実験結果と評価
5.1 実データセットでの検証
私たちの手法の有効性を検証するために、複数の実データセットを用いて実験を行いました。これらの実験では、ロジスティック回帰とランダムフォレストを用いた分類タスクを実施し、最先端の学習表現手法と比較しました。
実験結果は、グラフを用いて視覚化しました。縦軸にはAUC(Area Under the Curve)を、横軸には差別の定量化指標を配置しています。各手法の結果は、交差検証の平均を中心点とし、水平および垂直方向の線分で標準偏差を表現しています。
私たちの手法は、グラフ上で濃い青色で表示されています。結果を見ると、同じ差別レベルでより高いAUCを達成していることが分かります。これは、私たちの手法がより公平性を保ちつつ、より高い予測精度を実現できることを意味します。
さらに、私たちの手法の大きな利点は、パレートフロンティア全体を生成できる点です。グラフ上では、私たちの手法の結果が線として表示されています。この特徴により、実務者は望ましい差別レベルを選択し、そのレベルにおける最小の効用損失を達成することができます。
これらの結果は、私たちの提案手法が既存手法を上回る性能を示し、かつ柔軟な運用が可能であることを実証しています。
5.2 1次元回帰問題での評価
私たちの手法の性能をより詳細に評価するために、1次元回帰問題に焦点を当てた実験も行いました。この実験では、真のバリセンター法と呼ばれる手法との比較を行いました。
真のバリセンター法は、累積分布関数(CDF)のマッチングを用いて真のバリセンターを見つける手法です。私たちは、この真のバリセンター法と我々の提案手法を比較しました。
実験結果を表すグラフでは、縦軸にL2損失(平均二乗誤差)を、横軸にWasserstein分散を配置しました。我々の手法は濃い青色で表示されています。
実験では、線形回帰と人工ニューラルネットワーク(ANN)の両方を用いて結果を分析しました。グラフから分かるように、我々の手法は線形回帰とANNの両方で、真のバリセンター法と非常に近い結果を達成しました。
我々の手法には真のバリセンター法に対していくつかの利点があります。まず、パレートフロンティア全体を生成できるため、実務者は望ましい公平性と効用のトレードオフを選択できます。次に、我々の手法は効率的です。例えば、線形回帰を用いた我々の手法は1秒程度で結果を出すことができます。一方、CDF マッチング法はそれよりもはるかに長い時間がかかります。
さらに、我々の手法は最初の2つのモーメント(平均と共分散行列)のみを使用するため、任意の高次元のテーブルデータにも適用可能です。実際に、高次元テーブルデータに対するパレートフロンティアのプロットも行いました。
これらの結果は、我々の手法が1次元回帰問題において理論的に最適な解に匹敵する性能を持ちながら、より広範な問題に適用可能であることを示しています。
5.3 計算効率性の分析
我々の手法の実用性を評価する上で、計算効率性は非常に重要な要素です。そこで、処理時間の比較と高次元テーブルデータへの適用可能性について分析を行いました。
5.3.1 処理時間の比較
我々の手法の大きな利点の一つは、その計算効率の高さです。具体的な例を挙げると、線形回帰を用いた我々の手法は、わずか1秒程度で結果を出すことができます。
一方、比較対象としたCDFマッチング法(真のバリセンター法)は、我々の手法よりもはるかに長い処理時間を要します。
5.3.2 高次元テーブルデータへの適用可能性
我々の手法のもう一つの大きな利点は、高次元テーブルデータへの適用可能性です。この特性は、我々の手法が最初の2つのモーメント(平均と共分散行列)のみを使用していることに起因します。
この特性により、我々の手法は任意の高次元テーブルデータに適用可能です。実際に、高次元テーブルデータに対するパレートフロンティアのプロットも行いました。
ただし、画像データのような真に高次元の構造を持つデータに対しては、アフィン推定では十分ではありません。このような課題に対処するため、我々は現在、真の最適輸送マップと真のバリセンターを推定するために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーなどのニューラルネットワーク構造の使用を検討しています。これは現在進行中の研究です。
6. 画像データへの応用(進行中の研究)
私たちの理論的成果の真の力を引き出すため、現在画像データへの応用に取り組んでいます。画像データのような真に高次元の構造を持つデータに対しては、アフィン推定では十分ではありません。そこで、私たちは畳み込みニューラルネットワーク(CNN)やトランスフォーマーなどのニューラルネットワーク構造を使用して、真の最適輸送マップと真のバリセンターを推定することを検討しています。
この進行中の研究の preliminary な結果として、CelebAデータセットを用いた性別属性のアンラーニングに関する実験を行いました。具体的には、GANを用いて女性グループから男性グループへの最適輸送マップを学習させました。
結果の可視化として、以下のような画像を生成しました:
- 第1行:CelebAデータセットの女性グループからの真の顔画像です。
- 第3行:学習した最適輸送マップを用いて生成された合成画像です。これらは元の女性の画像を男性グループに写像した結果です。
- 第2行:McCann補間でt=0.5としたときの画像、つまりバリセンターに相当する画像です。
視覚的に見ると、2行目の画像が男性グループにも女性グループにも属さないように見えることがわかります。これは統計的パリティ制約の満足を視覚的に示していると言えます。
この研究はまだ進行中であり、私たちは画像やテキストデータなど、テーブルデータ以外のデータに対しても実用的な手法を開発することを目指しています。
7. まとめと今後の展望
本研究では、機械学習におけるフェアネスの問題に対して、理論的に裏付けられた新しいアプローチを提案しました。私たちの主要な成果は以下の通りです。
まず、最適なフェア回帰の結果を1次元から任意の有限次元へ一般化しました。次に、効用と公平性のトレードオフを最適化するためのパレートフロンティアを特徴付けました。さらに、フェアデータ表現の最適化問題を定式化し、その解の特徴付けを行いました。
実験結果では、提案手法が既存の最先端手法を上回る性能を示し、同時に計算効率も高いことが明らかになりました。特に、高次元テーブルデータへの適用可能性は、実用的な観点から非常に重要な特性です。
今後の課題として、画像データのような真に高次元の構造を持つデータに対する手法の改善が挙げられます。現在のアフィン推定では十分ではないため、より複雑なニューラルネットワーク構造を用いた最適輸送マップとバリセンターの推定に取り組んでいます。
現在進行中の研究として、CelebAデータセットを用いた性別属性のアンラーニングに取り組んでいます。GANを用いて最適輸送マップを学習し、preliminary な結果として興味深い視覚化を得ることができました。
今後は、この研究をさらに発展させ、画像データだけでなくテキストデータなど、より広範なデータタイプに対しても適用可能な手法の開発を目指しています。これにより、フェアネスの問題に対するより包括的なソリューションを提供することが可能になると考えています。