2023-09-20 Lecture 19 - 見えない思考を解読する：AIの内部表現と創発的行動の探求

キーワード

AIの解釈可能性創発的行動多エージェントシステム知識伝達

出展元

https://youtu.be/cd3pRpEtjLs?si=3ftMNOgBGQ0j0K83

初回調査日

Apr 1, 2025 1:28 PM

※本記事は、スタンフォード大学のCS224N「NLPとディープラーニング」2023年講義シリーズのLecture 19「モデル解釈可能性と編集」における、Been Kim氏の講演内容を基に作成されています。講義の詳細情報はhttps://www.youtube.com/watch?v=cd3pRpEtjLs でご覧いただけます。本記事では、講演内容を要約・構造化しておりますが、原著作者の見解を正確に反映するよう努めています。より正確な情報や文脈については、オリジナルの講義動画をご視聴いただくことをお勧めいたします。

スタンフォード大学の人工知能専門プログラムや大学院プログラムについての詳細はhttps://stanford.io/ai をご覧ください。このコースについての詳細はhttps://online.stanford.edu/courses/c... 、コーススケジュールとシラバスはhttp://web.stanford.edu/class/cs224n/ でご確認いただけます。

【登壇者紹介】・Been Kim氏：Google Brainのスタッフリサーチサイエンティスト。ソウル国立大学で機械工学を学んだ後、MITでコンピュータサイエンスの博士号を取得。機械学習モデルの解釈可能性と説明可能性の研究に取り組んでいる。https://beenkim.github.io/

・Christopher Manning教授：スタンフォード大学のThomas M. Siebel機械学習教授、言語学・コンピュータサイエンス教授。スタンフォード人工知能研究所（SAIL）所長。

スタンフォード・オンラインを通じて、スタンフォード大学全体で提供される学術・専門教育にアクセスできます。詳細はhttps://online.stanford.edu/ をご覧ください。

1. 導入と背景

1.1. 講演者の紹介と経歴

Been Kim：今日は皆さんの前でお話しできることを嬉しく思います。私はGoogleブレインのスタッフリサーチサイエンティストです。ここでの「スタッフ」という言葉は、Googleの用語で上級研究者を意味します。私はソウル国立大学で機械工学を学び始めましたが、その後コンピュータサイエンスの分野へ移りました。MITで博士号を取得し、そこで機械学習モデルの解釈可能性と説明可能性について研究を始めました。

私の最近の研究テーマのひとつは、人間とマシンの間のコミュニケーションのために、人間が解釈可能な高レベルの言語を使用するという考えです。今日はシアトルからやってきましたが、スタンフォードの雨は昨晩すごかったですね。ただ、私はシアトル在住なので、これくらいの雨には慣れています。今日は青空も見ることができて良かったです。

1.2. AIとの意思疎通に関する夢と展望

Been Kim：今日は、機械とのコミュニケーションに関する私の夢についてお話ししたいと思います。このクラスにいる皆さんは、大規模言語モデルや生成モデルがかなり印象的なものであることに同意するでしょう。しかし同時に、これらは少し恐ろしくもあります。それは単に印象的だからではなく、この技術が10年後にどこに向かうのか確信が持てないからです。

10年後を振り返ったとき、私たちはこの技術がプラスになったと言えるでしょうか、それとも「あれは壊滅的だった、こんなことになるとは知らなかった」と言うことになるでしょうか。私が最終的に望むこと、おそらく私たちみんなが望むことは、この技術が私たち人間に利益をもたらすことです。

私には息子がいますが、10年後、もしかするとそれより早く、彼は私に尋ねるでしょう。「ママ、あのAIの研究をしていたの？いくつかの講演を見たけど、これが私たちの生活を根本的に変えることを知っていた？それについて何をしたの？」と。その質問に答えなければならないとき、私は彼に何か良いことを言えるよう願っています。

私の考えは、私たちの最終目標が人類に利益をもたらすことであるなら、なぜそれに直接最適化しないのか、なぜ待つのか、ということです。AIから利益を得る方法はたくさんありますが、その一つの方法は、AIを同僚のように扱うことです。完璧ではないけれど、何かに非常に優れていて、その同僚から何かを学びたいと思うような同僚です。

ただし、この場合の違いは、この同僚がちょっと変わっているということです。この同僚は私たちとは非常に異なる価値観を持ち、世界での経験も非常に異なるかもしれません。生き残ることについて私たちほど気にしていないかもしれません。おそらく死すべき運命というのは、この同僚にとっては重要なことではないのです。会話の中でそれを乗り越えていく必要があります。

あなたがこれほど違う誰かに初めて会ったとき、何をしますか？会話をして、相手がどのように物事を行っているのか理解しようとします。「どのようにして何十年も解決されなかったタンパク質折りたたみ問題を解決したのか」「どうやってそんなに簡単に世界チャンピオンに勝ったのか」と。私たちと同じ言語、科学知識、言葉を使っているのか、それとも世界を非常に異なる方法で考えているのか。そして最も重要なのは、どうやって一緒に働けるかということです。

1.3. AIが人類に利益をもたらすという最終目標

Been Kim：私が特に話したい分野の一つはAlphaGoについてです。AlphaGoは2016年に囲碁の世界チャンピオンであるイ・セドルを破りました。私は韓国出身で、全ての試合を見ました。これは韓国だけでなく世界中で大きな出来事でした。

その試合の一つで、AlphaGoは「手37」と呼ばれる手を打ちました。AlphaGoの試合を見た方、そして「手37」を覚えている方はどれくらいいますか？何人かいますね。私は9段の解説者が試合中ずっと話していたのに、突然静かになって「うーん、とても奇妙な手だ」と言ったのを覚えています。その時、私は何か本当に興味深いことが起きたと感じました。AlphaGoが私たちが永遠に覚えている何かを作り出したのだと思いました。そして実際、この手はAlphaGoにとって試合を逆転させ、最終的に勝利につながりました。

現在の囲碁プレイヤーたちは今でもこの手を分析し続けており、これは人間が思いつかなかった手だと議論されています。では、AlphaGoはどうやってこれが良い手だと知ったのでしょうか？

私の夢は、機械と会話をすることで新しいことを学び、そうして人類が医学や科学など重要な問題に対して新しい視点を得ることです。これは新しい発見だけではありません。報酬ハッキングについて考えると、真の目標が何かを本当に理解するには、誰かと意味のある会話をする必要があります。ある意味で、この問題を解決することはAIの安全性を解決することの上位集合でもあるのです。

1.4. AIを同僚として扱う考え方

Been Kim：では、どのようにしてこの会話を持つのでしょうか？会話とは、意味を交換するため、そして最終的には知識を交換するための共通の語彙を共有することを前提としています。自然に、表現がこの会話において重要な役割を果たします。

これを視覚化すると、左側に人間が知っていることの表現空間があり、右側に機械が知っていることの表現空間があります。左側の円の中には「犬はふわふわしている」のような内容があり、私たちは皆、多少似た語彙を共有しているのでその意味を理解できます。しかし右側には「手37」のようなものがあり、私たち人間はまだそれに対する表現を持っていません。

どうやって会話を持つのか？私たちの表現空間は重なる必要があり、重なりが多いほど、より良い会話ができるでしょう。人間は皆、新しいことを学ぶのが得意です。ここにいる皆さんも新しいことを学んでいます。私たちは新しい概念や語彙を学ぶことで知識を拡大できます。そうすることで、私たちの価値観や目標とより良く一致する機械を構築するのに役立つと信じています。

2. AIとの意思疎通の課題

2.1. 表現空間の相違：人間vs機械

Been Kim：私たちの夢と希望に話を戻しましょう。この夢をどのように実現するかを考えるとき、まず立ち止まって考える必要があります。機械が知っていることを推定するためのツールはあるのでしょうか？

過去10年間の機械学習における多くの発展により、この紫色の円（機械の知識を表す円）を理解し推定するためのツールが開発されてきました。しかし、残念ながら最近の多くの研究は、機械が実際に知っていることと私たちが機械が知っていると思っていることの間には大きなギャップがあることを示しています。このギャップを特定し埋めることは、「手37」を理解するための基礎となるため重要です。

私たちの夢と希望に話を戻しましょう。ここで私は、ツールを構築して理解するだけでなく、ある種の基礎作業が必要かもしれないと気づきました。これまで説明を生成しようとしてきたこの「エイリアン」（AI）は異なる種類のようなので、野生の新種のように彼らを研究すべきかもしれません。

野生で新種を観察するとき、いくつかの方法がありますが、その一つは観察研究です。遠くから野生の種を見たとき、まずはただ観察します。彼らがどのようなものか、彼らの生息地、何をするのか、彼らの価値観などを観察します。二つ目の方法は、実際に介入して制御研究を行うことです。

強化学習のセットアップで、このようなことを行ってみました。OpenAIのハイド・アンド・シークのビデオを見たことがある人はいますか？非常に面白いですよね。まだ見ていない方は、検索して見てください。とても魅力的です。このハイド・アンド・シークのエピソードの最後では、エージェントたちがこの物理システムのバグを発見し、反重力で空中を飛び回って、隠れる側を至る所から撃つようになります。非常に興味深いビデオです、ぜひ見てください。

2.2. AlphaGoの「手37」の例と重要性

Been Kim：私が特に話したい分野の一つはAlphaGoです。AlphaGoは2016年に囲碁の世界チャンピオンであるイ・セドルを破りました。私は韓国出身で、全ての試合を見ました。これは韓国だけでなく世界中で大きな出来事でした。

2.3. 共通の語彙と表現の必要性

Been Kim：どうやって会話を持つのでしょうか？会話とは、意味を交換するため、そして最終的には知識を交換するための共通の語彙を共有することを前提としています。自然に、表現がこの会話において重要な役割を果たします。

私たちの表現空間は重なる必要があり、重なりが多いほど、より良い会話ができるでしょう。人間は皆、新しいことを学ぶのが得意です。ここにいる皆さんも新しいことを学んでいます。私たちは新しい概念や語彙を学ぶことで知識を拡大できます。そうすることで、私たちの価値観や目標とより良く一致する機械を構築するのに役立つと信じています。

3. 機械の理解に関するギャップ

3.1. 解釈可能性ツールとその限界

Been Kim：機械が知っていることを推定するためのツールは何でしょうか？顕著性マップ（saliency map）についてどれくらいの方が知っていますか？多くの方が知っていますね。

顕著性マップは人気のある解釈可能性手法の一つです。簡単に言うと、ImageNetを例にすると、このように鳥の画像があり、説明はその同じ画像の形を取りますが、各ピクセルには予測に対するそのピクセルの重要性を意味する数値が関連付けられます。その重要性の一つの定義は、その数値がこのピクセル周辺でその関数がどのように見えるかを示すということです。

例えば、あるピクセルXjがあったとして、Xjの周りで関数が黄色い曲線のように上昇するか、関数がフラットであるか、あるいは緑の曲線のように下降するかもしれません。もし青い曲線や赤い曲線のようにフラットであれば、その特徴は鳥を予測するのに無関係かもしれません。上昇しているなら、おそらくより重要です。なぜならXの値が増加すると関数値も上昇するからです。ここでの関数値とは予測値のことです。

このギャップが存在する理由について、いくつかの方法を考えてみましょう。これは網羅的ではなく、少し重複するかもしれませんが、考えるのに役立ちます。仮定が間違っているのかもしれません。これらのエイリアン（AI）は完全に異なる表現空間で機能しているかもしれず、世界について非常に異なる経験を持っているかもしれません。私たちが世界を見るのと同じように見ていると仮定することは、ゲシュタルト現象のように、いくつかの点があるとき、人間にはそれらを繋げる傾向がありますが、機械にもそうかもしれませんし、そうでないかもしれません。

あるいは期待が一致していないのかもしれません。Xをしていると思っていたが、実際にはYをしていた。あるいは私たちの理解を超えているのかもしれません。人間が理解できない超人的な何かを示しているのかもしれません。

3.2. 顕著性マップ(Saliency Map)の問題

Been Kim：2018年にかなり衝撃的な現象に遭遇しました。私たちは何か別のことを試そうとしていたのですが、訓練されたネットワークと訓練されていないネットワークが非常に似た顕著性マップを持っていることに気づきました。言い換えれば、ランダムな予測と意味のある予測が同じ説明を与えていたのです。これは不思議でした。バグがあると思いましたが、そうではありませんでした。質的にも定量的にも区別がつかなかったのです。

これは衝撃的でしたが、一度きりのケースかもしれない、実際にはなんらかの形で機能しているのではないかと思いました。そこでフォローアップ論文でテストしてみました。もしモデルにエラーがある場合、これらのエラーは何でしょうか？ラベル付けエラーかもしれない、偽相関があるかもしれない、テスト時に分布外のデータがあるかもしれません。意図的にこれらのバグを挿入した場合、説明はモデルに何か問題があると教えてくれるでしょうか？結果として、それもあまり当てはまりませんでした。

偽相関について考えるかもしれませんが、別のフォローアップ研究でもこれは当てはまらないことが示されました。私たちは失望しましたが、それでもまだ、これに対する理論的証明はなく、再び実験室の設定テストだったかもしれない、まだ何らかの希望があるかもしれないと考えました。

これはより最近の研究で、私たちはいくつかの非常に人気のある手法がランダムよりも良くできないことを理論的に証明しました。この論文は唐偉（Tang Wei）との共著ですが、著者リストに彼の名前が抜けていることに今気づきました。

まず私たちの期待について話しましょう。このツールに対する私たちの期待とは何でしょうか？この手法を開発した元の論文であるIGとShopは、IGが各特徴の貢献度を説明するのに使えると述べています。つまり、このツールがあるピクセルにゼロの帰属を割り当てる場合、そのピクセルは関数によって使用されていないと言い、このXを摂動させても関数は敏感に反応しないということです。

実際にこれはこのように実践で使用されています。Natureに掲載された論文では、医療試験の適格基準を特定するためにShapを使用しています。私たちがこの研究で示したのは、これらの自然に思える推論はどれも真実ではなく、実際、人気のある帰属手法があなたに何らかの帰属についての情報を伝えたとしても、実際のモデルの振る舞いについて何も結論付けることができないということです。

3.3. 仮説検証フレームワークとランダム予測

Been Kim：それはどのように機能するのでしょうか？ここでは理論証明をする人はどれくらいいますか？少数いますね、素晴らしい。この特定のプロジェクトから理論的証明について学びました。私たちがこの問題に取り組んだ方法は、まずこの問題を考え、それを解決方法を知っている別の問題に定式化することでした。

この場合、私たちはこれを仮説検定として定式化しました。なぜなら、仮説検定として定式化すれば、統計学には使える多くのツールがあるからです。仮説とは何でしょうか？仮説は、私はユーザーとして、これらのツールの一つから帰属値を得て、「この特徴は重要だ」あるいは「おそらく重要ではない」という心的モデルを持っています。そして、仮説はそれが真実かどうかです。

私たちが示したのは、あなたがどのような仮説を持っていようとも、この仮説検定を検証または無効化する際にランダム推測よりも良くはできないということです。もし仮説検定がイエスかノーで検証できないなら、そもそも行うべきではありません。ランダム推測と同じくらい良いかどうかわからないのなら、何の意味があるでしょうか？

この結果をグラフで表すと、真陰性と真陽性をプロットし、ランダム推測が線で表されます。これが最悪の手法で、最良の手法です。同等の距離はこの線上にあります。私たちが知っているShapとIGなどの手法はすべて、ランダム推測のこの線上にあります。これは悪いニュースです。

しかし、おそらくこれはまだ実際には何らかの理由で機能しているのかもしれません。おそらく私たちが持っていた仮定が実際にはそれほど当てはまらなかったのかもしれません。この現象は実際に成り立つのでしょうか？答えはイエスです。今や私たちはより多くの画像グラフとより大きなモデルを持っていますが、ここでは解釈可能性において人々が気にする2つの具体的なタスクをテストしました。

一つは救済、もう一つは偽相関です。救済とは、例えばローンを申請していて、自分がもっと年配だったらローンを得る可能性が高くなるかどうか知りたいと考えるようなものです。そこでこの一つの特徴を調整して、自分の評価が上がるか下がるかを見ます。非常に合理的なタスクで、人々がしばしば行うことであり、社会的にもかなり重要な意味を持ちます。

これら2つの具体的なタスクの両方について、私が話した仮説検定のフレームワークに帰着します。それらはすべてランダム推測の線の周りにあり、あるいはランダム推測よりも悪いこともあります。

4. 解釈可能性手法の理論的制約

4.1. ShapleyとIGに関する理論的制約

Been Kim：あなたは「ああ、これは良くない。多くの人々がこれらのツールを使っているけれど、どうすればいいのか」と言うかもしれません。私たちにはこれについての非常にシンプルなアイデアがあります。

人々は複雑なツールを開発するのが好きで、あなたがそのような人でないことを本当に願います。多くの場合、シンプルな方法が機能するからです。また、シンプルな方法はエレガントでもあります。おそらく多くの場合、それらが機能する理由があるのでしょう。シンプルであるため理解できますし、意味をなします。

ではここでその考え方を試してみましょう。目標は関数の形状を推定することです。何をしますか？最もシンプルな方法は、興味のあるポイントを持ち、そのポイントの周りをサンプリングし、そのポイントの周りの関数を評価することです。もし上がるなら、おそらく関数は上昇しています。もし下がるなら、おそらく関数は下降しています。これは最もシンプルな方法で、ある種の総当たり的なアプローチですが、問題は、必要なサンプル数はどれくらいかということです。

ここにあるのは、このラインを上方に持ち上げる式です。追加の項を加えることでそれを行い、サンプル数に比例します。サンプル数が多いほど、より良い推定が得られます。これは理にかなっています。また、出力の違い、どれだけの解像度を気にするかも関係します。0.1から0.2への変化を気にするか、あるいは傾き0から傾き1への変化だけを気にするのか、それが気にする解像度です。そして当然、特徴の数も関係します。

ShapleyとIGのような人気のある手法を用いてモデルの振る舞いを推論できるかという問いに対する答えはノーであり、これは理論と実践の両方で成り立ちます。現在、このことが本当に機能しないことを示すために、さらに大きなモデルでも作業しています。これらの手法を使用する前に、2回、3回と考え直してください。

また、モデル依存のサンプル複雑性もあります。もし関数が複雑であれば、もちろんより多くのサンプルが必要になります。ではこれらの関数をどのように特徴づけるか、どう定義するかが問題です。

最後に、まだ諦めていません。これらの手法は経済学やShapley値などに良い根拠があるため、これらの手法が機能するより狭い条件があるのかもしれません。そのような条件は存在すると信じており、それがどのような条件なのかを見つけようとしています。一度その条件を見つければ、与えられた関数に対してテストし、「ここではShapが使える」「ここではIGが使える」あるいは「ここでは使えない」と言えるでしょう。それは依然として非常に有用でしょう。この研究は現在進行中です。

4.2. サンプリング複雑性と関数形状の推定

Been Kim：では、関数の形状を正確に推定するために必要なサンプル数について考えてみましょう。ここにあるのは、ラインを上方に持ち上げる式です。追加の項を加えることでそれを行い、サンプル数に比例します。サンプル数が多いほど、より良い推定が得られます。これは理にかなっています。

また、出力の違い、つまりどれだけの解像度を気にするかも関係します。0.1から0.2への変化を気にするか、あるいは傾き0から傾き1への変化だけを気にするのか、それが気にする解像度です。そして当然、特徴の数も関係します。

モデル依存のサンプル複雑性も考慮する必要があります。もし関数が複雑であれば、もちろんより多くのサンプルが必要になります。これらの関数をどのように特徴づけるか、どう定義するかが問題です。

このアプローチのシンプルさは、解釈可能性研究において重要な要素です。人々は複雑なツールを開発するのが好きですが、多くの場合、シンプルな方法が機能します。また、シンプルな方法はエレガントでもあります。おそらく多くの場合、それらが機能する理由があるのでしょう。シンプルであるため理解できますし、意味をなします。

最もシンプルな方法は、興味のあるポイントを持ち、そのポイントの周りをサンプリングし、そのポイントの周りの関数を評価することです。もし値が上がるなら、おそらく関数は上昇しています。もし下がるなら、おそらく関数は下降しています。これは最もシンプルな方法で、ある種の総当たり的なアプローチですが、実用的な状況では、計算効率とサンプル効率のバランスを取る必要があります。

4.3. 医療や倫理的判断における実際の応用問題

Been Kim：これらの解釈可能性手法が実際の応用分野でどのように使われているか、そしてどのような問題が生じているかを考えることが重要です。例えば、Natureに掲載された論文では、医療試験の適格基準を特定するためにShapley値が使用されていました。これは非常に重要な応用例です。

解釈可能性のような非常に社会的に重要な問題に対しては、救済のようなタスクが特に重要になります。例えば、ローンを申請していて、自分がもっと年配だったらローンを得る可能性が高くなるかどうか知りたいと考えるようなケースです。そこで一つの特徴を調整して、自分の評価が上がるか下がるかを見ます。これは非常に合理的なタスクで、人々がしばしば行うことであり、社会的にもかなり重要な意味を持ちます。

私たちの研究が示したのは、これらの自然に思える推論はどれも真実ではなく、実際、人気のある帰属手法があなたに何らかの帰属についての情報を伝えたとしても、実際のモデルの振る舞いについて何も結論付けることができないということです。これは医療や倫理的判断のような重要な分野での応用において深刻な問題を提起します。

私たちはまだ諦めていません。これらの手法は経済学やShapley値などに良い根拠があるため、これらの手法が機能するより狭い条件があるのかもしれません。そのような条件は存在すると信じており、それがどのような条件なのかを見つけようとしています。一度その条件を見つければ、与えられた関数に対してテストし、「ここではShapが使える」「ここではIGが使える」あるいは「ここでは使えない」と言えるでしょう。それは依然として非常に有用でしょう。

しかし、それまでの間は、特に医療や倫理的判断のような重要な分野では、これらの手法に対して慎重なアプローチを取る必要があります。実際のモデルの振る舞いを理解するには、より多くのサンプリングと直接的な関数評価が必要かもしれません。

5. 大規模言語モデルの知識位置特定

5.1. ROME/MEMITの知識編集手法の検証

Been Kim：もう一つの研究についてお話ししたいと思います。これは同様の方向性を持つNLPに関する研究です。これは私たちが最終的に書いた多くの論文の一つで、偶然の産物とも言えるものです。

最初、ピーターはインターンとして来て、大規模言語モデルの中で倫理的知識を特定し、それらをより倫理的になるように編集しようと考えました。それが目標でした。私たちはデヴィッド・ボウイの論文を参考にしようと思いました（デヴィッドの研究も大好きです）。それがこの研究の始まりでした。しかし、ROAMを実装して詳しく調べ始めると、物事がうまく合わなくなりました。

私たちは次々と健全性チェック実験を行い、最終的に全く異なる論文を書くことになりました。これからその内容についてお話しします。

ROAMという論文は、モデル内の知識を特定するというものです。例えば「スペースニードルはシアトルにある」というような事実的知識を特定し、それを編集するというものです。事実を特定できれば、それを操作して編集できるというのがその約束でした。実際、多くの場合、局所化や編集方法はそういった動機で文献で紹介されています。

しかし私たちが示したのは、この仮定が実際には真実ではないということです。正直に言うと、私はなぜこれが関連していないのかまだ完全には理解していません。これは大きな疑問であり、現在も活発に研究中の課題です。

事実的知識の相当部分は、知識がないとされる層の外に保存されています。これについてはもう少し詳しくお話しします。実際、事実が位置する場所と、その場所を編集した場合の編集の成功率の間には相関関係がありませんでした。これら二つのことは全く関係がなかったのです。

私たちは「編集」の定義に問題があるのかもしれないと考えました。編集とは何を意味するのかは多くのことを意味する可能性があります。そこで、様々な編集方法を試してみましたが、あまり成功しませんでした。ROAMのような局所化手法と関連する編集手法を見つけることができませんでした。

5.2. 因果トレーシングアルゴリズムの説明

Been Kim：では、ROAMがどのように機能するかについて簡単に説明しましょう。ここでは多くの詳細を省略していますが、大まかな考え方は理解できるでしょう。

ROAMはMagneto 2022という手法で、因果トレーシングアルゴリズムと呼ばれるものを使用しています。その仕組みは以下の通りです。このデータセット上でモデルを実行します。このデータセットは「主語、関係、目的語」の形式になっています。例えば「スペースニードルは、シアトルに位置している」といった具合です。

まず、「スペースニードルはシアトルにある」という正常な実行を一度行い、すべてのモジュール、すべての値の活性化を保存します。次に、「破損実行」と呼ばれる2回目の実行では、「スペースニードル」の部分にノイズを加えます。そして、それらのモジュールの各々に介入します。つまり、破損実行にこのモジュールをコピーすることで、あたかもそのモジュールにノイズが追加されなかったかのように扱います。

これは典型的な介入のケースで、他のすべてが等しいと仮定し、このモジュールだけを変更した場合、正解の確率がどうなるかを調べます。この場合、正解「シアトル」の確率が、モデルと介入を考慮してどうなるかを見ます。

最終的に、各層と各トークンについて、その層のそのトークンに介入した場合、正解を回復する可能性がどれくらいあるかというスコアのグラフが得られます。もし正解を回復できるなら、それはその知識を保存しているモジュールであると言えます。これは非常に合理的なアルゴリズムで、このアルゴリズムに技術的な欠陥は見つけられませんでした。実際、私はこのアプローチが好きです。

しかし、彼らが使用したのと同じモデル（GPT-J）を使用して調べ始めると、多くの事実は層6に保存されているのではないことに気づきました。ROAMでは編集のために層6だけを使用していました。なぜなら、このデータセット全体で最も良い層であるとされていたからです。ほとんどの事実的知識は層6に保存されており、彼らは編集の成功を示していました。

しかし、私たちが見つけた真実は右側のグラフのようなものでした。赤い線は層6を示し、拡張論文であるMEMITでは複数の層を使用していて、それが青い領域です。黒い棒は知識が実際にピークだった場所のヒストグラムで、すべての層をテストした場合です。見てわかるように、その領域にはあまり多くの事実が当てはまりません。実際、各事実には異なる領域があり、そこでピークを示しています。つまり、多くの事実にとって層6は最良の層ではなかったのです。

それでも編集は実際に機能していました。その結果を複製することができました。私たちは「では、倫理的知識を見つけるために、どうやって最良の層を編集すればいいのだろう？」と考えました。しかし、ここで立ち止まって「トレーシング効果、つまり局所化が、より良い編集結果を意味するのか」を確認しようと思いました。そしてこの時点ですべてが崩れ始めたのです。

5.3. 位置特定と編集成功の無相関性の発見

Been Kim：まず、いくつかの指標を定義しましょう。「編集成功率」はROAM論文で使用されたものと同じ「書き換えスコア」です。そして「トレーシング効果」は局所化を意味します。スライドの詳細は省略します。

トレーシング効果と書き換えスコアの関係をプロットすると、編集手法（赤い線）は完全な相関を示しており、これが私たちの仮定でした。つまり、局所化と編集成功には完璧な相関があるはずだと考えていました。それが局所化を行う理由なのです。しかし、実際の線は黄色で、ほぼゼロです。このデータセットでは実際には負の相関さえあります。これは単に無相関というだけでなく、ある意味で反相関でした。

ここで止まらず、各層についてこれを行い、R二乗値を求めました。R二乗値は、層の選択対トレーシング効果が、成功編集の分散をどれだけ説明するかを示します。R二乗に馴染みがない方は、これを要因の重要度と考えてください。

結果として、層の選択は94%を占め、トレーシング効果は0.016%でした。私たちはこの結果に本当に困惑し、頭を掻きながら「なぜこれが真実なのか」と考えました。しかし、これは層を超えて真実であり、様々なことを試しましたが、異なるモデル、異なるデータセットを試しても、どれもだいたい同じ結果でした。

この時点で、私たちはデヴィッドに連絡を取り、この現象について話し始めました。彼らもこれが存在する現象であることを認めていました。

私たちの結論は、「層だけを気にすればいい、局所化など気にするな」というものでした。実際、局所化は余分な炭素を無駄にするだけで、気候への影響もあります。

しかし、私たちはまだ「ROAMで使用された特定の編集の定義が異なっているのかもしれない、局所化ともっと相関する編集の定義があるのではないか」と考えました。なぜなら、これがなぜ相関していないのかまだ不思議だったからです。

そこで様々な編集の定義を試してみました。エラーを注入したり、トレーシングを逆にしたり、事実を消去したり、事実を増幅したりなど、様々なことを試しました。これらの何かが機能するかもしれないと思いました。

下のグラフは4つの異なる手法のR二乗値を示しています。これはROAMとMEMITだけでなく、微調整手法にも当てはまりました。青とオレンジのバーの違いは、トレーシング効果がR二乗値にどれだけ影響したかを表しています。見てわかるように、その影響は無視できるものです。すべて同じような結果になっています。最後の一つには少し希望がありますが、それでも層の選択の影響に比べれば無視できる程度です。

この時点で、私たちは「この研究では倫理的知識を特定することはできないだろう」と判断し、方向性を変える必要がありました。そこで、この問題についてさらに詳細な分析を行うことにしました。

結論として、局所化は編集に役立つのか？答えはノーです。この特定の編集手法に関しては、その関係はゼロです。私の知る限り、これはかなり最先端の手法であり、反事実データセットにも当てはまりません。他に局所化とより良く相関する編集手法はあるのか？答えはノーです。

しかし、誰かがこの質問に答えてくれれば、それは非常に満足のいくものでしょう。何かがまだあるはずだと感じていますが、因果トレーシングが行うのは、Transformerが前方に渡す際の事実情報を明らかにすることです。それは事実がどこにあるかを示すものですが、私たちが発見したのは、それが編集の成功とは何の関係もないということです。これら二つは異なるものなのです。

それでも、彼らの論文で見つけた多くの洞察はまだ有用です。例えば、NLPの早期から中期の表現、最後のトークンなどが事実を表現するという知識は、以前は知られていなかったことです。しかし、局所化手法を編集手法で検証することや、局所化を通じて編集手法を動機付けることは、今や避けるべきであることがわかりました。

6. エージェント行動の観察的研究

6.1. 多エージェントシステムの創発的行動の研究

AIシステムをより深く理解するためには、新種の生物を研究するように観察的な研究が必要です。私たちはOpenAIのハイド・アンド・シークの動画のような多エージェントシステムで現れる興味深い創発的行動に注目しました。この動画では、エージェントが物理システムのバグを発見して反重力で飛び回るような驚くべき行動を示しています。

私たちの目標は、これらの創発的行動をより効率的に発見する方法を開発することでした。従来はOpenAIの研究者が「走る」「追いかける」「要塞構築」「坂道使用」などの行動ラベルを手作業で付与していましたが、これは非常に労力を要する作業です。

そこで私たちは、エージェントの状態と行動のペアのみを観察し、クラスタリングによってエージェントの行動を発見するという単純なアプローチを採用しました。具体的には、生成モデルを使用して、全ての行動を表現する潜在的な埋め込み空間を生成し、各エージェントに対して別の埋め込みを生成し、状態との条件付けによって行動方針を決定するという方法を取りました。

この手法をMuJoCoという領域で試したところ、2体のエージェント（1つは前脚、1つは後脚を制御）の協調行動を視覚化できました。潜在空間の特定の領域が「良好な走行能力」と「良くない走行能力」に対応していることが容易に識別できました。

さらに、OpenAIのハイド・アンド・シークにもこのフレームワークを適用しました。このゲームは単純に見えますが、100次元の観測空間と5次元の行動空間を持つ複雑な構造があります。私たちはOpenAIのラベルを知らないと仮定して分析を行い、後からそれらのラベルで結果を色分けしました。

結果として、「走る」「追いかける」といった基本的な行動が他の行動とは明確に区別できることがわかりました。これはゲームのプレイにとって基本的な行動であるため理にかなっています。また、「要塞構築」という行動は隠れる側（ハイダー）において明確に区別できることもわかりました。これは隠れる側が要塞を構築し、追う側（シーカー）は構築しないという事実と一致しています。

この結果から、システムを単に観察するだけでも創発的行動について興味深い知見を得られることがわかりました。ただし、この方法ではクラスターに名前を付けることはできず、それらを調査・探索する必要があります。また、超人的な概念を表すクラスターを理解するには別のアプローチが必要かもしれません。最後に、モデルや報酬信号にアクセスできる場合はそれらを活用すべきです。

6.2. 生成モデルを用いた行動クラスタリング

このセクションでは、AIエージェントの行動を理解するために生成モデルを用いた方法について説明します。私たちのアプローチでは、データ生成プロセスを表現する生成的グラフィカルモデルを使用しました。

モデルの構造は以下の通りです。まず、システム内のすべての行動を表現する共同潜在埋め込み空間を生成します。次に、各エージェントに対して個別の埋め込みを生成します。この埋め込みは状態と条件付けられ、エージェントの行動方針（ポリシー）を決定します。最終的に、この全体のプロセスによって観測可能な状態と行動のペアが生成されます。

このモデルを訓練するために、変分下界（variational lower bound）を最適化します。具体的な実装では、MuJoCoドメインにおいて、前脚と後脚をそれぞれ制御する2つのエージェントを想定しました。可視化ツールを使用することで、エージェント1の空間の特定領域がエージェント0の比較的限定された領域にマッピングされ、良好な走行能力を示すことを観察できました。一方、エージェント1の別の領域を選択すると、エージェント0ではより分散した領域にマッピングされ、走行能力が低下することも見出しました。

この手法をOpenAIのハイド・アンド・シークゲームにも適用しました。このゲームは見た目は単純ですが、100次元の観測空間と5次元の行動空間を持つ複雑な構造があります。共同埋め込み空間（Z_Omega）と個別エージェントの埋め込み空間（Z_alpha）の結果を分析すると、人間にとって理解可能なパターンが見えてきました。特に「走る・追いかける」行動を表す青い点は、他の色と比較して明確に区別でき、分離可能でした。これはゲームのプレイにとって基本的な行動であるため理にかなっています。また、「要塞構築」を表すオレンジの点は隠れる側（ハイダー）において明確に区別できましたが、追う側（シーカー）ではあまり明確ではありませんでした。これは隠れる側が主に要塞を構築するという事実と一致しています。

この研究結果から、単純な観察手法でも多エージェントシステムにおける創発的行動について意味のある知見を得られることがわかりました。ただし、この手法の限界としては、クラスターに自動的に名前を付けることができないため、結果を解釈するには人間の探索が必要である点が挙げられます。また、AIが超人的な概念を発展させた場合、このアプローチだけでは理解が困難になる可能性もあります。

6.3. Hide and Seekゲームでの応用例

私たちはOpenAIが開発したHide and Seekゲームに対して、前述の生成モデルを用いた行動クラスタリングアプローチを適用しました。このゲームでは、4体のエージェントが存在し、100次元の観測空間と5次元の行動空間という複雑な構造を持っています。一見単純なゲームに見えますが、実際には非常に複雑な相互作用が発生します。

この研究では、OpenAIが事前に付与した「走る・追いかける」「要塞構築」「坂道使用」などのラベルを知らないと仮定して分析を行いました。その後、得られた結果をこれらのラベルで色分けして検証しました。

Z_Omega（共同埋め込み空間）とZ_alpha（個別エージェントの埋め込み空間）の視覚化結果を見ると、人間の理解と一致する興味深いパターンが現れました。特に「走る・追いかける」行動を表す青い点は、他の色と比較して明確に区別でき、分離可能でした。これはゲームのプレイにとって基本的な行動であるため、明確な表現が形成されたと考えられます。この基本的な行動の表現なしでは、エージェントはゲームをうまくプレイできないでしょう。

一方、「要塞構築」を表すオレンジの点は、隠れる側（ハイダー）のエージェントにおいて特に明確に区別できましたが、追う側（シーカー）ではあまり明確ではありませんでした。これは隠れる側が主に要塞を構築し、追う側は要塞を構築しないというゲームの性質と一致しています。

さらに、「緑色」と「灰色」のラベルで示される行動は、埋め込み空間内でかなり混在していました。これは、これらの行動がエージェントの表現において明確に分離されていないことを示しています。

この分析から得られた重要な洞察は、ゲームにおける基本的な行動が埋め込み空間内で自然に分離される傾向があることです。また、エージェントの役割（隠れる側か追う側か）によって、特定の行動の表現が異なることも明らかになりました。例えば、シーカーがより明確な「要塞構築」の表現を持っていれば、ゲームでより有利に立てた可能性もあります。

このように、単純な観察的アプローチでも、複雑な多エージェントシステムにおける創発的行動と戦略について、有意義な洞察を得ることができました。

7. 制御可能な多エージェントシステム

7.1. 概念ボトルネックを用いたRL設計

観察的研究に加えて、私たちは多エージェントシステムに介入する制御研究も行いました。このアプローチでは、システムをゼロから構築し、制御テストを可能にしながら、同時にパフォーマンスを維持することを目指しました。

2020年にスタンフォード大学の研究者と共同で行った研究では、ニューラルネットワークの中間層に概念を埋め込むという単純なアイデアを提案しました。たとえば、あるニューロンが「シマウマ」を表現し、別のニューロンが「縞模様」を表現するようにモデルをエンドツーエンドで訓練します。これにより、推論時に介入が可能になります。例えば、「シマウマを予測するのに縞模様は関係ないはず」と考え、そのニューロンをゼロにして結果を観察できます。これは特に医療分野で有用で、医師が特定の特徴を無効化してテストできます。

この概念を強化学習（RL）設定に拡張しましたが、これは単純な拡張ではなく、かなり複雑でした。基本的には、各エージェントに概念ボトルネックを構築し、通常のPPO（Proximal Policy Optimization）を最適化しながら、真の概念と推定概念の差を最小化します。この手法により、エージェント間の相互作用を検証するための介入が可能になります。例えば、「エージェント2が、エージェント1が見えないと仮定するとどうなるか」というテストができます。

私たちは2つのドメインでこれを実装しました。まず、「料理ゲーム」と呼ばれる単純な環境で、2つのエージェント（黄色と青）がスープを作るために協力します。彼らはトマトを3つ持ってきて、鍋に入れ、トマトが調理されるのを待ち、最後に皿を持ってきて報酬を得ます。使用した概念はエージェントの位置、向き、トマトや皿を持っているか否かなど、即座に利用可能なものでした。

環境を変更してエージェント間の協力を必要とする状況（例：壁を設置して単独ではスープを作れないようにする）や、独立して作業できる状況を作り出すこともできます。そして、介入実験を行うと、特に興味深い発見がありました。チームの向き（orientation）に介入した場合、パフォーマンスの低下が最も大きかったのです。これは当初私には驚きでした。なぜ位置ではなく向きなのか疑問に思いましたが、向きは他のエージェントの次の行動を予測する最初の信号となるためだと理解しました。エージェントが鍋の方を向いていれば鍋に向かう、トマトの方を向いていればトマトを取りに行くというように。

また、この手法を使って「怠け者エージェント」を特定することもできます。介入してもエージェントの報酬に影響しないなら、そのエージェントは実質的に何もしていない可能性があります。

7.2. 介入実験とエージェント間関係の発見

2つ目のドメインとして、私たちはエージェント間の社会的力学を研究するためにより複雑な「クリーンアップ」環境を用いました。この環境では、4体のエージェントが存在し、彼らはリンゴ（黄色や緑の物体）を食べることでのみ報酬を得ます。しかし、川を掃除しなければリンゴは生成されなくなります。そのため、誰かが川の掃除をしなければならないという緊張関係が生まれます。4人がリンゴを集めようとすると、誰かが犠牲になって掃除をするのを待つという状況が発生することもあります。

この環境でも、位置や向き、汚染位置などの概念を使用しました。前のドメインと同様のグラフを描いたところ、興味深いパターンが浮かび上がりました。エージェント1に介入した場合、エージェント2の報酬に大きな影響を与えるのに対し、エージェント3と4はほとんど影響を受けませんでした。同様に、アイドル時間やエージェント間距離についても同じパターンが見られました。

このパターンをより詳しく分析するために、エージェント間の関係を示すグラフを構築する手法を開発しました。具体的には、各エージェントの各概念への介入をノードとし、介入結果（報酬、収集したリソース等）を特徴として用いて回帰分析を行いました。これにより、介入間の関係を表すベータ係数を得ることができ、エージェント間の関係の強さを表すグラフが構築できました。

興味深いことに、この分析からはエージェント1と2の間には強い関係がないことが示されましたが、エージェント1と4の間には強い関係が見られました。これは当初の仮説と矛盾していたため、さらに深く掘り下げるために多くのセッションを観察しました。

結果として、状況はより複雑であることが判明しました。エージェント4の向きがエージェント1にとって重要でしたが、それが失敗すると、エージェント1と2（青と黄色のエージェント）が一緒に隅に追いやられて身動きが取れなくなるという状況が発生していました。これは環境の設計による偶然の結果であり、エージェント1と2の間に実際の協調はなかったのです。

この発見は、単純な統計だけでは明らかにならなかった複雑な相互作用を示しています。多くの創発的行動はこのような一回限りのケースであることが多く、表面的な統計だけでなく、より深い理解を得ることが重要です。

結論として、介入を可能にし、同時に良好なパフォーマンスを維持する多エージェントシステムを構築することは可能であることが示されました。ただし、この手法の限界として、概念（位置や向きなど）にラベル付けする必要があるか、それらを取得する方法を持つ必要があるという点が挙げられます。将来的には、この制約を超えるアプローチの開発が期待されます。

7.3. 料理ゲームとクリーンアップドメインでの検証

私たちは概念ボトルネックを用いた制御可能な多エージェントシステムを2つの具体的なドメインで検証しました。まず、料理ゲームでの検証について詳しく見ていきましょう。

料理ゲームでは、黄色と青の2つのエージェントが協力してスープを作ります。彼らはトマトを3つ集め、鍋に入れ、調理されるのを待ち、最後に皿を持ってきて完成したスープを提供することで報酬を得ます。このゲームの面白い点は、環境を変更することでエージェント間の協力度合いを調整できることです。たとえば、エージェント間に壁を設置すると、彼らは協力しないとスープを作れなくなります。

私たちは、このドメインで協調行動対非協調行動を検出するための介入実験を行いました。通行不可能な環境（壁がある状態）では、概念への介入を行うと、両エージェントの報酬が大幅に低下しました。これは彼らが協調していることを示す証拠です。特に興味深かったのは、「チームの向き」の概念に介入した場合、パフォーマンスの低下が最も顕著だったことです。これは向きが協調の鍵となる信号だからです。エージェントは相手の向きを観察することで、次の行動（鍋に向かう、トマトを取りに行くなど）を予測できるのです。

また、このフレームワークを使って「怠け者エージェント」の特定も可能でした。右端に位置する黄色いエージェントが何もせずにただ立っている場合、このエージェントに介入してもシステム全体の報酬に影響がありませんでした。

次に、より複雑な「クリーンアップ」ドメインでの検証結果を見てみましょう。このドメインでは4体のエージェントが存在し、リンゴを食べることで報酬を得ますが、川を清掃しないとリンゴは生成されません。これにより、集団行動と個人的利益の間の緊張関係が生まれます。

クリーンアップドメインでの介入実験からは、エージェント間の複雑な相互依存関係が明らかになりました。当初、エージェント1に介入するとエージェント2の報酬に大きな影響があるように見えましたが、グラフ理論を用いた詳細な分析により、実際にはエージェント1と4の間に強い関係があることがわかりました。さらに深く調査すると、エージェント1と2が一緒に隅に追いやられる現象は、エージェント4の行動による偶発的な結果であり、真の協調関係ではないことが判明しました。

両ドメインでの検証により、私たちの手法が介入を可能にしながらも、元のシステムと同等のパフォーマンスを維持できることが確認されました。パフォーマンスグラフで示されたように、介入なしのベースラインと比較して、私たちのシステムは同等の性能を達成しています。この結果は、解釈可能性と性能のトレードオフを克服する可能性を示しています。

最終的に、この研究は多エージェントシステムにおける創発的行動と相互作用を理解するための新しいフレームワークを提供し、AIシステムの解釈可能性向上に貢献しています。

8. 機械から人間への知識伝達

8.1. AlphaZeroのチェス戦略の研究

ここまでの研究で、AIシステムを理解するためのさまざまなアプローチを探ってきましたが、究極の目標である「人間に理解できない機械の知識を学ぶ」という挑戦にはまだ答えが出ていません。私はまだAlphaGoの「手37」の秘密を解明できていませんが、現在取り組んでいる研究がその理解に少しでも近づく可能性があります。

私たちの新しい研究では、機械から人間への知識伝達の可能性を探るために、DeepMindのAlphaZeroに着目しています。AlphaZeroは自己訓練型のチェスAIで、ストックフィッシュというプログラムを打ち負かし、人間のトッププレイヤーよりも高いエロー・レーティングを持っています。

以前の研究では、AlphaZeroのネットワーク内で人間のチェスの概念がいつ、どこで出現するかを調査しました。例えば、「駒の不均衡」のような概念がネットワークのどの層に、訓練のどの時点で現れるかを探りました。また、人間とAlphaZeroの序盤（オープニング）の動きの進化を比較しました。

興味深いことに、人間とAlphaZeroの序盤における選択には大きな違いがありました。左側が人間のプレイヤー、右側がAlphaZeroのグラフですが、AlphaZeroはより多様な種類の序盤を習得していることがわかります。序盤は攻撃的なものから退屈なものまで、長期戦略を目指すものから短期的なものまでさまざまですが、AlphaZeroはそれらすべてを扱えるようです。

この結果から、「AlphaZeroは人間が知らないチェスの戦略を知っているのではないか」という疑問が浮かびます。そこで私たちの次の研究目標は、「世界チャンピオンに超人的なチェス戦略を教える」ことです。

嬉しいことに、世界チャンピオンのマグヌス・カールセンが私たちの研究に協力することに同意してくれました。私たちのアプローチは、既存のチェス戦略を意図的に「忘れさせる」ことで新しいチェス戦略を発見し、既存の概念間の関係を使ってグラフを学習することで新しい概念がどのようなものかの手がかりを得るというものです。

この研究の素晴らしい点は、評価が明確だということです。マグヌスが単に「良い研究だ」と言うだけでなく、実際にパズルを解いてもらい、彼が新しい概念を理解し適用できたかどうかを客観的に評価できます。

研究はまだ進行中ですが、AlphaZeroの埋め込み空間内で概念を生成し、そこから盤面の位置を特定し、MCTSアルゴリズムを使用して次の一手を予測するという方法で進めています。これらの盤面の位置がパズルとなり、マグヌスにはその概念を説明した上で一手を指してもらうことになります。

たとえ10,000の超人的概念のうち、マグヌスが理解できるのが3つだけだとしても、それは大きな成功です。このようなアプローチが、いつか「手37」のような機械の秘密を解明する鍵になる可能性があります。

8.2. オープニングムーブの人間とAIの比較

私たちの研究では、人間のチェスプレイヤーとAlphaZeroのオープニングムーブ（序盤の動き）を比較分析しました。この比較から非常に興味深い違いが明らかになりました。

左側に人間のプレイヤーによるオープニングの選択分布、右側にAlphaZeroによる選択分布を示したグラフを見ると、明らかな違いがあります。人間のプレイヤーは比較的限られた種類のオープニングを選択する傾向があるのに対し、AlphaZeroははるかに多様なオープニングを使いこなしています。

具体的には、人間のプレイヤーは特定の有名なオープニング（例：シシリアン・ディフェンス、スペイン戦法、フランス・ディフェンスなど）に集中する傾向があります。これらのオープニングは長年の研究と実践を通じて「良い」と判断されてきたものです。一方、AlphaZeroは非常に幅広いオープニングを使用し、人間がほとんど使わないようなオープニングでも高いレベルでプレイすることができます。

さらに興味深いのは、AlphaZeroがオープニングの性質によって偏りを示さないことです。攻撃的なオープニングから防御的なものまで、長期的な戦略を重視するものから短期的な戦術を重視するものまで、様々なタイプのオープニングを同様に習得しています。これは人間のプレイヤーが往々にして自分のプレイスタイルに合ったオープニングを好む傾向とは対照的です。

この比較から、AlphaZeroが人間とは異なる方法でチェスを概念化している可能性が示唆されます。人間のプレイヤーは経験や理論に基づいて特定のオープニングを「良い」と判断しますが、AlphaZeroは純粋に勝率に基づいて選択しています。その結果、人間が見過ごしてきた可能性のあるオープニングも含め、より幅広いオープニングを効果的に使いこなせるのです。

この発見は、AIが人間には見えていない新しいチェス戦略を発見している可能性を強く示唆しています。これこそが私たちの次の研究、マグヌス・カールセンに超人的なチェス戦略を教えるプロジェクトの動機となっています。AIが発見した新しい視点や戦略を人間が学ぶことで、人間のチェスの理解をさらに深められる可能性があるのです。

8.3. マグヌス・カールセンとの超人的チェス戦略実験計画

現在私たちが取り組んでいるのは、世界チャンピオンのマグヌス・カールセンに超人的なチェス戦略を教えるという野心的なプロジェクトです。このプロジェクトは、AIが発見した人間には見えていない新しいチェスの概念や戦略を、人間のトッププレイヤーが理解し応用できるかを検証する試みです。

嬉しいことに、マグヌス・カールセンが私たちの研究に協力することに同意してくれました。彼は最近マッチで敗北しましたが、私の心の中では依然としてチャンピオンです。実際、彼は現在も2つのカテゴリーでチャンピオンの座を保持しています。

実験の設計は以下のようになっています。まず、既存のチェス戦略を意図的に「忘れさせる」ことで、新しいチェス戦略を発見します。次に、既存の概念間の関係を使ってグラフを学習し、新しい概念がどのようなものかの手がかりを得ます。これにより、AlphaZeroが人間とは異なる方法で理解している概念を抽出します。

この実験の最も優れた点は、評価が明確であることです。マグヌスが単に「素晴らしい研究だ」と言うような主観的な評価ではなく、実際にパズルを解いてもらい、彼が新しい概念を理解し適用できたかどうかを客観的に評価します。具体的には、特定の盤面の位置を提示し、新しい概念を説明した上で、マグヌスに次の一手を指してもらいます。その後、さらに別の盤面を提示して、学んだ概念を適用できるかテストします。

パズルの生成方法については、AlphaZeroの特殊なアーキテクチャを活用します。AlphaZeroでは、各潜在層がチェス盤と同じ位置関係を持っているという特徴があります。これを利用して、概念に対応する盤面の位置を特定し、さらにMCTS（Monte Carlo Tree Search）アルゴリズムを使って、その盤面からAlphaZeroがどのような手を指すかを予測します。これらの盤面と予測される手がパズルとなります。

このプロジェクトの目標は、超人的な概念の中から人間が理解できるものを見つけることです。たとえ10,000の超人的概念のうち、マグヌスが理解し応用できるのが3つだけだとしても、それは大きな成功と言えます。これらの概念が人間のチェスの理解を深め、新たな戦略の発展につながる可能性があります。

オックスフォード大学のPhD学生であり、自身もチェスチャンピオンであるリサとの協働が、このプロジェクトの鍵となっています。彼女はマグヌスと対戦した経験もあり、超人的な概念を人間に理解できる形にフィルタリングする上で重要な役割を果たしています。

まだ結果は出ていませんが、数か月以内に何らかの成果が得られることを期待しています。このアプローチが成功すれば、将来的にはAlphaGoの「手37」のような機械の秘密を解明する糸口になるかもしれません。

9. 結論と今後の展望

9.1. 小さな一歩の積み重ねの重要性

私たちの希望と夢に向けて、これまでの研究は小さな一歩に過ぎないかもしれませんが、それぞれが重要な進展をもたらしています。今日お話したことをまとめると、主に3つの視点からAIシステムの理解に取り組んできました。

まず、機械が実際に知っていることと私たちが機械が知っていると思うことの間にはギャップが存在します。このギャップが生じる理由として、3つの仮説を提示しました：

私たちの前提が間違っている可能性
私たちの期待が現実と一致していない可能性
機械が示しているのは、人間には理解できない超人的な何かである可能性

このギャップを埋めるためには、まず既存の解釈可能性手法の限界を認識することが重要です。私たちの研究で示したように、よく使われている特徴帰属法（サリエンシーマップやShapley値など）はランダムな推測以上の情報を提供しない場合があります。また、大規模言語モデルの知識編集においても、知識の位置特定と編集成功の間に相関関係がないことが判明しました。

次に、新しい種を研究するように機械を研究するアプローチを提案しました。観察的研究では、マルチエージェントシステムの行動を単純に観察するだけでも、エージェントの行動パターンについて有意義な洞察を得られることがわかりました。制御実験では、概念ボトルネックを用いたシステムにより、パフォーマンスを維持しながら介入を可能にする方法を示しました。

最後に、AlphaZeroとの研究では、AIが人間とは異なる方法でチェスを概念化している可能性を探り、その知識を人間に伝達する試みを進めています。マグヌス・カールセンとの実験は、機械から人間への知識伝達の可能性を検証する重要なステップとなるでしょう。

良い研究者は常に自分の結果に疑いを持ち、批判的な目で検証すべきです。自分の結果を気に入りすぎたら、それは警告サインかもしれません。一度離れて、翌日改めて自分の研究を批判的に見直すことで、思考が改善されることが多いのです。

これらの小さな一歩の積み重ねが、いつの日か「手37」のような機械の秘密を解明する道につながることを願っています。AIと人間の間に意味のある対話を構築し、お互いから学び合うことで、AIの発展が人類に真の恩恵をもたらす未来を実現できるかもしれません。

9.2. 未知の種としてのAIの研究手法

希望と夢に注目を戻すと、機械が実際に知っていることを推定するためのツールを構築するだけでなく、いくつかの基礎作業も必要だと気づきました。これまで説明を生成しようとしてきた「異質な存在」は、異なる種類のものであるかもしれません。そこで、野生の新種のように研究するアプローチが有効ではないでしょうか。

野生で新種を観察するとき、いくつかの方法があります。一つは観察研究です。野生で遠くから観察し、彼らがどのようなものか、彼らの生息地、彼らの価値観などを観察します。もう一つは、介入して制御研究を行うことです。

私たちはこれと類似のことを強化学習のセットアップで行いました。OpenAIのハイド・アンド・シークやDeepMindのヒューマノイドフットボール、キャプチャー・ザ・フラッグなど、多くの興味深い創発的行動が観察されています。これらの行動は「走る」「追いかける」「要塞構築」「坂道使用」などとラベル付けされていますが、これらは研究者が一つ一つビデオを見て手動でラベル付けしたものです。

私たちの疑問は、これらの創発的行動をより効率的に発見する良い方法があるのではないかということでした。そこで、エージェントの状態と行動のペアのみを観察し、データをクラスタリングすることでエージェントの行動を発見する生成モデルを開発しました。

この手法は簡単なドメインだけでなく、複雑なハイド・アンド・シークなどでも有効でした。しかし、この方法はクラスターに名前を付けてくれないため、自分で調査・探索する必要があります。また、クラスターが超人的な概念を表している場合、この方法では理解できない可能性があります。

一方、制御研究では、システムに直接介入します。多エージェントシステムを一から構築し、概念ボトルネックを各エージェントに組み込むことで、パフォーマンスを維持しながら介入が可能になりました。特に興味深かったのは、介入によってエージェント間の関係が明らかになったことです。

野生の新種を研究する方法は他にもあり、人類学などの人文科学がより多くのアプローチを知っているかもしれません。これらの多様な研究手法を組み合わせることで、将来的には「手37」のような機械の秘密を理解できる可能性があります。現在のチェスプロジェクトもその一環として位置づけられます。

AIを未知の種として研究するアプローチは、その内部表現や概念化の方法について新たな視点を提供します。単に人間の概念をAIに押し付けるのではなく、AIが独自に発展させた概念を理解し学ぶことで、人間とAIの両方が恩恵を受ける対話が可能になるでしょう。この双方向の学びが、AIと人間の効果的なコラボレーションの鍵となるのです。

9.3. 機械学習解釈可能性研究の多様な応用可能性

私が紹介した解釈可能性研究は、NLP、コンピュータビジョン、強化学習など複数のモダリティにまたがっています。これらの技術の応用可能性について考えてみると、2つの異なるアプローチがあることがわかります。

まず、理論的な基盤に基づく研究は、複数のドメインに適用可能です。例えば、ShapleyやIGといった特徴帰属手法に関する理論的研究は、画像処理やテキスト分析など様々な領域で使用できます。私たちが示した限界もまた、どのドメインにも当てはまります。これらの手法がランダムな推測以上の情報を提供しないという発見は、どの領域でAIを使用する場合でも考慮すべき重要な知見です。

一方で、実際の応用においては、特定のドメインや問題に合わせたカスタマイズが必要になります。公平性研究を考えてみましょう。公平性に関する数学的基盤は広く適用可能ですが、実際に誰かの公平性の問題を解決しようとするとき、それは全く異なる問題になります。特定のアプリケーションに合わせてカスタマイズする必要があるのです。

解釈可能性研究も同様です。私が紹介した生成モデルによるマルチエージェント行動の分析は、NLPにも適用できる可能性があります。ただし、NLPにおけるエージェントをどのように考えるべきかは、さらなる研究が必要です。両方の方向性が実り多い研究をもたらすでしょう。

特に興味深いのは、ロボティクスへの応用可能性です。実世界での強化学習の応用において、最も大きなリスクは予期せぬ驚きです。ユニットテストがあれば、デプロイ前にテストすることでエラーを防げますが、予想外の事態に対処することは困難です。私たちの視覚化ツールやその他の手法は、これらの予期せぬ驚きを他の誰かが発見する前に、または誰かが被害を受ける前に発見するのに役立つでしょう。

また、別の観点として、機械に私たちの言語で何をしているのかを教えることも検討できます。これは、私たちが機械の表現を理解しようとするのとは逆の、機械に人間の言語での翻訳を依頼するアプローチです。この方法は私のテスト・ウィズ・コンセプト・アクティベーション・ベクターズという以前の研究でも試みました。

しかし、AlphaZeroのような複雑なシステムでこのアプローチを適用するには課題があります。私たちには「手37」のような概念の語彙がなく、機械から学べる貴重な知識が失われる可能性があります。そのため、アプローチは双方向であるべきです。人間の言語をできるだけ活用しつつも、それだけでは完全ではないことを認識する必要があります。

人間の概念だけを使用するアプローチでも、半分まで到達することは可能ですが、私の野心は、そこで止まらず、私たちが知らなかった新しいことを教えてもらうことでAIから恩恵を受けることです。この双方向の学びが、AIと人間の効果的なコラボレーションの未来を形作るでしょう。

Stanford CS224N NLP with Deep Learning | 2023 | Lec. 19 - Model Interpretability & Editing, Been Kim

For more information about Stanford's Artificial Intelligence professional and graduate programs visit: https://stanford.io/ai To learn more about this course visit: https://online.stanford.edu/courses/c... To follow along with the course schedule and syllabus visit: http://web.stanford.edu/class/cs224n/ Been Kim https://beenkim.github.io/ Professor Christopher Manning Thomas M. Siebel Professor in Machine Learning, Professor of Linguistics and of Computer Science Director, Stanford Artificial Intelligence Laboratory (SAIL) #naturallanguageprocessing #deeplearning

youtu.be

Stanford CS224N NLP with Deep Learning | 2023 | Lec. 19 - Model Interpretability & Editing, Been Kim