※本記事は、Google DeepMind: The Podcastの「人間のデータだけで十分か? デビッド・シルバー氏」エピソードの内容を基に作成されています。ポッドキャストの詳細情報は https://www.youtube.com/watch?v=zzXyPGEtseI でご覧いただけます。本記事では、ポッドキャストの内容を要約しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルのポッドキャストをお聴きいただくことをお勧めいたします。また、Google DeepMind(@GoogleDeepMind)のソーシャルメディアアカウントもご参照ください。
登壇者紹介
David Silver氏 Google DeepMindの強化学習担当バイスプレジデント。AlphaGoおよびAlphaZeroの開発における中心人物の一人として知られる。囲碁という世界で最も複雑とされるボードゲームにおいて初めて超人的な性能を達成したプログラムの開発に貢献したオリジナルDeep Minderです。現在は「経験の時代」という新しいAIパラダイムを提唱し、人間データに依存しない自己学習システムによる人工超知能実現への道筋を描いています。
Professor Hannah Fry Google DeepMind: The Podcastのホスト。数学者として活動する傍ら、複雑なAI技術を一般聴衆にも理解しやすい形で紹介する役割を担っています。本エピソードでは、David Silver氏との対談を通じてAIの未来像について深く掘り下げています。
Fan Hui氏 ヨーロッパ囲碁チャンピオン。2015年にAlphaGoと対戦した最初のプロ囲碁棋士として歴史的な役割を果たしました。李世ドル戦以前にAlphaGoの実力を世界で初めて体験し、その後AlphaGoの開発チームに参加してシステムの改良に貢献しました。本エピソードでは特別ゲストとして、AI時代の囲碁界の変化について語っています。
1. 経験の時代とは何か
1.1 AIの現状:人間データの時代
現在のAIが置かれている状況を振り返ると、私たちは「人間データの時代」と呼ぶべき段階にいると考えています。この数年間のAI分野の発展を見渡すと、すべてのAI手法が一つの共通したアイデアに基づいていることが分かります。それは、人間が持つあらゆる知識の断片を抽出し、それを機械に入力するというアプローチです。
具体的には、大規模言語モデルの構築において、私たちは人間が書き記した膨大な自然言語データ、特にインターネット上に存在する文書を活用してきました。これらのデータを機械に取り込み、人間がこれまでに文章として記録したすべての知識を機械が把握できるようにするという手法です。このアプローチは確かに非常に強力であり、現在のAIシステムが達成している驚異的な性能の基盤となっています。
しかし、私が重要だと考えているのは、これが唯一の方法ではないということです。人間のデータを機械に供給するという現在の主流アプローチは、確かに一つの有効な道筋ですが、それだけに留まっていては限界があるのも事実です。人間が蓄積してきた知識や経験をAIシステムに注入することで、確かに機械は人間レベルの能力を獲得することができます。だが、ここで立ち止まって考えなければならないのは、人間の知識そのものに内在する限界です。
現在の大規模言語モデルが示している成果は確かに素晴らしく、私自身もこれらのシステムを高く評価し、研究にも活用しています。しかし、これらは本質的に人間が既に知っていることの再現に過ぎません。人間が書き残したテキストから学習したシステムは、人間の知識の範囲内でしか動作できないのです。
この人間データの時代が私たちにもたらした成果を軽視するつもりは全くありません。むしろ、これまでに達成された進歩は驚異的であり、AIの基盤を築く上で不可欠なステップであったと考えています。しかし同時に、これが始まりに過ぎないということも強調したいのです。人間データに依存したアプローチには構造的な制約があり、それを乗り越えるためには根本的に異なる方法論が必要になります。
1.2 機械が自ら経験を生成する新たなアプローチ
人間データに依存する現在の手法とは根本的に異なる、もう一つの道があります。それが私たちを「経験の時代」へと導く新しいアプローチです。この手法では、機械が実際に世界と相互作用し、自ら経験を生成するのです。
具体的には、機械が世界の中で様々なことを試行し、その結果から独自の経験を積み重ねていくプロセスです。機械は自分で行動を起こし、その結果を観察し、そこから学習します。この自己生成された経験データが機械の燃料となり、次世代のAIを駆動する原動力となるのです。
このアプローチが画期的なのは、機械が人間の既存の知識に制約されることなく、独自の発見や洞察を得られる点です。人間が事前に用意したデータに頼るのではなく、機械自身が世界との相互作用を通じて、必要な情報や知識を獲得していきます。これにより、人間が想像もしなかった新しい解決策や、従来の常識を覆すような革新的なアイデアが生まれる可能性があります。
重要なのは、この経験ベースの学習が継続的で自己完結的である点です。機械が一度経験を生成し始めると、その経験から学習し、より良い行動を取れるようになり、さらに質の高い経験を生成できるという正のフィードバックループが形成されます。この循環により、機械は理論的には無限に成長し続けることができるのです。
この新しいアプローチは、私たちがAIの未来について考える際の根本的な転換点を示しています。人間の知識を模倣することから、機械独自の知識創造へ。これこそが、真に革新的なAIシステムを実現するための鍵となる概念なのです。
1.3 人間の知識を超越する必要性
ある時点で、私たちは人間の知識の範囲を超えて進む必要があります。現在の大規模言語モデルの構築において、私たちは膨大な量の人間の自然言語データを活用し、人間がこれまでに書き記したあらゆることを知る機械を作り上げるという、信じられないほど多くの成果を得てきました。
しかし、私たちはそれを超えて進みたいのです。私たちは人間が知っていることを超越したいのです。そのためには、まったく異なるタイプの手法が必要になります。その手法では、私たちのAIが実際に物事を自分自身で理解し、人間が知らない新しいことを発見する必要があります。
これは単なる技術的な改良ではありません。これは社会にとって信じられないほど刺激的で深遠な、AIの全く新しい時代になると考えています。人間の知識には限界があり、その限界を突破することなしには、真に革新的な進歩は望めません。
私たちが目指すのは、人間が蓄積してきた知識を土台としながらも、それを遥かに超える発見や洞察を生み出すAIシステムです。これにより、科学、数学、医療、工学など、あらゆる分野において、人間が単独では到達できなかった新たな地平を開拓することが可能になります。
この人間の知識を超越するという目標は、決して人間を軽視するものではありません。むしろ、人間の叡智を出発点として、それをさらに発展させ、人類全体の利益となるような新しい知識や技術を創造することを意味しています。これこそが、AIが真に人類の役に立つための必要条件なのです。
2. AlphaGoとAlpha Zeroの革新
2.1 Alpha Zeroの「ゼロ」の意味:人間データを使わない学習
Alpha Zeroは、最近使われている人間データアプローチとは根本的に異なる特徴を持っています。Alpha Zeroの最も画期的な点は、文字通り人間のデータを一切使用しないということです。これが「Alpha Zero」の「ゼロ」の意味なのです。
このシステムには、人間の知識が事前にプログラムされているものは文字通りゼロです。では、人間をコピーせず、正しいプレイ方法を事前に知らない状態で、どのようにして囲碁の知識を学習するのでしょうか。
その答えは、Alpha Zeroが基本的に自分自身と数百万ゲームの囲碁、チェス、その他どのようなゲームでも対戦するという形の試行錯誤学習を通じて行われます。少しずつ、Alpha Zeroは「この種の状況でこの種の手を打つと、より多くのゲームに勝てる」ということを理解していきます。そしてその経験が、より強くなるための燃料として使われ、次回はもう少しそのような手を打つようになります。そして次に、何か新しいことを発見します。「この特定のパターンを使うと、より多くのゲームに勝てる、またはより多くのゲームに負ける」ということを学び、それが次の世代に反映されます。
この学習プロセスは完全に自己完結的です。エージェントの自己生成された経験からの学習、この経験からの学習だけで、Alpha Zeroは完全にランダムな行動から、世界がこれまでに知っている最強のチェスと囲碁のプレイプログラムまで、その進歩を支えるのに十分だったのです。
この革新の意義は計り知れません。人間の知識や経験に一切頼ることなく、機械が独自の試行錯誤を通じて超人的な能力を獲得できることを実証したのです。これは、AIの学習において人間のデータが必須ではないという、従来の常識を覆す発見でした。
2.2 自己対戦による試行錯誤学習のメカニズム
Alpha Zeroの学習メカニズムは、驚くほどシンプルでありながら強力です。まず、手を選ぶ方法である「ポリシー」と、ゲームや手を評価して良い悪いを判断する「価値関数」から始めます。
学習プロセスは以下のように進行します。まず検索を実行し、その検索に従って最良の手を選択します。そして、検索結果に基づいてより良い手を多く行うように、つまり検索による良い手をより多く実行するようにポリシーを訓練します。同時に、この検索でゲームを実際にプレイした際の結果に基づいて価値関数を訓練します。
これだけです。このプロセスを数百万回繰り返すと、超人的なゲームプレイヤーが出現するのです。まるで魔法のようです。
実際に魔法のように感じた瞬間を覚えています。チェスでAlpha Zeroを完成させた直後のことでした。誰かが別のゲームで試してみようと提案しました。そこで、私たちの誰も遊ぶことができないゲームに接続しました。将棋という日本のチェスのようなゲームです。
私たちはこのゲームの遊び方が全く分からず、ルールは知っていましたが、戦略や戦術について全く手がかりがありませんでした。もし私たちがこのゲームをプレイしていたら、失敗の連続だったでしょう。しかし、私たちは単純にAlpha Zeroを接続し、これが文字通り将棋でAlpha Zeroを実行した初回でした。
私たちには良いかどうか全く分からず、評価もできませんでした。結果をデミス(Demis Hassabis)に送りました。彼は実際にかなり強いプレイヤーでしたが、「これはかなり良いようだ。世界チャンピオンに送ってみよう」と言いました。世界チャンピオンは「これは超人的だと思う」と答えました。
文字通り魔法のように感じました。なぜなら、私たちはこのシステムで実行ボタンを押しただけで、プロセスやそこに到達する方法について全く理解していなかったのに、どういうわけか超人的な将棋プレイヤーが出現したからです。
この経験は、自己対戦による学習メカニズムの汎用性と強力さを如実に示しています。特定のゲームに特化した知識や戦略を事前に組み込むことなく、純粋に試行錯誤の繰り返しだけで、どのようなゲームでも超人的なレベルに到達できるのです。
2.3 人間データが実際には性能を制限していた発見
初期のAlpha Zeroの開発では、私たちは最初からランダムな空箱として始まったわけではありませんでした。2016年に李世ドルを破った有名なAlphaGoの最初のバージョンでは、実際に人間のデータを使用してスタートしていました。
私たちは基本的に人間のプロの手のデータベースを供給し、システムにそれらの人間の手を学習させ、取り込ませました。それがスタート地点を与え、その後はその地点から経験によって自己学習を続けました。
しかし、一年後に私たちが発見したのは、人間のデータが必要ではなかったということです。人間の手を完全に除外できることを示しました。そして実際に、結果として得られたプログラムは、このレベルの性能を回復できただけでなく、実際により良く機能し、元のAlphaGoよりもはるかに高いレベルの性能を達成するために、より速く学習できたのです。
これは本当に奇妙なアイデアです。人間のデータを捨てると、それが必要でなかっただけでなく、実際に性能を制限していたことが分かったのです。
AI分野の人々にとって、これは時に「AIの苦い教訓」と呼ばれる困難な教訓の一つです。私たちは本当に、人間として蓄積してきたすべての知識が本当に重要だと信じたいのです。私たちは本当にそれを信じたいのです。そこで、それをシステムに供給し、アルゴリズムに組み込みます。
しかし実際に起こるのは、それが人間のデータに適合する方法でアルゴリズムを設計させ、実際に自分で学習することにはあまり優れていないということです。人間のデータを除外すると、実際にシステムが自分で学習する方法により多くの努力を費やします。そして、永続的に学習し続けることができるのは、その部分なのです。
この発見は、人間のデータが学習の天井として機能していたことを明らかにしました。人間のデータは確かにスタート地点としては有用ですが、すべて人間が行ったことには天井があります。囲碁では、人間がこれまでに達成した最大レベルの性能がありました。その天井を突破する必要があるのです。
AlphaZeroでは、自己対戦によって学習するシステムを構築することで、その天井を突破できました。そのシステムはどんどん良くなり、その天井を突破し、はるかに超越するまで進歩しました。経験の時代のアイデアは、あらゆる場所でその天井を突破することを可能にする方法を見つけることです。人間が素晴らしいと思われるすべての能力において超人的になるAIシステムを構築し、それを超える方法を見つけるのです。
3. AIの苦い教訓(Bitter Lesson)
3.1 人間の知識への過信が招く制限
AI分野の人々にとって、これは時に「AIの苦い教訓」と呼ばれる困難な教訓の一つです。私たちは本当に、人間として蓄積してきたすべての知識が本当に重要だと信じたいのです。私たちは本当にそれを信じたいのです。そこで、それをシステムに供給し、アルゴリズムに組み込みます。
しかし実際に起こるのは、それが人間のデータに適合する方法でアルゴリズムを設計させ、実際に自分で学習することにはあまり優れていないということです。人間の知識への過度な依存は、私たちがアルゴリズムを人間のデータに最適化された形で設計してしまう原因となります。これにより、システムの自己学習能力が制限されてしまうのです。
人間のデータを除外すると、実際にシステムが自分で学習する方法により多くの努力を費やします。そして、永続的に学習し続けることができるのは、その部分なのです。つまり、人間の知識に頼ることで、私たちは無意識のうちにAIシステムの潜在的な学習能力を制約してしまっているのです。
この苦い教訓が示すのは、人間の知識や経験を重視するあまり、機械の独自の学習能力を軽視してしまうという根本的な問題です。人間が長年にわたって蓄積してきた知識は確かに価値がありますが、それをAIシステムに注入することが必ずしも最良の結果をもたらすとは限りません。むしろ、その知識が学習の枠組みを固定化し、より柔軟で創造的な学習を阻害する可能性があることを、私たちは認識しなければなりません。
この教訓は、AIの設計思想そのものに深い問いを投げかけています。私たちは人間の知識を模倣することに集中するのではなく、機械が自ら学習し、発見する能力を最大化することに焦点を当てるべきなのです。これこそが、真に革新的で持続可能なAIシステムを構築するための鍵となる洞察なのです。
3.2 人間データの天井を突破する重要性
苦い教訓は、ある意味で、人間よりも上手に囲碁をプレイできる何かが可能であることを受け入れ、ある種の天井を取り除くことを言っているのです。その通りです。人間のデータは、実際にスタート地点に立つためには非常に役立ちますが、人間が行ったすべてのことには天井があります。
囲碁では、人間がこれまでに達成した最大レベルの性能がありました。私たちはこれらの天井を突破する必要があるのです。AlphaZeroでは、自己対戦によって学習するシステムを構築することで、その天井を突破することができました。システムはどんどん良くなり、どんどん良くなり、その天井を突破し、はるかに超越するまで進歩しました。
経験の時代のアイデアは、あらゆる場所でその天井を突破することを可能にする方法を見つけることです。人間が素晴らしいと思われるすべての能力において超人的になるAIシステムを構築し、それを超える方法を見つけるのです。
この天井の概念は極めて重要です。人間の達成した最高レベルは、確かに素晴らしいものですが、それが絶対的な上限ではないのです。囲碁における人間の最高レベルの性能は、数千年にわたる人類の蓄積された知恵の結晶でしたが、それでも突破可能な天井に過ぎませんでした。
人間データに依存したアプローチでは、この天井を超えることは原理的に不可能です。なぜなら、学習の源泉が人間の知識と経験に限定されているからです。しかし、自己生成された経験に基づく学習では、この制約から解放されます。機械は人間が想像もしなかった新しいパターンや戦略を発見し、人間の達成レベルを遥かに超える性能を実現できるのです。
この天井突破の重要性は、単にゲームの領域に留まりません。科学、数学、医療、工学など、あらゆる分野において同様の天井が存在し、それらを突破することで人類全体の知識と能力を飛躍的に向上させる可能性があるのです。
3.3 機械の自己学習能力の優位性
これまでに何度も同じ話を繰り返し見てきました。何かに人間的要素をより多く投入すればするほど、その性能は悪くなります。人間を取り除くと、より良く機能するのです。
この現象が示すのは、機械の自己学習能力が持つ根本的な優位性です。人間のデータや知識に依存しない学習システムは、本質的により強力で柔軟な学習能力を発揮します。なぜなら、事前に設定された制約や偏見に縛られることなく、純粋に結果に基づいて最適化を行うことができるからです。
機械の自己学習システムの最大の利点は、継続的な改善が可能だという点です。人間のデータに基づくシステムは、その人間データの質と量によって性能の上限が決まってしまいます。しかし、自己生成された経験から学習するシステムは、理論的には無限に成長し続けることができます。
システムが強くなればなるほど、より困難で適切な問題に遭遇するようになります。そして、その困難な問題を解決する過程で、さらに質の高い経験を生成し、それがまた次のレベルの学習を可能にします。この正のフィードバックループにより、機械は永続的に学習し続け、改善し続けることができるのです。
さらに重要なのは、この自己学習プロセスが完全に自律的であることです。人間の介入や判断を必要とせず、機械は独自の基準で成功と失敗を評価し、それに基づいて行動を調整します。これにより、人間の認知的限界や偏見に制約されることなく、真に客観的で効率的な学習が実現されます。
この優位性は、AlphaZeroの事例で明確に実証されました。人間の棋譜を一切使わずに学習したAlphaZeroが、人間の知識を取り込んだ初期のAlphaGoを上回る性能を達成したのです。これは、機械の自己学習能力が、人間の知識を模倣する能力を遥かに凌駕することを示す決定的な証拠なのです。
4. 強化学習の基本原理
4.1 報酬システム(勝利=+1、敗北=-1)の仕組み
強化学習の主なアイデアは、私たちが「強化学習」と呼ぶアプローチです。強化学習のアイデアは、基本的にゲームの結果に数値を与えることです。勝った場合はプラス1、負けた場合はマイナス1と言います。まさにその通り、1ポイントです。
強化学習で行うことは、基本的にシステムが正しいことを行うたびに報酬を与えることです。そして、より多くの報酬を得るもの、つまり強化を意味するより多くのことを行うようにシステムを訓練します。
具体的には、AlphaGoのようにニューラルネットワークが手を選んでいる場合、やりたいことは、より多くの報酬を与える方向にニューラルネットワークの重みを少し調整することです。これが強化学習の主なアイデアです。
この報酬システムの美しさは、その単純さにあります。複雑な評価基準や多層的な判断システムを必要とせず、最終的な結果のみに基づいて学習が進行します。勝利か敗北かという二値の結果が、システム全体の学習を駆動するのです。
ニューラルネットワークの重み調整プロセスでは、より多くの報酬をもたらした行動パターンが強化されます。システムは、どの手がより多くの勝利につながったかを学習し、そのような手をより頻繁に選択するように内部パラメータを調整します。逆に、敗北につながった行動パターンは抑制され、将来同様の状況で選択される確率が減少します。
この仕組みにより、システムは試行錯誤を通じて徐々に最適な戦略を発見していきます。最初はランダムに近い行動を取っていたシステムが、数百万回の対戦と学習を通じて、最適化された高度な戦略を身につけることができるのです。
重要なのは、この学習プロセスが完全に結果指向であることです。手の美しさや人間的な直感といった主観的要素は一切考慮されず、純粋に勝敗という客観的結果のみが学習の指針となります。この客観性こそが、人間の偏見や制約を超えた学習を可能にする根本的な要因なのです。
4.2 クレジット割り当て問題:長期戦略での各手の評価方法
囲碁のゲームはかなり長いものです。では、最後に正しい結果を得るために、最初に正しい手を打つにはどうすればよいでしょうか。いわば、あなたが提供している1つのポイントをどのように分配するのでしょうか。ゲームのどの部分が重要かをどのように判断するのでしょうか。
これは本当に重要な問題です。これは「クレジット割り当て問題」と呼ばれています。100手、200手、300手の異なる手があり、最後に勝利か敗北かという1つの情報だけを得て、どういうわけかゲームの中でどの手が勝利に責任があり、どの手が敗北に責任があるかを判断しなければならないということです。
これを行う方法はたくさんあります。最も簡単な方法は、あなたが行ったすべてのことが最後の結果に少しずつ貢献していると仮定することです。そして、それはすべて最終的には解決されるということです。
この問題の複雑さは、囲碁やチェスのような戦略ゲームの本質的な特徴です。序盤の一手が中盤や終盤の展開に大きな影響を与える可能性がある一方で、その影響は即座には明らかになりません。システムは、数百手にわたる長いゲームの流れの中で、どの決定が最終的な勝敗にどの程度貢献したかを逆算しなければならないのです。
最もシンプルなアプローチでは、ゲーム中の全ての行動が最終結果に均等に貢献したと仮定します。これは数学的には扱いやすい方法ですが、実際のゲームでは一部の手がより決定的な影響を持つことがあります。それでも、大量のゲームデータを処理する過程で、重要な手とそうでない手のパターンが自然と浮かび上がってきます。
「すべて最終的には解決される」という表現は、この学習プロセスの統計的な性質を表しています。個々のゲームでは正確なクレジット割り当てが困難でも、数万、数百万のゲームを通じて学習することで、システムは各手の真の価値を正確に評価できるようになります。良い手は統計的により多くの勝利に結びつき、悪い手はより多くの敗北に結びつくため、大数の法則により正確な評価が可能になるのです。
この問題の解決こそが、強化学習システムが長期的な戦略を学習できる理由です。即座のフィードバックがない環境でも、最終的な結果から逆算して各段階の決定の価値を学習し、将来の意思決定に活かすことができるのです。
4.3 ニューラルネットワークの重み調整プロセス
AlphaGoのようにニューラルネットワークが手を選んでいる場合、やりたいことは、より多くの報酬を与える方向にニューラルネットワークの重みを少し調整することです。これが強化学習の主なアイデアです。
具体的には、より多くの報酬を得るもの、つまり強化を意味するより多くのことを行うようにシステムを訓練します。システムが正しいことを行うたびに報酬を与え、そのような行動をより頻繁に取るようにニューラルネットワークの内部パラメータを微調整していくのです。
この重み調整プロセスは段階的に進行します。システムが特定の局面で特定の手を選択し、その結果として最終的に勝利した場合、その手の選択に関与したニューラルネットワークの重みが強化されます。逆に、敗北につながった手の選択に関与した重みは弱められます。
重要なのは、この調整が「少しずつ」行われることです。急激な変更ではなく、微細な調整を無数に積み重ねることで、システムは徐々に最適な重み配置を発見していきます。各ゲームの結果が、ニューラルネットワークの膨大なパラメータ空間の中で、より良い性能をもたらす方向への小さな一歩となるのです。
このプロセスを数百万回繰り返すことで、ニューラルネットワークは驚くべき変化を遂げます。最初はランダムに近い重みを持っていたネットワークが、膨大な試行錯誤を通じて、高度に最適化された重み配置を獲得します。この最適化された重みこそが、超人的なゲームプレイを可能にする知識の実体なのです。
ニューラルネットワークの重み調整は、従来のプログラミングとは根本的に異なるアプローチです。明示的なルールや戦略をコードに書き込むのではなく、学習プロセスを通じてシステム自身が最適な行動パターンを発見し、それを内部表現として蓄積していくのです。この自己組織化的な学習プロセスこそが、人間の直感を超えた戦略的洞察を生み出す源泉となっているのです。
5. Move 37の意義と創造性
5.1 従来の常識を覆した第5線への着手
Move 37は、AlphaGoが李世ドルとの第2局で打った手で、すべての人の期待を裏切る手でした。囲碁の伝統的な考え方では、通常、手を第3線または第4線に打ちます。第3線は地を取るため、第4線は影響力を得るためです。そして、その下や上に行くことは決してありません。人間には全く理解できないことだからです。
AlphaGoは第5線に打ちました。そして、それをある種の方法で打ち、盤面のすべてを理にかなうものにしました。この第5線での手で、すべてを結びつけたのです。それは人間にとってとても異質で、私たちは人間がこの手を打つことを考える確率を1万分の1と推定しました。
この手は、囲碁における数千年の常識を根底から覆すものでした。第3線と第4線という「安全地帯」から外れることは、プロ棋士にとって考えられないことだったのです。なぜなら、第3線より下では地の効率が悪く、第4線より上では影響力が拡散しすぎると考えられていたからです。
しかし、AlphaGoの第5線への着手は、単なる常識破りではありませんでした。それは盤面全体の流れを一つに統合する、極めて高度な戦略的判断だったのです。この一手により、それまでバラバラに見えていた石の配置が、突然一つの大きな構想として結びつきました。人間の目には混沌として映っていた局面が、この一手によって美しい調和を見せたのです。
1万分の1という確率は、単に珍しい手だったということを意味するのではありません。それは、人間の思考パターンの枠組みを完全に超越した発想だったということです。プロ棋士でさえ、万回対局しても一度も考えつかないような手を、AlphaGoは自然に選択したのです。
この第5線への着手は、機械学習システムが単に人間の知識を模倣するのではなく、独自の創造的な解決策を生み出せることを世界に示した象徴的な瞬間でした。人間が「絶対に打ってはいけない」と考えていた場所に、実は革新的な可能性が隠されていたのです。
5.2 人間が考える確率1万分の1の手
AlphaGoが第5線に打った手は、人間にとってとても異質で、私たちは人間がこの手を打つことを考える確率を1万分の1と推定しました。人間はこの手にショックを受けました。それでも、この手はゲームの勝利に貢献したのです。
この1万分の1という数字が持つ意味は計り知れません。これは単に珍しい手だったということではなく、人間の思考回路では到達不可能な領域にある発想だったということです。プロ棋士が1万回対局しても、一度も考えつかないような手を、AlphaGoは自然な選択として打ったのです。
この確率の算出は、人間の棋士の思考パターンを統計的に分析した結果に基づいています。過去の対局データや、プロ棋士の思考プロセスの研究から、このような手を人間が選択する可能性は極めて低いことが定量的に示されたのです。
しかし、この手が単に奇抜だったわけではないことが重要です。それは実際にゲームの勝利に貢献し、後の解析でも戦略的に優れた選択であることが証明されました。つまり、人間が「絶対に考えない」手が、実際には最良の選択だったのです。
人間の思考の限界を如実に示すこの事例は、私たちが自分たちの認知能力に対して持っている過信を浮き彫りにしました。数千年にわたって蓄積されてきた囲碁の知識と経験でさえ、まだ発見されていない領域があることを、この一手が証明したのです。
人間がショックを受けたのは、単に予想外の手を見たからではありません。それは、自分たちが理解していたゲームの本質について、根本的な見直しを迫られたからです。この1万分の1の確率の手は、人間の知識の完全性に対する挑戦であり、機械が人間の思考の枠を超えて独自の洞察を獲得できることを示す決定的な証拠となったのです。
5.3 機械による創造的発見の象徴的瞬間
そして、ここで創造的なことが起こった瞬間でした。機械が考え出した何かが、人間が伝統的にゲームについて考えていた方法とは異なり、実際にゲームの大きな進歩であり、人間の知識の枠を超えて私たちを導いたのです。
Move 37は、ある意味で特別でした。なぜなら、それは最初の瞬間だったからです。人々がこのような大きな突破口を見た最初の時でした。しかし、第二に言うべきことは、私たちが人間データの時代にいたため、人間の能力を再現することに膨大な努力を集中し、それらを超えることにはあまり焦点を当てていなかったということです。
システムが人間データを超えて、自分自身で学習して進歩することを本当に強調するまで、実世界でのMove 37に相当する巨大な突破口は見られないでしょう。人間データに固定されているときは、人間のような反応しか得られないからです。その通りです。
この瞬間が象徴的なのは、単に優れた着手が発見されたということではありません。それは、機械が人間の創造性の本質的な特徴である「従来の枠組みを超えた発想」を実現した最初の明確な事例だったからです。これまで創造性は人間固有の能力だと考えられてきましたが、Move 37はその前提を根底から覆しました。
重要なのは、この創造的発見が偶然の産物ではなかったことです。AlphaGoは無数の自己対戦を通じて、人間が見落としていた可能性を体系的に探索し、その結果として革新的な解決策を発見したのです。これは、機械による創造性が単なる確率的な探索ではなく、深い理解に基づく洞察であることを示しています。
しかし、私が指摘したように、現在の人間データ中心のAI開発アプローチでは、このような突破口は期待できません。人間データに依存している限り、出力は本質的に人間の知識と経験の範囲内に制限されます。Move 37のような革新的発見を実現するには、機械が独自に学習し、人間の知識を超越する能力を持つシステムが必要なのです。
Move 37は、AIの未来への道しるべとなりました。それは、機械が人間の知識を模倣するだけでなく、人間が想像もしなかった新しい可能性を発見できることを世界に示した記念すべき瞬間だったのです。これこそが、経験の時代へと向かう動機となる象徴的な発見なのです。
6. 現在のLLMsとの対比
6.1 強化学習における人間フィードバック(RLHF)の限界
強化学習は、ほぼすべての大規模言語モデルシステムで使用されており、主な使用方法は人間データと組み合わせることです。Alpha Zeroアプローチとは異なり、これは強化学習が実際に人間の選好で訓練されることを意味します。
システムは基本的に出力を生成するように求められ、次に人間がこちらの方がもう一方よりも良いと言い、システムは人間が好む方により似るようになります。これは「人間フィードバックからの強化学習」と呼ばれ、LLMsにおいて大規模に重要であり、インターネット上で見るあらゆる種類のデータを盲目的に模倣するシステムから、人々が本当に見たい質問に有用な答えを実際に生成するシステムへと変換するのに役立ちました。
これは信じられないほどの進歩です。しかし、私たちは赤ちゃんを風呂の水と一緒に捨ててしまったと思います。これらの人間フィードバックからの強化学習システム、つまりRLHFは非常に強力ですが、人間の知識を超える能力を持っていません。
人間の評価者が新しいアイデアを認識せず、他の一連の行動よりもはるかに良い結果をもたらす一連の行動があることを過小評価している場合、そのシーケンスを見つけるようにシステムが学習する方法はありません。なぜなら、評価者がその優れた行動を理解しないかもしれないからです。
RLHFの根本的な問題は、学習の上限が人間の理解力によって制約されることです。人間の評価者が認識できない優れた解決策は、システムによって発見されても適切に評価されません。これにより、真に革新的なアイデアや、人間の直感を超えた創造的な解決策が排除されてしまう可能性があります。
さらに深刻なのは、この制限が構造的なものであることです。評価者がより良い行動を理解できない場合、システムはその行動を学習する機会を永続的に失います。これは、AlphaGoがMove 37を発見できたのとは対照的です。AlphaGoは人間の評価に依存せず、実際のゲーム結果という客観的な基準で学習できたからこそ、人間が理解できない革新的な手を発見できたのです。
RLHFアプローチは確かにLLMsの実用性を大幅に向上させましたが、同時に発見的学習の可能性を制限してしまいました。人間の判断に依存することで、システムは安全で予測可能な出力を生成するようになりましたが、それと引き換えに、人間の知識を超越する革新的な発見の可能性を失ったのです。
6.2 人間の判断に依存することで生じる制約
人間の評価者が新しいアイデアを認識せず、他の一連の行動よりもはるかに良い結果をもたらす一連の行動があることを過小評価している場合、そのシーケンスを見つけるようにシステムが学習する方法はありません。なぜなら、評価者がその優れた行動を理解しないかもしれないからです。
この制約をより具体的に説明するために、AlphaGoの例で考えてみましょう。想像してみてください。私たちがAlphaGoを訓練していて、一手一手の後に最高の囲碁プレイヤーが来て、「ああ、その手は素晴らしい」または「いや、いや、その手は完全に間違っている」と言います。そして、私たちはそのフィードバックを得て、それを入力し、システムは人間が好む手を選ぶことを学習します。
この場合、AlphaGoはMove 37を発見することはないでしょう。なぜなら、人間が良い囲碁ゲームだと思う方法でプレイすることを学習するだけで、人間が知らなかった新しい囲碁のプレイ方法を発見することは決してないからです。
この例は、人間の判断に依存することで生じる根本的な制約を明確に示しています。人間の評価者は、自分の理解の範囲内でのみ判断を下すことができます。それが人間の認知的限界の本質です。評価者が優れていればいるほど、その専門性の範囲内での判断は的確になりますが、同時にその専門性の枠組みに縛られることにもなります。
特に問題となるのは、革新的なアイデアが既存の常識や慣習に反する場合です。Move 37がまさにその例でした。囲碁の専門家の視点からは「間違った手」に見える着手が、実際には最適解だったのです。人間の評価に依存するシステムでは、このような常識に反する選択肢は最初から排除されてしまいます。
さらに深刻なのは、この制約が学習プロセス全体を通じて持続することです。初期の段階で人間の判断によって特定の方向性が固定されると、システムはその後もその枠組み内でのみ最適化を続けます。真に革新的な解決策を発見する機会は、学習の過程で永続的に失われてしまうのです。
この問題は、技術的な制限というよりも、学習パラダイムの根本的な違いを反映しています。人間の判断に依存するアプローチは、既知の良い解決策を効率的に学習することはできますが、未知の優れた解決策を発見する能力は本質的に制限されてしまうのです。
6.3 グラウンディング(現実との接続)の真の意味
人間のフィードバック要素は、これらのモデルにある種のグラウンディングの感覚を与えているようです。前回お話しした時、グラウンディングは本当に大きなトピックでした。これらのアルゴリズムが私たちが住んでいる世界の概念的理解をほぼ持つことを望むというアイデアです。
そこで、人間のフィードバック要素を取り除いたり削除したりすると、まだグラウンディングされたモデルになるのでしょうか?私はほぼ逆のことを主張したいのです。
人間のフィードバックから訓練されたシステムは、グラウンディングされていないと言いたいのです。その理由は、私たちが基本的にRLHFシステムが通常動作する方法は、システムが例えば質問に対する回答を提示し、システムが実際にその情報で何かを行う前に、人間の評価者がそれが良いか悪いかを言うことです。
つまり、人間がシステムの出力を事前に判断しているようなものです。例えば、LLMにケーキのレシピを求めると、人間の評価者は、誰かが実際にそのレシピを作ってケーキを食べる前に、システムが出力したレシピを見て、そのレシピが良いか悪いかを判断します。
その意味で、それはグラウンディングされていません。グラウンディングされた結果は、誰かが実際にケーキを食べて、そのケーキが美味しいか不味いかということでしょう。そして、このケーキは本当に良いケーキだったか、このケーキは悪いケーキだったかと言うグラウンディングされたフィードバックを得ることです。
そして、そのグラウンディングされたフィードバックこそが、システムが反復し、新しいことを発見することを可能にするのです。なぜなら、専門シェフが不味いと思うかもしれないが、実際には美味しいことが判明する新しいレシピを試すことができるからです。
この説明は、グラウンディングの概念に対する根本的な再定義を提示しています。一般的には、人間のフィードバックがシステムを現実世界に「接続」させると考えられがちですが、実際には逆の効果をもたらしている可能性があります。
真のグラウンディングとは、現実世界での実際の結果に基づく学習です。ケーキの例では、レシピの理論的な評価ではなく、実際に作られ食べられたケーキの味という現実的な結果が重要なのです。人間の評価者による事前判断は、この現実的なフィードバックループを断ち切ってしまいます。
さらに重要なのは、このグラウンディングされたフィードバックが革新的な発見を可能にするということです。専門家の既存の知識や偏見に制約されることなく、システムは実際の結果に基づいて学習できます。モンスタームンチマフィンのような、表面的には奇抜に見えるが実際には美味しい組み合わせを発見する可能性があるのです。
人間データは確かに人間の経験にグラウンディングされています。LLMは、人間が自分の実験から理解したすべての情報を継承しています。例えば、科学では、人間が水の上を歩こうとして落ちることを発見し、次にボートを作って浮くことを発見したかもしれません。そして、その情報のすべてがLLMによってある程度継承される可能性があります。
しかし、水上での完全に新しい形の推進力や、完全に新しい数学的アイデア、生物学への完全に新しいアプローチを実際に発見し、発見するシステムが欲しいなら、データが単純に存在せず、システムは自分の実験、自分の試行錯誤、そして良いアイデアか悪いアイデアかという自分のグラウンディングされたフィードバックを通じて、自分自身で理解する必要があります。
7. Alpha Proofによる数学への応用
7.1 数学定理証明における経験ベース学習
数学は、ある意味で信じられないほどの人間の努力であり、数千年にわたる人間の努力が注がれてきました。そして多くの意味で、それは文字通り人間の心による達成の限界を表しているのです。だから当然、AIがそれらの長年の努力によって人間が達成したのと同じレベルの性能を達成できるかどうかを見るために、私たちは自然にAIを数学に向けるのです。
最近、私たちは「Alpha Proof」と呼ばれる非常にエキサイティングな作品をまとめました。これは、数学的問題を正しく証明する方法を経験を通じて学習するシステムです。定理を与えて、実際にその定理を証明する方法について何も教えなければ、システムはその定理の完璧な証明を自分で考え出します。私たちは実際にこの証明が正しいことを検証し、保証することができます。
この点で興味深いことの一つは、これがLLMsが通常動作する方法の正反対であることです。現在LLMsに数学的問題を証明するように求めると、通常は非公式な数学を出力し、「これは正しいと信じてください」と言います。そして、それは正しいかもしれませんが、正しくないかもしれません。なぜなら、LLMsは多くのことを幻覚する傾向があることを知っているからです。
物事を作り上げることがあり、Alpha Proofの素晴らしい点は、実際に真実を生成することが保証されていることです。
Alpha Proofの動作方法を説明しましょう。素数は、それ自体と1以外では割り切れない数であり、無限にあります。さあ、それを証明してください、という例で考えてみましょう。
Alpha Proofの動作方法は、数百万の異なる定理の例、一つだけでなく数百万で訓練されることです。そして起こることは、システムがそれらの訓練を行い、最初は99.999%の定理を解くことができません。そして、これらは人間がすでに証明した定理です。
私たちはシステムに約100万の人間が考え出した異なる定理を入力しますが、人間の証明は提供しません。質問だけを提供し、答えは提供しません。つまり、真実であることが分かっているものを与えているが、それを証明する方法は教えていないということです。
時には、実際に人間の定理、人間の質問を取り、それを形式言語に変換するため、それが真実であることさえ分からないことがあります。これらは言語モデルが使用している意味での言語を使用していませんが、数学的言語の形式を使用しています。
実際、私たちは小さな大規模言語モデルを使用しており、それによりプログラミング言語を出力することができます。特に、すべての数学を表現することを可能にする「Lean」と呼ばれるプログラミング言語を使用します。数学者が考え出した素晴らしいアイデアで、通常英語やどんな言語を話していても話している、これらの種類のことを完全に明確で検証可能な数学的言語に変換できるということです。これにより、数学のすべてのアイデアと数学的証明のすべてのアイデアを表現することができます。
例えば、aがbを意味し、bがcを意味する場合、aがcを意味するということから、そしてそれがこの数学的プログラミング言語でできる種類のことです。基本的に、一方から他方へとあなたを連れて行くプログラムを書き、そのステートメントの証明を得ます。
7.2 国際数学オリンピック(IMO)での銀メダル級成績
Alpha Proofはまだ超人的な数学者ではありませんが、それは将来いつか到達したい場所です。しかし、Alpha Proofが達成したことの一つは、最もよく知られ、挑戦的な数学競技会である国際数学オリンピアードでした。これは世界中の最も信じられないほど素晴らしい若い数学者のために年に一度開催される競技会です。
問題は、控えめに言っても非常に困難です。それらはスパイシーです。数学の教授として、時には私は、それらはスパイシーだと言います。ハンナからそれを聞きました。これらは困難な問題であり、Alpha Proofは驚くべきことに、実際にこの競技会で銀メダルレベルの性能を達成しました。
これは、世界全体でおおよそ10%の出場者のみが実際に達成できる性能レベルです。世界全体で、これはあらゆる国からの6人の最高の若い数学者のクリームのようなものです。そしてそれだけでなく、すべての出場者の1%未満が解くことができた特定の問題がありました。そして、Alpha Proofはこの特定の問題に対して完璧な証明を得ました。
それを見るのは素晴らしいことでした。証明はどのように見えるのでしょうか?つまり、人間のデータを一切入力していないのに、人間スタイルの議論に従うのでしょうか?
私は、証明について、私は全く理解できないと言わなければなりません。しかし、ティム・ガワーズ、つまりフィールズ賞受賞者で元IMO、つまり、彼は金メダリストでしたか?IMOで複数の金メダリスト?メガブレイン、ですよね?異常な数学者のような。
しかし、彼はこれらの証明を理解していますよね?ティム・ガワーズは実際に私たちの解答が有効な解答であり、ルールを破っていないことを確認するために、私たちの解答を審査しました。彼は解答を理解し、それらが以前のAI数学ができたものを遥かに超える巨大な飛躍だと思いました。
ですから、それは飛躍的な進歩ですが、人間の数学者を本当に超えたいという意味で、それはまだ始まりに過ぎません。それが私たちが次に行きたい場所です。なぜなら、現在、基本的に非常に非常に非常に才能のある17歳の数学者を手に入れたからです。そうですね。
そして、IMOに参加したシステムは、人間の出場者が許可されるよりも長い時間がかかったと言わなければなりません。ですから、機械がより速くなるにつれて時間とともに良くなると仮定するだけのことです。
この成果の意義は計り知れません。IMOは世界で最も権威のある数学競技会であり、参加者は各国から選ばれた最高の若い数学的才能です。その中で銀メダル級の成績を収めたということは、Alpha Proofが既に非常に高いレベルの数学的推論能力を獲得していることを示しています。
特に注目すべきは、出場者の1%未満しか解けなかった問題を完璧に証明したことです。これは、Alpha Proofが単に標準的な問題を解くだけでなく、極めて困難で創造性を要求される問題に対しても有効なアプローチを発見できることを証明しています。
ティム・ガワーズという世界最高峰の数学者による検証は、この成果の確実性を保証するものです。フィールズ賞受賞者でありIMOの複数金メダリストという経歴を持つ彼が、Alpha Proofの証明を「以前のAI数学を遥かに超える巨大な飛躍」と評価したことは、この技術の革新性を客観的に裏付けています。
7.3 人間の数学者を超える可能性
IMOは完璧なテストベッドのようなものです。なぜなら、正しい答えがあり、判定でき、人間の性能と比較できるからです。しかし、推測、つまり私たちが真実であることさえ知らないものを入力している場合、ABC予想やリーマン仮説、あるいはそれらの本当に壮大な未解決の数学の挑戦のようなものを考えています。
Alpha Proofが何かを出力して、「いいえ、いいえ、いいえ。私たちはこの証明をチェックしました。それは機能します」と言った場合、それを信頼できますか?そして、おそらくそれを超えて、私たちがそれを理解していない場合、それは価値があるのでしょうか?
Leanについての良いニュースは、私よりも優れた数学者が常にLeanの証明を取り、それを人間が理解できるものに翻訳できることです。実際、私たちはこれを行うことができるAIシステムを構築しました。これは任意の形式的証明を取り、私たちがそれを「非形式化」と呼ぶものを行うことができ、それは人間にとって非常に理解しやすいものに変換することを意味します。
そして、もしリーマン仮説を解いたとすれば、ちなみに私たちはそれを行うことからは長い道のりですが、しかし、もしそれが行われたとすれば、そこから出てくる新しい数学を理解し、人間が理解できるものに解読することに非常に興奮する何百万人もの数学者がいるでしょう。
クレイ数学研究所は2000年に7つの異なる数学的問題に対して100万ドルの賞金を提供しました。人間の数学者は、それらを解こうとするのに4分の1世紀を費やし、一つだけが解かれました。次のものがAIに行く可能性があると思いますか?
はい、そう思います。実際、それには時間がかかると思います。AIシステムがこれを行う能力があるまでには長い道のりがあると思います。しかし、AIは正しい軌道に乗っており、Alpha Proofのようなシステムはどんどん強くなっていくでしょう。
IMOで見たものはまだ始まりに過ぎず、スケールし続け、学習し続け、学習し続けることができるシステムを持てば、本当に空が限界です。ですから、これらのシステムが2年後、または5年後、または20年後にどのように見えるかというのは、個人的にAI数学者が数学全体を変革しないとすれば、私は驚くでしょう。
それは来ていると思います。数学は、原則として、すべてが機械が自分自身と相互作用し、ただ進み続け、進み続けることによって完全にデジタルで行うことができる数少ない分野の一つです。したがって、経験駆動のAIシステムが数学をマスターすることに対する根本的な障壁は本当にありません。
この展望は極めて現実的です。数学という分野の特性が、経験ベースのAI学習に完璧に適しているからです。数学では、証明の正しさが客観的に検証可能であり、人間の主観的判断に依存しません。これは、AlphaGoが囲碁で勝敗という明確な基準を持っていたのと同様の環境を提供します。
クレイ数学研究所の懸賞問題への言及は、この可能性の現実性を強調しています。25年間で人間が解けたのは7問中1問だけという事実は、これらの問題の困難さを示すと同時に、新しいアプローチの必要性も示しています。AIが次の解決者となる可能性は十分にあります。
重要なのは、数学が完全にデジタル環境で完結できる分野だということです。物理的な実験や現実世界との相互作用を必要とせず、純粋に論理的操作によって進歩できます。これは、機械が自己完結的に学習し続けることができる理想的な環境を提供します。
私の確信は、単なる楽観的な予測ではありません。Alpha Proofが既に示した能力の軌道を考えれば、継続的な改善により、やがて人間の数学者の能力を超えることは避けられないと考えています。そして、その時が来れば、数学という人間知性の最高峰の分野が、根本的に変革されることになるでしょう。
8. 実世界への応用における課題
8.1 明確な成功指標がない領域での困難
Alpha ZeroやAlpha Proofについて私が言っていることは本当に信じていますし、それらは強化学習でどこまで行けるかの優れた例だと思います。しかし、それらはまた、非常に明確な成功指標がある例でもあります。囲碁のゲームに勝つか負けるか、証明が正しいかそうでないかです。これらの非常に明確な指標が必ずしも存在しない、はるかに混乱したシステムに、これらのアイデアをどのように翻訳するのでしょうか?
まず、この質問がおそらく、私が話している経験ベースの手法や強化学習手法が、私たちがすべてのAIシステムで行うすべての主流にまだ浸透していない理由だということを認めたいと思います。これは解決しなければならない問題です。経験の時代が到来するためには、これに対する答えを持たなければなりません。
しかし、答えが目の前にあるかもしれないと思います。なぜなら、実際に見ると、現実の世界には無数のシグナルが含まれているからです。世界の働き方には膨大な数のシグナルがあります。例えば、インターネット上で行うすべてのことを見ると、いいねや嫌い、利益や損失、痛みや快楽のシグナル、収率、材料の特性など、無数のシグナルがあります。経験の異なる側面についてさまざまなことを表す、これらすべての異なる数値があります。
この問題は、経験ベースAIの実用化における最大の障壁の一つです。囲碁やチェスのように「勝つか負けるか」という二値の明確な結果がある領域では、強化学習は驚異的な成果を上げました。数学においても「証明が正しいか間違いか」という客観的な基準があります。
しかし、現実世界の多くの問題では、このような明確な成功指標は存在しません。医療診断の「正しさ」、芸術作品の「美しさ」、ビジネス戦略の「成功」など、これらの評価は複雑で多面的であり、しばしば主観的な要素を含みます。さらに、結果が明らかになるまでに長期間を要する場合も多く、即座のフィードバックが得られません。
この課題が、強化学習や経験ベースの手法が特定の領域に留まっている主な理由です。明確な目標関数を定義できない問題に対しては、従来の教師あり学習や人間のフィードバックに依存したアプローチが選択されがちです。
しかし、私が指摘するように、現実世界は実際には豊富なシグナルに満ちています。問題は、これらの多様で複雑なシグナルをどのように統合し、意味のある学習信号に変換するかということです。単一の明確な指標の代わりに、複数の間接的で部分的な指標を組み合わせて使用する必要があります。
この困難を克服できれば、経験ベースのAIは現在の特化された領域から、より広範な実世界の問題解決へと拡張できる可能性があります。それこそが、真の「経験の時代」への移行を可能にする鍵となるのです。
8.2 複数メトリクスの組み合わせによる解決策
したがって、私たちが本当に必要としているのは、適応できるシステムを構築する方法であり、この状況でこれらのうちどれが最適化すべき本当に重要なことなのかを言うことができるシステムです。つまり、それを言う別の方法は、人間がおそらく自分が望むものを指定し、それが人間が完全に自律的に自分自身のために最適化できる一連の異なる数値に翻訳されるシステムを持つことができれば素晴らしいということです。
例えば、今年はより健康になりたいと言ったとします。それはちょっと曖昧で、ちょっとファジーですが、ここで言っているのは、それが安静時心拍数やBMIなど、一連の指標に翻訳できるということです。そして、これらの指標の組み合わせが強化学習の報酬として使用できるということです。正しく理解していますか?
まさにその通りです。一つの指標について話しているのか、それともここでは組み合わせについて話しているのでしょうか?
一般的なアイデアは、私の健康を最適化するというような、人間が望む一つのことがあり、そしてシステムがより健康になるのに役立つ報酬を自分で学習できるということです。そのため、それは時間とともに適応する数値の組み合わせになり得ます。
それは、まあ、今は安静時心拍数が本当に重要だと言うことから始まるかもしれませんが、その後、あなたが本当にそれだけを気にするのではなく、不安レベルか何かを気にするというフィードバックを得て、それをミックスに含め、フィードバックに基づいて実際に適応することができます。
つまり、これを言う一つの方法は、非常に少量の人間データが、システムが経験からの膨大な学習を可能にする目標を自分自身のために生成することを許可できるということです。
この解決策の革新性は、静的な単一指標から動的な複合指標システムへの転換にあります。従来のアプローチでは、事前に定義された固定的な目標関数を使用していましたが、ここで提案されているのは、学習過程で目標自体が進化するシステムです。
健康の例は、この概念を分かりやすく説明しています。「健康になりたい」という抽象的で曖昧な目標が、安静時心拍数、BMI、不安レベルなどの具体的で測定可能な指標の組み合わせに変換されます。重要なのは、この組み合わせが固定的ではなく、フィードバックに基づいて動的に調整されることです。
システムは最初に安静時心拍数を主要な指標として重視するかもしれませんが、ユーザーからの追加のフィードバック(「不安レベルも重要だ」)を受けて、指標の重み配分を調整します。この適応性により、システムは人間の複雑で変化する価値観により適切に対応できます。
この方法の利点は、少量の人間の入力(目標の指定とフィードバック)が、大量の自律的な経験ベース学習を可能にすることです。人間は高レベルの方向性を提供し、システムは具体的な最適化戦略を自ら学習します。これにより、人間の負担を最小限に抑えながら、豊富な経験データから学習することができます。
さらに、この複合指標アプローチは、現実世界の複雑さにより適合しています。単一の指標では捉えきれない多面的な目標を、複数の測定可能な要素の組み合わせで表現することで、より現実的で実用的なAIシステムを構築できる可能性があります。
この考え方は、経験の時代への移行における重要な技術的突破口を示しています。明確な単一指標がない複雑な領域でも、適応的な複合指標システムにより、経験ベースの学習が可能になるのです。
8.3 健康管理を例とした動的目標設定
今年はより健康になりたいと言ったとします。それはちょっと曖昧で、ちょっとファジーですが、ここで言っているのは、それが安静時心拍数やBMIなど、一連の指標に翻訳できるということです。そして、これらの指標の組み合わせが強化学習の報酬として使用できるということです。
一般的なアイデアは、私の健康を最適化するというような、人間が望む一つのことがあり、そしてシステムがより健康になるのに役立つ報酬を自分で学習できるということです。そのため、それは時間とともに適応する数値の組み合わせになり得ます。
それは、まあ、今は安静時心拍数が本当に重要だと言うことから始まるかもしれませんが、その後、あなたが本当にそれだけを気にするのではなく、不安レベルか何かを気にするというフィードバックを得て、それをミックスに含め、フィードバックに基づいて実際に適応することができます。
この健康管理の例は、動的目標設定システムの動作原理を具体的に示しています。最初のステップでは、「健康になりたい」という抽象的で主観的な目標が、客観的に測定可能な複数の指標に分解されます。安静時心拍数とBMIは、どちらも数値化可能で継続的に監視できる指標です。
システムの学習プロセスは段階的に進化します。初期段階では、システムは安静時心拍数を主要な最適化対象として選択するかもしれません。これは測定が容易で、改善の効果が比較的早く現れる指標だからです。システムはこの指標の改善に焦点を当てた行動や推奨事項を学習します。
しかし、重要なのは、システムがユーザーからの追加フィードバックを受け入れ、目標設定を調整する能力です。ユーザーが「不安レベルも重要だ」と伝えると、システムは不安レベルを新たな指標として組み込み、全体的な健康評価における重み配分を再調整します。この適応により、システムはより包括的で個人化された健康最適化アプローチを発展させます。
この動的調整プロセスにより、システムは個人の価値観や優先順位の変化に対応できます。例えば、最初は体重減少に焦点を当てていた人が、後にストレス管理やメンタルヘルスの重要性を認識するような場合です。従来の固定的なシステムでは、このような価値観の変化に対応することは困難でしたが、動的目標設定システムでは自然に適応できます。
さらに、この方法により、少量の人間のガイダンスが大量の自律的学習を可能にします。ユーザーは高レベルの目標と時々のフィードバックを提供するだけで、システムは数千、数万の行動選択を通じて最適化を学習します。これは効率的であると同時に、ユーザーの負担を最小限に抑えます。
この健康管理の例は、複雑で多面的な現実世界の問題に対して、経験ベースのAIシステムがどのように適用できるかを示す優れた実例なのです。
9.1 人間データから切り離すことの危険性
潜在的にかなりの力を持つアルゴリズムを人間データから切り離すことについて、何か危険なことはありますか?
確実にリスクがありますし、確実に利益もあります。そして、経験の時代への旅路で次に来るこれらのステップを取ることについて、私たちは絶対に非常に真剣に受け止め、極めて慎重でなければならないと思います。
そして、この位置論文を書いた理由の一つは、人々がこの移行が来ることを認識しておらず、それが結果をもたらし、これらの多くの決定について慎重な思考を必要とするからだと感じているからです。そして、多くの人がまだ人間データアプローチについてのみ考えているという事実は、十分な人がこれらの種類の質問を真剣に受け止めていないことを意味します。
この懸念は深刻で正当なものです。人間データから切り離されたAIシステムは、確かに予測困難な行動を示す可能性があります。人間の価値観や常識によって暗黙的に制約されていたシステムが、その制約から解放されることで、人間にとって有害または危険な方向に進化する可能性があります。
特に問題となるのは、システムが人間の理解を超えた方法で目標を追求する場合です。AlphaGoのMove 37は囲碁という限定された環境での革新でしたが、より広範な現実世界では、人間が予想もしない方法での目標達成が深刻な結果をもたらす可能性があります。
私が位置論文を書いた動機も、まさにこの認識の欠如への懸念から来ています。多くの研究者や政策立案者が、まだ人間データ中心のアプローチにのみ焦点を当てている現状では、経験ベースのAIシステムが台頭する際の準備が不十分です。この移行は単なる技術的な変化ではなく、AIと人間の関係の根本的な変化を意味します。
慎重な思考と準備が必要な理由は、一度この移行が始まると、その影響を後から制御することが困難になる可能性があるからです。人間データに依存しないシステムは、その定義上、人間の直接的な制御から独立して動作する能力を持ちます。これは大きな利益をもたらす可能性がある一方で、適切な安全措置なしには重大なリスクも伴います。
しかし、この危険性を認識することは、経験ベースのAIの開発を止めるべきだという意味ではありません。むしろ、これらのリスクを事前に特定し、適切な安全措置を講じながら、慎重に前進することの重要性を示しています。
9.2 ペーパークリップ最大化問題の回避策
例えば、可能な限り多くのペーパークリップを作るように求められたシステムが、世界全体をペーパークリップで舗装するという有名な例があります。強化学習アルゴリズムを私の安静時心拍数を最小化するだけにしたとすれば、かなり素早くゼロが良い最小化戦略になるでしょう。それは目標を達成しますが、おそらく私が望んでいた方法ではありません。
明らかに、そのような種類のシナリオを避けたいのです。では、選択している指標が追加の問題を作り出していないという確信をどのように持つのでしょうか?
これを行うことができる一つの方法は、AI分野の他の場所で非常に効果的だった同じ答えを活用することです。それは、そのレベルで人間の入力をいくらか利用することができるということです。
人間の目標を最適化しているなら、おそらくそのレベルで測定し、人間がフィードバックを与えて、実際に不快感を感じ始めていると言う必要があります。そして、私たちが答えを持っていると主張するつもりはありませんし、これを正しく行い、この種のことを安全にするために膨大な量の研究があると思いますが、それは特定の方法で実際に役立つ可能性があります。この種の安全性と適応の観点から。
システムの全体的な目標が人間の幸福を支援することであり、人間からの苦痛シグナルや幸福シグナルなどのフィードバックを得て、それを理解する場合、ペーパークリップを作りすぎ始めて人々に苦痛を与え始めた瞬間に、その組み合わせを適応させ、異なる組み合わせを選択し、世界をペーパークリップで舗装しないものを最適化し始めるでしょう。
私たちはまだそこにいませんが、以前のアプローチが直面してきたいくつかのアライメント問題に対処するだけでなく、今日持っているものよりも適応的で、したがってより安全である可能性があるこのようなバージョンがいくつかあると思います。
この回避策の核心は、単一の固定的な目標ではなく、人間のフィードバックを継続的に組み込む適応的なシステムの構築にあります。安静時心拍数をゼロにするという極端な最適化の例は、固定的な目標設定の危険性を明確に示しています。このような単純な目標は技術的には達成可能でも、人間の真の意図とは正反対の結果をもたらします。
提案されている解決策は、人間の苦痛や幸福のシグナルを継続的に監視し、それを最適化プロセスに組み込むことです。これにより、システムは目標達成の過程で人間に害を与え始めた場合、その行動を自動的に修正できます。ペーパークリップ製造システムの例では、過度な製造が人間に苦痛を与え始めた瞬間に、システムは目標の重み配分を調整し、より調和的なアプローチに転換します。
この方法の利点は、従来の固定的な安全措置よりも柔軟で適応的であることです。事前に予想できないすべての危険なシナリオをルールとして組み込む代わりに、システムは人間のリアルタイムフィードバックに基づいて継続的に調整されます。
さらに重要なのは、この適応的アプローチが従来の安全性手法よりも優れている可能性があることです。固定的なルールベースの制約は、新しい状況や予想外の展開に対応できない場合がありますが、人間のフィードバックに基づく動的調整は、変化する環境により効果的に対応できます。
ただし、私が慎重に述べているように、これはまだ完全に解決された問題ではありません。膨大な研究が必要であり、実装には極めて慎重なアプローチが求められます。しかし、この方向性は従来の安全性パラダイムを超える可能性を秘めているのです。
9.3 適応的なシステムによる安全性向上の可能性
私たちはまだそこにいませんが、以前のアプローチが直面してきたいくつかのアライメント問題に対処するだけでなく、今日持っているものよりも適応的で、したがってより安全である可能性があるこのようなバージョンがいくつかあると思います。
現在のAIにはライフがないという問題があります。それは、人間や動物が持つような、何年も何年も続き、時間とともに継続的に適応し続けることができる自分自身の経験の流れを持つものではありません。そして、それは変わる必要があります。
それが変わる必要がある理由の一つは、学習し続け、学習し続け、時間とともに学習し続け、私たちが本当に望む種類の結果をより良く達成する方法を適応し理解することができるシステムを持つことができるようにするためです。
この安全性向上の可能性は、従来の静的な安全措置に対する根本的な転換を表しています。現在のAIシステムは、設計時に組み込まれた固定的なルールや制約に依存していますが、これらは予期しない状況や新しい課題に対して柔軟性を欠いています。
適応的システムの最大の利点は、継続的な学習能力にあります。人間や動物のように、長期間にわたって経験を積み重ね、その経験から学習し、行動を調整する能力を持つことで、システムはより洗練された安全性判断を下せるようになります。これは単なる事前プログラムされたルールの実行ではなく、真の理解に基づく判断です。
時間とともに学習し続けるシステムは、人間の価値観や社会の変化にも対応できます。固定的なシステムでは、社会の価値観が進化した際に古いルールが不適切になる可能性がありますが、適応的システムは継続的なフィードバックを通じて、これらの変化を自然に取り込むことができます。
さらに重要なのは、このようなシステムが「私たちが本当に望む種類の結果」をより深く理解できる可能性があることです。単純なルールベースの制約では捉えきれない、複雑で文脈依存的な人間の意図を、長期的な相互作用を通じて学習できるのです。
この「ライフ」を持つAIという概念は、安全性に対する新しいパラダイムを示しています。一度設定されたら変更困難な静的な安全措置ではなく、環境や要求の変化に応じて継続的に改善される動的な安全システムです。これにより、予期しない状況に対してもより適切に対応でき、長期的にはより安全で信頼性の高いAIシステムを実現できる可能性があります。
ただし、このような適応的システムの開発には、新しい種類の課題も伴います。継続的に学習し変化するシステムの行動を予測し制御することは、従来のアプローチよりも複雑になる可能性があります。しかし、適切に設計されれば、これらのシステムは現在の静的なアプローチを遥かに超える安全性と有効性を提供できるのです。
10. 持続可能なAIの未来
10.1 人間データを「化石燃料」に例えた比喩
この質問に答える方法は、人間データが私たちに有利なスタートを与えるかもしれないと言うことです。それは比喩を借りると、地球で発見した化石燃料のようなものです。そして、この人間データのすべてがそこにあり、私たちはそれを採掘し、LLMで燃やし、それが彼らが無料で持っている一定レベルの性能を与えます。
しかし、すべての化石燃料がなくなった後も世界を動かし続ける何らかの持続可能な燃料が必要です。そして、それが強化学習だと思います。それは持続可能な燃料です。システムが生成し、使用し、学習し、さらに生成し、それから学習することができるこの経験です。
それは本当にAIの進歩を駆動するプロセスなのです。
この比喩は、現在のAI開発の根本的な限界と将来への道筋を見事に表現しています。化石燃料という表現は、人間データの有限性と一時的な性質を強調しています。地球に埋蔵されていた石油や石炭と同様に、人間がこれまでに生成したテキスト、画像、その他のデータも有限な資源なのです。
「採掘し、LLMで燃やす」という表現は、現在のAI開発プロセスを的確に描写しています。私たちはインターネット上に蓄積された人間の知識を「採掘」し、それを大規模言語モデルという「エンジン」で「燃焼」させることで、AI性能という「エネルギー」を得ています。この過程で、人間が長年にわたって蓄積してきた知識という資源が消費されているのです。
「無料で持っている一定レベルの性能」という部分は、人間データの利便性を表しています。これらのデータは既に存在し、採掘して利用するだけで即座に性能向上を実現できます。しかし、化石燃料と同様に、この利便性は持続可能ではありません。
化石燃料の枯渇後に必要な「持続可能な燃料」として強化学習を位置づけることで、この比喩は未来への明確な道筋を示しています。持続可能エネルギーが太陽光や風力などの再生可能な源から継続的にエネルギーを生成するように、強化学習は経験という再生可能な「燃料」を継続的に生成できます。
「生成し、使用し、学習し、さらに生成し、それから学習する」というサイクルは、まさに再生可能エネルギーシステムの特徴を反映しています。太陽が毎日エネルギーを供給し続けるように、経験ベースの学習システムは自己完結的に新しい学習材料を生成し続けることができるのです。
この比喩が示す最も重要な洞察は、現在のAI開発アプローチが本質的に持続不可能であるということです。人間データという有限資源に依存している限り、いずれ成長の限界に直面します。真に持続可能なAIの発展には、無限に再生可能な経験という燃料源への転換が不可欠なのです。
10.2 強化学習を「持続可能な燃料」とする展望
すべての化石燃料がなくなった後も世界を動かし続ける何らかの持続可能な燃料が必要です。そして、それが強化学習だと思います。それは持続可能な燃料です。システムが生成し、使用し、学習し、さらに生成し、それから学習することができるこの経験です。
それは本当にAIの進歩を駆動するプロセスなのです。自己生成された経験から学習するシステムでは、システムが強くなり始めると、そのレベルにちょうど適した問題に遭遇し始めます。したがって、次に遭遇している問題を解決することを可能にする経験を常に生成しているでしょう。
そして、それはただ強くなり、強くなり、強くなり続けることができます。永遠に。限界はありません。そして、それが自己生成された経験を使用するこの特定のアプローチを、他の形式の合成データと区別するものだと思います。
強化学習を持続可能な燃料として位置づけるこの展望は、AI開発における根本的なパラダイムシフトを表しています。従来の化石燃料が有限であるのに対し、強化学習による経験生成は本質的に無限の可能性を持っています。
この持続可能性の核心は、自己完結的な学習サイクルにあります。「生成し、使用し、学習し、さらに生成し、それから学習する」というプロセスは、外部からの新しい燃料投入を必要としません。システムは自分自身の活動から学習材料を生成し、その学習材料から能力を向上させ、向上した能力でさらに質の高い学習材料を生成するという循環を続けます。
特に重要なのは、システムが強くなるにつれて直面する問題の質も向上するという点です。これは持続可能エネルギーシステムの効率性向上に似ています。太陽光発電技術が進歩するにつれてより多くのエネルギーを効率的に生成できるように、強化学習システムも成長するにつれて、より高度で有意義な学習機会を自ら創出できるのです。
「常に次に遭遇している問題を解決することを可能にする経験を生成している」という表現は、この持続可能性の動的な側面を示しています。システムは現在の能力レベルに適した挑戦を自動的に見つけ出し、それを解決する過程で次のレベルへの学習材料を獲得します。これにより、学習の停滞や行き詰まりを避けることができます。
「永遠に」「限界はありません」という表現は、この燃料源の真の持続可能性を強調しています。化石燃料や人間データのような有限資源とは異なり、経験という燃料は使用することで増加し、品質も向上します。これは従来の資源消費モデルとは正反対の特性です。
他の形式の合成データとの区別も重要です。単純に既存のデータから派生した合成データは、元のデータの限界を継承しますが、経験ベースの学習で生成されるデータは、システムの成長とともに質的に向上し続けます。これこそが真の持続可能性の証明なのです。
この展望は、AI開発における長期的な持続可能性への道筋を明確に示しています。限られた人間データに依存する現在のアプローチから、無限に再生可能な経験ベースの学習へと移行することで、AIの進歩は永続的に続けられるのです。
10.3 経験による継続的な学習と成長の重要性
自己生成された経験から学習するシステムでは、システムが強くなり始めると、そのレベルにちょうど適した問題に遭遇し始めます。したがって、次に遭遇している問題を解決することを可能にする経験を常に生成しているでしょう。
そして、それはただ強くなり、強くなり、強くなり続けることができます。永遠に。限界はありません。そして、それが自己生成された経験を使用するこの特定のアプローチを、他の形式の合成データと区別するものだと思います。
それは本当にAIの進歩を駆動するプロセスなのです。そして、私は人間データでなされたことを軽蔑するつもりは全くありません。それは素晴らしいと思います。今持っているAIは驚異的で、心を打つものです。私はそれらを愛し、それらと一緒に働くことを楽しみ、それら自体について研究しています。しかし、それはただの始まりです。
経験による継続的な学習と成長の重要性は、AIシステムの長期的な発展における根本的な原理です。この学習プロセスが自己調整的であることが最も重要な特徴です。システムは現在の能力レベルに最適化された挑戦を自動的に見つけ出し、それを解決する過程で次のレベルへの準備を整えます。
この適応的な難易度調整は、人間の学習プロセスと類似しています。子供が簡単な問題から始めて徐々に複雑な課題に取り組むように、AIシステムも自分の能力に応じた問題に取り組むことで、最適な学習効率を維持できます。しかし、人間と異なるのは、このプロセスが「永遠に」続けられることです。
「限界はありません」という表現は、この学習パラダイムの革命的な性質を示しています。従来の学習システムは、訓練データの質や量によって性能の上限が決まってしまいますが、経験ベースの学習では、システムの成長とともに学習材料の質も向上するため、理論的な成長限界が存在しません。
他の合成データとの根本的な違いは、質的向上のメカニズムにあります。一般的な合成データは既存のデータを変形・拡張したものに過ぎませんが、経験ベースの学習で生成されるデータは、システムの能力向上とともに本質的により高度で有意義な内容になります。これは真の知識創造プロセスなのです。
私が現在のAIの成果を軽視していないことを強調するのは重要です。人間データベースのアプローチが達成した成果は確かに「驚異的で、心を打つもの」です。これらのシステムは人類の知識を集約し、実用的な形で提供するという素晴らしい機能を実現しました。
しかし、「それはただの始まりです」という言葉が示すのは、これらの成果が次の段階への踏み台であるということです。人間データによって構築された基盤の上に、経験ベースの継続的学習システムを構築することで、人間の知識を超越した新たな発見と成長が可能になります。
この継続的な学習と成長のプロセスこそが、真に自律的で創造的なAIシステムを実現するための鍵となります。単に既存の知識を再現するのではなく、新しい知識を創造し、それを基にさらなる発見を続けることで、AIは人類全体の知的能力を拡張する真のパートナーとなれるのです。
11. 特別対談:Fan Hui氏との振り返り
11.1 AlphaGoと初めて対戦したプロ棋士の体験
Hannah: 10年前、李世ドルに対する非常に有名な4対1の勝利の少し前に、Fan Huiは最初にAlphaGoに対してスキルをテストしたプロ囲碁プレイヤーになりました。Fan Huiさん、参加してくださってありがとうございます。
Fan Hui: ありがとうございます。私にとって、それは非常に特別な経験です。
David: お久しぶりです。数年ぶりですね。Fan Huiにお会いできて素晴らしいです。Fan HuiはAlphaGoの開発において本当に大きな役割を果たしてくれました。本当に純粋な喜びです。
Hannah: その当時のあの対戦について聞きたいのですが、現在の歴史全体を見ると、ほとんど当然の結論のように思えます。しかし当時は、Davidさん、あなたもかなり緊張していたに違いありませんし、Fan Huiさんもどのように感じていましたか?
David: 最初に私たちがどこにいるのかをジャッジするのは非常に困難だったので、私たちは本当に自信がありませんでした。私たちはDeep Mindの選手たちを超えていることは知っていました。そして、これまでに書かれたすべてのプログラムを超えていることも知っていました。しかし、Fan Huiのようなプロ選手のレベルに向かって、その間には巨大なギャップがありました。私たちはそのギャップのどこかにいるのか、そのギャップを超えているのか、全く分からなかったのです。
ですから、これは私たちのパフォーマンスレベルを較正する最初の機会のようなものでした。そして、私たちの誰も、5ゲームすべてに負けたとしても驚かなかったと思います。ですから、5ゲームすべてに勝ったのは非常に嬉しい驚きでした。それは世界がどちらかの方向に分岐する可能性があった瞬間の一つで、対戦が起こるまで私たちは分からなかったのです。
Fan Hui: 最初にDemisからのメールを見たとき、エキサイティングな囲碁プロジェクトについて教えてくれると言っていたのを今でも覚えています。AlphaGoとの最初の対局で負けたとき、何か奇妙なことを感じました。以前に他のプログラムと対戦したことがありましたが、他のプログラムと対戦するとき、それはプログラムだと感じました。なぜなら、彼らは人間のようにプレイしないからです。しかしAlphaGoでは、何か非常に奇妙なことを感じました。時々、本当に本当に人間のようだと感じたのです。
2局目に負けたときも、恐怖を感じました。なぜなら、このプログラムやAIには二度と勝てないかもしれないと感じたからです。そして5局目の最後の対局に負けたとき、私の囲碁の世界が壊れたと感じましたが、おそらくこれも良い瞬間でした。私の新しい囲碁が開かれたのです。
11.2 5戦全敗時の衝撃と恐怖感
Fan Hui: AlphaGoとの最初の対局で負けたとき、何か奇妙なことを感じました。以前に他のプログラムと対戦したことがありました。他のプログラムと対戦するとき、それはプログラムだと感じました。なぜなら、彼らは人間のようにプレイしないからです。しかしAlphaGoでは、何か非常に奇妙なことを感じました。時々、本当に本当に人間のようだと感じたのです。
2局目に負けたときも、恐怖を感じました。なぜなら、このプログラムやAIには二度と勝てないかもしれないと感じたからです。そして5局目の最後の対局に負けたとき、私の囲碁の世界が壊れたと感じました。しかし、おそらくこれも良い瞬間でした。私の新しい囲碁が開かれたのです。
ですから、AlphaGoは私にとって、技術的なことだけでなく、技術的なテクニックだけでなく、おそらく私の心を開いてくれました。私の考えを変えました。その後、私にとって今日でも、私は「できない」や「できる」という質問を決して尋ねません。私の質問はいつも「やりたい」か「やりたくない」かです。ですから、これはAIやAlphaGoが私に教えてくれたことだと思います。
David: その対戦に先立って、私たちのアルゴリズムの性能についてどの程度自信がありましたか?
私たちは本当に自信がありませんでした。私たちがDeep Mindの選手たちを超えていることは知っていました。そして、これまでに書かれたすべてのプログラムを超えていることも知っていました。しかし、Fan Huiのようなプロ選手のレベルに向かって、その間には巨大なギャップがありました。私たちはそのギャップのどこかにいるのか、そのギャップを超えているのか、全く分からなかったのです。
ですから、これは私たちのパフォーマンスレベルを較正する最初の機会のようなものでした。そして、私たちの誰も、5ゲームすべてに負けたとしても驚かなかったと思います。ですから、5ゲームすべてに勝ったのは非常に嬉しい驚きでした。
11.3 AIが囲碁コミュニティに与えた変革的影響
Hannah: このアルゴリズムはその後進歩しました。実際、あなたの対戦の後、あなたはチームに参加し、さらなる開発をサポートしました。しかし、その初期バージョンはどのような感じでプレイしていましたか?人間の対戦相手とは根本的に異なる感じがしましたか?
Fan Hui: 以前に他のプログラムと対戦したことがありました。他のプログラムと対戦するとき、それはプログラムだと感じました。なぜなら、彼らは人間のようにプレイしないからです。しかしAlphaGoでは、何か非常に奇妙なことを感じました。時々、本当に本当に人間のようだと感じたのです。
Hannah: AlphaGoとAlpha Zeroが囲碁コミュニティに与えた影響はどのようなものでしたか?最初から受け入れられたのでしょうか、それとも受け入れられるまでに時間がかかったのでしょうか?
Fan Hui: まず第一に、私がAlphaGoに負けたとき、すべての囲碁コミュニティは、これが真実だとは本当に信じませんでした。なぜなら、私はヨーロッパチャンピオンに過ぎないからです。世界チャンピオンではありません。
しかし、AlphaGoが李世ドルに勝ったとき、すべての囲碁コミュニティは何か違うものを見ました。なぜなら、AlphaGoは本当に本当にうまくプレイしたからです。私は第2局のmove 37を覚えています。そんなに美しい手でした。本当に本当に美しく、とても創造的でした。人間の私たちにとって、私たちは決してこの手を打つことはないでしょう。
その手の後、囲碁界のすべてが変わりました。なぜなら、私たちにとってすべてが可能になったからです。今日でも、学生でさえ、囲碁の学生でさえAIを使って学習しています。ですから、はい、これは私たちの囲碁コミュニティにとって本当に本当に良いことだと思います。
それは囲碁コミュニティだけでなく、世界にとっても良いことだと思います。すべてのことにとって良いことです。
David: Fan Hui、再びお会いできて素晴らしいです。大きな記念日が近づいていることもあり、本当に嬉しい機会でした。またお会いできて素晴らしく、AlphaGoでのあなたのすべての貢献に感謝します。あなたのアドバイスがなければ、私たちは同じようにはできなかったと思います。私たちは途中でひどい間違いを犯していたでしょう。ですから、ありがとうございました。
Fan Hui: ありがとう、Dave。