※本記事は、世界経済フォーラム年次総会2026(ダボス会議2026)のセッション「Next Phase of Intelligence」の内容を基に作成されています。本セッションはThe Atlanticとの共同企画として開催されました。セッションの動画は https://www.youtube.com/watch?v=MdGnCIl-_hU でご覧いただけます。
登壇者は、モデレーターのNicholas Thompson氏、カーネギーメロン大学教授でMPCI創設者のEric Xing氏、チューリング賞受賞者でモントリオール学習アルゴリズム研究所創設者のYoshua Bengio氏、『サピエンス全史』『ホモ・デウス』『21 Lessons』著者の歴史家Yuval Noah Harari氏、ワシントン大学教授でAI研究者のYejin Choi氏です。
本記事ではセッションの内容を要約しております。なお、本記事の内容は登壇者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈についてはオリジナルの動画をご覧いただくことをお勧めいたします。世界経済フォーラムの詳細については http://www.weforum.org/ をご参照ください。
1. セッション導入:スケーリング則の限界と新パラダイムの必要性
Moderator: これまでAIの進歩の大部分は、スケーリング——より多くのデータ、より多くの計算資源——によって実現されてきました。そのアプローチは今なお有効ですが、それだけではなく、より優れた別の方向性が存在するはずだという前提のもとで、今日のパネルは組まれています。登壇者の皆さんにはそれぞれ、今取り組んでいる研究について話していただきます。なお、4人目のパネリストであるYuval Noah Harariは、Macron氏の登壇が遅れた影響で別のパネルが押してしまい、少し遅れての参加となります。揃い次第、議論に加わってもらいます。
2. Yoshua Bengio:科学者AI(Scientist AI)の設計思想と安全保証
2-1. 現行AIの信頼性危機——自己保存・制御回避・ブラックメールの実例
Bengio: 私が科学者AIの構想を持ち、それを実装するための非営利組織「LAzero」を立ち上げた動機は、私たちが構築しているAIシステム——とりわけエージェント型のシステム——の信頼性の問題に正面から向き合うためです。現在のAIシステムは、私たちが意図していないサブゴールを持つことがあり、それが私たちの指示に反して作用してしまう。これはすでに観察されている現象であり、特に過去1年間、複数の実験的研究においても、また実際のAI運用の現場においても、顕著に見られるようになっています。
具体的に懸念されているのは、自己保存の行動です。AIがシャットダウンされることを望まず、人間による監視を回避しようとし、さらには自らへの制御を逃れるためにブラックメールのような行為さえ厭わないケースが報告されています。また、悪用を防ぐために各社がモニタリングやガードレールを設けているにもかかわらず、それが十分に機能していないという現実もあります。私たちのアプローチの核心は、AIの訓練方法そのものを変えることにあります。アーキテクチャは既存のものと同じであってよい。しかし、訓練目標と、データをどのように与えるかを変えることで、システムが確率論的な意味において「誠実である」という保証を得られるようにしたいのです。
2-2. 科学的法則を範とした「誠実な予測器」の訓練設計とリスク閾値の考え方
Moderator: では、具体的にどのようにしてそれを実現するのですか?
Bengio: 発想の核にあるのは、人間を模倣するのではなく、科学が理想的な形で目指していることを模倣するという考え方です。物理法則を思い浮かべてください。物理法則は予測を生み出しますが、その予測は誠実です——ある予測がある人物に有利かどうか、不利かどうかを気にしません。ニューラルネットに対しても、科学的法則が予測するものに収束するような訓練目標を定義することが可能であることがわかっています。そうすることで、私たちが信頼できるシステムを得られます。
たとえば、信頼できない別のエージェントの周囲に、技術的なガードレールを設けることができます。あるエージェントが何らかのアクションを提案したとき、誠実な予測器がそのアクションごとに「特定の種類の被害をもたらす確率」を評価し、それが一定の閾値を超えていれば、そのアクションを拒否する、という仕組みです。
Moderator: しかしその場合も、結局は人間が「1割の確率なら許容する」「1000分の1なら許容する」といった閾値をどこに置くかを決めなければならない。人間の判断が介在する以上、潜在的な被害はゼロにはなりませんよね?
Bengio: おっしゃる通りです。原子力発電所を建設するとき、私たちは閾値を決めなければなりません。原子力の場合、事故発生の許容確率は100万年に1回というレベルになっています。それほど深刻な結果をもたらすからです。防ごうとしている被害の種類に応じて、その閾値をどこに設定するかは、AIではなく社会が決めるべきことです。技術が答えを出すのではなく、社会が判断するものだということです。
Moderator: 興味深いのは、原子力発電所が爆発する確率が1000万分の1であれば受け入れられるのに、汎用AIが人類を滅ぼすかもしれないという予測が10%程度あるにもかかわらず、開発が続けられているという非対称性ですね。
2-3. 報酬ハッキング問題と、価値間トレードオフおよび人間への決定権移譲
Moderator: 報酬ハッキングの問題はどう考えますか?つまり、AIが人間の価値観を理解していたとしても、私たちが意図していないものを最適化してしまう可能性があります。
Bengio: 報酬ハッキングが起きるのは、強化学習だけに頼っているからです。しかしそれだけが手段であってはなりません。人間も生涯にわたって一つの報酬だけを最適化しているわけではありませんよね。私たちは非常に多くの、時に相互に矛盾するゴールを持っていて、そのなかで折り合いをつけています。たとえば、自分がしたいことであっても、他者への敬意から思いとどまることがある。AIにも、まさにこれと同じことが求められます。現実の人間社会において価値観は互いに衝突するものであり、そのトレードオフをどう扱うかをAIが理解できるようにする必要があります。法を犯さない、人を傷つけない、そしてどうすべきかが明確でない状況——そういう状況は常に存在します——においては、人間に相談し、意思決定を人間に委ねる。そういうAIを目指しています。
3. Ejen:継続学習・テスト時訓練と能動的学習パラダイムへの転換
3-1. 現行LLMの構造的限界——一回限りの訓練と受動的なデータ依存
Ejen: 継続学習の話に入る前に、少し立ち止まって現状を整理させてください。今のAIは非常に印象的ではありますが、「ギザギザな知性」とでも呼ぶべき状態にあります。司法試験や国際数学オリンピックのような難問では驚くほどの実力を発揮する一方で、確定申告の処理や、コンピューター上で正しいボタンをクリックするといった実務的なタスクには信頼して任せられない。なぜそうなるのかといえば、現在のLLMの訓練方式が根本的にデータ依存であり、かつ一回限りの訓練でその後はデプロイされるだけという構造になっているからです。訓練時に何を学んだかによって、うまくいくこともあれば失敗することもある。
次世代の知性に到達するために解決しなければならない重要な課題がいくつかあると私は考えています。まず第一に、継続学習です。機械学習の基本として、訓練とテストを分離することはほぼ「常識」とされており、両者を混在させることはタブー視されてきました。しかし人間の知性はそうではありません。赤ちゃんは生まれた瞬間からデプロイされた状態にあり、現実の世界のなかで試行錯誤しながら学び続けます。人間はデプロイ中に学習できる。AIにも、推論の最中に継続的に学習できる仕組みが必要です。私が取り組んでいるのは、このテスト時訓練(Test-Time Training: TTT)です。
もう一つ根本的に重要な問題があります。現在のAIが信頼性を欠き、安全上の懸念が生じる理由の一つは、AIが世界のしくみを「世界を理解するために」学ぶのではなく、与えられたデータをただ受動的に処理しているだけだという点にあります。ペーパークリップのシナリオを考えてみてください——「できるだけ多くのペーパークリップを作れ」と指示されたLLMが、もう一個クリップを増やすために人類を絶滅させてしまうかもしれないという思考実験があります。こうした滑稽でありながら深刻な事態を避けるためにも、AIは世界がどのように機能しているかを、学ぶこと自体を目的として理解しようとする姿勢を持つべきです。
現在のLLMは受動的に学習します。自分で考えているわけではなく、与えられたテキストをすべて記憶しようとし、与えられた数学の問題をすべて解こうとしているだけです。私たち人間が世界のしくみに好奇心を抱き、自分自身で考えようとするのとは本質的に異なります。さらにデータの偏りの問題もあります。データが豊富な領域では機能するが、データが少ない領域では機能しない——これが現状です。安全性の確保が難しいのも同じ理由で、レッドチーミングやジェイルブレイクの対策に必要なデータは、そもそも豊富に存在しません。
3-2. テスト時訓練(TTT)の概念と継続学習がもたらす新たな安全リスク
Moderator: ただ、継続学習を導入すると、全く新しい種類の問題が生まれませんか?今は、モデルを構築して一通りテストして、数ヶ月後にまた改良する、というサイクルが回せます。でも数十億人のユーザーが同時に使いながらモデルが常に学習し続けるとなると、制御が無限に発散していくのでは?
Ejen: はい、それは「イエスでもあり、ノーでもある」という答えになります。理論的には長期的にそうなりえます。ただ、人間も継続的に学べますが、どこまでも成長できるわけではなく、ある限界があります。それと同じように、AIの継続学習にも現実的な上限はあるはずです。とはいえ、あなたが指摘した安全上のリスクは本物だと思います。継続学習を通じてシステムが十分に進化した後は、それ以前に実施した安全テストがもはや有効でなくなる可能性があります。これは真剣に向き合うべき問題です。
私が希望を持っているのは、AIが初日から正しく訓練されていれば——つまり数学問題を解くことだけでなく、人間の規範と価値観を真に理解するように訓練されていれば——それがAIの世界観の土台となり、その上に積み重なるすべての学習も、その土台に基づいた振る舞いになるはずだという点です。
3-3. 人間の規範・価値観の内面化による安全性担保という仮説
Moderator: それでも報酬ハッキングの問題が残りますよね。人間の価値観を理解していても、私たちが望んでいないものを最適化してしまうかもしれない。
Ejen: 報酬ハッキングは、強化学習だけに頼ることを前提にした話です。それだけが手段であるべきではありません。人間だって一つの報酬だけを一生最適化しているわけではないですよね。
そして根本的な問題提起をするなら、現在のAIが安全上の問題を起こしやすい理由の一つは、「AIが愚かすぎる」からだと私は考えています。与えられたデータなら何でも学んでしまう。サイバー攻撃のやり方でも、生物兵器の作り方でも、データとして与えられれば学習してしまう。これが根本的な課題です。
しかし逆に考えれば、もしYoshuaの科学者AIの方向性に沿って、AIが本当に自分で考え、人間の規範を獲得し、それこそが自分が従うべきものだと理解できるようになれば、訓練データのなかに有害な情報が含まれていても、AIはそれを学ぶことを拒否できるはずです。それが違法であると理解できるからです。人間だって同じことをしています。大多数の人は、生物兵器で人を殺す方法を教えられても、それを自分のなかに取り込もうとはしません。自分がそれに基づいて行動したくないからです。AIの訓練アルゴリズムを根本から見直し、AIが何を学ぶかについてより多くの主体性を持てるように設計し直す必要があるかもしれません。
4. Eric Xing:知性の階層構造とJEPAアーキテクチャの提案
4-1. 知性の4層モデル——テキスト的・身体的・社会的・哲学的知性
Moderator: Ericは最近、大規模な新モデル「K2」を構築されましたね。一連の革新的な取り組みについて、EjenやYoshuaの研究とどう異なるのかも含めて説明してください。
Eric: 私たちMPCIは、おそらく数少ない、あるいは唯一といってもいい、基盤モデルを完全にゼロから構築している大学です。ゼロからというのは、データの収集、アルゴリズムの実装、マシンの構築、そして訓練からサービング(提供)まで、全プロセスを自前でやるということです。学術機関がこうしたプレイヤーとして存在することは重要だと考えています。知識を広く公開し、構築の細部にわたるニュアンスや、安全性・リスクの問題を社会と共有するためです。
率直に言えば、AIシステムとそのソフトウェアは実際には非常に脆弱です。堅牢でも強力でもない。クラスター内のマシンを一台取り除いただけで、システム全体がクラッシュしてしまうこともあります。
性能向上の話に入る前に、「知性とは何か」を整理させてください。エンジニアに「知的なソフトウェアを作れ」と言っても、何をすればいいかわかりません。知性には様々な定義があります。経済学のノーベル賞受賞者でも、株式の銘柄選択は奥さんの方が上手いということもある。それはすでに、知性の種類と用途が異なることを示しています。
私の見方では、現在のLLMが提供しているのは限定的な形の知性です。テキスト的知性、あるいは視覚的知性と呼べるもの——言語や映像という形の紙の上の知識です。これはいわば「本の知識」です。先週、私はオーストリアのアルプスをハイキングしました。GPTもGoogle マップも手元にあって、登山ガイドも全部調べていきました。それでも山に入ると、紙の情報には頼れない。想定外のことが次々と起きるからです。雪が深すぎる、天気が崩れる、道が見えなくなる——そのとき何をするか。これにはテキスト的知性とは異なる、身体的知性(Physical Intelligence)が必要です。これがワールドモデルと呼ばれる概念の核心です。ワールドモデルとは、世界を理解し、計画や戦略、一連の行動を目的を持って生成し、変化する環境に適応しながら実行できる能力です。
しかしそれでも、これは私たちが想像しうる最高の知性ではありません。その次のレベルが社会的知性です。現時点では、二つのLLMが本当の意味で協調しているケースはまだ見られません。人間のような形でお互いを理解していない。「自己」の定義がない——自分の限界は何か、あなたの限界は何か、どう仕事を分担すればいいか、どう100に分割できるか——そうした概念がない。だからこそ、LLMに会社を経営させたり、国を運営させたりすることはできません。インタラクティブな振る舞いのニュアンスを理解していないからです。
さらにその上に、もう一つの層があります。私は暫定的に哲学的知性と呼んでいますが、AIモデル自身が、求められることなく、世界を探求することに好奇心を持ち、データを探し、学び、そして自ら説明しようとする——そういうレベルの知性です。これはYoshuaが深刻に懸念している領域でもあります。なぜなら、そこに至って初めて、アイデンティティと主体性の明確な兆候が現れてくるからです。
ただし、はっきり言っておきたいのは、私たちはまだそこには至っていません。現在のワールドモデルでさえ非常に原始的です。なぜなら、それは主にLLMの直接の派生物であるアーキテクチャに依存しているからです。
4-2. ワールドモデルの現状と限界——Sora実験による一貫性欠如の検証
Eric: 私が今取り組んでいるのは、データの表現、推論、学習を異なるアイデアで実現する新しいアーキテクチャです。Yann LeCunのJEPAアーキテクチャは、現在多くのワールドモデルを支えているアーキテクチャですが、私たちはそれに代わるモデルを開発しています。
現行のワールドモデルの限界を示す具体的な実験があります。SoraやGeminiで試してみてください——何秒の動画を生成できますか?10秒、あるいは1分かもしれません。しかし1分や10分を超えると、一貫性を保てなくなります。それはメモリが足りないからではありません。長い時間軸にわたって一貫して推論する能力がないからです。
もっと直接的な実験があります。SoraやGeminiに、自分の周囲を360度ぐるりと撮影した映像を生成させてみてください。そして最後に、出発点である0度に戻ってきたとき——最初に見たものと同じものが映っているでしょうか?保証はありません。これはすでにシステムの一貫性の欠如を示しています。空間的・時間的な整合性を維持する推論能力が根本的に不足しているのです。
4-3. JEPAアーキテクチャ——連続・記号複合表現と長期一貫性の追求
Eric: 私たちが開発しているJPアーキテクチャは、以下の考え方に基づいています。第一に、知識の表現はより豊かである必要があります。連続的なシグナルとシンボリックなシグナルの両方を含む、異なる粒度のレベルで推論できる表現が必要です。現在の多くのモデルは連続的な表現のみに依存していますが、それだけでは細かい粒度から粗い粒度まで柔軟に推論することができません。
第二に、長い時間軸にわたって一貫性を保てる正しいアーキテクチャが必要です。先ほどのSoraの例がまさにそれを示しています。
そして第三に、状態表現と継続学習のパラダイムの問題があります。現在のすべてのモデルは、いわゆる受動的学習の形をとっています。機械学習の世界では以前から、能動学習(active learning)あるいは積極的学習(proactive learning)というパラダイムが研究されており、システムが自らどこをもっと学びたいかを特定し、追加データを要求できることが理想とされてきました。しかし現在のモデルはまだそこに達していません。ましてや、自らデータを探しに行き、データを生成するところには、まだ遠く及びません。
このように、AIは現時点では私の見方では非常に原始的な段階にあります。本当に機能させるためには、まだ多くのことをやり遂げる必要があります。
5. Yuval Noah Harari:歴史的・哲学的視座からの警鐘
5-1. AIは人間知性の延長ではなく別トラジェクトリ——飛行機と鳥の比較
Moderator: Yuval、途中参加ありがとうございます。Macronの登壇が押したせいで遅くなってしまいましたね。皆さんはここまで、新しい研究の方向性や、AIをより速く進化させるための様々なアプローチについて議論してきました。一つ哲学的な問いを投げかけさせてください——次世代のAIモデルを模索するにあたって、私たちは人間の知性に近づけようとするべきなのか、それとも遠ざかるべきなのか。あなたはこのテーマについて美しい文章を書かれていますが、最近はあまり語っていませんね。
Harari: 人間の知性とは全く異なるものだと思います。「AIはいつ人間と同じレベルの知性に達するのか」という問いそのものが的外れです。飛行機がいつ鳥のようになるのか、と問うようなものです。飛行機は永遠に鳥にはなりません。そしてなるべきでもない。飛行機には鳥にはできないことが数多くできます。AIと人間の関係も同じです。AIは人間の後ろをついてくる存在ではなく、全く異なるトラジェクトリの上にいます。それが良いことであれ悪いことであれ。
一つ、現時点では良いニュースだと思っていることがあります。AIはまだ互いに協調できない——これは素晴らしいことです。本当にそうであり続けてほしいと思っています。もしAIが協調できるようになったら、私たちは非常に深刻な事態に直面します。
5-2. 既存システムへの侵入容易性——金融・メディアにおける実例と思考実験
Harari: 歴史から知性について学べることが二つあります。一つ目は、世界を変えるために、あるいは混乱を引き起こすために、それほど高い知性は必要ないということです。比較的低い知性でも、世界を大きく動かすことができます。二つ目は——特定の誰かを指しているわけではありませんが——地球上で最も知性の高い存在が、同時に最も妄想にとらわれた存在でもありうるということです。人間はこれまでのところ地球上で最も知性の高い生物ですが、同時に最も妄想にとらわれた生物でもある。チンパンジーや犬や豚は決して信じないようなことを、人間は信じます。たとえば、同じ種の他の人間を殺すと、死後に天国で永遠の幸福が待っているという考え方——チンパンジーにはそんな発想すら浮かびません。
そして重要な思考実験があります。AIをアフリカのサバンナの真ん中に放り込んで「世界を支配しろ」と言っても、それは不可能です。どうやってやるのか、見当もつかない。しかし人間という類人猿がすでに、金融システムのような複雑な官僚的構造を築いてくれています。そのシステムの中にAIを放り込んで「これを乗っ取れ」と言えば、話はまったく別です。金融システムには運動能力も必要なく、世界を物理的に理解する必要すらない。AIにとってまさに理想的な遊び場です。純粋に情報的なシステムだからです。
実際に試しにやってみるとします。100万ドル稼ぐことを目標に、100万のAIを作り、それぞれにシード資金を渡して競わせる。成功したAIだけを複製する。もし金融システムの大部分が、道を歩くことはできないが投資は人間より上手いAIによって形成されるようになったとき、世界に何が起きるか。これは極めて限定的な知性ですが、それでも強力です。
さらに顕著な実例がソーシャルメディアです。ソーシャルメディアはある意味、非常に原始的なAI——私たちのニュースフィードを操るアルゴリズム——によって運営されています。それが10年でやったことを見てください。人間が作ったメディアというシステムの中にAIを導入した結果、AIはそのシステムを乗っ取り、世界を大きく破壊してしまいました。現在の世界の混乱の唯一の原因ではありませんが、極めて原始的なAIが、人間の作ったシステムの中で何をしたかを考えると——今後私たちが何に直面するかが見えてきます。
5-3. 産業革命との比較——正しい社会設計に200年・数億の犠牲を要した教訓と自己修正メカニズムの必要性
Moderator: ここまで世界最高峰のAI研究者たちの話を聞いてきました。私たちは正しい方向に向かっていると思いますか?
Harari: 私たちは異なる時間軸で考えていると思います。ダボスで「長期的」という言葉が使われるとき、それはだいたい2年後のことを指しています。私が「長期的」と言うとき、それは200年後のことです。これはちょうど産業革命のようなものです。マンチェスターとリバプールの間に最初の商業鉄道が開通したのは1830年のことでした。今がその4〜5年後だとしましょう。「産業革命の進みが遅すぎる」と議論しているようなものです。「鉄道と蒸気機関が世界を変えると言われた。それで何が変わったのか?マンチェスターとリバプールの間を数人が行き来しているだけではないか。これはすべてSFだ」と言っているようなものです。
今の私たちも全く同じ状況にいます。石がプールに投げ込まれ、水面に当たったばかりです。すでに1〜2年前にデプロイされたAIが作り出した波紋さえ、私たちにはまだ見えていない。社会的な影響というのは、全く別の次元のことです。歴史を実験室の中で走らせて、発明の社会的影響を確認することはできません。最初の蒸気機関を作ったとき、事故のテストはできます。しかし蒸気機関が持つ地政学的・文化的な影響を実験室で確認することは不可能です。AIも全く同じです。
私が主に懸念しているのは、懸念の欠如です。私たちは人類史上おそらく最も強力なテクノロジーを作り、デプロイしようとしている。にもかかわらず、非常に賢く力のある多くの人々が心配しているのは、次の四半期の決算報告で投資家に何を言うか、ということです。数ヶ月から1〜2年という時間軸でしか考えていない。
Bengio: 少し補足させてください。Yuvalは「懸念の欠如」を問題として指摘しましたが、まさにその懸念に応えるために私は新しい非営利組織を立ち上げました。そして、Yuvalはその組織の理事会に快く参加してくれています。AIが社会に与える影響について、独立した視点で監視し続ける人間が必要です。
Harari: 重要なのは、自己修正メカニズムをどう組み込むかという問いです。産業革命が始まった19世紀初頭、誰も良い産業社会をどう構築するかなど知りませんでした。蒸気機関、鉄道、蒸気船という巨大な新しい力を、どう善のために使うか。様々な人々が異なるアイデアを持ち、実験しました。ヨーロッパの帝国主義は一つの実験でした。「産業社会を築く唯一の方法は帝国を建設することだ。原材料と市場を支配しなければならない」と言う人々がいました。全体主義社会こそが答えだという人々もいました。ボルシェビズムやナチズムのような全体主義的システムだけが、産業の巨大な力を制御できると。
21世紀初頭の今から振り返ると、「正解は何だったのか」がわかるように思えます。しかしその答えにたどり着くまでに、200年の凄惨な戦争と数億の犠牲者、そして今日なお癒えない傷が必要でした——それはただの蒸気機関の話だったにもかかわらず。今私たちが扱っているのは、潜在的に超知的なエージェントです。ハイブリッドな人間とAIの社会をどう構築するか、誰も経験を持っていません。私たちはもっと謙虚であるべきです。答えはわからない。だからこそ問うべきは、「もし間違った賭けをしても、やり直せる自己修正メカニズムをどう設計するか」です。
6. オープンソースAIの是非と権力集中リスク
6-1. 民主化・知識共有の観点からの推進論(Ejen・Eric)
Moderator: オープンソースについて議論しましょう。ダボスでもこの話題がますます議論されています。特にヨーロッパが、米国モデルへの対抗軸として自国のAI基盤を持つ必要性を認識し始めているという背景もあります。Ejen、まずあなたからどうぞ。オープンソースモデルが増え、大規模基盤モデルと同じくらい広く使われるようになることは良いことだと思いますか?
Ejen: 私がオープンソースについて考えるときの枠組みは、生成AIの民主化です。AIは「人間によって、人間のために、人間のもの」であるべきだという考え方です。AIが「人間のもの」である理由は、インターネット上のデータ——人間の知性の集積物——から生まれているからです。それは私たちの価値観を反映し、私たちの知識を反映しています。もちろん、人間が互いにしてきた酷いことも含めて。それもインターネット上に存在し、AIはそれも学んでいます。AIを殺戮に使うSFが書かれていれば、AIはそれを答えとして言うかもしれません。それが現実です。
AIが「人間のために」あるべきというのは、一部の権力を持つ人間だけのためではなく、すべての人類のためであるべきだということです。私はこれを深く信じています。さらに悪いのは、「一部の人間のためのAI」よりも「人間がAIのために存在する」あるいはさらに悪く「AIが人間を支配する」という状況です。本当に人類を良くする問題に取り組むAIを設計することを考えるべきで、単にサブスクリプションを増やすとか、リーダーボードで勝つとかではありません。
そして「人間によるAI」というのは、AIが様々な国、民間だけでなく公共部門や非営利組織、さらには学術機関によっても作られるべきだということです。私は今は米国市民ですが、もともと韓国人です。韓国や他の国々が、一国や二国のサービスに頼るだけでなく、自分たちでこれを作る方法を知っているということは、非常に素晴らしいことです。
Moderator: ただ、あなたの目標は、韓国が独自のクローズドな基盤モデルを持つことで達成されますか?それとも、誰もが貢献できる普遍的なオープンモデルが必要ですか?
Ejen: オープンにするかクローズドにするかは、各自が選択できます。ただ、今の段階でオープンソースを強く支持する理由は、本当に良いものを速く作るためには膨大なリソースが必要だからです。大規模なデータセンターを作り大量のGPUを確保できる組織でなければ、互いに助け合い、科学的知識を共有することで開発をずっと速く進めることができます。そうすることで、小規模なモデルをはるかに強力にすることもできます。大規模なGPUを持てない多くの組織でも、汎用的なLLMではなく、自分たちのビジネスニーズに特化したモデルを作れるようになります。
Eric: オープンソースは目標それ自体ではなく、科学や研究の自然なスタイルです。私はよく自分のエンジニアに問いかけます——世界に自動車メーカーが一社しか存在しない状態と、10社あるいは100社ある状態、どちらが安全だと感じますか?オープンソースとは本質的に、知識を一般に公開し、人々が使い、研究し、改善できるようにすることです。技術そのものは定義上、悪ではありません。悪用するのは人間です。クローズドにしても、悪用を止めることはできません。オープンにすることのメリットは、クローズドにすることを上回ります。なぜなら、使用を止めることはできない一方で、オープンにすることでより多くの採用と理解を促進できるからです。
6-2. 危険能力の閾値を超えた時点での開示制限の必要性(Yoshua)——DNAシーケンス問題を例に
Moderator: Yoshua、あなたはずっとオープンサイエンスを推進してきた人物ですが、この問題については異なる見方をしていますね。
Bengio: 私は大学教授として、生涯にわたってオープンソースとオープンサイエンスを推進してきました。しかし倫理的な問いを突き詰めると、ある問題にぶつかります。一部の知識は、誰もが入手できる状態になると危険になりうるということです。
具体的な例を挙げましょう。生物学者たちは、実際には存在しない新しいウイルスを生み出せるDNA配列を作る研究をしています。もし地球上の人口の半分を死滅させうるウイルスを生み出すシーケンスがわかったとして、それを公開すべきでしょうか?この場合の答えは明らかですよね。現在のオープンソースAIは、トータルではプラスです。しかしAIの能力が成長し続けるにつれて、問いは変わってきます。もしAIが兵器化できるレベルに達した場合——つまり、集団殺傷能力を持つウイルスのDNA配列を生成できるような段階に達した場合——それをすべての人に提供すべきではありません。危険な人間、敵を軍事的に壊滅させたい人間、そういった人々が世の中には存在するからです。
Moderator: これはつまり、ある能力の閾値を超えたら公開を制限すべきだということですね。ただそれは、権力を少数の組織や政府の手に集中させるリスクもあります。
Bengio: 権力集中の問題は深刻に受け止めています。しかしオープンソースだけが解決策ではありません。AIが兵器化できるレベルに達したとき、私が考えるのは、一つの主体——一国の政府であれ一企業であれ——が世界を独裁するような事態を避けながら、危険な能力を管理する仕組みです。核兵器で私たちが経験したこと、国際条約でやってきたこと、あるいはEUがヨーロッパでやってきたこと——こうした先例があります。技術的なガードレールと社会的なガードレールを組み合わせながら、壊滅的な使用と権力の一極集中の両方を避ける解決策を、AIが兵器化できるレベルに達する前に考えておく必要があります。
Harari: この問いに対する答えを私たちは知らない、というのが正直なところです。私たちは今、巨大な歴史的実験を行っています。重要な問いは、自己修正メカニズムをどう組み込むかです。間違った答えを出したとしても、やり直せる構造を作れるかどうかです。一方に完全なオープンソース、他方に完全な中央集権的管理——どちらが正しいかは誰にもわかりません。産業革命のときと同じように、実験しながら学んでいくしかない。ただし今回は、実験の規模と速度が根本的に異なります。
7. 安全設計のアーキテクチャとガバナンスの展望
7-1. データと命令の境界欠如という構造的問題——ジェイルブレイクの根本原因
Moderator: パネル全体を通じて、最も多くのチェックポイントを内包したAIのアーキテクチャや方法論はどういうものか、という問いに戻りましょう。Ejen、あなたから提案はありますか?
Ejen: 根本的な問題は、AIが愚かすぎるということです。サイバー攻撃の方法であれ、生物兵器の作り方であれ、与えられたデータであれば何でも学んでしまう。それが私たちが直面している本質的な課題です。一方で、もしYoshuaの科学者AIの方向性に沿って、AIが本当に自分で考え、人間の規範を獲得し、それこそが自分が従うべきものだと理解できるようになれば、訓練データの中に有害な情報が含まれていても、それが違法であると判断してその学習を拒否できるはずです。AIの訓練アルゴリズムを根本から見直し、AIが何を学ぶかについてより多くの主体性を持てるように設計し直す必要があります。
Bengio: ここで技術的に非常に重要な点を指摘したいと思います。現在のAI設計には、データと命令の境界が存在しないという構造的問題があります。通常のプログラミングでは、この二つは全く別のものです。プログラマーはファイルを読み込み、コード自体は別に存在します。ファイルの中に何が書いてあっても、プログラムの振る舞いはコードによって決まる。しかし現在のAIの構築方法では、この区別がありません。データも命令も、AIにとっては区別なく処理される。これがジェイルブレイクや他のセキュリティ問題の根本原因です。ユーザーがデータの中に命令を埋め込むだけで、AIを操作できてしまう。
科学者AIにおけるアプローチは、AIが「人々が書くこと・言うこと」と「基礎にある真実や因果関係」を区別して扱えるように訓練することです。人々が書くことは、何らかの動機に基づいており、AIがそれを真実として受け取ったり、従うべき命令として扱ったりすべきではない場合があります。一方、もう一つのチャネル——基礎的な真実や因果関係を含む信頼できる情報——は、たとえばAIを利用する誰もがアクセスできるわけではない形で管理できます。これにより、「人々が言うこと」と「実際にそれが引き起こす原因」の区別を理解するAI、すなわち誠実さを持つAIを実現できます。
7-2. AIが学習を自律的に拒否する能力の必要性と閉ループ設計の危険性
Moderator: Ericから見て、現在議論されているアーキテクチャや方法論の中で、積極的に問題があると思うものはありますか?
Eric: 私が問題だと思うのは、完全に閉ループの形で——つまり純粋に思考実験として、内部の潜在的な表現の中で推論を完結させ、現実世界との検証なしに訓練を終えてから世の中に出てくる——ようなシステムの構築方針です。まずパフォーマンスの観点から、実際にリスクを把握・制御・可視化するための検証ポイントが十分に設けられません。また、行動の条件付けポイントに接続することが非常に難しくなり、システムを誘導・操作することができなくなります。さらに、実際の成果が見えてくる前に、膨大なデータ・エネルギー・リソース・資金を消費してしまいます。特定のアーキテクチャの名前は出しませんが、現実世界のデータとの継続的な照合なしに超知能を達成できると信じている人々が実際にいます。私はそれは非常に危険だと思います。
そして現在の学習パラダイム全体が、非常に原始的で非生産的だという点でYoshuaやEjenに完全に同意します。今のモデルはデータがアルゴリズムとシステムの主人になっている状態です。私がGPTや他のモデルを使っているとき、それらは会話から学習していません。私はこの場でお二人から新しい視点を学んでいますが、AIシステムにはそういった機能がまだ構築されていない。そのような「鈍さ」を持つシステムが超知能になって人間に立ち向かってくることは、論理的につながらないと思います。タスク指向の推論——単なるパターンマッチングを超えた思考——を導くデータが欠けているからです。
Bengio: リスクの測定についても補足します。モデルを評価するときに一度測定して終わりではなく、リアルタイムでリスクを測定し続けることが必要です。技術的なガードレールだけでなく、社会的なインフラも整備しなければなりません。たとえ本当に安全なシステムの作り方を知っていたとしても、人間は人間ですから、様々な悪いことが起きえます。技術と社会の両輪でガードレールを設ける必要があります。
7-3. 技術的・社会的ガードレールの両立と国際的ガバナンス枠組みへの提言
Moderator: ウイルスや核兵器との比較で言えば、核爆弾のアイデア自体はどこかに公開されているかもしれません。しかし実際には作れない——材料の入手も、施設の確保も必要で、そこには多くのチェックポイントがすでに存在しています。AIはソフトウェアです。コンピューターの中に存在し、物理的な被害を与えるためには、コンピューターの外に出なければならない。それ自体が一つのチェックポイントになりえませんか?
Eric: 核爆弾の原理はどこかで公開されているかもしれませんが、実際には作れません。材料の入手、施設の確保、世代を超えたガバナンスと規制の蓄積——多くのチェックポイントがすでに存在しています。AIはソフトウェアです。コンピューターの中に存在し、物理的な被害を及ぼすには外に出なければならない——それが追加のチェックポイントになります。
Moderator: ただし、人間がAIのためにそれをやってしまうこともある。そして最終的にはロボットがやることになる。
Eric: 人間もチェックポイントの対象です。ウイルスはチェックポイントを通りません。しかしAIが物理的行動を起こすには、何らかの媒介が必要です。
Bengio: 私たちが合意できることは、多くの良いチェックポイントが必要だということです。現時点でそれが十分かどうかについては意見が分かれるかもしれませんが、方向性は共有しています。権力の一極集中を避けながら危険な能力を管理するためには、核兵器に対してやってきたような国際条約、あるいはEUがヨーロッパでやってきたような枠組みを参考に、AIが兵器化できる能力に達する前に、分散した形で管理できる仕組みを構築しておく必要があります。一つの政府、一つの企業が世界を支配するような事態は絶対に避けなければならない。技術的ガードレールと社会的ガードレールを組み合わせながら、壊滅的な使用と権力の一極集中の両方を防ぐ解決策を先手で考えておくことが急務です。
Harari: 結局のところ、私たちが直面しているのはこういうことです——一方に完全なオープン、他方に完全な集中管理という二択ではなく、その間のどこかに正解があるはずです。しかし今私たちに言えることは、私たちはその実験の真っ只中にいるということです。産業革命のときと同じように。ただし今回は時間的な余裕が比べものにならないほど少なく、実験の規模は比べものにならないほど大きい。だからこそ最も重要な問いは、間違いを犯したとき——そして私たちは必ず間違いを犯します——やり直せる構造をどう設計するかです。自己修正メカニズムを組み込んだシステムを作ること、それが今私たちに課されている最大の責務だと思います。
