※本記事は、ITU(国際電気通信連合)が主催し、50以上の国連パートナー機関と協力、スイス政府と共催する「AI for Good」のセッション「Generative AI and magical thinking」の内容を基に作成されています。動画の詳細情報および「Neural Network」(AIを活用したAI for Goodのネットワーキング・コミュニティプラットフォーム)の参加情報は https://aiforgood.itu.int/neural-network/ でご覧いただけます。本セッションでは、生成AIの近年の進展が一般市民の間に喚起してきた興奮、恐怖、驚き、不信といった強い感情を背景に、ChatGPTやGeminiといったLLMベースのシステムが本当に「知的」なのか、私たちはいわゆる汎用人工知能(AGI)の入り口に立っているのか、という問いに焦点が当てられました。LLMベースのシステムがどのように機能し、どこで力を発揮し、どこで限界に直面するかを概観し、特に人間と機械の補完的な強みが生かされる機会に重点が置かれています。
登壇者は、コペンハーゲン大学コンピューターサイエンス教授のSerge Belongie氏です。モデレーターは、マックス・プランク生物地球化学研究所 ディレクター兼教授のMarkus Reichstein氏が務めました。
本記事では、セッションの内容を要約しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画をご視聴いただくことをお勧めいたします。
1. はじめに:講演の位置づけと2種類の魔法的思考
Moderator: 本日のAI for Goodへようこそ。AI for Goodは、国際電気通信連合(ITU)が主催し、50以上の国連姉妹機関と協力し、スイスと共催する、AIに関する行動志向のグローバルかつ包摂的な国連プラットフォームです。AI for Goodの目標は、AIの潜在能力を人類のために解き放つことにあります。本日のイベントでは、ライブビデオウォール機能を活用してご質問やコメントを投稿していただくことで、活発な議論を生み出していきたいと考えております。それでは、最初のスピーカーをお迎えしたいと思います。本日はSerge Belongie氏をお招きできて大変光栄です。Belongie氏は現在、コペンハーゲン大学のコンピューターサイエンス教授であり、デンマーク・パイオニア・センター・フォー・AI(Danish Pioneer Center for AI)の所長も務めておられます。簡単に経歴を紹介しますと、彼はアメリカ出身で、カリフォルニア大学バークレー校で博士号を取得した後、カリフォルニア大学サンディエゴ校で教授を務め、その後コーネル・テックに移ってコンピュータービジョンのグループを率いておられました。コンピュータービジョンが彼の専門の一つですが、現在はより広い視野で研究を展開しておられます。デンマーク・パイオニア・センター・フォー・AIの所長としての役職に加え、昨年からはELLIS(European Lab for Learning and Intelligence Systems)の会長も務めておられます。ELLISは、ヨーロッパにおいてこれらの分野で最も成功し、権威あるネットワークの一つだと私は考えております。本日は「生成AIと魔法的思考」というテーマでお話しいただけることを大変嬉しく思っております。
Belongie: ご紹介ありがとうございます。音声と画面共有が正常に機能しているか確認させてください。よろしいでしょうか。それでは、生成AIと魔法的思考についてお話しいたします。まずプロジェクトの背景から少しご説明します。Marcusさんがご紹介くださったように、私はデンマーク・パイオニア・センター・フォー・AIの所長を務めております。これはデンマーク国内の5つの異なる大学のAI研究室から構成されるコンソーシアムで、デンマーク全土を横断する一種の「スーパーラボ」として機能しています。5つの異なる財団から支援を受けており、パイオニア・センター・フォー・AIの主要な焦点は、AIと機械学習のさまざまな基礎研究分野にありますが、社会的インパクトも視野に入れて設立されました。本日の講演では、自然言語処理、コンピュータービジョン、機械学習などの基礎的側面に焦点を当てる7つのいわゆる「コラボラトリー」については詳しく触れません。ここに列挙されている10の社会的応用分野があり、パイオニア・センター・フォー・AIの10年から13年のライフサイクルの中で、これらの応用分野それぞれが独立したセンターとして成長できるよう、十分な資金を調達することを目標としています。そしてこれまでに、公共・社会セクター分野で一つの成功例を出すことができました。昨年、Kaisa(Center for AI in Society、社会におけるAIのためのセンター)という新しいスピンオフセンターを立ち上げました。Kaisaは、生成AIなどの先端的手法と、その社会・公共・民間セクターでの応用の交差点に位置するセンターです。本日お話しするプロジェクトは、この新しい研究センターKaisaの下に位置するもので、私はKaisaのチーフサイエンティストも兼任しております。
Belongie: さて、このトークのタイトルにあるように、本日は魔法的思考についてお話しします。実は2種類の魔法的思考についてお話しするのですが、この点については正直に申し上げます。一つ目のカテゴリーの魔法的思考では、私は他の人を指差して「あなたたちは魔法的思考に陥っている」と批判する立場をとります。この部分についてはそのように進めていきます。二つ目の部分では、私自身が魔法的思考を行っている当事者となります。この点についても正直にお話しします。ただし、自分自身が行うときには、それを魔法的思考と呼ぶよりも、願望的思考(aspirational)あるいは夢想(dreaming)と捉える傾向があります。つまり、本日は異なるタイプの魔法的思考をご覧いただくことになります。
2. チャットボットの歴史と生成AIアーキテクチャの脱神秘化
Belongie: それでは最初の話題に入りましょう。皆さんの中には新しい話題の方もいれば、復習となる方もいらっしゃるかと思いますが、私たちは現在、さまざまな種類のチャットボットに囲まれた時代に生きています。チャットボット自体は新しいものではありません。皆さんがご存じないかもしれないことは、1960年代まで遡ると、チャットボットは既に人々を欺いて「このチャットボットは知的である」「感覚を持っている」と思わせていたという事実です。これは「ELIZA効果」と呼ばれるもので、MITで開発された最初期のチャットボットの一つにちなんで名付けられました。今日の基準から見ると非常に原始的なチャットボットでした。Lispで書かれており、応答の仕方も極めて単純なものでした。利用者がセラピストと話しているかのように何かを入力すると、ELIZAは「それはどのように感じましたか?」「次に何をしましたか?」「少し昼寝でもしてみてはどうですか?」といった応答を返してきました。それでも、多くの人々はこのシステムが何らかの形で人間らしい振る舞いをしているという印象を持ちました。歴史的に見ると、まさにこの時点から、人々は「考える」「幻覚を見る」といった擬人化された用語をシステムに対して使い始めたのです。興味深いことに、この擬人化現象は他のモダリティではまだ起きていません。極めてリアルな人間の顔のアバターや、コンピューター合成音声などは、チャットボットほどの擬人化的インパクトを持っていないのです。
Belongie: この問題について、AI研究者自身にも責任の一端があると私は考えています。なぜでしょうか。生成AIがChatGPTのような形で本格的にブレイクスルーを起こす前の長年にわたり、私たちは「学習する」「訓練する」「幻覚を見る」といった用語を非常に気軽に使ってきました。なぜなら、当時はそれらが大した性能を発揮していなかったので、そのような用語を使ったところで何の害もないと思われていたからです。しかし時代は変わりました。これらのコンピューターは、自身が知的であると人々に確信させる力を増しています。したがって、この技術を脱神秘化(demystify)し、実際に何が起きているのかを説明することは、ある種の道徳的な責務であると私は考えています。
Belongie: それでは、現在の生成AI革命の大きな一翼を担ったアーキテクチャの一つを見ていきましょう。それはGoogleのBERT(マスク言語モデル)です。このアプローチを二つの領域で見ていきます。一つはテキスト領域、もう一つは画像領域です。皆さんに持ち帰っていただきたいのは、テキスト、音楽、アミノ酸、コード進行、音声スニペットといったあらゆる種類の信号が、このタイプのアーキテクチャを通じて処理可能であるということです。そして、それらはすべて「トークン化」というプロセスから始まります。トークン化はテキストの場合が最も説明しやすいです。BERTマスク言語モデルの左側に示されているのは、文字列をトークン化したシーケンスです。簡略化のため、トークンは単語そのものとします。「マスキング」と呼ばれるトリックは、非常に大規模なコーパス、つまり大量のテキストデータセットを通じて、トークンを一つずつ走査し、それらを削除していくというものです。そして、ますます巨大化するニューラルネットワークが解くべきタスクは、たった今消去されたトークンが何であったかを推測することです。たとえば「How are ___ doing today」という文があれば、最先端の大規模モデルでもよいのですが、そのニューラルネットワークの仕事は、その空白に当てはまる確率の高い離散的なトークンを生み出すことです。あるいは「The first person to walk on the ___ was Neil Armstrong」という文であれば、その空白にトークンが欠落しています。このネットワークは、消去された箇所の左右両方のトークンを参照することができます。この参照可能な範囲は「コンテキストウィンドウ」と呼ばれます。2026年現在、コンテキストウィンドウは百科事典数巻分に相当するほど巨大化しています。しかし、そのルーツはマルコフモデルなどの単純な概念に遡ることができ、当時のコンテキストモデルは非常に小規模なものでした。
Belongie: その精神は、Wikipediaのテキストのような任意のドメインから十分な数のトークンを取得すれば、欠落したものを埋められるようになるというものです。ただし、それだけではチャットボットは生まれません。生まれるのは「表現(representation)」です。ここで明示的に示されていないのは、これらのトークンはネイティブな形のままで処理されるわけではないということです。トークンは入力されると、この巨大なニューラルネットワーク内部で数千次元の高次元ベクトルに変換され、その後そのベクトルが線形代数的演算や閾値処理などのシーケンスを通過します。最も重要なのは、トークンが高次元ベクトルにマッピングされるという点です。この高次元ベクトルこそが「表現」であり、良い表現とは、その上でさまざまな演算を行うことでチャットボットの文脈における有用なアシスタントを生み出せるような表現のことです。つまり、マスキングを行いマスクされた部分を埋めるというこのプロセスは、いわば、最終的にチャットボット・アシスタントとなるための「筋肉」を鍛える役割を果たしているのです。秘伝のソースとは、トークンを計算により適した形へと変換する、この種の表現の学習にあるのです。
Belongie: 右側に示されているのは画像の文脈での例です。この場合、トークンは画像の小さなパッチです。入力画像を小さなタイルに切り分け、単語を表すトークンをゼロ化する代わりに、ピクセルのパッチを表すトークンをゼロ化します。これはマスキング操作の一種です。他のタイプとしては、順序を並べ替えるジグソー、ノイズを加える方式、色度チャネルを除去してモノクロにする方式などがあります。このような複数の異なるタスクを適用し、再び巨大なニューラルネットワークに、除去されたトークンを埋め戻させるのです。このプロセスから高次元の表現が学習されます。これが完了すると、次に「次トークン予測(next token prediction)」と呼ばれるアーキテクチャを開発します。これは、抽出された表現を活用し、ユーザーがチャットボットに入力した新しいトークンの並び、いわゆる「プロンプト」が入力されたときに、それらのトークンを高次元表現のシーケンスに変換し、提供されたシーケンスの次に続く可能性が最も高いトークンをオンザフライで判定するというものです。もちろん、私はここで安全性メカニズムやアライメントメカニズムなどの話はしていません。実際にはもっと多くの要素があります。しかし大枠の考え方はこれです。これがいわゆる「次トークン予測モデル」で起きていることを脱神秘化する最初のステップです。脱神秘化と言っても、私は否定的な意味でそう言っているのではありません。これが悪いことだと言っているのではないのです。インターネット上の膨大なデータからこれほど多くのトークンを取得した場合に、次のピクセルを予測するだけで実現できることは、まさに驚異的です。しかし、私たちは依然としてこの問いを考え続ける必要があります。次のトークンを予測できるということが、「理解」について本当に何を意味するのか、ということです。
Belongie: もう一つ非常にポピュラーなモデルとして、特に画像合成の文脈で目にするのが拡散モデル(diffusion models)、特にテキストから画像を生成するテキスト・トゥ・イメージ拡散モデルです。前のスライドで見たのは「次トークン予測」でしたが、拡散モデルを考える一つの方法は、それが「次ノイズ予測(next noise prediction)」を行っているというものです。これもまたマスキングの一種です。拡散モデルの文脈では、舞台裏で「結合埋め込みモデル(joint embedding model)」と呼ばれるものを活用しています。たとえば「犬」という単語と、犬の画像が大量にあるとします。拡散モデルでは、画像を取り出して少量のノイズを段階的に加えていきます。そしてこのケースでは、訓練されるニューラルネットワークの仕事は、今加えたばかりのノイズを除去することです。先ほどはマスキングをトークンのゼロ化として説明しましたが、そこでのネットワークの仕事は欠落したトークンを埋め戻すことでした。拡散モデルでは、それが次ノイズ予測になるわけです。犬の画像が完全にノイズで覆われ、もはや見えなくなるまで、ノイズを段階的に加えていくシーケンスがあります。そして学習されるニューラルネットワークの操作は「ノイズ除去(denoising)」のステップです。画像合成を実行するときには、完全なノイズとテキスト記述から出発し、これらの連続的なノイズ除去プロセスを逆方向に実行することで、最終的にテキストプロンプトに最も整合した画像にたどり着きます。これも同じ考え方で、このマスキングの演習が、つまりこの場合は段階的なノイズの付加が、テキスト表現と視覚表現の間を行き来する流暢性を増した高容量モデルを構築するための「筋肉」を鍛える設計になっているのです。これらが今日の生成AIにおける二大支配的パラダイム、すなわち次トークン予測メカニズムと拡散モデルなのです。
3. 第一の魔法的思考:他者の盲信に対する批判
Belongie: さて、ここで少々の魔法的思考に関する問題に直面します。その一部は意図的な無知であり、一部はそうではありません。生成AIの爆発的普及は、極めて目立つソーシャルメディアプラットフォームを背景に進行しています。左側の例をご覧ください。これは初期のChatGPTのビジュアル機能を使った、いわゆる「チワワ vs. ブルーベリーマフィン」問題と呼ばれるものです。タスクは至って単純で、16個並んだ画像のうちどれが犬でどれがマフィンかを判定するというものです。機械学習の研究者であれば、これを見て懸念を抱くはずです。なぜなら、この特定のキャプチャはインターネット上に氾濫しているからです。画像がRedditのサブレディットやQuoraなどで共有されているだけでなく、その解答やコードも公開されています。このケースでは、あるAIインフルエンサーがChatGPTが正解したと共有していました。AI研究者として私はこれを見て「待ってください、訓練セットとテストセットをきちんと分離したのですか。これは適切な実験ですか」と問いかけたくなります。しかしAIインフルエンサーコミュニティに存在する風潮は、訓練とテストの分離を考えること自体がそもそも検討対象に入っていないというものなのです。責任あるAI研究を追求する者として、私たちはこの種の適切な科学的アプローチについて真剣に考える必要があります。この点は心に留めておくべきです。
Belongie: 次に、人々が抱く懸念のいくつかを見ていきましょう。職場において人々は、AIに仕事を奪われるのではないかと正当に心配しています。2025年のハイプ(誇大宣伝)はおそらく前例のないほどのものだったため、2026年初頭の時点ではこの懸念は少し落ち着いてきているように思います。しかし、たとえ多くのセーフガードを周囲に配置したとしても、次トークン予測手法には「作話(confabulation)」、しばしば「幻覚(hallucination)」と呼ばれる問題があることを認識しておく必要があります。私の立場としては、AIは道具であり、皆さんはAIに仕事を奪われるのではなく、AIに習熟した人に仕事を奪われる可能性があるというものです。悪魔は細部に宿るのです。実際にLLMを機能させるためには、各種のツールやエージェントなどの組み合わせが必要になります。なぜでしょうか。LLMの仕組みについて皆さんも一定の理解を得たと思いますが、LLMは流暢性において非常に優れている一方で、事実や厳密な制約を提供することは得意ではないからです。
Belongie: さらに別の例を見てみましょう。左側に駐車標識の例があります。同じAIインフルエンサーがこの例を提示し、「これは非常に破壊的だ。なぜならこれほど複雑に見える標識でも、AIに『今ここに駐車してもよいですか』と尋ねるだけで済むのだから」と述べました。ChatGPTは「はい、午後4時から1時間駐車できます」と回答しました。この投稿は多くの「いいね」とエンゲージメントを獲得しました。ところが、それは間違っていたのです。誤りであると指摘された頃にはすでに時遅しで、その投稿は既に大きな影響を与えてしまっていました。しかし私たちは自問すべきです。その結果として何が起こるのか。誰が責任を負うのか。この例に基づいてどのような技術展開が正当化されたのか。そして、それが失敗したときに誰が責任を取るのか。デンマークの文脈で例を挙げますと、保護者・教師・生徒が宿題や今後のイベントなどについて連絡を取り合うためのアプリがあります。他の多くの国にも同様のものがあるでしょう。AIベースのチャットボットなら、これらのコミュニケーションプラットフォームの情報の流れを見て、簡単な質問に答えられるだろうと思うかもしれません。「明日子どもは何を学校に持っていく必要があるか」「宿題の締切はいつか」「体育の授業はいつか」といった質問です。ところが、こうしたことは実際には非常に困難であることがわかっています。それは根本的な機械学習上の課題が難しいからではなく、社会的文脈において何が重要か、データがどこにあるか、認証のハードルは何かを理解することが複雑だからです。チャットボットを特定の文化的文脈で実際に使用しようとすると、多くの事柄が絡んできます。生成AI革命の興奮に満ちた報道では、この種の問題は捉えられていないのです。
Belongie: 先ほど「エージェント」という言葉に触れましたが、皆さんが「エージェント」という言葉を耳にしたときには、ぜひ単に「ソフトウェア」という言葉に置き換えてみることをお勧めします。これは古き良きソフトウェアであり、悪い意味ではありません。生成AIシステムの真の潜在能力と力にアクセスするためには、LLMの部分が非常に魅力的なユーザーインターフェースを実現してくれることは確かです。人間らしく、流暢ですから。しかし、事実を順守し、ガイドラインを順守し、法令を順守するという段になると、LLMがトラブルを起こさないようにするために、さまざまなエージェント型ソフトウェアの組み合わせが必要となります。つまり、これは結局のところソフトウェアなのです。現在普及しているフロンティアモデルのシステムでは、LLMの部分が重要なのは明らかですが、それらは古典的なソフトウェア工学によって装飾を施され、ようやくその潜在能力を発揮できるようになっています。これは過去にも見られたパターンです。生成AIのハイプの波は歴史的タイムラインの中でも確かに非常に大きなものであることは認めます。スライドの文字は小さいので具体的に読む必要はありませんが、印刷機、半導体、フロッピーディスク、パーソナルコンピューター、初めてオンラインでピザを注文できるようになった瞬間、インターネットの誕生、Wi-Fi、モバイルウェブ、iPhoneなど、さまざまなものが並んでいます。これらは変革的な技術であり、テックメディアは時として誇張的になりがちですが、これらは最終的には「普通の技術(ordinary technology)」になっていきます。悪い技術という意味ではなく、インターネットやレーザーのような普通の技術です。明らかに信じられないほどの発明であり、すべてを変えましたが、歴史の織物に織り込まれていったのです。
Belongie: これを別の角度から考える一つの方法は、AIに関するあらゆる公の議論からBS(でたらめ)を取り除けば、あとに残るのは普通の技術であるというものです。つまり「AI − BS = 普通の技術」という式が成り立ちます。繰り返しますが、これは悪いことではありません。しかし、魔法的思考やインチキ薬売りのような言説を排し、「私たちが今アクセスできるこのAIで、実際に何ができるのか」を問うことから、私たちは恩恵を受けられるのです。さて、ここまでが、魔法的思考に陥っている他者を私が指差して批判する部分でした。
4. 第二の魔法的思考:北欧の集団行動文化を基盤としたAdvatar構想
Belongie: さて、ここからは私自身が魔法的思考を行う番です。冒頭のご紹介にあったように、私はアメリカ出身で、約5年前に小さな北欧の国デンマークに移住しました。私は北欧文化の多くの側面に強い愛着を抱いています。デンマークで暮らしていて気づくことの一つは、人々が協会、グループ、クラブ、社会活動などに非常に積極的に参加しているということです。デンマーク生活の特徴として、人々は5つから6つの異なる協会に所属しているのが普通です。このような背景の中、デンマークもおそらく世界中の他の国々と同様に、公共・民間セクターでAIをどのように活用するかという問いに直面しています。本日のトークに参加されているほぼすべての方は、好むと好まざるとにかかわらず、公共給付にアクセスするため、あるいは運転免許センター(Department of Motor Vehicles)のような機関を利用するために、シチズン・チャットボットのようなものを使わざるを得なくなるでしょう。
Belongie: ここには魅力的な側面もあります。公共機関が保有するデジタル化された情報すべてを統合的に扱える可能性があるのです。しかし同時に、ここで一種のFOMO(取り残されることへの恐怖)的な底辺への競争に陥る危険性も生じます。ここでの課題は、これらの公共・民間機関がそれぞれ「single source of truth(唯一の真実の源)」である必要があるという点です。つまり、ゴミやリサイクルの収集対象は何で対象外は何か、誰が給付を受けられて誰が受けられないか、誰がレンタカー契約の返金を受けられて誰が受けられないか、といったルールを定めるのは各機関であり、それぞれが唯一の真実の源なのです。一方、大規模言語モデルには、即興的に話を作り、口が滑るような問題があります。先ほど示唆したように、このような作話の問題があるため、こうしたシステムの周囲にはエージェントや構造を配置する必要があります。
Belongie: 実際に人々がこのようなチャットボットを使ったときに何が起きるかというと、質問に対する回答が得られることもありますが、多くの場合、システムから助けを得ようとしても、回答のどこかに満足できない部分が残るのです。レンタカーで起きた問題、子どもがいじめられているのに教師が何もしてくれない問題など、さまざまな状況があり得ます。あるいは手術を控えていて、医療サイトで術前にどのような食事制限があるかを調べているといった場面もあるでしょう。これらすべての場合、質問への回答が得られたとしても、まだ議論すべきことが残っている可能性が高いのです。他の人々と話したくなる場面が出てきます。そうしたとき、人々はどこに行くのでしょうか。私の主張は、人々が集まって議論する公的なクラブハウス的な空間、そうした場所は、ごく少数の企業によって完全に占有されてしまっているということです。
Belongie: 特にFacebookグループはデンマークで非常に人気があります。世界の多くの場所でも同様だと思いますが、人々がこうした話題を語り合うために集まる場所としてFacebookグループが使われています。ここで私が先ほど示唆した、デンマークと他のいくつかの国が持つ特別な強み(superpower)の話に移ります。デンマーク語ではこれを「Andelsbevægelse」と言います。これは集団行動、協同組合運動と捉えることができます。文化の中に、人々が組織を作って互いに助け合うという側面が組み込まれているのです。ですから、Facebookグループがこれほど普及しているのも驚くことではないかもしれません。膨大な数の人々がグループとして組織化され、管理者がおり、あらゆる種類の質問に答え合う形で、本質的には互いの問題解決を助け合っているのです。
Belongie: これは双方にとって有益な状況(win-win)だと言えます。カスタマーサービス職員や受付職員などの予算削減を進めようとしている公共・民間機関にとって、これらの協会が十分な情報を持ち、自分たち自身や仲間を助け合うためのツールにアクセスできる豊かな環境を育てることができれば、すべての関係者が恩恵を受けます。さらにデンマークが持つもう一つの強み、生成AIの文脈ではあまり華やかには聞こえないかもしれませんが、国民共通シングルサインオンの存在があります。デンマークではこれを「MitID」と呼んでいます。これは社会保障番号のようなものと連動しており、デンマークの全国民がアクセスできるシステムです。この、協会という文化的現象と、シングルサインオンの組み合わせは、社会的議論フォーラムと、これらの議論フォーラムを支える普通の技術としてのAIを結びつける、巨大な機会を意味するのです。
Belongie: ここで文脈を改めて整理しておきます。ある人物が標準的なチャットボットを通じてこのAIシステムに入ってきて、質問への回答を得ようとしました。しかしその人は、より広いコミュニティからの意見が必要であると気づきます。それは、最初に質問を投げかけた特定の機関、たとえばレンタカー会社や給付管理機関とは別の場所での意見です。そうした社会的コミュニティに入ったとき、人々から助けを得る機会、そしてAIと協働して助けを得る機会が生まれます。これこそが、私が構想する仕組みの出発点なのです。
5. AdvatarプロジェクトとMitAI、VoresAIの設計と実装
Belongie: すみません、少しお待ちください。失礼しました。子どもたちが少し騒がしくなっていたので、落ち着くように声をかけてきました。それでは、私たちがKaisaを通じて運営している具体的なプロジェクトの話に進みます。プロジェクトのコードネームは「Advatar」です。これは「advocate(擁護者)」と「avatar(アバター)」を組み合わせた合成語(portmanteau)で、AI仲介型コミュニケーションのモデルです。Advatarは二つの部分から構成されており、デンマーク語ではそれぞれ「MitAI」と「VoresAI」と呼ばれます。これは英語で言えば「My AI(私のAI)」と「Our AI(私たちのAI)」に相当します。
Belongie: MitAIの部分は、ある意味では比較的従来的なものだと言えます。これはシチズン・チャットボットを表しており、基本的なレベルの機能を提供します。失礼、接続が切れていませんか。
Moderator: 大丈夫です、続けてください。
Belongie: はい、ありがとうございます。MitAIは基本レベルのチャットボット機能を提供し、ユーザーは一般的な質問を投げかけることができます。デンマークの居住者や市民はMitIDでログインすることで一般的なチャットボットにアクセスし、何でも質問することができます。このチャットボットは、既にデジタル化されているさまざまな公共向けウェブサイトで利用可能な公開情報にアクセスできます。先ほど例として挙げたプラスチック廃棄物の回収のような場合であれば、回答が得られれば話は終わりで、Facebookグループに参加したり議論フォーラムで話し合ったりする必要はありません。問題をエスカレーションする必要が生じた場合、ユーザーはMitAIにログインしている状態であり、社会保障番号などに紐付いた個人情報、たとえば交通履歴や医療履歴などにアクセスできる状態にあります。そして、そこからエスカレーションして、別のアフィニティ・ネットワーク(共通の関心や属性で結ばれた集団)にいる人々から追加の意見を得る段階に入ります。
Belongie: ここで登場するのが、Kaisaを通じて開発してきた「VoresAI」というプラットフォームです。これがOur AIの部分です。この文脈では、もしFacebookグループが存在するようなテーマ、たとえば最近ロースクールを卒業して仕事を探している人々、認知症を患う高齢の親を持つ人々、子どもをプロのフットボール選手にしたいと考える親、難民申請に関する質問など、そうした多様なテーマでコミュニティに参加して質問への回答を得たい場面が想定されます。スライドの下部に挙げられているこれらの項目は、人々がコミュニティのメンバーと関わりたくなるさまざまな場面を示しています。
Belongie: ここで、スライドにあるギターのロゴに赤いバツ印がついていますが、これは何を意味するのでしょうか。これは、MitAI/VoresAIによるこのAdvatarプロジェクトが、皆さんに「Facebookをやめましょう」「Instagramをやめましょう」と呼びかけるものではないということを示しています。人々が所属しているグループには、Eddie Van Halenのギターファングループのようなものも含めて、編み物が好きな人のグループなど、多種多様なものがあります。多くの場合、こうしたグループは国際的なもので、それで全く問題ありません。このAdvatarのフレームワークでは、すべてのFacebookグループを取り込もうとしているわけではないのです。Facebookの「ドゥームスクロール」やドーパミン的な刺激を求める側面を取り戻そうとしているわけでもありません。基本的に、その部分はそのままにしておきましょうという立場です。しかし、国レベルの文脈、たとえばデンマークの場合、市民の日常生活に関わる、国内に向けたFacebookグループが何万も存在します。ドーパミンやドゥームスクロールではなく、純粋に機能的な、人々の日常の仕事や生活で必要となるグループです。スライドでVoresAIへとリンクが伸びているのは、まさにこうしたグループなのです。
Belongie: これらのグループに関わる機関の多くは、先ほどお話ししたように、人員削減の圧力にさらされています。そこでより強力なAIを導入しようとしているのです。当初、こうした取り組みの多くは、できるだけ多くの質問に答えることを目指す、いわゆる「MitAI」、つまりMy AIの部分に注力していました。しかし現実として、特に個々の市民と大規模機関との間の力の不均衡を考えると、人々はこれらの話題について語り合い、答えを見出していくための、共有の家、クラブハウスのような集まりの場を必要としているのです。これはsingle source of truthにはなりません。先ほど示したように、唯一の真実の源は、公共給付管理機関や運転免許センターのような機関が握っています。これらの機関が運営するサイトやデジタル化された文書こそが、最終的な決定の根拠となります。しかしFacebookグループのメンバーであれば誰でも知っているように、こうしたグループ内では役立つアドバイスもあれば、それほど役立たないアドバイスもあれこれと議論されており、人々はそこで情報を得てから機関へ戻り、物事を前進させていきます。
Belongie: Kaisaの中でこれを実装可能な形に落とし込むため、私たちはオープンソースのプラットフォーム「discourse.org」を使ってプロトタイプを構築しました。Discord(ディスコード)と混同されがちですが、別物です。まだご存じない方には、discourse.orgを一度ご覧いただくことを強くお勧めします。これは本質的にFacebookグループのクローンで、議論フォーラム機能を提供します。実装は非常に優れており、多くの公共・民間機関に採用されており、重要なことに、生成AIのための仕組みがビルトインされています。彼ら独自のdiscourse.org AIがあるわけではなく、GeminiやClaude、OpenAIなどのAPIキーを入力できる仕組みが用意されており、各グループは1体または複数のボットをグループのメンバーとして加えることができます。Advatarが描くビジョンでは、グループに参加するそのメンバーは、いわばレファレンス・ライブラリアン(参考図書係)のような存在です。本質的にはグループ内に常駐し、議論を見守りながら重複する質問を見つけたり、可能な場面で助けを提供したりするのです。グループ全体を仕切るわけではなく、かつてFacebookグループを運営していた人々を補佐する役割を果たします。discourse.orgはこうした運用を簡単に実現してくれます。
Belongie: エコシステム全体の構想としては、デンマークのユーザー、そして願わくは北欧諸国全体、そして欧州全土に「デジタルウォレット」が展開されていくにつれて、欧州全域でもこの種の仕組みが可能となるというものです。アイデアの核は、MitAIが「第一の防御線(first line of defense)」となるということです。健康関連の問題、理学療法、歯科の予約など、何らかのニーズが生じたとき、まずMitAIに相談します。MitAIで必要な対応ができれば、それで完結します。しかし、対応しきれないとき、つまりさまざまな公共・民間機関とのやり取りが必要になったときには、チャットボットがこう言います。「私はあなたのご質問にはお答えできませんが、あなたが某協会のメンバーであることを確認しました。よろしければ、その協会にあなたのご質問を渡してもよろしいですか」。そうすると、先ほどお見せしたdiscourse.orgのリンクが起動し、その協会向けに見た目を再構成した形で表示されます。そこから、ユーザーは匿名または公開で質問を投稿することも、その協会のレファレンス・ライブラリアンとして機能するボットと直接DMでやり取りすることも、ハイブリッド型の利用も可能です。投稿を行い、まずボットが最初のコメントを返し、その後フォーラムにいる他の人々が自分なりの追加情報を添えていく、というような流れです。もちろん、ボットは定期的にグループ内で何が起きているかをモニタリングし、自身を更新していくこともできます。
Belongie: ここで部屋の中の象(無視できない大きな課題)の一つを挙げておきますと、私はこれにどれほどの計算資源が必要かをやや軽く扱っています。何万ものFacebookグループ規模、全市民がアクセスするシチズン・チャットボット、さらに各グループに特化した多数の生成AIモデルが存在し、これらのモデルは毎週、隔週、月次といった頻度で、税制、投資家レポートなど、それぞれのグループの基盤となる新たなデータでファインチューニングを続ける必要があります。モデルを最新の状態に保つには、膨大な計算資源が必要になります。この点に関して、デンマークには「Gefion」と呼ばれるスーパーコンピューターが存在することを誇りに思っています。Nvidia技術をベースとしており、Nvidia H100を1500基搭載しています。これによって私たちは、いずれは500万人以上の人々に利用されうるAdvatarのこのビジョンを、主権的(sovereign)な形で実現することが、実は十分に実行可能だと自信を持って言えるのです。デンマーク国内にはこれを実現する技術が揃っています。そして欧州全体を見渡すと、各地域がこの種の生成AI機能のためのスーパーコンピューター能力を発展させており、同様のパターンが進行していることがわかります。
6. プロジェクトの本質と「普通の技術」としての位置づけ
Belongie: ここまでのAdvatarに関する内容を改めて整理しておきます。先ほども触れたように、これはパイオニア・センター・フォー・AIのプロジェクトではなく、Kaisa、つまりCenter for AI in Societyのプロジェクトです。ここで機械学習やAIに関して必要とされているものは、ロケットサイエンスのような難解な技術ではありません。生成AIの絶対的な最先端にあるようなものでもありません。むしろ2年前であれば既に完全に機能していたであろう類のものです。Advatarの文脈、そしてその具体的な実装であるMitAIとVoresAIにおいて、可能性として真に魅力的なのは何かというと、それは「もしも」という、私側の大きな願望的思考が満たされた場合に何が起こるか、という点なのです。もしデンマークでこれらのグループに所属している人々、あるいはこれらのグループを運営している人々が、Facebookグループ、サブレディット、Quoraといった場所から、私が提示しているこのプラットフォームへと移行することができたなら、技術はすべて既にそこに揃っているのです。いわゆる技術スタックは準備完了の状態にあります。研究的な側面が残っているのは確かですが、最先端を切り拓くようなものではありません。
Belongie: さらに、人的スタック(human stack)に関しても同様のことが言えます。スライドに示されているデンマーク語の単語群は、協会の中に存在する非常に明確に定義された役割を表しています。これらも新しいものではありません。もちろん、私はやや単純化して話していることを認めます。冒頭でお断りしたように、これにはいくらかの魔法的思考が含まれています。しかし、人々が思い切ってFacebookグループを離れ、主権的で、生成AI機能が組み込まれており、データやモデルを最新に保つことができるスーパーコンピューターをバックエンドに持つクローン的プラットフォームに移行する意志を持つならば、必要なピースはすべて整っているのです。そうなれば、人々が互いを助け、自分自身を助ける機会が大きく広がります。そして本質的には、HTMLページやPDFといったものを中心とした第一波のデジタル化から、チャットボットがあらゆる公開情報を活用して人々を助けてくれる「AI駆動のデジタル化第二波」へと移行する機会を実現することになるのです。
Belongie: これで本日の話を締めくくらせていただきます。スライドにはパイオニア・センター・フォー・AIとKaisaに関するいくつかのリンクを掲載しています。この二つのセンターはいずれも、一般の方々と積極的に関わるよう設計されており、各種セミナーやサマースクールも実施しています。先月開催された欧州版のNeurIPSにあたるEuropean NeurIPSの運営にも、私たちは大きな役割を果たしました。ソーシャルメディアなどでも私たちの活動をフォローしていただけます。以上をもちまして、ご清聴に感謝するとともに、ご質問があれば伺いたいと思います。
Moderator: Belongieさん、いくつかの観点で非常に興味深く、考えさせられるトークをありがとうございました。通常はチャット経由でいくつか質問が寄せられますが、質問が集まってくる間に、私の方から先に質問させていただいてもよろしいでしょうか。非常に興味深く伺いました。先ほどあなたは「これはすべて普通の技術である」と何度か強調されていました。
7. 質疑応答
Moderator: そこでお伺いしたいのですが、では「普通ではない技術(non-ordinary technology)」とはどのようなものなのでしょうか。ある意味、この問いを次のように立て直すこともできます。たとえば、生成AIモデルが自己参照的に発達し、自分自身で変化していくようになる可能性があると言う人々もいます。Yoshua Bengio氏なども時折そのような指摘をされていると記憶しています。これは注意すべき潜在的な道筋だとお考えでしょうか。あるいは「普通ではない」とはどのようなものなのか、どこで線引きをするとお考えでしょうか。
Belongie: はい。私が考える「普通ではない(extraordinary)」あるいは「神のような(godlike)」技術を特徴づける一つの方法は、たとえばここで言うMitAIのようなものを訓練した結果、それがすべての質問に答え、すべてのことを実行してしまうような状態を指します。市民として何を問い合わせたとしても、入力すれば、それがいくつか質問を返してきて、それで終わり、答えが得られる、というような状態です。エスカレーションする必要もなく、熟議も省察も、社会集団内での議論も必要ない、というものです。あえてこのように描写したのは、皆さんに気づいていただきたいからです。これは意味をなさないのです。私たちは機械ではないからです。私たちは熟議を必要としますし、議論を必要とします。たとえ自分が間違っていることを知っている場合であっても、レンタカーの例のように、結局のところ手数料を払いたくないから議論したいと思う、それが人間です。ですから、AI in Societyの文脈において「普通ではない技術」とはどのようなものか、ということを私は実はうまく構想することができません。誤解のないように補足しますが、私はあらゆる文脈について述べているわけではありません。核プラズマ封じ込めの話をしているわけではないのです。あくまでAIと社会の話に限定しています。私が考えるAIの適切な役割は、個人や集団がやろうとしていることを補助することです。AIをブラックボックスとして用いるのではなく、人々が共に意思決定にたどり着けるよう、民主主義を機能させてきた何世紀もの歴史を持つ制度や仕組みが存在しています。それこそが「extraordinary」だと私は考えます。それは人類が誇りに思える達成です。そしてAIは記憶力という点で、また推論能力やデデュプリケーション、参考図書係のような働きという点で、ある程度まで驚くべき能力を持っています。ですから少し循環した言い方になりますが、私の枠組みでは設計上AIは「普通」であって、AI in Societyの文脈で社会の機能の仕方そのものを根本的に変えてしまわない限り、AIを「extraordinary」にする方法は思いつかないのです。
Moderator: つまり、AIは本質的に道具であり、道具として使われるべきだ、ということを強調しておられるわけですね。ありがとうございます。続けて他の質問をお待ちしている間に、もう一つ質問させてください。先ほど提示された「avatar」、いえ「Advatar」の概念について、複数の側面を挙げておられたと思います。その中にプライバシーも含まれていたと記憶しています。「すべて既に解決済みだ」とおっしゃっていましたが、もしかすると、人々、情報、そして生成モデルの間で形成されるこの種の創発的(emergent)なシステムでは、プライバシーをコントロールすることがはるかに困難になる可能性はないでしょうか。私はその分野の専門家ではないのですが、単純な疑問として申し上げています。たとえば私が知る限り、デンマークや北欧諸国ではプライバシーがそれほど大きな問題として扱われていないようで、これはおそらく良いことだとも思います。多くの事柄が透明に行われていますから。一方、ドイツではプライバシーは非常に大きな関心事です。私たちは常にそうした問題について慎重です。ですので、プライバシーを確保することが実は難しくなる可能性があるのではないか、というのが私の質問です。どのようにお考えでしょうか。
Belongie: はい、良いご指摘です。このアイデアが、集団行動の伝統と北欧の協同組合の伝統という背景の中から芽生えてきたのは偶然ではないと思います。これは穀物協同組合や酪農協同組合、住宅協同組合などにまで遡るもので、デンマークやノルウェーなどはこの種の組織で有名です。これはどこでも機能するわけではありません。技術的なスタックを提供したとしても、その仕組み自体が機能しない場面は多くあります。ですから、私はこの点について強硬に主張するつもりはありません。差分プライバシー(differential privacy)が役立つだろうとか、非公開での投稿の仕組みであれ、完全な匿名性であれ、あるいはグループの管理者だけが本人を見られるという仕組みであれ、プライバシーの機能の仕方を細かく切り分ける方法はいくらでもあります。私が強調したいのは、現状ではこうした議論が圧倒的にMetaまたはFacebookのプラットフォーム上で行われているために、デンマーク人の一般的な態度は「諦め(resignation)」になっているということです。彼らはFacebookを特に使いたいわけではないのですが、それしかアクセスできるものがないという状況なのです。そして、いわゆるMark Zuckerberg氏が自分たちのデータをすべて見ているかもしれないことを知りつつも、極めて個人的でプライベートな話題をこれらのグループで語っているのです。私が言う「諦め」とは、本質的に彼らがこう述べる状況です。「デンマークは小さな国だから、Facebookが本気で気にすることなんてあるだろうか」と。つまり、知っている悪魔と知らない悪魔のどちらを取るかという話になっているのです。そして、Facebookグループで何か問題が起きたり、誰かが誤って追放されたりしたときに、Zuckerberg氏のせいにすることができます。しかし、このAdvatarの仕組みが軌道に乗ると、突然「自分たちのものだ」ということになり、文句を言える相手が誰もいなくなります。デンマークは、おそらくドイツも同様かと思いますが、サイバーセキュリティ、差分プライバシー、連合学習などの理論をすべて知っている研究者で溢れています。研究も行われています。しかし、これまでこうしたものは常に逆風の中にありました。なぜなら、データはFacebookやTwitterからスクレイピングする必要があり、要するに権力と戦わなければならなかったからです。一方でAdvatarのような仕組みは、原理的には、もし政府を信頼しないのであれば、4万のグループそれぞれを政府が覗き見て、人々がどう投票するかを推測したり、何千通りもの方法で悪用したりすることも理論上は可能になります。ですから、もし人々が「私は連合学習を信じない」「認証システムが本当に機能するとは思わない」と言えば、この種の仕組みは到着前に死んでしまうことになります。ですから私は冒頭で「ここには魔法的思考があります」と前置きをしたわけですが、それでも、何かを信じなくてはならないのではないでしょうか。
Moderator: はい、ありがとうございます。さて、視聴者からいくつか質問が寄せられています。皆さんもご自身でお読みいただけますが、私からも読み上げます。Paul Jansenさんからの質問です。まずあなたの非常に明快で素晴らしいトークを称賛しておられます。そして「VoresAI環境におけるFacebookクローンについて言及されていましたが、Facebookクローンとは何を意味しているのでしょうか。一般的な目標は何ですか。既存のプラットフォームの代替なのですか」と尋ねておられます。先ほど少しお話しになりましたが、もう少し詳しく説明いただけますでしょうか。
Belongie: はい、明確にする機会をいただけて嬉しく思います。これは実はFacebook全体のクローンではありません。あくまで一部のクローンです。さらに、Advatarプロジェクトの範囲としては、私が視野に入れているのは実用的な性質を持つグループのみです。クローンと言うとき私が意味しているのは、写真投稿、イベント、管理者権限、モデレーションなど、Facebookグループに備わっているすべての機能をdiscourse.orgが持っているということです。それに加えて、グループのメンバーとしてボットを参加させるための仕組みも備えています。ですから理論的には、もしMetaがヨーロッパからの脅威、つまり大規模な人口がFacebookグループの利用を止めようとしているという脅威を察知したならば、Facebookは自分たちのグループにボットの参加を許可し、私が説明したような形で各国と何らかの形で連携させることで、この取り組み全体を簡単に潰すことができてしまいます。そうなったとしたら、私は心の中で少し死ぬような思いをすることになるでしょう。このプロジェクトを愛していますし、日の目を見るのを見たいですから。しかし、大局的に見ればそれは一つの成功だとも言えます。なぜならFacebookは既にAIを持っており、やる気になれば10分でできてしまうからです。ただし、そうならない地政学的な理由は多々あります。
Moderator: ありがとうございます。次にMaurice L.さんから、より技術的で詳細な質問です。「MitAIとVoresAIは大規模言語モデルとして構築するのでしょうか。その場合、公開LLMと私的LLMのどちらを使うのでしょうか」と尋ねておられます。さらに「LLMに外部ソースを参照しに行くようにどのように指示するのですか」とも聞いておられます。
Belongie: はい。実際のところ、国家規模でデジタル化省(Ministry of Digitalization)と協働しているため、主権性(sovereignty)に関して非常に厳格な要件が課されています。市民がログインしたときに表示されるチャットボットを構成するモデルとしては、たとえばMistralを使うことになるでしょう。理想を言えばデンマーク製のモデルが望ましいのですが、少なくとも他の欧州諸国製のものを使うことになります。デンマークの文脈でファインチューニングされたMistralの何らかのバージョンというところです。ただ、これは現在進行中の研究プロジェクトであり、文字通りまだ生まれたばかりの状態です。とはいえ、最も可能性が高いのは、各市民が利用するベースラインのチャットボットがMistralのようなものになるということです。VoresAIに関しては事情が異なります。なぜなら、これは公共部門と民間部門の両方に展開されるからです。公共部門のエンティティはおそらく同じ主権要件に縛られますが、民間部門はそうではありません。その場合、問題はAdvatarガイドライン、GDPR、各種のデータプライバシー規制、地域的要件などへの準拠だけになります。ですから私が想定しているのは、民間のエンティティがVoresAIネットワークに参加したい場合、OpenAIのAPI、Gemma、Gemini、何でも好きなものを使って参加できる、ただしそれがAdvatarのガイドラインに準拠している限り、という形です。
Moderator: ありがとうございます。ちょうど午後5時に近づいてまいりました。改めて、この非常に素晴らしく示唆に富んだトークに感謝申し上げます。講演後もニューラルネットワークの場で集まり、議論を続けていただくことが可能ですので、ぜひご活用ください。それでは、メインの主催者であるAI for Goodにお返ししたいと思います。Sergeさん、改めてありがとうございました。
Belongie: ありがとうございました。お招きいただき感謝します。さようなら。
Closing: 本日のAI for Goodセッションへのご参加ありがとうございました。今回のイベントで、何か新しく革新的で興味深いことを学んでいただけたなら幸いです。ライブビデオウォール、ニューラルネットワークでの議論の継続もぜひお願いいたします。そこでは、質問の投稿、いいねやコメント、リンクの共有、アンケートへの参加、興味深いプロフィールとのつながり、チャット・ビデオ機能を用いた1対1の会話などが可能です。ロビーでは、スマートマッチングクイズ、バーチャル展示、ポスターボード、eShop、自分専用のAI for Goodプログラムの構築などもお試しいただけます。共にAI for Goodの未来を形作っていきましょう。