※本記事は、KDD 2024(The ACM SIGKDD Conference on Knowledge Discovery and Data Mining)にて開催されたGenerative AIに関するパネルディスカッションの内容を要約・構造化したものです。パネリストの発言内容を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性があります。 本パネルディスカッションは、世界最大の計算機科学の学会であるACM(Association for Computing Machinery)が主催するKDD 2024の一環として開催されました。ACMは、産業界、学術界、政府機関から約10万人の会員を擁し、コンピューティング分野の科学と職業としての発展に貢献する組織です。 なお、本記事の内容は、パネリストおよび所属機関の公式見解を必ずしも反映するものではありません。詳細な情報や正確な文脈については、KDD 2024の公式記録をご参照ください。
モデレーター:Ricardo Baez-Yates氏(KDD 2024 General Co-chair) パネリスト:
- Joleen Liang氏(Squirrel AI)
- Nitesh Chawla氏(Notre Dame University)
- George Karypis氏(Amazon/University of Minnesota)
1. パネリストの紹介と背景
1.1 ノートルダム大学 - Nitesh Chawla教授
Nitesh Chawla: 私は現在、ノートルダム大学のFrank Freeman教授として、Lucy Family Institute for Data and Societyのディレクター職を務めています。研究所では、データサイエンスとAIの進歩を活用して、社会的に重要な課題の解決に取り組んでいます。私たちの特徴は、単なる論文執筆や問題解決のためのデータセット構築だけでなく、"Last Mile Challenge"と呼ばれる実装段階までを重視している点です。
具体的には、コミュニティへの導入、社会実装、政策立案者との協働、NGOとの連携など、研究成果の実用化に力を入れています。最近は、NSFセンターでのコンピュータ支援合成プロジェクトで、化学分野においてGenerative AIを積極的に活用しています。このプロジェクトでは、"data chemistry"という新しい分野の確立を目指し、化学反応の予測や記述的側面の理解にGenerative AIを活用しています。
また、私には起業家としての一面もあります。現在、インディアナ州サウスベンドに本社を置く企業を設立し、300人規模にまで成長させました。この経験は、研究成果の実社会への応用という観点で非常に有益な知見をもたらしています。
私たちの研究所では、異なる分野のアイデアを統合し、実社会の課題解決に向けて、科学者やコミュニティと協力しながら、AIの実践的な応用を推進しています。特に、私たちは理論と実践の橋渡しを重視し、研究成果が実際の社会的インパクトを生み出すまでの全プロセスに注力しています。
1.2 Squirrel AI - Jolene Liang氏
Jolene Liang: 私は、Squirrel AIの共同創業者であり、米国部門の代表を務めています。私たちの会社は、適応学習とラージモデルの開発に10年間取り組んできました。ChatGPTやAIが広く注目される以前から、教育分野でのAI活用を推進してきました。
当初、AIを教育に活用するという構想を発表した際、多くの人々は懐疑的でした。しかし、私たちは一貫して適応学習とSLモデルを活用し、真の意味での個別化学習プラットフォームとコンテンツの開発を続けてきました。特にK-12の生徒たちを対象としているのは、大学教育の前段階で強固な基礎を築くことが極めて重要だと考えているからです。
私たちのプラットフォームは、コンテンツ、アルゴリズム、エンジンを統合し、AI適応学習を実現しています。教室内の各生徒は、プラットフォームが収集する学習行動のフィードバックに基づいて、それぞれ異なる学習コンテンツを受け取ります。過去10年間で100億件を超える学習行動データを蓄積しており、これにより、システムは生徒一人一人に対して非常に正確な学習支援を提供できるようになっています。
私たちの経験から、教育分野でAIを活用する企業にとって最も重要なのは、チームが教育そのものを深く理解していることです。単にAIの技術を理解しているだけでは不十分です。多くの教授や専門家との対話を通じて、私は、教育に関する深い理解を持った上でAI技術を実装することが、最も賢明なアプローチだと確信しています。これは、教育とテクノロジーの効果的な統合において、極めて重要な要素となっています。
1.3 ミネソタ大学/AWS - George Karypis教授
George Karypis: 私はミネソタ大学のコンピュータサイエンス学部で長年教鞭を執ってきました。私の研究キャリアは多岐にわたり、高性能コンピューティング、データマイニング、バイオインフォマティクス、ケミカルインフォマティクス、材料科学、学習分析、そして推薦システムなど、幅広い分野で研究を行ってきました。
過去5年半は大学を休職し、AWSでサイエンスチームのリーダーを務めています。このチームでは、グラフ機械学習から自然言語処理まで、広範な研究テーマに取り組んでいます。特に注力しているのは機械学習システムの開発分野で、大規模な生成モデルのトレーニングと利用を容易にするための科学的アプローチの開発に取り組んでいます。
私たちのチームは、理論的な研究だけでなく、実際のシステム開発とその実装にも重点を置いています。特に、大規模言語モデルの開発において、効率的なトレーニング手法や、モデルの実用的な応用方法の研究に力を入れています。この経験は、アカデミアと産業界の両方の視点から、AIの発展に貢献する機会を提供してくれています。
2. Generative AIの利用制限に関する議論
2.1 出力の検証が不可能な場合の使用制限
George Karypis: 私の考えでは、Generative AIの使用を制限すべき最も重要なケースは、出力の妥当性を自分自身で検証できない場合です。現状のツールは、その回答を完全に信頼できるレベルには達していません。特に重要なのは、Generative AIに何らかの制御を委ねるような状況です。このような場合、現時点では使用を控えるべきだと考えています。
Nitesh Chawla: Generative AIの利用において、特に社会的影響の大きい分野では、出力の検証可能性が極めて重要です。たとえば、クレジットスコアリングの分野では、米国では規制上の理由から、依然としてロジスティック回帰が使用されています。これは、予測結果を説明する必要があり、確率の較正が必要とされるためです。単にデータを生成して信用スコアを操作するようなことは許されません。ローンの承認や否認の理由を説明できなければならないのです。
Jolene Liang: 教育分野における私たちの経験から、検証可能性の問題は特に重要です。私たちは、生成されたコンテンツの評価において、常に専門家による検証プロセスを設けています。Generative AIの出力を直接的に使用するのではなく、必ず人間の専門家による確認と評価を経るようにしています。これは、教育の質を担保する上で不可欠なプロセスとなっています。
特に、出力の検証が困難な場面での使用制限については、以下の基準を設けることが重要です:
- 出力が人命や安全に関わる場合
- 法的責任が発生する可能性がある場合
- 経済的影響が大きい意思決定を伴う場合
- 教育や医療など、専門的な知識や倫理的判断が必要な場合
2.2 教育コンテンツ生成における人間の関与の必要性
Jolene Liang: 最近、ある教育関連の展示会で私が目にしたのは、AIによって生成された教育コンテンツでした。カラフルでアニメーション化された魅力的なコンテンツでしたが、重大な懸念を感じました。AIプラットフォームやソフトウェアによって生成されたコンテンツを、誰が評価し、レビューし、学習者に適していると確認するのでしょうか。
現時点、そして少なくとも今後3年間は、教育コンテンツを大規模にAIで自動生成することは推奨できません。コスト効率が良く、一晩で大量のコンテンツを生成できるため、この方法でスタートアップを立ち上げることは魅力的に見えるかもしれません。しかし、コンテンツに問題があった場合、誰がその責任を負うのかという重要な問題があります。
教育者は、今やコンテンツの作成者というよりも、データアナリストとしての役割に変化しています。私たちの会社では、学生が1つの章を終えるごとにシステムに蓄積されるデータを、センターのデータアナリストが監視しています。これは単なるAIチームだけの責任ではなく、会社全体で取り組むべき課題です。
特に重要なのは、なぜある質問に対して数千もの誤答が生まれるのかを分析することです。このようなマルチモーダルなフィードバックは、異なる種類のデータを生成し、データアナリストとしての教師の役割を一層重要なものにしています。従来の教師の役割は、AIシステムのデータを分析し、学習行動を理解する専門家へと進化しているのです。
このように、教育分野におけるAIの活用では、人間の専門家による継続的な監督と評価が不可欠です。AIはツールとして活用すべきであり、教育者の判断や専門性に取って代わるものではありません。
2.3 規制要件のある分野での従来型モデルの継続使用
Nitesh Chawla: 私たちは、Generative AIが話題のテクノロジーであり、この流行が長く続くことを期待していますが、重要な点を指摘する必要があります。特に規制要件のある分野では、従来型のモデルが依然として必要不可欠です。
例えば、米国のクレジットスコアリングでは、規制上の理由から今でもロジスティック回帰が使用されています。これには重要な理由があります。まず、予測結果の説明可能性が求められること、そして確率の較正が必要とされることです。単にGenerative AIを使用してナターシャの信用が低いからデータを生成して信用スコアを良くしよう、というようなアプローチは通用しません。ローンを承認または否認した理由を明確に説明できなければならないのです。
医療分野においても同様で、特定の予測を行う際には、その理由を説明し、確率を適切に較正する必要があります。これらの要件は、KDDカンファレンスで従来から扱ってきた、データマイニングやデータサイエンスの基本的な手法の継続的な重要性を示しています。
George Karypis: そうですね。私たちはまだ、従来型のモデルが必要な分野で革新と改良を続ける必要があります。ストリーミングデータ、不均衡データ、時系列データなどの従来の問題に対しては、これまでの手法が依然として重要な役割を果たしています。Generative AIは万能ではなく、全体的なシステムの一部として使用されるべきです。
Jolene Liang: 教育分野においても、規制要件と説明責任の観点から、従来型のモデルと新しい技術のバランスを取ることが重要です。私たちの経験では、特に学習評価や成績判定において、説明可能性と公平性を担保するために、従来型のモデルを組み合わせて使用しています。
3. Generative AIのリスクと課題
3.1 化学反応の自動化における二重使用の危険性
Nitesh Chawla: 現在、私たちが最も懸念している問題の一つは、化学反応のAI自動化における二重使用(デュアルユース)の危険性です。私たちは化学反応やAIを用いた科学的発見の自動化に取り組んでいますが、この技術が悪用された場合のリスクについて、真剣に考える必要があります。
具体的な懸念点として、化学反応の発見プロセス、反応の最適化、そしてその実行を完全に自動化することで生じる潜在的なリスクがあります。特定の個人や組織がこの技術を手に入れた場合、どのような危険が生じる可能性があるのか、慎重に検討しなければなりません。
これは遺伝子編集技術の開発時に直面した課題と類似しています。私たちは過去の教訓から学び、このリスクに先手を打って対処する必要があります。なぜなら、化学反応の自動化における二重使用のリスクは、遺伝子編集以上に深刻な影響をもたらす可能性があるからです。
George Karypis: そうですね。特に重要なのは、研究成果の公開と安全性の担保のバランスです。私たちAWSでも、化学反応の自動化に関する研究では、常にセキュリティ面での慎重な評価を行っています。
Jolene Liang: 教育分野からの視点でも、このような技術の倫理的な側面について、次世代の研究者たちに適切に教育していく必要性を強く感じています。技術の発展と同時に、その責任ある使用についても教育していかなければなりません。
3.2 商業的利益追求による拙速な開発の問題
Jolene Liang: 私が最も懸念しているのは、私たち自身のマインドセット、つまりGenerative AIをどのように考え、使用しようとしているかという点です。以前の質問とも関連しますが、もし単にツールを使って短期間で利益を得ようとするだけであれば、それは非常に危険だと考えています。
企業が極めて短期間でスタートアップを立ち上げ、急速に事業を展開しようとする姿勢には大きな危険が伴います。代わりに、私たちはこの技術をより賢明な方法で活用すべきです。例えば、データ分析に活用し、生徒の学習をより良く理解し、学習行動データを分析するといった方向性です。単にコンテンツを高速に生成することを目的とするのではなく、より本質的な価値創造を目指すべきです。
George Karypis: 私もJoleneの懸念に同意します。AWS での経験から、技術開発における品質管理プロセスの重要性を強く認識しています。特に大規模言語モデルの開発では、適切な品質管理と安全性の確保が不可欠です。開発速度を追求するあまり、これらが犠牲になってはいけません。
Nitesh Chawla: 私たちは過去のテクノロジー革新から教訓を学ぶ必要があります。ソーシャルネットワークの初期には、古い友人とつながり直せることに興奮しました。しかし、その後の展開で様々な問題が明らかになりました。例えば、Redditでのディープフェイクの出現など、技術の悪用事例も見てきました。現在、私たちはこれらの教訓を活かし、より慎重に、より深い検討を重ねながら開発を進めていく責任があります。特に、メンタルヘルスケアやその他の重要な分野でのアプリケーション開発においては、より熟考された、責任のあるアプローチが必要です。
3.3 大規模言語モデルの中央集権化の懸念
George Karypis: 私が最も懸念している問題の一つは、リーダーシップクラスの生成モデルが特定の企業の独占物となっている現状です。これらのモデルは専有的であり、トレーニングに使用されたデータについて、私たちは実際のところよく知りません。このデータの偏りは、モデルが持つバイアスや、モデルが間接的に投影する規範に大きく影響を与えています。
さらに深刻な問題は、次世代のリーダーシップクラスのモデルを訓練できる企業が、ますます少なくなっていることです。これは、巨大な計算リソースとデータセットが必要となる現在の開発手法に起因しています。この技術は多くの良いことを実現する可能性を秘めていますが、現時点では少数の企業に集中しており、その傾向は強まる一方です。これは私にとって最大の懸念事項の一つです。
Nitesh Chawla: そうですね。計算リソースの問題は深刻です。GPT-4の開発には1億ドルの費用がかかったという報道もありました。このような大規模な投資は、一般的な研究機関や小規模な企業では到底実現できません。
Jolene Liang: 教育分野の観点からも、この中央集権化は懸念されます。教育向けAIの開発には莫大なコストがかかりますが、それ以上に重要なのは、適切なデータへのアクセスです。私たちが10年かけて構築した学習行動データベースのような規模のデータセットを新規参入者が収集することは、現実的には極めて困難です。この状況は、教育テクノロジーの革新を妨げる可能性があります。
私たちは、この技術の集中化が教育の公平性や機会の平等にどのような影響を与えるのか、慎重に考える必要があります。特に、発展途上国や経済的に恵まれない地域での教育機会への影響は看過できない問題です。
4. データの品質と検証の重要性
4.1 医療情報における誤データの問題
Nitesh Chawla: 私が特に懸念しているのは、オンライン上の医療情報の正確性です。実際、オンラインの医療情報の大部分が不正確であることが知られています。これは単に情報が完全に誤っているというわけではありません。より深刻な問題は、個人の特定の状況に基づく逸話的な情報が、一般的な医療アドバイスとして提示されていることです。情報提供者が、その情報が彼らの個別のケースにのみ適用されることを明示していない場合が多いのです。
George Karypis: 私も同意します。このような誤データの上に構築された生成モデルは、誤った情報をさらに増幅させる可能性があります。医療分野では、このような情報の誤った一般化が深刻な結果をもたらす可能性があります。個人がそのアドバイスを採用した場合、重大な健康上の問題につながる可能性があります。
Jolene Liang: 教育分野での経験から、データの文脈依存性は極めて重要です。医療情報と同様に、学習データも個々の状況や環境に大きく依存します。私たちのプラットフォームでは、データの文脈を常に考慮に入れ、個別化された学習支援を提供するよう努めています。この観点から、医療情報の一般化における問題は特に慎重に扱う必要があります。このような誤った情報が生成モデルによって増幅され、広く伝播してしまう危険性は看過できません。
4.2 実例:NASA helicopterデータの負の高度値問題
George Karypis: NASAでの私の最初のプロジェクトで、ヘリコプターデータの分析を行った際の経験を共有したいと思います。このグループは既に3〜4本の論文を発表していましたが、私が新たにPhD取得直後に参加し、データを新鮮な目で見直す機会がありました。
基本的な統計分析とデータの理解を試みる中で、非常に興味深い発見がありました。ヘリコプターの平均高度が負の値を示していたのです。時系列データを詳しく調べると、高度が0フィートから800フィートまで上昇し、その後突然マイナス800フィートまで落ち込み、その後また上昇するというパターンが見られました。
調査の結果、問題の原因が判明しました。生データがC言語のshort integer型(-32,000から+32,000の範囲)にキャストされ、4で除算されていたのです。元々のヘリコプターの高度データは-800から+800フィートの範囲でしたが、このデータ型変換により、値が歪められていたのです。幸いなことに、請負業者が生データを保持していたため、適切な再処理が可能でした。
このケースは、データの可視化と基本的な統計チェックの重要性を示す典型的な例です。既に複数の論文が発表されていたにもかかわらず、単純なデータの確認作業によって重大な問題が発見されました。このような基本的なデータ検証プロセスは、現代の機械学習やAIプロジェクトにおいても依然として不可欠です。
4.3 データ理解の重要性とその現状
Nitesh Chawla: 私たちを、データマイニングの良き古き時代に立ち返って考えてみましょう。データマイニングの教科書では、まずデータ理解から始めることを教えています。データを可視化し、基本的な統計量を計算し、箱ひげ図を作成し、外れ値を特定する―これらの基本的なステップを通じて、何が真のデータで何が信頼できるデータなのかを理解していました。しかし、最近では、この教室で誰が最後にヒストグラムや箱ひげ図を作成し、要約統計量を確認したでしょうか?
私は実例として、メキシコシティでの貧血症例のデータ分析を挙げたいと思います。高度は血液数値に影響を及ぼすため、メキシコシティの住民の血液検査データを見ると、一見すると深刻な貧血の兆候を示しているように見えます。しかし、これは高地に住む人々にとっては正常な値なのです。生データだけを見て判断を下すことは、このケースでは完全に誤った結論に導きかねません。
George Karypis: そうですね。UCIのデータリポジトリにある有名なPima Indians糖尿病データセットの例も示唆的です。768例のこの比較的不均衡なデータセットには、血圧が0の患者のレコードが含まれています。生きている患者の血圧が0というのは明らかに異常値です。このようなデータの基本的な理解と検証なしには、適切な分析は不可能です。
Jolene Liang: 教育分野での経験から、私たちは実際のユーザーから収集したデータに時々虚偽のデータや、理由のない誤りが含まれていることを発見します。そのため、私たちの会社では専門のデータアナリストチームが、生徒が生成する行動データを常時モニタリングしています。特に、なぜある質問に数千もの誤答が生まれるのかといった異常パターンの分析は、教育システムの改善に重要な示唆を与えてくれます。このようなデータ分析は、AIチームだけでなく、会社全体で取り組むべき重要な課題となっています。
5. 学術研究の方向性
5.1 計算リソース制約下でのイノベーション
Nitesh Chawla: 昨日、Open AIの1000億ドルの評価額のニュースを読みました。GPT-4の開発には1億ドルを費やしたとも報じられています。このような規模の投資は、私たち学術研究者の集団では実現不可能です。
しかし、この制約は実は大きな機会を生み出す可能性があります。私たちにとって興奮させられる課題は、「いかにして少ないリソースでより多くを実現するか」という点です。限られたデータ、限られた計算リソースの中で、どのように効率的なアルゴリズムを開発し、新しい研究方法を見出すかが重要になってきます。
George Karypis: 私もその通りだと思います。産業界では実証済みの手法に従い、より多くのGPUとデータを投入することで漸進的な性能向上を図るという安全な道を選びがちです。しかし、アカデミアこそがリスクを取れる立場にあります。私たちは革新的な研究を行うことができ、それこそが私たちの研究と呼べるものです。
特に、現在のモノリシックなアプローチに代わる、より効率的で革新的な方法を探求することが重要です。例えば、単純なトランスフォーマーアーキテクチャと次トークン予測だけに依存する現在の手法を超えて、新しいアプローチを探求する必要があります。
Jolene Liang: 教育分野でも同様の課題に直面しています。限られたリソースの中で、いかに効果的な学習支援システムを構築するかが重要です。私たちの経験では、必ずしも最大規模のモデルが最良の教育成果をもたらすわけではありません。むしろ、効率的なアルゴリズムと適切なデータの活用が、より持続可能なソリューションを生み出すことができます。
5.2 包括的な言語表現の必要性
Nitesh Chawla: 現在のモデル開発における重大な課題は、トレーニングデータの代表性の問題です。世界中のウェブデータの大部分は、誰がインターネットへのアクセス権を持ち、誰が最初に情報やコンテンツの生産者だったのかという歴史的な経緯に強く影響されています。
これは一種の累積効果を生み出しており、その結果、人類の相当な部分の言語、声、文化、個人の経験が、これらのモデルに十分に表現されていない状況が生まれています。グローバルサウス(発展途上国)の視点や経験は、特に過小代表となっています。
George Karypis: その通りです。私たちAWSでの経験からも、言語モデルの多様性の課題は深刻です。現在のモデルは、主に英語圏のデータに偏重しており、他の言語や文化圏のニュアンスを適切に捉えることが困難です。これは単なる技術的な課題ではなく、社会的な公平性の問題でもあります。
Jolene Liang: 教育分野での経験から、この問題の重要性を強く認識しています。学習者は様々な文化的背景を持っており、各々の文化的文脈に適した学習体験を提供することが重要です。しかし、現在の言語モデルでは、この文化的多様性を適切に反映することが困難です。
私たちは、デジタルデバイドがさらに拡大することを防ぐため、より包括的なアプローチを模索する必要があります。これは単に技術的な課題を解決するだけでなく、様々な文化や言語を持つコミュニティと協力しながら、より公平で包括的なAIシステムを構築していく必要があります。
5.3 モデルの理解に関する研究の不足
George Karypis: トランスフォーマーがどのように動作するのかを理解しようとする研究は、非常に限られています。確かに、ここ数年、特に昨年あたりから、文脈内学習のメカニズムを理解しようとする研究がいくつか出てきていますが、まだまだ不十分です。
この分野の研究が進んでいない主な理由は、単純にこの研究が容易ではないからです。LLMのプロンプトエンジニアリングを行い、何らかの応答を得て、それを理解しようとしたり、あるいはモデルを破綻させようとしたりする方が、はるかに簡単です。しかし、トランスフォーマーの内部メカニズム、学習方法、その限界を理解することは、非常に困難な課題です。
Nitesh Chawla: 私も同意見です。最近のドナルド・クヌースのインタビューで印象的だったのは、「私たちが理解していないアルゴリズムを使うという発想は考えたこともなかった」という発言でした。これは、現在の私たちの状況を非常によく表しています。モデルの理解よりも応用が先行している現状について、私たちはもっと真剣に考える必要があります。
Marco Valero氏(会場からの質問): 私も、なぜこれが機能するのかという根本的な疑問について、真剣な議論が不足していることを懸念しています。KDDを含む多くの学会で、この基本的な問題についての研究発表があまりに少ないのです。人々はモデルをどう使うかということに集中していますが、なぜそれが機能するのかという理解を深めようとする努力が十分ではありません。
実際、私たちは90年代からある疎なベクトルと密なベクトルの組み合わせという表現方法を使い続けています。最適化やバックプロパゲーションについても同様です。より高次の言語やより強力な表現方法について、私たちはまだ十分に探求できていません。この状況を改善するためには、研究の優先順位を根本的に見直す必要があるでしょう。
6. モデルの理解と将来の展望
6.1 確率的オウムからの進化
Nitesh Chawla: 確率的オウムという表現について考えてみると、私が知る限り、オウムは非常に優れた模倣学習者です。彼らは教えられたことを正確に繰り返し、学習したとおりに再現します。しかし、現在の生成AIモデルは、単なるオウムとは異なります。もし生成AIモデルがSQLデータベースのように、同じクエリに対して常に同じ応答を返すのであれば、それは確かにオウムのような振る舞いと言えるでしょう。
しかし、現実には、これらのモデルは人間的な創造性の領域に足を踏み入れています。特に、人文科学や芸術の分野において、詩や散文、芸術作品の創作では、洗練された鑑賞者でさえ、その創造性を認めることがあります。
George Karypis: 確かに、言語モデルは言語を理解していると言えます。しかし、ここで重要な問題となるのは、「推論能力を持っているのか」「人間のような知識を持っているのか」「トレーニングデータで見たことのない例に対して一般化できるのか」ということです。これらの点については、まだ多くのことが分かっていません。
もし確率的オウムと全知全能な推論能力を持つ存在との間のスペクトルで位置づけるとすれば、現状では私たちはまだ確率的オウムに近い位置にいると考えています。これらのシステムがどのように機能しているのかについて、より深い理解が得られるまでは、この評価は変わらないでしょう。
Jolene Liang: 教育の観点から見ると、現在のモデルは従来の教育方法から、人間と機械の相互作用を基盤とした新しい段階へと移行している過程にあります。マルチモーダルな能力と相互作用の可能性を持つ次世代のモデルは、単なる確率的オウムを超えて、より深い学習支援を実現する可能性を秘めています。
6.2 推論能力の限界と改善の必要性
George Karypis: 現在のモデルの推論能力は明らかに限界を迎えており、スケーリング則が示すように、単にCPUやGPUを追加し、より多くのデータを投入するだけでは、性能の漸進的な改善しか得られません。より根本的なアプローチの変更が必要だと考えています。
私の見方では、現在の手法は非常にモノリシックです。単純な密なトランスフォーマーアーキテクチャと次トークン予測以外の手法をほとんど使用していません。これを改善するためには、記憶、推論、一般化といった異なる機能を分離して考える必要があります。例えば、人類の知識全体を記憶するには大規模なモデルが必要かもしれませんが、その知識へのアクセスは別の方法で実現できる可能性があります。
Nitesh Chawla: 私も同意見です。特に科学的な領域では、物理法則に従う必要があるため、単純な生成モデルでは不十分です。システムとしてのエージェント的な構築が必要で、様々な制約条件や前提条件を考慮に入れる必要があります。例えば、化学反応の予測では、任意のコンテンツを生成するのではなく、物理化学的な制約を満たす必要があります。
Jolene Liang: 教育分野での経験から、推論能力の向上には、ニューロシンボリックな手法やハイブリッドシステムの可能性を探る必要があると考えています。単純なトランスフォーマーだけでなく、記号的推論と結合した新しいアプローチが、より深い理解と推論を可能にするかもしれません。評価基準についても、単なる次トークンの予測精度だけでなく、より多面的な評価方法を確立する必要があります。
6.3 言語理解の本質的な課題
George Karypis: 私たちが直面している最も本質的な課題の一つは、「人間の理解」という概念自体が十分に定義されていないことです。言語モデルが言語を理解しているかどうかを議論する前に、そもそも「理解」とは何を意味するのかを明確にする必要があります。これは単なる哲学的な問題ではなく、モデルの評価や改善にとって極めて実践的な意味を持つ課題です。
Marco Valero(会場からのコメント): 私もGeorgeの指摘に強く同意します。LLMは言語を本当には理解していないという研究論文が続々と発表されています。これらのモデルは一貫した文章を無限に生成することはできますが、問題解決や計画立案においては、ランダムな選択よりもわずかに良い程度の性能しか示していません。言わば、コインフリップ程度の判断能力しか持っていないのです。
Nitesh Chawla: その通りです。現在のモデルは、与えられたパターンに基づいて分布を学習し、そこからサンプリングを行っているに過ぎません。本質的に新しいものを生成しているわけではありません。これは特に科学的な領域で顕著な課題となっています。人間にとってまだ未知の領域に踏み込むような真の創造的理解や推論は、現在のモデルでは実現できていません。
Jolene Liang: 教育分野での経験から、言語理解の評価方法の確立は極めて重要だと感じています。現在のように、単にモデルの出力が人間らしく見えるかどうかという表面的な評価では不十分です。特に教育コンテキストでは、学習者の理解度を正確に測定し、適切なフィードバックを提供できるかどうかが重要です。そのためには、より深い水準での言語理解を評価できる新しい手法の開発が必要です。
7. 希望的な展望と課題
7.1 教育における個別化学習の可能性
Jolene Liang: 私たちは現在、人間と機械の相互作用を基盤とした新しい教育段階へと移行しつつあります。従来の教育方法では実現できなかった真の個別化学習が、今まさに可能になりつつあります。ただし、ChatGPTに質問して回答を得るような単純な対話は、まだ真の個別化学習とは言えません。それは単に結果や解答を提供しているだけであって、学習者の理解プロセスに寄り添った本質的な個別化ではありません。
私たちの会社では、10年間にわたって適応学習システムを開発してきました。その過程で、従来型の教育からほんの少し前進したばかりの状態であることを実感しています。この分野ではまだ多くの人々が個別化学習の本質を理解していません。それはなぜでしょうか?それは、私たちがまだ最適な方法を見つけ出せていないからです。試行錯誤を重ね、失敗から学び、経験を積み重ねていく必要があります。
George Karypis: そうですね。教育分野におけるAIの次のステップは、AIによる個別化された学習とマルチモーダルな大規模モデルの能力を組み合わせることだと考えています。これにより、より深い理解と学習支援が可能になるでしょう。
Nitesh Chawla: 私も同意見です。教育効果の測定においては、単なるテストスコアだけでなく、学習プロセス全体を通じた理解度の変化を追跡する必要があります。また、実装上の課題として、技術的な問題だけでなく、教育者と学習者の双方が新しいシステムに適応していくためのサポート体制も重要です。現在の教育システムは、まだ伝統的な教育方法から抜け出せていない部分が多くありますが、適応学習とマルチモーダルな大規模モデルの能力を組み合わせることで、真の個別化学習が実現できる可能性があります。
7.2 言語バリアの解消への期待
Ricardo: 私が最も期待しているのは、200以上ある異なる言語を話す人々が、この技術を使って誰とでもコミュニケーションを取れるようになる可能性です。これは、言語の壁を取り除き、より多くの人々とコミュニケーションを可能にする、バベルの塔を逆転させるような機会となり得ます。
Nitesh Chawla: しかし、この機会には重要な課題も伴います。現状では、世界の人口の半分がこの技術を利用できない状況にあります。つまり、私たちは技術によってデジタルデバイドを解消しようとする一方で、皮肉にもそのデバイドを更に広げてしまう可能性があります。
George Karypis: 私もこの点について懸念を共有しています。言語バリアの解消は素晴らしい可能性を秘めていますが、技術へのアクセスの不平等が、新たな形の社会的分断を生み出す可能性があります。特に、リソースの限られた地域や共同体が、この技術革新から取り残される危険性を考慮する必要があります。
Jolene Liang: 教育分野の経験から、言語の壁を超えたコミュニケーションは、単なる言葉の翻訳以上の意味を持つと考えています。文化的な文脈や、それぞれの教育システムの特性を理解し、尊重することが重要です。技術は確かにツールとして有用ですが、真の文化間理解を促進するためには、より包括的なアプローチが必要です。
7.3 デジタルデバイドの拡大への懸念
Nitesh Chawla: 私たちは現在のインターネット上のデータについて、重要な懸念を抱いています。誰がインターネットにアクセスできたのか、誰が最初に情報やコンテンツの生産者となれたのか、というのは実は歴史的な累積効果の問題なのです。その結果、人類の相当な部分の声や文化、個人的な経験が、現在の技術発展から取り残されているという現実があります。
George Karypis: 私もNiteshの懸念に同意します。AWSでの経験から、大規模言語モデルの開発には莫大なコストがかかることを実感しています。例えば、GPT-4の開発には1億ドルもの費用が必要だったと言われています。このような巨額の投資を必要とする技術開発は、必然的に技術へのアクセスの格差を生み出してしまいます。
Jolene Liang: 教育分野の観点から見ても、このデジタルデバイドの問題は深刻です。私たちは10年かけて100億件の学習行動データを収集してきましたが、このような規模のデータセットの構築は、リソースの限られた地域や組織にとっては極めて困難です。教育の機会均等という観点からも、この技術格差の拡大は看過できない問題です。
Marco Valero(会場からのコメント): 私も、研究コミュニティが直面している課題として、技術アクセスの格差を強く懸念しています。現在のLLM開発は、数十万のGPUを必要とする大企業と、わずか数百のGPUしか持たない研究機関という極端な格差が存在します。これは非常に高価な計算リソースであり、この格差は今後さらに拡大する可能性があります。このままでは、技術革新の恩恵を受けられる者と受けられない者との間の社会的・経済的な分断が、さらに深刻化することが懸念されます。
8. 研究の多様性維持の重要性
8.1 LLM研究への過度な集中の問題
Marco Valero(会場からのコメント): 私たちは現在、LLMへの研究の集中度について深刻な問題に直面しています。昨年のKDDではLLMに関する発表はそれほど多くありませんでしたが、今年のACLでは発表の95%がLLMに関するものでした。この状況は研究の多様性という観点から非常に憂慮すべき事態です。多くのPhD学生たちが、自身の研究の方向性を見直さざるを得なくなっているのです。
George Karypis: 私もMarcoの懸念に同意します。私たちはアカデミアでは特に、限られたリソースの中で研究を進めていかなければなりません。これまでの年次サイクルでの研究革新のペースから、週単位や月単位での急激な変化に適応を迫られています。例えば、今日発表されたばかりのStabilityAIの動画生成モデルのオープンソース化など、技術の進展は予測不可能なほど急速です。
Nitesh Chawla: この状況で特に懸念されるのは、研究の多様性が失われることです。LLMは確かに重要な研究分野ですが、他の重要な研究領域、特に基礎研究や長期的な価値を持つ研究分野が軽視される危険性があります。また、計算リソースの制約により、多くの研究機関がLLM研究に参画できないという現実もあります。
Jolene Liang: 教育分野から見ても、LLMへの過度な注目は懸念材料です。教育におけるAI活用には、LLM以外にも重要な研究課題が多く存在します。例えば、学習者の個別ニーズに対応するための適応学習システムの研究など、より基礎的で長期的な価値を持つ研究テーマにも十分なリソースを配分していく必要があります。
8.2 従来型研究の継続の必要性
George Karypis: 私たちは、ストリーミングデータ、不均衡データ、時系列データなど、従来からある問題に対する研究をないがしろにすることはできません。これらの分野では、歴史的に使用されてきた手法がいまだに重要な役割を果たしています。LLMは万能ではなく、全体的なシステムの一部として使用されるべきものです。
Nitesh Chawla: 実際、私たちが大規模言語モデルを化学分野で応用しようとした際、予想外の発見がありました。有名な製薬会社から実際の電子ラボノートのデータを入手し、私たちの最新のAIモデルを適用してみたところ、結果は惨憺たるものでした。むしろ、ランダムフォレストなどの従来型の手法の方が優れた性能を示したのです。これは、データの疎性や注釈付きデータの利用可能性といった基本的な課題が依然として存在することを示しています。
Marco Valero(会場からのコメント): 私も、より高次の言語や、より強力な表現方法の探求が必要だと考えています。現在、私たちは90年代から続く疎なベクトルと密なベクトルの組み合わせという表現方法を使い続けています。最適化やバックプロパゲーションについても同様です。これらの基礎的な研究領域には、まだ多くの改善の余地が残されています。
Jolene Liang: 教育分野においても、既存の教育理論や手法との統合が極めて重要です。私たちの10年の経験から、新しい技術を導入する際には、既存の教育手法の長所を活かしながら、段階的に改善を重ねていく approach が最も効果的だと分かっています。急激な技術の変更ではなく、持続可能な形での進化が重要なのです。