※本記事は、2024年独日仏AIカンファレンスの基調講演「生成AIの透明性」の内容を基に作成されています。本カンファレンスは、ドイツ科学・イノベーション フォーラム 東京(DWIH東京)が主催し、Prof. Dr. Andreas Dengel、Prof. Florence D'alché-buc、Dr. Yasuhiro Katagiriらが登壇されました。
カンファレンスの詳細情報および講演者情報は、DWIH東京の公式ウェブサイト(https://www.dwih-tokyo.org/ja/event/ai4/ )でご覧いただけます。また、講演の完全な映像記録は、英語チャンネル(https://youtube.com/live/qr-CuHrqttQ )でご視聴いただけます。
本記事では、講演およびディスカッションの内容を要約しております。なお、本記事の内容は登壇者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講演映像をご視聴いただくことをお勧めいたします。
最新の日独の科学・イノベーションに関する情報は、DWIH東京の公式ウェブサイト(https://www.dwih-tokyo.org )をご参照ください。Information zu Forschung und Entwicklung aus Deutschland & Japan. Informing about research and innovation from Germany & Japan.
1. 開会・司会進行
1.1. Axel Karpensteinによる講演者紹介
「皆様、昼食休憩後のセッションへようこそ。次のセッションでは生成AIの透明性について議論していきます。まずは、このセッションの講演者と座長をご紹介させていただきます。
座長のDr. Anton Zimmermannをご紹介します。Dr. Zimmermannはハイデルベルク大学で法学を修め、2016年に第一次国家試験、2020年に私法で博士号を取得され、2021年に第二次国家試験を合格されました。経済学の学位も持っておられます。2021年から博士研究員として活動され、今年の夏からは、ハイデルベルク大学の比較法・国際取引法研究所でDFG(ドイツ研究振興協会)の助成を受けたジュニア研究グループのリーダーを務めておられます。私法、法と技術、そして公法と私法の国際法のガバナンスツールとしての相互作用が主な研究分野です。
次に、Prof. Andreas Dengelをご紹介します。日本とも長年の関わりがあり、私たちの長期的な協力者です。カイザースラウテルン工科大学のコンピュータサイエンス学部教授であり、カイザースラウテルンのDFKIのマネージングディレクターを務めておられます。2009年から大阪都市大学の教授も兼任され、同大学にDFKIの事務所も設置されています。文書分析分野での研究により、ドイツのAI史50年で最も影響力のある科学者の一人として連邦教育研究省から選出されました。ラインラント・プファルツ州功労勲章を受章され、2021年には天皇陛下より旭日章を授与されています。
また、Prof. Florence D'alché-bucをご紹介します。テレコム・パリの画像・データ・信号部門の教授で、2年以上にわたり同部門を率いてこられました。2019年にはNIPSのプログラム共同委員長を務め、2017年から2019年にはパリのコンピュータサイエンス卓越センターの科学ディレクターを務められました。2018年から2023年までテレコム・パリのデータサイエンスとAI産業応用講座を担当され、Ellis理事会のメンバーも務めておられます。機械学習の様々な領域、特に構造化出力予測、効率的で信頼できるAIが主な研究分野です。
Dr. Katagiriについては、先ほどすでにご紹介させていただきましたので、改めてのご紹介は省略させていただきます。」
1.2. Dr. Anton Zimmermannによる座長挨拶
「まず初めに、主催者の皆様、講演者の皆様、そしてこのキーノートセッションにご参加いただいた皆様に感謝申し上げます。
本日のテーマである人工知能の透明性については、特に現代においては、もはや正当化の必要のないテーマだと考えています。私たちは皆、AIによる面白い誤った推論(ハルシネーション)のミームを目にしたことがあるでしょう。そのため、AIのブラックボックスを可能な限り解き明かしていく必要があることは明白です。
これから予定されている各講演者の方々のプレゼンテーションと、その後のディスカッションを大変楽しみにしております。それでは、まず最初の講演者としてAndreas Dengelさん、ご登壇をお願いいたします。プレゼンテーションを楽しみにしております。」
このように、私は座長として、AIの透明性という本セッションの重要性を強調しつつ、簡潔に本題へと議論を導入しました。AI技術の進展に伴い、その判断過程の理解と説明可能性が重要な課題となっていることを示唆し、これから始まる議論の方向性を示しました。
2. プレゼンテーション [Prof. Dr. Andreas Dengel]
2.1. AIシステムの透明性と説明可能性の課題
「私のプレゼンテーションでは、透明性、特に解釈可能性と説明可能性の観点からAIシステムについて説明させていただきます。これは有名な映画のトレーラーの話ではなく、AIシステムの透明性、特に生成AIを含むAIシステムの解釈可能性と説明可能性に関する重要な課題についてです。
皆様もご存知の通り、メディアを通じて多くの事例が報告されています。AIが時としてデータのバイアスや、システムの複雑さに起因して失敗を起こすことがあります。これは特に深層学習システムにおいて顕著で、トレーニングに使用されるすべてのケースを人間が把握することは困難です。この問題は深層学習一般に当てはまりますが、特に基盤モデルにおいて重要な課題となっています。
また、ジェイルブレイクや他の敵対的システムの存在も課題です。これらは、文字レベル、単語レベル、文章レベルでシステムを攻撃しようとします。現在、このようなネットワークの欠陥を示すための敵対的技術フレームワークが数多く存在しています。
このようなネットワークは、画像やテキストだけでなく、時系列データなど複数のデータモダリティで例外的に優れた性能を発揮します。通常、異常や相関関係を見つけるためにケースごとにトレーニングされますが、主要な課題の一つは、これらがブラックボックスであるという点です。
透明性は多くの領域で必要不可欠であり、決定に関する説明は決定そのものと同様に重要です。システムへのより深い洞察が必要であり、システムの複雑さが増大し続けているため、この需要はさらに高まっています。また、システムの自律性と透明性のトレードオフも重要な課題となっています。
そこで、私たちはシステムの動作を理解するためのいくつかのアプローチを考えています。一つは解釈可能性で、これはシステムの動作を観察し、必ずしもなぜそうなるのかを知る必要なく、原因と結果の関係を理解することです。もう一つは説明可能性で、これはシステムの内部機能を人間にわかりやすい方法で、例えばテキストを通じて説明する能力に関係しています。私たちはこれらの二つの次元について、XAI(説明可能なAI)ハンドブックでも詳しく検討しました。」
2.2. 医療診断における実例:皮膚病変の分析
「今日は、医療分野、特に皮膚疾患の診断における具体的な事例についてお話しさせていただきます。この領域は世界中で一般的な疾患であり、死亡率の観点からも重要な研究対象となっています。
皮膚病変の画像を見ると、様々な特徴的な要素が観察できます。例えば、色素沈着の状態、放射状の広がり、ネットワーク状の境界、異なる色の混在などの視覚的特徴があります。これらの特徴は専門医が診断を行う際に注目する点でもあります。
しかし、専門家にとっても診断は容易ではありません。多くの場合、生体検査を行い、さらなる検査が必要となります。また、診断技術の評価において、絶対的な基準(ゴールドスタンダード)が存在しないことも課題の一つです。
7年前、スタンフォード大学の研究チームがNature誌に論文を発表し、AIシステムが人間の専門家と同等の診断能力を持つことを示しました。しかし、ここでも私たちはAIシステムのブラックボックス性という課題に直面しています。
専門医は多くの場合、ABCDE法のような体系的な評価方法を用います。これは色素構造の有無やIRストリークなどの特徴を確認し、最終的にスコアリングを行って病変の危険性を評価する方法です。
私たちの研究では、比較的少量のデータ(数千サンプル程度)しか利用できない状況で、診断の判断根拠を示せるシステムの開発に取り組んでいます。病院のデータベースに保存されているこの限られたデータを活用して、ニューラルネットワークを使用しながらも、その判断プロセスを透明化する必要があります。
この課題に対して、私たちは段階的なアプローチを採用しています。まず皮膚病変の領域を無視し、一般的な画像分類が可能な信頼性の高いネットワークを開発します。次に、画像に存在する様々な視覚的概念を理解できる分類器を開発し、最後にこのシステムを皮膚病変の診断に適応させます。最終的には、システムが診断結果だけでなく、その判断理由も説明できるようになることを目指しています。」
2.3. 視覚的概念の分類とモデルの解釈可能性
「私たちの研究アプローチについて、具体的な手順をご説明します。まず第一段階として、ImageNetデータセットを使用してシステムのトレーニングを行いました。このデータセットには1,300万枚の画像があり、22,000のクラスに分類されています。この段階では、入力画像に対して特定の分類結果を得ることができますが、まだ病変の概念は含まれていません。
次に、この事前学習された分類器を使用して、テキスタイル領域のデータセットに適用しました。このデータセットには、ジャケット、シャツ、ズボンなど、視覚的に明確なパターンを持つ様々なアイテムが含まれています。システムはこの段階で混乱し、トレーニングされた内容に基づいて回答を提供します。
ここで、深層ニューラルネットワークの重要な特徴を活用します。トレーニング時に、入力層に近い層では、エッジや角などの基本的な特徴を学習し、出力層に近づくにつれて、より複雑な特徴を学習することがわかっています。出力層の近くでは、完全な画像や顔に近い特徴を認識できるようになります。
私たちはこの特性を活用し、コンセプトベクトルというアプローチを適用しました。ネットワークの各層で特徴を抽出し、ドット柄やストライプ柄などの視覚的特徴を分類する個別の分類器を構築します。これにより、全体的な分類だけでなく、視覚的概念の分類も同時に行うことができます。
最後に、転移学習を使用して最終層を病変領域に適応させます。この結果、入力画像を受け取り、様々な視覚的概念の存在を示し、分類結果(例えば、メラノーマの分類など)を提供できるインターフェースが完成しました。
この出力は、大規模言語モデルへの入力として使用し、システムの判断についてのテキストによる説明を生成することもできます。また、これらの特徴のいずれかをクリックすると、その視覚的概念がどこに存在するかを示すヒートマップを表示することも可能です。
このように、私たちは解釈可能性と説明可能性の両面を持つシステムを構築し、これは一般的な用途や特に生成モデルにおいて重要な意味を持つと考えています。」
2.4. データの品質と偏りの問題
「最後にデータの品質と偏りの問題について触れたいと思います。これは非常に重要な課題です。透明性はデータから始まると考えています。データが不完全であったり、一貫性を欠いていたり、サンプルに偏りがある場合、AIシステムが客観的に意思決定を行っているかどうかを判断することは非常に困難です。
これは非常に難しい問題です。なぜなら、私たち人間自身が主観的な知性を持つ存在だからです。私たちは常に問題に対して異なる視点を持ち、それゆえに異なる決定を下します。このような主観性がAIシステムに反映されることは避けられません。
しかし、最近私たちは信頼性の様々な機能をより深く調査し始めています。一方では透明性がありますが、他方では機能性も重要です。システムは適切に機能しているか、十分に堅牢か、安全で確実か、倫理的条件を尊重しているかなどを考慮する必要があります。
私たちは、データから始めて、様々な基準を標準化された方法でテストするために使用できるデータセットを提供することを試みています。最終的には、システムの認証を提供するプロセスを確立することを目指しています。
これはドイツの国家イニシアチブに基づいており、DFKIだけでなく、よく知られているドイツのブランドであるTÜVやプライスウォーターハウスクーパース、DEKRAなどのパートナーも参加しています。私たちは研究者として多くの作業を行っており、医療分野から始めて、その後、金融、犯罪捜査など、他の多くの分野へと展開していく予定です。
これらはすべてハイリスク領域であり、すべての問題が浮上します。さらに、データにはプライバシーの問題もあります。どのデータをどの程度使用できるのかという問題もまだ解決されていません。しかし、これらの課題に取り組むことで、より信頼性の高いAIシステムの開発につながると確信しています。」
3. プレゼンテーション [Prof. Florence D'alché-buc]
3.1. 生成AIの現状と課題
「まず主催者の方々に、この素晴らしいイベントへのご招待に感謝申し上げます。本日は、テレコムパリで私たちが行っている研究の一部をご紹介させていただく機会を得ました。
生成AIについて、私たちは同じ認識を持っていると思います。基本的に、生成AIとは高品質なコンテンツを生成する深層学習モデルを指します。テキストや画像だけでなく、音声やテーブルデータ、さらには物質や分子など、様々なコンテンツを生成することができます。これらのシステムは、トレーニングに使用されたデータに基づいて機能します。
生成AIの能力は確かに驚くべきものです。大規模言語モデルや拡散モデル、フローベースモデル、そして比較的古いものの生成的敵対的ネットワーク(GAN)など、どれをとっても驚異的な能力を示しています。具体的には:
- ほぼあらゆる種類の入出力に対応可能
- 高品質なコンテンツの生成
- 事前学習後の適応能力
- ゼロショット学習による新しいタスクへの対応
- プロンプト学習や指示によるファインチューニングを通じた汎用的なタスク解決能力
しかし、これらの能力には重要な制限事項と懸念が伴います:
- フルーガリティ(効率性)の問題:データ、計算時間、パラメータにおいて非常に贅沢な消費を必要とします
- 再現性と透明性の課題:データやアノテーション、アーキテクチャへのアクセスが制限され、学習プロセスの再現が困難です
- 知的財産権の問題:オープンソースモデルの開発による解決の可能性はありますが、依然として議論が必要です
- 信頼性の問題:データのバイアスがシステムの出力に反映され、アルゴリズムの訓練方法によって出力が均質化される傾向があります
- ハルシネーションや欠陥の存在
- 説明可能性の欠如
- 信頼度測定の欠如:金融分野とは異なり、出力の要素に対する信頼度指標がありません
- 評価指標の課題:既に使用されている技術であるにもかかわらず、その品質を評価する方法が確立されていません
特に、生成AIは従来のデータサイエンスとは異なり、観察されたデータをモデル化するのではなく、データそのものを生成できるという点で破壊的です。しかし、私たちにはしばしば、本物のデータと生成されたデータを区別する能力が欠けているという課題があります。」
3.2. 信頼性向上のための3つのアプローチ
「テレコムパリでは、生成AIの信頼性向上のために、学際的かつ多角的なアプローチを採用しています。私たちは'Operational AI Ethics'という作業グループを通じて、この課題に取り組んでいます。
このグループでは、コンピュータサイエンティストや数学者だけでなく、法律、経済学、社会学、倫理学の専門家も参加しています。私たちの目標は以下の3つのステップで進めています:
第一に、AIシステムに求められる要件を、AI法との関連性を考慮しながら特定します。これは単なる技術的な要件だけでなく、社会的、倫理的な要件も含みます。
第二に、特定された要件に基づいて、技術的な解決策を共同で設計します。これは理論的な提案だけでなく、実際に運用可能な解決策の開発を目指しています。
第三に、開発した解決策を実装し、評価します。この過程で、トーマス・ラブが開発した'AIゲーム'という教育用のシリアスゲームを活用しています。これは、私たちの学生がヨーロッパのAI法について学ぶための効果的なツールとなっています。
生成AIの信頼性と透明性を向上させるための具体的な貢献として、以下の3つの要素に焦点を当てています:
- 深層アーキテクチャの潜在層における情報の分離と解釈
- 生成プロセスを導くための事前知識の活用
- 大規模言語モデルの評価指標とベンチマークの開発
これらのアプローチは、それぞれが独立したものではなく、相互に補完し合う関係にあります。私たちの研究グループでは、これらのアプローチを統合的に活用することで、より信頼性の高い生成AIシステムの開発を目指しています。」
3.3. 潜在層の解釈とディセンタングルメント
「透明性と説明可能性を向上させるための最初のアプローチとして、深層アーキテクチャの潜在層における解釈について説明させていただきます。
基本的なアイデアは以下の通りです。通常の視覚や音声認識システムを考えた時、私たちは中間層に符号化された情報を解読しようとします。そのために、属性関数と呼ばれる高レベルの辞書を構築します。これらの関数は、複雑なモデルの知識をより単純なものへと蒸留することを目指しています。
この属性関数は数が限定されていますが、プロセスの最後での決定を模倣するのに十分な機能を持っています。この手法が成功すれば、最初のネットワークを完全に無視し、第二のネットワークだけを使用することも可能です。これは、精度と説明可能性のトレードオフが満足できるレベルであれば有効な選択となります。
現在、私たちはこのアプローチを視覚や音声の認識といった比較的単純なタスクで実現しています。さらに、この考え方を発展させ、生成AIの助けを借りて新しい手法も開発しています。具体的には、学習した関数群を生成AIの潜在空間に射影するだけでなく、テスト時にモデルの決定を解釈する際に、生成AIを使用して、学習した関数の有無に応じて画像を編集することができます。
この手法は、情報をキャプチャする新しい方法を提供し、非常に興味深い結果を示しています。さらに、私の以前の博士課程の学生が、この辞書学習の考え方をマルチモーダル大規模言語モデルの説明に拡張する研究を行っています。
分子予測やグラフ予測においても、Transformerベースの同様のアプローチを適用しており、これらの分野でも有望な結果が得られています。このように、潜在層の解釈とディセンタングルメントは、AIシステムの透明性を向上させる重要な手法となっています。」
3.4. 科学的発見への応用と将来展望
「現在、私たちは科学的発見に関する新しい研究プロジェクトを展開しています。このプロジェクトでは、生成AIと他のAI技術を組み合わせて、分子構造の解明、材料設計、創薬などの分野での活用を目指しています。
具体的なアプローチとして、生成AIの異なる能力を組み合わせることを考えています。例えば、分子のような構造化データの巨大な組み合わせ空間を探索するために生成AIを使用することは、既に最近の研究でも行われています。さらに、大規模言語モデル(LLM)を活用することで、科学論文に含まれる膨大なデータや情報との対話が可能になります。
私たちは、特定の科学分野の専門知識に基づいてLLMをカスタマイズすることも検討しています。ただし、これには安全性チェックやサニティチェックが不可欠です。LLMが提供する情報や提案を、知識ベースと照合して検証する必要があります。
現在の科学的発見の分野では、AlphaGoの背後にある技術である強化学習が基本的に使用されています。また、未知のデータの集合をサンプリングや生成によって探索するために生成AIが活用されています。これに加えて、LLMによって、科学的なアシスタントという新しい要素をループに組み込むことができると考えています。
しかし、先ほど挙げた要件を満たすためには、科学的事実の検証が不可欠です。これは必須の要件であり、科学的発見のプロセスにおいて重要な役割を果たすと考えています。このように、生成AIと他のAI技術を組み合わせることで、科学的発見の新しい可能性が開かれつつあります。」
4. プレゼンテーション [Dr. Yasuhiro Katagiri]
4.1. Common Ground(共通基盤)の構築という新しい枠組み
「本日は、AIあるいは生成AI、基盤モデルの透明性について、異なる枠組みを提案させていただきたいと思います。私はこれを'Common Ground'(共通基盤)の構築、あるいは'Common Grounding'と呼んでいます。この概念は、人間とAIの間の相互理解を促進することを目的としています。
まず、私の所属する産業技術総合研究所(AIST)人工知能研究センターについて簡単にご紹介させていただきます。AISTは日本の政府系研究機関で、AIに関して精力的に研究を行っている3つの大きな研究機関の1つです。私は東京の臨海副都心センターを拠点としています。
ChatGPTをはじめとする生成AIの出現により、AI研究のシナリオは大きく変化しました。現在、私たちは「リアルワールド基盤モデル」の開発に取り組んでいます。これは、主にサイバー空間で機能する大手テクノロジー企業の基盤モデルとは対照的なものです。
私たちのアプローチは二つの方向性があります:
- マルチモーダル化:LLM(大規模言語モデル)だけでなく、他のモダリティの基盤モデルも開発しています。その際、まず一般的なLLMを開発し、転移学習やポストトレーニングによって異なる領域に適用する二段階のメカニズムを採用しています。
- マルチモーダル統合:異なるモダリティを統合し、最終的にはロボット制御にも応用することを目指しています。
このように、Common Groundの構築は、単なる技術的な透明性の向上だけでなく、人間とAIシステムの間の本質的な相互理解を促進する新しい枠組みとして位置付けられます。この取り組みは、AIシステムの透明性に対する従来のアプローチとは異なる視点を提供するものです。」
4.2. 大規模言語モデルとの対話実験の経験と課題
「私のLLMとの対話経験について、具体的な事例を共有させていただきます。昨年、台湾への出張の際にChatGPTと対話した経験は、LLMとの相互作用の課題を明確に示すものでした。
まず、旅行プランのアドバイスを求めたところ、LLMは合理的な計画を提案してくれました。しかし、その時期に台湾東部で大きな地震が発生していたため、私はその特定の地震について質問しました。ところが、LLMはその具体的な地震を理解できず、代わりに台湾の地震に関する一般的な説明と、旅行者向けの一般的な地震対策情報を提供し始めました。
実際の地震が発生した場所を具体的に示して再度質問しましたが、LLMは依然としてその特定の地震を理解できず、さらに私にとって無関係な情報を大量に提供し続けました。最終的に、三度目の質問の後、LLMは関連する情報を持っていないことを認めました。
このやり取りから、現在のLLMについて以下のような特徴が浮かび上がってきました:
- LLMは非常に知識が豊富で、潜在的に有用な情報を提供できます。
- しかし、それは一方的な情報の押し付けであり、私の場合は役に立たない情報が大量に提供されました。
- ユーザーは膨大なLLMの出力から意味を見出す負担を強いられます。
- 適切なクエリやプロンプトを提供するスキルがユーザーに求められます。
この経験から、LLMは非常に非協力的で、正直なところ高圧的な印象を受けました。最も重要な問題は、Common Ground(共通基盤)の構築と活用を軽視していることです。これは人間同士の会話とは大きく異なる点です。」
4.3. 医療画像診断における判断理由辞書の開発
「Common Groundの構築を実現する具体例として、医療画像診断のための判断理由辞書について説明させていただきます。
通常、医療画像診断のAIシステムは以下のように機能します。まず、専門家が多数の医療画像にアノテーションを付け、それがトレーニングデータセットとなります。このデータを用いてAIシステムを構築し、個別の診断対象画像に対して診断を提供します。
私たちのアプローチでは、このプロセスを仲介する'判断理由辞書'を構築します。これにより、診断に関わる知識を共有することが可能になります。具体的には、標準的な方法でデータセットを作成してAIシステムを訓練しますが、システムは診断を行うだけでなく、診断システムに関与する画像も視覚化します。
その後、病理専門医がこれらの診断分類にフィードバックを提供し、それが辞書を形成していきます。より具体的には、専門病理医が診断状況でどのような情報が関与しているかを分類し、これがAIの訓練過程でも獲得されます。
技術的な実装としては、まず特定の診断ラベルを考慮せずに自己教師あり学習を行い、画像特性に基づいてクラスタリングを実施します。次に、専門病理医がこれらのクラスタを分類し、特定の画像がどの診断や症状に対応するかを判断します。一部のクラスタは診断には無関係と判断される場合もあります。
この分類に基づき、システムは転移学習を行い、教師あり学習によって最終的な診断ラベルを学習します。システムは最終的な診断結果だけでなく、重要な領域を示し、対応する辞書項目も提示します。例えば、がんの診断では、赤い領域で示される部分ががん性であると判断された領域として示されます。
このシステムは、単なる診断結果の提示だけでなく、なぜそのような診断結果となったのかの理由も提供します。これにより、医師がシステムの結果をどのように重視すべきかを判断することが可能になります。
これは、まさに人間とAIシステムの間のCommon Ground確立の具体例だと考えています。医師とAIシステムの間で推論と選好を開示し、共有された目標に向けて行動を調整することが可能になるのです。」
4.4. AI-人間の協調における責任分担の考察
「私は、人間同士のコミュニケーションと協力の在り方を参考に、AI-人間の協調における責任分担について考察を進めています。人間同士の協力関係では、共通基盤の構築と維持が不可欠です。これは参加者が互いに同じ人物や対象について言及していることを保証し、誤解が生じた場合には修正や修復を行うという高次の協力関係に基づいています。
さらに、通常の人間同士の協力では、タスク完了への共有されたコミットメントが存在します。具体的には以下の要素が含まれます:
- 参加者間で合意された共有目標の形成
- 目標達成のための計画の分解
- 参加者間での下位タスクや下位目標の達成の分担
- 実行段階での連携調整
このプロセスには、共有目標の内容、計画の分解方法、タスク配分について、継続的な交渉が必要です。また、情報と意図のレベルでの調整も不可欠です。
これに対し、先ほどお話しした私のChatGPTとの対話経験は、現在のLLMとの相互作用が人間同士の協力とは大きく異なることを示しています。医療画像診断における判断理由辞書の例は、AIと人間の間でより良い協力関係を構築するための一つの試みです。
私は、透明性のあるAIを実現するためには、このCommon Groundの構築と維持が不可欠だと考えています。高次の協力を前提とすることで、AIと人間が推論と選好を開示し、共有された目標に向けて行動を調整することが可能になります。これは、AIに対する信頼を確立する上でも重要な要素となるでしょう。
つまり、AI-人間の協調における責任分担は、単なる機能の分担ではなく、相互理解と共通目標の達成に向けた継続的な対話と調整のプロセスとして捉える必要があると考えています。」
5. パネルディスカッション
5.1. 医療分野におけるAIのバイアス問題
Dr. Zimmermann:「Andreas、あなたの発表で医療診断におけるAIの活用について触れられましたが、特に気になる点があります。医療分野には大きなバイアスが存在することは周知の事実です。性別に関するデータギャップ、民族性に関するデータギャップがありますが、これはあなたの研究にどのように影響していますか?説明可能性を重視するアプローチは、このようなバイアスの軽減に役立つのでしょうか?」
Prof. Dengel:「非常に良い質問ですね。データの透明性から始めることが重要だと考えています。データが不完全であったり、一貫性を欠いていたり、サンプルに偏りがある場合、AIシステムが客観的に意思決定を行っているかどうかを判断することは非常に困難です。この問題は本質的に難しい課題です。なぜなら、私たち人間自身が主観的な知性を持つ存在だからです。私たちは常に問題に対して異なる視点を持ち、それゆえに異なる決定を下します。このことがAIシステムに反映されてしまいます。
最近、私たちは信頼性の様々な機能をより深く調査し始めています。透明性の他にも、機能性、堅牢性、安全性、倫理的条件の尊重など、多くの側面を考慮する必要があります。そのため、私たちはドイツの国家イニシアチブとして、TÜVやプライスウォーターハウスクーパース、DEKRAなどのパートナーと協力して、システムの認証プロセスの確立を目指しています。まずは医療分野から始めていますが、これは単なる始まりに過ぎません。」
Dr. Zimmermann:「まさにその点が重要ですね。医療分野におけるAIの透明性は、単なる技術的な問題ではなく、社会的な影響も大きい課題だと理解しました。」
Prof. Dengel:「はい、その通りです。データのプライバシーの問題も含めて、どのデータをどの程度使用できるのかという問題は依然として解決されていません。しかし、これらの課題に正面から取り組むことで、より信頼性の高いAIシステムの開発につながると確信しています。」
5.2. 迅速な意思決定におけるAIの説明可能性
Dr. Zimmermann:「AIと意思決定支援システムにおいて、特に軍事応用のような分野では、説明可能性が現在大きな課題となっています。AIの利点の一つは、人間よりもはるかに速くデータを分析し、決定を下せることですが、瞬時の判断が必要な状況で説明可能性をどのように確保できるのでしょうか?必ずしも軍事的な文脈でなくとも、時間的制約のある状況での説明可能性について、皆様のご意見をお聞かせください。」
Prof. D'alché-buc:「これは難しい質問ですが、私の考えでは、説明可能性はシステムの設計段階から組み込む必要があります。私たちは'explainable by design'(設計段階からの説明可能性)のシステムの構築を試みています。意思決定の速度自体は大きな問題ではありませんが、人間がループに入る際の相互作用が課題となります。システムが単純で分析可能であっても、人間が確認するには最低でも数秒の時間が必要になります。」
Prof. Dengel:「この質問に答えるのは難しいですね。なぜなら、意思決定は主体に強く依存するからです。データの複雑な次元を意思決定のために縮約する際、誰がデータを見ているのか、その人がどのような経験を持っているのか、そして意思決定にどのようなリスクが伴うのかが重要になります。
私たちは認知状態認識に関する実験も行っており、人々が特定の状況で自信を持っているか、認知的負荷を感じているかを観察しています。興味深いことに、軍事応用ではありませんが、自信があるように見えても間違っている人々も見つかりました。これは非常に個人的な態度の問題であり、状況とアプリケーション、そして残された時間に大きく依存します。」
Dr. Katagiri:「私の視点からは、実世界の基盤モデルやロボティクスなどの実際のアプリケーションでは、AIへの意思決定能力や主体性の一部委譲は避けられないと考えています。自動運転は典一的な例です。
社会的な受容という観点では興味深い変化が起きています。当初は、AIによる自動運転車は一度も事故を起こしてはいけないという考えでしたが、現在では人間の運転よりも安全であれば受容可能という考えに変わりつつあります。これは技術の進歩だけでなく、社会的受容レベルの変化を示しています。
ただし、リスクの程度も重要です。例えば、Amazonで安価な商品を購入する際のAIの判断は重要性が低いかもしれませんが、同じAIが同じ商品を100万回注文してしまえば、突然非常に重大な問題となります。これは、この問題の複雑さを示す一例です。」
5.3. 医師-患者関係の変化と将来展望
Dr. Zimmermann:「Andreasさんとやすひろさん、医療分野でのAI応用について、特に興味深い発表をしていただきました。AIの導入により、医師と患者の関係性はどのように変化していくとお考えでしょうか?将来的に医師の役割は、AIが生成した結果を患者に伝える仲介者のような存在になっていくのでしょうか?」
Prof. Dengel:「医学的治療は大きく変化してきています。より多くの知見が得られ、より専門的な薬剤が登場し、医師の仕事はますます複雑になっています。同時に、経済的な圧力により、医師は各患者に割ける時間が限られています。
このような状況で、支援システムの必要性は高まっています。例えば、私たちが研究している皮膚科の分野では、患者は定期的に医師を訪れることはあまりありません。そこで、健康保険会社と連携したホームスクリーニングのような仕組みが有効かもしれません。定期的なスクリーニングを促し、疑わしい変化や病変を医師に報告することで、医師はセカンドオピニオンとして確認できます。これにより、患者により適切な治療を提供できると考えています。」
Dr. Katagiri:「判断理由辞書の別の側面についても触れさせていただきたいと思います。専門家の間でも診断について意見の相違が生じることがあります。この辞書は、医師が他の医師の評価や決定を比較するための媒体となり得ます。これは、より良い診断結果と専門性の向上につながることが期待されます。
また、この技術は医学生の教育にも活用できます。さらに、医師が患者とコミュニケーションを取る際にも有用です。システムが提供する情報を使用して、なぜそのような診断結果となったのかを説明することができます。これは単なる結果の提示ではなく、専門家の集合的な判断に基づく説得力のある証拠を患者に提供することができます。」
Prof. Dengel:「その通りですね。技術的な構成は変化するでしょうが、医師と患者の関係性の本質は維持されると考えています。AIは補助的なツールとして機能し、医師の専門性と人間的な判断はこれまで以上に重要になるでしょう。」
5.4. 法的推論におけるハルシネーション検出
Dr. Zimmermann:「フローレンスさん、法的推論におけるハルシネーション検出の仕組みについて、もう少し詳しくお聞かせいただけますでしょうか。特に、AIが架空の判例を作り出してしまい、それが法律家の机に届いて裁判で使用しようとした結果、失敗するといった事例が報告されています。」
Prof. D'alché-buc:「法的推論の場合、私たちは"推論"という用語を使用していますが、現在のLLMは自動推論に基づいているわけではありません。そのため、法的専門知識とルールを与えられた入力と照らし合わせて、LLMの回答を検証することは比較的容易です。
具体的には、特定のケースについてLLMがどのように回答するかを、法的ベンチマークを用いて検証することができます。しかし、統計的学習に基づいているため、推論ではなく、別のシステムによる検証が必要になります。現在、多くの人々がLLMを使用してLLMが生成したコンテンツを検証しようとしていますが、これは必ずしも正しいアプローチではありません。外部システムによる検証が必要だと考えています。」
Dr. Zimmermann:「法律家として付け加えさせていただくと、これは銃器メーカーの責任問題と類似していると考えています。ドイツ法では、ある行為の社会的妥当性という基準を発展させてきました。例えば、包丁を売ることは社会的に受容されているため、包丁を売った人や製造した人の責任は問われません。
しかし、AIは非常に新しい技術であり、何が社会的に受容可能で何が受容できないのかという基準がまだ確立されていません。EUが現在、AIに関する指令を準備していますが、説明責任の確立は依然として困難な課題となっています。」
Prof. D'alché-buc:「その通りですね。また、法的分野特有の課題として、法律や科学の分野では、検証済みの事実のナレッジベースが存在します。このような既存の知識基盤をLLMと連携させることで、より信頼性の高い法的推論システムを構築できる可能性があります。」
6. 質疑応答
6.1. AIの有害な影響に対する責任と説明責任
Axel Karpenstein:「質疑応答の最初の質問として、AIの有害な影響に対する責任と説明責任について議論したいと思います。システム開発者と基礎研究者は、異なる利害関係があるにもかかわらず、同様に説明責任を負うべきでしょうか?ある方からの指摘では、『飛行機事故で熱力学を責めるようなものだ』という興味深いコメントがありました。パネリストの皆様のご意見をお聞かせください。」
Prof. Dengel:「これは難しい質問ですが、私の考えでは、すべてはデータから始まります。モデルを開発したりトレーニングしたりする人々は、提供されたデータに依存しています。データの専門家ではない人々が、そのデータに問題があるかどうかを評価するのは非常に困難です。様々な分野で、データに起因する問題の例を多く目にしてきました。そのため、データを提供する人々が責任を負うべきなのでしょうか?この質問に対する答えは、法律の専門家が解決策を見出すまで待つ必要があるでしょう。」
Prof. D'alché-buc:「私もAndreasに同意します。これはコンピュータサイエンティストや数学者の専門外の問題です。法律の専門家に委ねるべき課題だと考えています。」
Dr. Zimmermann:「法律家として申し上げますと、これも非常に難しい問題です。しかし、完全に新しい問題というわけではありません。例えば、銃器メーカーの責任問題と類似しています。少なくともドイツ法では、『社会的妥当性』という基準を発展させてきました。例えば、台所用ナイフを売ることは社会的に受け入れられており、そのため、ナイフを販売する人や製造する人の責任は問われません。
AIの場合、非常に新しい技術であるため、何が社会的に受け入れられ、何が受け入れられないのかという基準がまだ確立されていません。EUは現在、指令の作成に取り組んでいますが、最終的な回答はまだ得られていません。私からも法律家として確定的な回答を提供することはできません。」
6.2. ニューラルネットワークの深層レイヤーの検証方法
Axel Karpenstein:「より技術的な質問に移りたいと思います。ニューラルネットワークの深層レイヤーで何が起きているのかを、どのように確認・制御できるのでしょうか?基本的な知識がRNNなどにどのように符号化されているのかを、どのように理解できるのでしょうか?」
Prof. D'alché-buc:「潜在層での情報の符号化を制御する方法について説明させていただきます。基本的なアプローチとして、潜在レイヤーで高レベルの編集ができることを確認することで、システムをチェックできます。例えば、PCAを活用して、潜在空間でのデータ表現の異なる方向を説明する実験が行われています。
重要なのは、まず現在構築されている隠れ層が情報の存在や不在を示すことができる程度を理解することです。次に、ニューラルネットワークを構築する際に、特定の内部表現に焦点を当てることで、どのような操作が可能かを認識することが重要です。これは確率的・統計的学習であるため、完璧な結果は期待できませんが、少なくとも内部空間の特定の領域では、より高い信頼性を持つことができます。」
Dr. Katagiri:「私も意見を述べさせていただきます。中間層の表現は、様々な名称で呼ばれています - 埋め込み、特徴空間、隠れ層などですが、これらは入力や入出力関係の圧縮された表現に対応しています。私たちの研究でも、この特徴空間を使用して、元の入力とベクトルを組み合わせることで分析を行っています。
最近では、Anthropicが提案している『メカニスティック解釈』という手法も注目されています。これは、システムが特定の方法で動作している際にどのニューロンが活性化しているかに焦点を当てた、ニューラルネットワークの脳研究的なアプローチです。この方法の有効性はまだ確認段階ですが、大規模モデルの内部動作の分析に多くの研究者が取り組み始めています。」
Prof. Dengel:「トレーニング段階で様々なフィルターの影響を測定し、データに対する反応をクラスター化することが重要です。私たちの実験では、特定のクラスターから最も反応の強いフィルターのみを使用し、ネットワークを削減することで、むしろ良好な結果が得られました。ネットワークの使用中に小さな変化を加えることで、様々なデータ構成に対するネットワークの反応を暗黙的に観察することができます。」
6.3. トレーニングデータの公開規制に関する議論
Axel Karpenstein:「透明性の観点から、モデルプロバイダーがトレーニングデータを公開することを義務付ける規制について、皆様のご意見を伺いたいと思います。まず、規制に賛成の方は挙手をお願いします。また、反対の方も挙手をお願いします。」
Dr. Katagiri:「ImageNetの事例は、この問題の典型を示していると思います。現在、プライバシーと知的財産権に関する懸念が高まっています。これらの問題が解決されれば、データは誰もがアクセスできるようにすべきです。ただし、実際のビジネスアプリケーションでは、企業は多くの独自情報を持っており、それらを共有することはできません。つまり、データやアプリケーションの種類によって対応が異なってくるということです。基本的には、これらの問題が解決されれば、データは可能な限り公開されるべきだと考えています。」
Prof. Dengel:「私も同意見です。アプリケーションによって判断が異なってくると思います。」
Prof. D'alché-buc:「古典的なノンパラメトリックモデルや統計学について、補足的な視点を提供させていただきます。カーネルベースや決定木などの手法は、基本的にトレーニングデータに関する情報を保持しています。例えば、決定木をある人と共有する場合、葉のリストとそれぞれの葉に対応するトレーニングデータのセットを提供することになります。
小規模から中規模のデータ体制では、データの追跡が可能で、それが望ましい場合もあります。しかし、確率的勾配法やパラメトリックモデルを使用する場合、このような追跡は困難です。トレーニングデータの公開については、このような技術的な側面も考慮する必要があります。」
6.4. 著作権保護材料の使用に関する課題
Axel Karpenstein:「私たちはまだ十分に議論していない大きな問題として、著作権保護材料の使用に関する課題があります。過去にバックラッシュもありましたが、昨日私は日本の状況について興味深い話を聞きました。現在の規制では著作権で保護された材料の多くの使用が許可されているようです。しかし、クリエイターは当然ながら懸念を持っています。結果の品質向上のために著作権で保護された材料が必要である一方で、補償の問題や特定の材料を使用できない可能性もあります。この問題についてどのようにお考えでしょうか?」
Prof. Dengel:「これは簡単には答えられない問題ですが、最も重要な点は参照だと考えています。AlphaなどのAIシステムは、LLMを使用する際に元のデータを参照しようとしています。他にも同様のアプローチを取っているシステムがあります。
私たち科学者も、同様のことを行っています。私たちは同僚のアイデアを基に自分たちのアイデアを構築していきますが、その際には適切に引用を行います。これにより、正当性が確保されます。同じことがLLMにも当てはまるべきだと考えています。」
Axel Karpenstein:「素人として質問させていただきますが、情報の出所を追跡することは通常可能なのでしょうか?それとも、情報が大きなプールに入ってしまい、追跡が難しい状況なのでしょうか?」
Prof. Dengel:「博士論文のチェックと同じように、オーバーラップの割合が重要になってきます。画像であれ何であれ、どの程度類似しているかを判断する必要があります。ただし、具体的な判断基準については、私にも分かりません。」
Prof. D'alché-buc:「古典的なノンパラメトリックモデルと統計学の観点から付け加えさせていただきたいと思います。カーネルベースや決定木は基本的にトレーニングデータの情報を保持するモデルです。決定木を共有する場合、葉のリストとそれぞれの葉に対応するトレーニングデータのセットを提供することになります。
小規模から中規模のデータ体制では、データの追跡が可能で望ましい場合もありますが、確率的勾配法やパラメトリックモデルではそれが困難です。著作権の問題を考える際には、このような技術的な側面も考慮する必要があります。」