※本稿は、2024年に開催されたAI for Good Global Summit 2024での「From diverse datasets to United Nations public good tasks」というワークショップを要約したものです。
1. はじめに
1.1 ワークショップの背景と目的
本ワークショップ「From diverse datasets to United Nations public good tasks」は、データ中心型のアイデアとインフラストラクチャを推進し、それらを活用してデータセットやデータ成果物をインデックス化することを目的としています。これにより、実際に重要な課題に取り組むことが容易になることを目指しています。具体的な焦点として「ヘルス」を選択しました。
このワークショップは、約1年半前に始まった enthusiasts の mini project から発展したものです。その過程で、米国でのミーティングを経て、DMLRシリーズやジャーナルの創刊、さらには様々なインフラ活動へと発展してきました。最も顕著な活動の一つがcANTであり、Lucaもここに参加しています。
ワークショップの主な目標は以下の3つです:
- 現状の把握(インベントリ作成)
- 目指すべき方向性(ノーススター)の整理
- ロードマップの調整
主催者は、このワークショップが、1年後に再び集まった際に、大きな進展を報告できるきっかけとなることを期待しています。例えば、昨年のAI for Good Summitで構想段階だったcANTプロジェクトが、現在ではHugging FaceやKaggleなどの主要プラットフォームに統合され、40万以上のデータセットをカバーするまでに成長したことを挙げ、オープンソースプロジェクトでも大きな進展が可能であることを強調しています。
1.2 参加者の紹介
ワークショップには、データサイエンス、AI、医療、公衆衛生など、多様な分野からの専門家が参加しています。主な参加者とその役割は以下の通りです:
- Thomas Basikolo(国際電気通信連合(ITU)プログラムオフィサー)
- Luis Oala(Dotphoton機械学習部門長)
- Luca Foschini(Sage Bionetworks社長兼CEO): Sage Bionetworksは、オープンサイエンスと根本的な協力を通じて新しい発見の時代を推進することをミッションとしている非営利組織です。
- Alexandros Karargyris(MLCommons医療ワーキンググループ共同議長): MLCommonsは、ビッグテックと学術界によってサポートされている非営利組織です。AIワークロードのベンチマーキングを行い、医療分野でのAI評価プラットフォーム(MEDperf)を開発しています。
- Isabelle Guyon(Google研究科学者、パリ・サクレー大学(オルセー)人工知能教授): Codalabは、機械学習チャレンジを組織するためのオープンソースプラットフォームです。Isabelleは、データサイエンスコンペティションの設計と運営に関する豊富な経験を持っています。
- Ferath Kherif(神経画像研究所(LREN)副所長)
- Enrique Estrada-Lobato(メキシコ国立自治大学上級教授、核医学医師、国際原子力機関(IAEA)プログラムオフィサー): IAEAの新しいイニシアチブであるZODIAC(Zoonotic Disease Integrated Action)プロジェクトの一環として、呼吸器感染症の早期検知システムの開発に取り組んでいます。
- Johannes Schimunek
- Sameer Pujari(世界保健機関(WHO)AI for Healthリード)
- Eva Weicken(フラウンホーファー・ハインリッヒ・ヘルツ研究所(HHI)チーフメディカルオフィサー)
- Stephen MacFeely(WHO データ・アナリティクス部門長): WHOのグローバルヘルスデータハブ構想を推進し、国連機関全体でのデータ共有と活用を促進しています。
- Pratik Bijam(Bayerシニアリードアーキテクト): BayerのAI for Healthイニシアチブの一環として、医療AI開発のためのクラウドベースプラットフォームの構築を主導しています。
- Prem Ramaswami(Google Data Commonsプロダクトマネジメント部門長): Data Commonsプロジェクトを通じて、世界中の公共データを整理し、普遍的にアクセス可能で有用なものにすることを目指しています。
これらの参加者が、それぞれの専門知識と経験を持ち寄り、データ駆動型のアプローチによる公共善の実現に向けて議論を展開します。ワークショップは3つの異なるブロックで構成されており、各参加者がプラットフォーム開発、ユースケース、インデックス作成について発表を行います。これらの発表を通じて、新しいアイデアを集約し、今後の方向性を決定することを目指しています。
主催者は、この会議の成果として、これらの組織間の協力を促進するためのメールアドレスや名前のリストを作成することを計画しています。また、Lucaの同僚であるAnnaが既にcANTをヘルス分野に拡張する動きを始めていることも言及されています。
このワークショップを通じて、参加者が協力し合い、1年後には大きな進展を報告できることを期待しています。
2. データセットとAIプラットフォームの現状
2.1 Synapse - 生物医学データの共有プラットフォーム:Luca Foschiniによるプレゼンテーション(Sage Bionetworks社長兼CEO)
2.1.1 Sage Bionetworksの概要
私はLuca Foschiniです。Sage Bionetworksの社長を務めています。我々の組織は2009年にシアトルで設立され、現在120人の従業員がいます。私は1年前に社長に就任しました。我々のミッションは、真のオープンサイエンスと徹底的な協力を通じて、新しい発見の時代を推進することです。我々のビジョンは、現在サイロ化されているすべての生物医学科学が協力し、互いに学び合える未来です。
2.1.2 Synapseプラットフォームの特徴
我々のSynapseプラットフォームは、NIHが指定する9つの一般的なリポジトリの1つです。現在、20,000以上のプロジェクトにわたって2ペタバイト以上のデータを管理しています。100ギガバイト未満のデータであれば、世界中どこからでも無料でSynapseを利用し、DOIを発行して論文からリンクすることができます。
2.1.3 データポータルの役割
多くの共有されたデータセットが使用されていないという問題に対処するため、我々は重要で大規模なデータセットに対してポータルを構築しています。これらのポータルは、ファセット検索機能を備え、データセットのナビゲーションを容易にします。我々の最も有名なポータルの1つは、AD Knowledge Portalです。
2.1.4 データチャレンジの実施
我々は、Kaggleのような競争形式で生物医学データのためのデータチャレンジを実施しています。プライバシー保護のため、合成レプリカを参加者と共有し、実際のデータでモデルを再トレーニングする方法を採用しています。また、openchallenges.aiで生物医学チャレンジのインデックス作成も行っています。
2.1.5 健康データ共有の課題
健康データの共有には多くの課題があります。プライバシーとデータ保護の問題、高次元データの非識別化の難しさなどが挙げられます。また、健康関連データセットの利用率が低いことも大きな問題です。例えば、Papers with Codeで最も引用されているデータセットのうち、健康関連のデータセットは45位にようやく登場します。
2.1.6 今後の展望
我々は、CROSSANの拡張による健康データの活用を目指しています。例えば、LLMを使用してデータセットとチャットする機能や、データ発見プロセスの改善などを考えています。オープンソースソフトウェアが世界に9兆ドルを節約したように、健康データが健全に共有され再利用されれば、社会に大きな影響を与えられると信じています。我々は、多様な能力と知識を結集し、これらの課題に取り組んでいく必要があります。
2.2 MLCommons - AIベンチマークと医療AIの評価:Alex Gaoによるプレゼンテーション(MLCommons代表)
2.2.1 MLCommonsの概要
MLCommonsを代表してここに来ました。我々の組織は2018年に設立され、2020年に501(c)(6)の非営利団体として認定されました。MLCommonsは、大手テクノロジー企業とアカデミアによってサポートされており、ボランティア主導の非常にオープンなコミュニティ組織です。
2.2.2 MEDperfプラットフォームの特徴
我々が開発したMEDperfは、連邦化された環境で医療AIを評価するためのプラットフォームです。このプラットフォームは、データプライバシーを保護しながら、AIモデルの性能を評価することができます。また、ベンチマーク委員会によるガバナンス機能も備えています。
2.2.3 MEDperfの技術的特徴
MEDperfは、サーバー・クライアントモデルを採用しています。クライアントはデータ所有者のローカルで実行され、データはデータプロバイダーの施設内に留まります。サーバーはベンチマークの調整を担当します。この仕組みにより、データのプライバシーを保護しながら、AIモデルの評価が可能になります。
2.2.4 具体的な取り組み
我々は、これまでに様々な取り組みを行ってきました。例えば、最大の腫瘍セグメンテーションチャレンジでSageと協力しました。現在は、神経腫瘍学の大規模な臨床研究に取り組んでいます。また、FDAと協力してデジタル病理学の実世界参照データセットを開発しています。
2.2.5 MEDperfの利点
MEDperfには多くの利点があります。研究者が実世界の多様なデータでパフォーマンスを測定するのを支援します。ヘルスケアプロバイダーが自分たちのデータでAIのパフォーマンスを特定するのを助けます。患者がベンチマーク委員会の一部となり、意味のある指標を推進することができます。そして規制当局は、規制のプロセスを合理化することができます。
2.2.6 今後の課題と展望
我々は、増加する医療データコンソーシアムへの対応が今後の大きな課題だと考えています。データ交換とワークロード交換を非常に合理化された方法で行う青写真の価値を理解しています。今後は、医療データがどのように利用されるべきかについてのビジョンとミッションを明確にし、長期的なロードマップを作成していく必要があります。
我々は、健康データコンソーシアムの爆発的な増加を目にしています。相互運用性、再現性、そしてガバナンスの側面を確立することが重要です。今日の議論が、この分野の良いスタートポイントになることを期待しています。
2.3 Codalab - AIチャレンジ用オープンソースプラットフォーム:Isabelle Guyonによるプレゼンテーション(Google研究科学者、パリ・サクレー大学(オルセー)人工知能教授)
2.3.1 Codalabの概要
私は機械学習チャレンジを組織するための非営利団体の代表を務めており、また研究ディレクターとしても働いています。我々のCodaLabプラットフォームは2013年に始まり、高度な柔軟性と機能性を持つオープンソースプラットフォームとして発展してきました。
2.3.2 Codalabの主な機能
CodaLabの主な特徴の一つは、Dockerコンテナ化によって環境の再現性を確保していることです。また、ユーザーが独自のコンピューティングワーカーを使用できるようにしました。これにより、プライベートデータを使用したチャレンジも可能になりました。さらに、競争的なチャレンジから非競争的なベンチマークまで、多様なチャレンジ形式をサポートしています。
2.3.3 Codalabの成功要因
CodaLabが成功している理由は、その柔軟性の高さにあります。AIや機械学習に限らず、どのようなタイプのチャレンジでも組織することができます。また、主催者に完全なコントロール権を与えていることも大きな特徴です。これらの要因が、チャレンジ主催者の間でCodaLabが人気を集めている理由だと考えています。
2.3.4 チャレンジ組織のプロセス
我々は、チャレンジ組織のためのフレームワークを提供しています。YAMLファイルで書かれた設定ファイルを使用して、チャレンジに関するすべてを指定できます。また、取り込みプログラムとスコアリングプログラムを分離することで、さまざまなタイプのチャレンジに対応できます。簡単なアップロードプロセスにより、チャレンジを迅速に作成できます。
2.3.5 Codalabの利点
CodaLabの大きな利点は、データセットとチャレンジの境界をぼかすことができる点です。我々は、データを単なる受動的なものではなく、メトリクスやタスクを備えたものとして再定義することを目指しています。これにより、データの再利用と活用を促進することができます。
2.3.6 今後の展望と課題
今後の展望として、医療データに特化したチャレンジバンドルの開発を考えています。しかし、チャレンジの資金調達は依然として大きな課題です。また、データのインデックス作成と版管理の改善も重要な課題です。我々は、これらの課題に取り組みながら、CodaLabをさらに発展させていきたいと考えています。
皆さんからのフィードバックを歓迎し、CodaLabをさらに価値あるものにする方法を探っていきたいと思います。
3. 医療分野におけるAIの応用事例
3.1 IAEA - 呼吸器感染症の早期検知システム:Enrique Estrada-Lobatoによるプレゼンテーション(国際原子力機関(IAEA)人間健康部門プログラムオフィサー)
私はEnrique Estrada-Lobatoです。国際原子力機関(IAEA)の人間健康部門でプログラムオフィサーを務めています。パンデミック後、我々の事務局長がZODIAC(Zoonotic Disease Integrated Action)というイニシアチブを立ち上げました。これは、加盟国からのCOVID-19対策支援要請に応えるものです。主にIAEAの権限外ではありますが、加盟国への義務として、特に動物の健康に関連する様々な支援を開始しました。
我々は、放射線医学の分野で培ってきた経験、特にラジオミクスの知見を活用することにしました。ラジオミクスは、がんなどの疾患の評価や診断に大量のデータを使用する医学の一分野です。この概念を呼吸器感染症に応用できるのではないかと考えました。
我々の目標は、2026年までに「呼吸器疾患フェノタイプ観測所」を構築することです。最初の段階では、20,000件の肺CT画像と5,000件の胸部X線画像を収集することを目指しています。当初はCOVID-19患者のデータのみを使用する予定でしたが、現在ではCOVID-19が大きな問題ではなくなったため、様々な呼吸器感染症のデータを使用することにしました。
我々は、これらの異なるフェノタイプや疾患を分析するためのAIおよび機械学習アルゴリズムを開発します。そのためには、画像データだけでなく、臨床データ、検査データ、確定診断など、総合的な情報が必要です。機械学習は、疾患パターンの識別や定量化、大規模な人口設定での新しいフェノタイプの発見、個々の疾患経過や治療反応との関連付けなどに役立ちます。
COVID-19から学んだ重要な教訓の一つは、新たに出現する異常を迅速に識別する能力の重要性です。我々の語彙を拡大し、新しい画像マーカーを識別することは、新興疾患に迅速に対応するための前提条件となります。
我々のプロジェクトは、参加機関からの情報を1つのサーバーに集め、そこでAI分析とアルゴリズム開発を行います。データの収集段階が終わると、アノテーションとキュレーションの段階に移ります。キュレーションは、収集した情報の品質管理として非常に重要です。
最終的に、このリポジトリは研究者のためのハブとなり、アルゴリズムの検証も行います。2026年までに、このリポジトリを観測所に変換することを目指しています。その段階では、世界中のどの機関でも画像を送信でき、それらの画像が分析されます。アルゴリズムが異なるパターンを認識した場合、アラームが発生します。
COVID-19の例を考えてみると、2019年12月に公式に報告され、2020年2月にパンデミックが宣言されましたが、後方視的に分析すると、画像上ではすでに2019年9月からCOVID-19が存在していたことがわかりました。我々のプロジェクトは、このような新たなパンデミックの可能性をごく初期の段階で検出することを目指しています。
3.2 Bayer - 医療AI開発クラウドプラットフォーム:Prati Desaiによるプレゼンテーション(Bayer Radiology、デジタル製品開発責任者)
私はBayer Radiologyでデジタル製品開発の責任者を務めています。私のチームは、医療用ソフトウェアとしてのAI(SaMD)を意図したクラウドベースの機械学習開発プラットフォームの構築に取り組んでいます。
ヘルスケア分野における課題について、数字で見てみましょう。放射線科医の56%以上が燃え尽き症候群とうつ病を経験しています。また、世界中で年間42億件の画像診断が行われています。さらに、年間4000万件の診断エラーが発生しています。
現在、第一世代の医療AIソフトウェアが既に市場に出回っていますが、実世界での性能に課題があります。例えば、ある研究では、商用AIソフトウェアが放射線科医のレポートよりも多くの偽陽性を生成していることがわかりました。
これらの問題に対処するため、我々はBayerとGoogleの協力のもと、新しいプラットフォームの開発に取り組んでいます。このプラットフォームは、標準化の欠如、孤立した局所的な実験、AIにおける高頻度のイノベーション、急速に変化する技術環境、規制環境の遅れなどの課題に対応することを目指しています。
我々のプラットフォームは、実験フェーズと産業化フェーズの両方をカバーしています。プラットフォームの主な特徴は、アイデンティティブローカー、マーケットプレイス、生成AI Suite、インフラストラクチャの自動化などです。
このプラットフォームは、医療AIの開発に関わる様々な関係者を結びつけ、協力と共有を促進することを目指しています。我々は、このプラットフォームが医療AIの開発を加速し、患者のためにより良い製品を提供することができると信じています。
3.3 脊椎骨折の自動検出 - データ注釈戦略:Claudius Korzenによるプレゼンテーション(TU Berlin研究員)
私はTU Berlinの研究員として、医療画像分析、特に脊椎骨折の自動検出のためのデータ注釈戦略の研究を行っています。
脊椎骨折は、西洋諸国の人口の30%以上の50歳以上の男女に影響を与えています。この問題は、死亡率の大幅な増加や平均寿命の10年の短縮につながります。我々は、Genant半定量的スケールを採用しており、正常、軽度、中等度、重度の4つのクラスに分類しています。
注釈プロセスには多くの課題があります。医療専門家の間でも意見が分かれることがあり、同じ医師でも日によって異なる診断をすることがあります。
我々の注釈戦略は、注釈対象の決定、注釈者の選択、注釈方法の決定、注釈後の処理、データセットの完成という5つのステップで構成されています。
この戦略を使用して、我々は25万件の注釈を作成しました。主に医学生が注釈を行い、AIの提案を使用する場合と使用しない場合を比較しました。また、医療専門家にも一部の画像に注釈をつけてもらい、比較を行いました。
興味深いことに、我々の戦略を使用して訓練された学生による注釈は、少数の専門家による注釈よりも良い結果を示しました。これは、注釈の量と質のバランス、そして適切なトレーニングの重要性を示しています。
今後の課題としては、3Dデータの注釈方法の改善や、注釈の質を保証するための方法の開発などがあります。また、この戦略を他の医療画像分析タスクにも適用できるよう、さらなる研究を進めていきたいと考えています。
4. 公共データの活用とAI
4.1 Data Commons - 公共データの統合と可視化:Prem Ramaswamiによるプレゼンテーション(Google、Data Commonsプロダクトマネージャー)
私はPrem Ramaswamiです。Googleで Data Commons プロジェクトのプロダクトマネージャーを務めています。今日は、公共データの統合と可視化に関する我々の取り組みについてお話しします。
まず、我々が直面している問題について説明させてください。今後10年間で、世界の多くの地域で気温が50度を超えると予測されています。この温度帯では人間の生存が非常に困難になります。この影響を理解するには、単に1.5度や2度の温度上昇を考えるだけでは不十分です。湿度や大気質、住宅やエネルギー、農業や水供給への影響、さらには個人の人口統計や既存の健康状態など、多くの要因を考慮する必要があります。
問題は、これらの情報がそれぞれ独立した政府機関によって収集され、多くの場合、サイロ化されたデータベースや別々のウェブサイト、異なるフォーマットで保存されていることです。この状況は非常に混沌としたデータエコシステムを生み出しています。このデータを包括的に見るためには、コンピュータサイエンティストやデータサイエンティストを雇う必要があり、有用な政策決定や意思決定を行うための大きな障壁となっています。
ここで Data Commons の出番です。我々の目標は、世界中の公共データを整理し、普遍的にアクセス可能で有用なものにすることです。我々はこのシステム全体をオープンソースで構築し、GitHubでコードを公開しています。公的に入手可能なデータセットから取り込んだデータを、schema.org に沿ったフォーマットに再モデル化しています。そして、これらのデータにアクセスするための多くのオープンAPIを構築しました。
ここでの2つの主要なイノベーションは、まず、すべての公共データを1つの共通の知識グラフに変換することです。次に、その共通の知識グラフの前にLLMベースのAIインターフェースを置くことで、誰でも素早く検索してアクセスできるようにしています。これにより、基本的にどの組織の誰でもデータサイエンティストになることができます。
我々は120以上のソースから2,500億のデータ入力を持っています。これには国連統計、WHO、スタンフォードなど、様々な機関からのデータが含まれています。
実際の例を見てみましょう。「米国の郡における所得と糖尿病の関係」というクエリを入力してみます。すると、すぐにグラフが生成されます。これはすべてリアルタイムで読み込まれています。このグラフの各点は米国の郡を表しています。Y軸には世帯中央所得が、X軸にはCDCからの糖尿病患者の割合が表示されています。
我々は、このデータをより有用にするためにいくつかのアプローチを取っています。まず、Google検索を通じてこのデータを利用可能にしました。また、サードパーティの組織にもこのデータを活用してもらいたいと考えています。例えば、Feeding Americaという非営利団体は、独自の「Meal Gap Index」をGoogle Cloud上のData Commonsサーバーにアップロードし、他のデータと組み合わせて分析を行っています。
我々が提供しているものはすべて、datacommons.orgで利用可能です。また、COVID-19の特徴抽出から、IPCC温度モデルの実行まで、様々なケーススタディも提供しています。
最後に、国連統計部、UN DESA と協力して、「持続可能な開発目標のための国連データコモンズ」を発表しました。これは国連のデータサイトで運営されているData Commonsのインスタンスで、独立国の進捗状況を持続可能な開発目標に照らして探索することができます。
我々は現在、スタンフォード大学と協力して、生物医学データコモンズの開発に取り組んでいます。このプロジェクトはオープンソースであり、早期の製品です。我々はコミュニティにこれを採用し、使用してもらいたいと考えています。
4.2 WHO - グローバルヘルスデータハブ構想:Steve MacFeelyによるプレゼンテーション(WHO主任統計官)
私はWHOの主任統計官を務めています。また、国連の主席統計官委員会の議長も務めています。我々は、各国連機関が多くのデータを生成し、自身のウェブサイトで公開しているにもかかわらず、ユーザーにとっては国連の組織構造を理解していない限り、どの機関がどのデータを生成しているかを知ることが難しいという問題に長年悩まされてきました。
そこで、国連データコモンズのアイデアが生まれました。これは、ユーザーが国連の各機関のマンデートを理解する必要なく、すべての国連データを一つの大きな窓から見ることができるようにするものです。WHOは、この取り組みに参加した最初の組織の一つです。我々はまだベータ段階にあり、データのインポートを続けている段階です。
例えば、健康に関するデータを見てみると、持続可能な開発目標(SDGs)の指標をすべて見ることができます。一つの例として、予防可能な死亡、特に5歳未満児の死亡率を取り上げてみましょう。これは出生率に影響を与え、ひいては人口増加に影響を与えます。
これらのデータはすべてエクスポートすることができ、他の国連データとリンクして組み合わせて使用することができます。
WHOは昨年、世界保健データハブを立ち上げました。このハブは効果的にこのデータコモンズに供給しています。来年にはグローバルデータバンクという機能も立ち上げる予定で、ここでは研究データを預けることができます。
国連でのデータガバナンスに関する議論と作業が現在非常に活発に行われています。ユニバーサルまたはグローバルデータコモンズ、グローバルデータインフラストラクチャに関する提案がありますが、重要なのは、データを中央集権化しようとする試みは我々のアジェンダにはないということです。
我々は、個人、企業、国が採用できるガバナンスのための原則と基準を示そうとしています。このデータコモンズは今後数年でどんどん成長し、データを相互に関連付けて見ることができるようになるでしょう。
健康の観点からは、これは非常に重要です。なぜなら、健康の決定要因の多くは実際には健康セクター自体から生じるのではなく、収入や教育状況など、健康とは直接関係のない多くの要因から生じるからです。
データの質と信頼性に関しては、高所得国ではデータの質が比較的高いのですが、低所得国に移行するにつれて、データの質が低下し、大きなデータギャップが存在します。残念ながら、これらのデータの多くは補完されたものであり、モデル化されています。したがって、因果関係に関しては非常に注意深くなければならず、メタデータに本当に注意を払う必要があります。
例えば、昨年発表した超過死亡率のデータを考えてみましょう。これは我々が発表できる最良のデータですが、多くの相関関係や多くのモデルは高所得国で設計され、そのモデルが低所得国に輸出されました。我々はそれらを可能な限り調整し、適応させましたが、それでも常に「何か見逃していないか」という疑問が残ります。
つまり、データは存在しますが、判断力と注意を持って扱う必要があります。常に注意を払い、判断を行使してください。しかし、同時に、データが一致しない場合、その背後にはストーリーがあるということも強調したいと思います。
例えば、SDGsのデータでブラジルの人身売買に関するデータが約19,000人から16人に急激に減少していた事例があります。これは、当時の政権下でブラジルが公表したデータであり、さらに調査すると、彼らがそのデータを生成する責任のある機関の資金を完全に打ち切っていたことがわかりました。
このように、数字の背後には物語があります。我々のプラットフォームの目標は、こうした物語を発見し、より良いデータを得て、より多くの物語を語ることを可能にすることです。
最後に、我々のこの取り組みは、単にデータを集めることではなく、そのデータを通じて世界の健康問題への理解を深め、より効果的な政策立案と問題解決につなげることを目指しています。我々は、このプラットフォームが研究者、政策立案者、そして一般市民にとって価値ある資源となり、世界の健康改善に貢献することを期待しています。
5. AIガバナンスと倫理
5.1 WHO - AIの倫理と規制に関するガイドライン:Shada Alsalamahによるプレゼンテーション(WHO デジタルヘルス・AI技術オフィサー)
私は世界保健機関(WHO)でデジタルヘルスとAIの技術オフィサーを務めています。本日は、WHOのAIの倫理と規制に関するガイドラインについてお話しします。
我々は、AIの潜在的な可能性と使用例、そしてその影響について認識しています。同時に、そのリスクも認識しています。OECDの指標によると、AIは特定の状況下で死亡につながる可能性があります。
2018年には、100人以上のメンバーからなるフォーカスグループを立ち上げ、優先分野の特定に取り組みました。我々は、倫理、ガバナンス、規制などの横断的なトピックと、特定の健康関連トピックを定義しました。これらの成果は、メンバー国から高く評価されたいくつかのガイダンス文書として公開されています。
このフォーカスグループの成果を基に、昨年夏にAI for Healthに関するグローバルイニシアチブを立ち上げました。現在、健康、技術、知的財産を担当する3つの国連機関の署名を得ようとしています。
このグローバルイニシアチブは3つの柱から成り立っています:実現(Enabling)、促進(Facilitating)、実装(Implementing)です。
実現の柱の一環として、我々はいくつかの重要な出版物を発表しました。倫理とガバナンスに関する文書では、6つの主要な原則と47の勧告を提示しています。これらの原則には、人間の自律性と幸福、安全性、説明可能性、説明責任、公平性、持続可能性と責任あるAIが含まれます。
最近では、大規模言語モデル(LLM)に関するガイダンスも発表しました。このガイダンスでは、LLMの潜在的な利益と応用、潜在的なリスク、開発者の責任などについて詳しく説明しています。また、開発者、政府、その他の関係者向けのチェックリストも提供しています。
規制に関しては、6つの異なるトピック領域で18の勧告を提示しました。これらは、文書化、AIモデルの目的の特定、評価、市販前の検討事項、市販後の監視、そして倫理的考慮事項を含んでいます。
我々の取り組みは、単に文書を作成することではありません。これらのガイダンスの実装を支援するために、オンラインコースも提供しています。また、地域ワークショップを開催し、メンバー国がこれらのガイダンスを理解し、実装できるよう支援しています。
現在、我々は24以上の異なるトピックについて、WHOの同僚からAIへの取り組みの要請を受けています。これらには、結核、子宮頸がん、糖尿病、乳がん、慢性疾患、精神衛生、脳の健康、高齢化、伝統医学など、多岐にわたる分野が含まれています。
我々の目標は、これらのガイドラインを通じて、AIの倫理的で安全な使用を促進し、同時にイノベーションを阻害しないことです。そのためには、多様なステークホルダーの参加と、継続的な対話が不可欠だと考えています。
5.2 ITU/WHO AI for Health フォーカスグループの取り組み:Anna Leidaによるプレゼンテーション(TU Berlin研究員、ITU/WHO AI for Health フォーカスグループメンバー)
私はAnna Leidaです。ベルリン工科大学の研究員として、また ITU/WHO AI for Health フォーカスグループのメンバーとして、AIの臨床評価フレームワークの開発に携わってきました。
ITU/WHO AI for Health フォーカスグループは、現在のグローバルイニシアチブの前身となる取り組みでした。このグループでは、約70名のメンバーが協力して、健康分野におけるAIの臨床評価のためのフレームワークを開発しました。特に、低中所得国の代表者を含めることに焦点を当て、多様な視点を取り入れるよう努めました。
我々のグループが提案した臨床評価フレームワークは、4つの段階で構成されています:設計と目的、分析的妥当性検証、臨床的妥当性検証、継続的モニタリングです。
我々のグループの成果は、複数の主要な論文や政策文書として発表されました。例えば、SPIRIT-AIガイドラインやCONSORT-AIガイドラインの作成に貢献しました。
また、我々は理論的なフレームワークを作るだけでなく、実際の応用も重視しています。そのため、フレームワークの主要な要素を含むチェックリストを作成しました。このチェックリストは、ヘルシンキ大学とカロリンスカ研究所の研究者が主導する、ケニアでのデジタル顕微鏡を用いた子宮頸がんスクリーニングプロジェクトで実際に使用されました。
我々のフレームワークとチェックリストは、ITUのAI for Health フォーカスグループのウェブサイトで公開されています。
さらに、ベルリン工科大学フラウンホーファー・ハインリッヒ・ヘルツ研究所では、健康データの使用に関する複数のプロジェクトに関与しています。例えば、ドイツ連邦保健省が主導するDATA4HEALTH イニシアチブや、EU のTECHforHEALTH プロジェクトなどがあります。
我々の目標は、これらの取り組みを通じて、AIの健康分野での応用を促進しつつ、その安全性と有効性を確保することです。そのためには、技術的な側面だけでなく、倫理的、社会的、法的な側面も考慮に入れる必要があります。
6. データ中心型機械学習研究の最新動向
6.1 低データ創薬のための自己回帰的活性予測:Johannes Ledererによるプレゼンテーション(Ruhr University Bochum教授)
今日は、低データ創薬のための自己回帰的活性予測について、お話しします。
まず、低データ創薬の設定について説明させてください。我々のデータセットは通常、分子構造と関連するラベルで構成されています。これらのラベルは生物学的テストの結果であり、分子が特定の生物学的効果に対して活性か不活性かを示す二値のものです。分子は多くの異なる生物学的影響に対してテストされるため、我々は通常マルチタスク設定に直面します。
2017年か2018年頃から、分子構造とラベルの間の良好なマッピングを見つけるための研究が多く行われてきました。数百または数千のデータポイントがあれば、このタスクはほぼ解決されたと言えるでしょう。しかし、我々が直面している問題は、そのような大量のデータがない場合です。例えば、特定のタスクに対して4つのデータポイントしかない場合、どのように合理的な機械学習モデルを構築できるでしょうか。
これが我々の研究の核心であり、この分野は少数ショット創薬と呼ばれています。少数ショット学習の方法は、標準的な教師あり機械学習の方法とは少し異なります。
少数ショット学習の設定では、関心のあるタスクに対して十分なデータがありません。そのため、我々は大規模な別のデータセット(トレーニングセット)からの情報を活用する必要があります。実際のタスクがトレーニングセットに含まれていないことと、特定のタスクに利用可能な既知のデータポイントがサポートセットと呼ばれることに注意が必要です。
創薬の世界では、我々も活性分子と不活性分子の2つのクラスを持っています。サポートセットには、既に見たデータポイントが含まれています。モデルは、別のトレーニングセットにアクセスできますが、これには実際のタスクのデータポイントは含まれていません。
昨年のAI会議で、我々はこの領域で機能するメソッドを提案しました。このメソッドは3つの主要なブロックで構成されています:類似性モジュール、クロスアテンションモジュール、コンテキストモジュールです。
基本的なアイデアは、クエリ分子とサポートセット分子をベクトル表現にマッピングし、類似性モジュールでクエリ分子をすべてのサポートセット分子と比較することです。クエリ分子が活性サポート分子により似ている場合、予測は活性に向かい、その逆も同様です。
我々の科学的ベンチマークデータセットで、このモデルが新しい最先端の結果を達成したことを示しました。また、誰でも使えるようにするために、Hugging Faceアプリを提供しています。
しかし、我々はさらに良くできないかと考えました。測定が非常に価値があり、測定を行うのにコストがかかるこのシナリオで、その測定からさらに多くの情報を絞り出すことはできないでしょうか。
我々は、モデルを使って人工的にさらにデータを作成できないかと考えました。つまり、次のラウンドでモデルがより多くのデータにアクセスできるようにし、それによってモデル自体がより良く機能するようになるのです。
我々はこれを試し、データを反復的に扱う方法を考案しました。トレーニング済みの少数ショットモデルから始め、非常に少ないデータでタスクを開始します。モデルにクエリサンプルの予測を作成させ、その予測の一部を実際のラベルであるかのようにサポートセットに追加します。
このように拡張されたサポートセットで次の推論ラウンドに進み、残りのサンプルに対して再び予測を行います。我々は反復的にデータをより多く作成し、残りのサンプルに対して予測を行います。
この反復手順の結果は、単純なベースラインと比較して、一般的に良好に機能しているように見えます。しかし、実験の再実行における分散を見ると、タスク間で大きな分散があることがわかります。現在、我々はこの自己回帰的推論スキームを実際に使用できる場合と、使用しない方が良い場合を特定しようとしています。
我々の研究に興味がある方は、GitHubページやHugging Faceアプリをご覧ください。また、自己回帰的活性予測に関する実験についても、詳細な情報を提供しています。
7. 今後の展望と課題
7.1 データ共有とプライバシー保護の両立
データ共有とプライバシー保護の両立は、医療分野におけるAI開発の重要な課題です。Luca Foschiniは、完全なオープン化が必ずしも最善の解決策ではないことを指摘しました。代わりに、CROSSANの拡張を提案し、データ記述子に機械可読の情報を含めることで、データの使用方法や制限事項を明確に定義するアプローチを提案しました。
Alex Gaoは、MLCommonsのMEDperfプラットフォームを通じて、連邦化されたアプローチを提案しました。このアプローチでは、データはデータプロバイダーの施設内に留まったまま、AIモデルの評価が可能になります。
Prati Desaiは、BayerのAI開発クラウドプラットフォームについて説明する中で、データのプライバシーとセキュリティを確保しつつ、協力と共有を促進することの重要性を強調しました。
Steve MacFeelyは、データの質と信頼性の問題を指摘しました。特に低所得国からのデータには大きなギャップが存在し、多くのデータが補完やモデル化されたものであるという現実があります。
7.2 国際協調の必要性
Enrique Estrada-Lobatoが紹介したIAEAの呼吸器感染症早期検知システムは、国際協調の好例です。このプロジェクトでは、世界中の様々な機関からデータを収集し、グローバルな観測所を構築することを目指しています。
Shada Alsalamahが紹介したWHOのAI for Healthに関するグローバルイニシアチブも、国際協調の重要性を示しています。このイニシアチブは、健康、技術、知的財産を担当する3つの国連機関の協力を得て進められています。
Steve MacFeelyが説明した国連データコモンズの取り組みも、国際協調の重要性を示す例です。この取り組みは、異なる国連機関が生成するデータを一つの窓口から利用可能にすることを目指しています。
Anna Leidaが紹介したITU/WHO AI for Health フォーカスグループの取り組みは、低中所得国の代表者を含む多様なステークホルダーを巻き込んで、AIの臨床評価フレームワークを開発しました。
7.3 AI技術の医療応用における課題
- データの質と量の問題: Johannes Ledererが指摘したように、多くの医療分野では十分な量の高品質なデータを得ることが困難です。
- AIモデルの説明可能性と信頼性: Shada Alsalamahが紹介したWHOのガイドラインでは、AIの説明可能性が重要な原則の一つとして挙げられています。
- 実世界でのAIの性能: Prati Desaiが指摘したように、研究室で良好な性能を示したAIモデルが、実際の臨床現場で期待通りの性能を発揮しないケースが報告されています。
- 規制とガバナンス: AIの急速な進歩に規制が追いついていないという問題が、複数の発表者から指摘されました。
- 倫理的問題: AIの使用に伴う倫理的問題も重要な課題です。
- 健康の不平等拡大の懸念: Steve MacFeelyが指摘したように、現状では高所得国のデータの質が高く、低所得国のデータには大きなギャップが存在します。
- インフラストラクチャの問題: Alex Gaoが説明したように、連邦学習のようなアプローチを実装するには、各データプロバイダーが適切なコンピューティングインフラを持っている必要があります。
- 学際的な協力の必要性: Prati Desaiが強調したように、AIの医療応用には、技術者だけでなく、臨床医、規制当局、患者団体など、多様なステークホルダーの協力が不可欠です。
これらの課題に対処するためには、技術的なイノベーションだけでなく、制度的、社会的なイノベーションも必要です。ワークショップの参加者たちは、これらの課題の重要性を認識しつつも、AIが医療分野にもたらす可能性に大きな期待を寄せています。