※本稿は、イリノイ大学アーバナ・シャンペーン校のJi-Man教授が2024年のICML(International Conference on Machine Learning)で行ったプレゼンテーション「Accelerate clinical trials with AI」の要約記事です。
1. はじめに: 臨床試験の概要と重要性
1.1 医薬品開発パイプラインにおける臨床試験の位置づけ
本日は、AIを活用して臨床試験を加速する方法についてお話しします。私の名前はJi-Manで、イリノイ大学アーバナ・シャンペーン校の教授です。まず、臨床試験の背景について簡単に説明させていただきます。
臨床試験は、医薬品開発パイプラインの後期段階に位置し、薬の発見と開発の成功に不可欠な要素です。全体的なパイプラインを見てみましょう。初期段階は薬の発見段階と呼ばれ、化合物の同定とその最適化を行います。その後、前臨床試験を経て、臨床試験フェーズに入ります。ここで、成功した候補薬はヒトを対象にテストされます。
通常、少なくとも3つのフェーズがあります:
- フェーズ1: 安全性の確認
- フェーズ2: 有効性の確認
- フェーズ3: さらなる有効性の確認
最終的に、すべてがうまくいけば最終承認を得て、商業的成功を収めることができます。例えば、糖尿病治療薬のヒュマログは、生涯売上高が2,000億ドルを超える大型医薬品となりました。これは、コンピューターサイエンティストにとって大きな機会があることを示しています。
1.2 臨床試験の市場規模と成長率
臨床試験の分野は非常に興味深い市場であり、多くの機会があります。また、成長を続けています。まず、臨床試験の数を見てみましょう。最初の図が示すように、毎年増加しており、現在は約40万から45万件の試験が行われています。数年のうちに76万5,000件まで急速に増加すると予測されています。
臨床試験の市場全体も非常に大きくなっています。2つ目の図は、米国で臨床試験に費やされる金額を示しています。この額は急速に増加しており、500億ドルから数年で800億ドルに達すると予測されています。
単一の薬の開発プロセスを見ても、その規模がわかります。すべてが成功した場合、つまりフェーズ1、フェーズ2、フェーズ3、そしておそらくフェーズ4の試験を1回ずつ行うと仮定すると、このプロセス全体で約6,000万ドルの費用がかかります。これは、試験を実施するために必要な膨大な金額です。
このように、臨床試験には多額の資金が必要とされます。そのため、成功の確率を高めるためにプロセスを最適化することが非常に重要です。この最適化において、AIが重要な役割を果たす可能性があります。以降のセクションでは、AIがどのように臨床試験を加速し、効率化できるかについて詳しく説明していきます。
2. 臨床試験のワークフロー: データサイエンスプロジェクトとしての視点
臨床試験のワークフローを見ると、それは本質的にデータサイエンスプロジェクトであることがわかります。このプロセスには、仮説生成から最終的な分析とレポーティングまで、様々な段階があります。各段階で、意思決定のためにデータセットが使用され、同時に新たなデータが生成されます。
2.1 臨床試験サイクルの主要段階
臨床試験サイクルは以下の主要な段階から構成されています:
- 仮説生成: この段階では、科学文献や過去の臨床試験レポートを参照し、新しい試験を実施する機会を見出します。
- 試験設計: 過去の試験プロトコルや試験関連のアプリケーション、場合によっては実世界の患者データを用いて、新しい試験の設計を行います。
- 試験実施: 試験プロトコルが完成したら、実際に試験を実施します。この段階では、試験サイトの選択、患者のマッチング、データ収集などが行われます。
- データ分析とレポーティング: 試験終了後は、収集したデータの統計分析を行い、臨床研究レポートを作成します。さらに、FDAなどの規制当局とコミュニケーションを取り、承認を得るための活動を行います。
2.2 各段階におけるAIの活用可能性
これらの各段階において、機械学習の専門家にとって大きな機会があります。以下に、各段階でのAI活用の可能性を詳しく説明します:
- 仮説生成段階:
- 文献マイニング: 関連する出版物を見つけ、試験をサポートするエビデンスを統合するために、自然言語処理技術を活用できます。
- 試験分析: 過去の関連試験を分析し、要約するためのAIモデルを開発することが可能です。
- 試験設計段階:
- プロトコル設計: AIを使用して、試験プロトコルの初期ドラフトを作成したり、既存のプロトコルを最適化したりすることができます。
- 実行可能性テスト: 実世界のデータに対して設計されたプロトコルをテストし、試験の実行可能性を評価するAIモデルを開発できます。
- 試験実施段階:
- サイト選択: AIを用いて最適な試験サイトを選択することができます。
- 患者マッチング: AIを活用して、試験に適した患者を効率的に特定し、マッチングすることが可能です。
- データ分析とレポーティング段階:
- データ分析: 機械学習アルゴリズムを使用して、試験データの統計分析を行うことができます。
- プロット作成: 治療反応のプロットを自動生成するAIツールを開発できます。
これらのAI活用の可能性を実現するために、臨床試験に特化した基盤モデルの開発が考えられます。このモデルは、上記のような様々な機械学習タスクをサポートし、臨床試験の全プロセスを通じて活用することができます。
以上のように、臨床試験のワークフローをデータサイエンスプロジェクトとして捉えることで、AIの活用可能性が広がります。次のセクションでは、これらの可能性の中から、特に重要ないくつかの応用例について、より詳細に説明していきます。
3. AIを活用した臨床試験プロトコル設計: 事例紹介
臨床試験プロトコルの設計は、試験の成功に不可欠な要素です。ここでは、AIを活用してプロトコル設計を支援する具体的な事例をデモンストレーションを通じてご紹介します。特に重要な適格性基準の自動生成、類似試験の検索と分析、そして患者データベースを用いた実行可能性分析について説明します。
3.1 適格性基準の自動生成デモ
適格性基準は、臨床試験プロトコルの中でも特に重要な部分です。これらの基準は、試験に参加できる患者を定義します。AIシステムを使用して、この重要な適格性基準セクションのドラフトを作成するデモをお見せします。
プロセスは以下のように進みます:
- 新しい試験のための基本情報を含む試験概要文書をシステムにアップロードします。この文書には、試験のタイトル、対象となる介入、対象疾患などが含まれています。
- システムは、アップロードされた試験概要に基づいて類似の試験を検索します。これらの類似試験は、NCT ID、試験タイトル、簡単な要約など、様々な属性とともにリストアップされます。
- リストアップされた類似試験の中から、特に関連性の高いものを選択し、それらの試験の詳細を確認することができます。
- 選択された類似試験に基づいて、システムは新しい試験の適格性基準のドラフトを作成します。これらの基準は、包含リストと除外リストに分類されます。
- 生成された基準は編集可能で、必要に応じて手動で新しい基準を追加することもできます。
3.2 類似試験の検索と分析
デモの中で示したように、類似試験の検索と分析は新しい試験設計において重要な役割を果たします。システムは試験概要に基づいて関連性の高い試験を特定し、それらの詳細情報を提供します。
3.3 患者データベースを用いた実行可能性分析
適格性基準を設定したら、次の重要なステップは、それらの基準を満たす潜在的な参加者が十分にいるかどうかを確認することです。デモでは、この実行可能性分析のプロセスを以下のように示しました:
- システムは、設定された適格性基準をSQLクエリに変換します。例えば、「非ホジキンリンパ腫」という条件が指定された場合、それに対応するSQLステートメントが生成されます。
- このSQLクエリは患者データベースに対して実行され、基準を満たす患者の数を算出します。
- ユーザーは各基準を個別に、あるいは組み合わせて適用し、その影響を確認することができます。
- システムは、全ての基準を適用した後の適格患者数を表示します。デモでは、約1000人の患者が全ての基準を満たすという結果が示されました。
このAIシステムを使用することで、臨床試験プロトコルの設計プロセスを大幅に効率化し、より信頼性の高い設計を行うことが可能になります。適格性基準の自動生成、類似試験の詳細な分析、そして実際の患者データに基づく実行可能性分析を組み合わせることで、研究者はより効果的で実現可能な臨床試験を設計することができます。
このデモは、AIが臨床試験設計のプロセスをどのように支援し、改善できるかを示す一例です。今後、このようなツールがさらに発展し、臨床試験の効率と成功率の向上に貢献することが期待されます。
4. 臨床試験検索の改善: Trial2Vec手法
臨床試験の検索は重要なタスクですが、試験文書が非常に長いため、単純に全文を dense representation に変換すると、重要な情報を見逃す可能性があります。この問題に対処するために、私たちはTrial2Vecという新しい手法を開発しました。これは、EMNLP 2022で発表した「Trial2Vec: Zero-shot Clinical Trial Document Similarity Search using Self-supervision」という論文で詳しく説明しています。
4.1 階層的エンコーディングによる長文書の効果的な表現
Trial2Vecの核心は、臨床試験文書を階層的にエンコードする方法にあります。具体的には、文書の各セクションを別々に扱います。例えば、タイトル、介入、説明、疾患などの各セクションに対して個別の埋め込みを生成します。
これらのセクション別の埋め込みを重み付けして組み合わせることで、文書全体の表現を得ています。例えば、試験の検索においては、タイトルが非常に重要である可能性が高いため、より大きな重みを与えることができます。また、疾患や介入のセクションも重要かもしれません。一方で、適格性基準などのセクションは、試験の検索においてはやや重要度が低い可能性があるため、より小さな重みを与えることができます。
4.2 自己教師あり学習とナレッジグラフの活用
Trial2Vecのもう一つの重要な特徴は、自己教師あり学習の活用です。臨床試験の類似性に関しては、ラベル付きデータが存在しないため、私たちは自己教師あり学習のアプローチを採用しました。
具体的には、各臨床試験文書のグラフ表現を作成し、そこから負例を生成する方法を開発しました。例えば、ある試験のタイトルを別の試験のタイトルと入れ替え、他の全ての情報は同じままにするという操作を行います。このように生成された文書は、元の文書とは異なる試験を表しているため、負例として扱うことができます。
さらに、私たちは外部の医学知識グラフも活用しています。このナレッジグラフは、様々な医学的概念間の関係を表現しています。これをエンコーディングプロセスに組み込むことで、より豊かな表現を学習することができます。
4.3 実験結果と性能評価
Trial2Vecの性能を評価するために、私たちは複数のベースライン手法と比較実験を行いました。比較対象には、従来の情報検索(IR)ベースの手法や、最新の埋め込みベースの手法が含まれています。
実験の結果、Trial2Vecは他の全ての手法を大幅に上回る精度を達成しました。特に、臨床試験の検索タスクにおいて、Trial2Vecは従来の手法と比較して著しく高い正確性を示しました。
さらに興味深いことに、Trial2Vecによって生成された埋め込みを用いてt-SNEプロットを作成したところ、臨床試験が疾患によってきれいにクラスタリングされていることが視覚的に確認できました。これは、任意の文書埋め込みよりもはるかに意味のある結果です。
このTrial2Vec手法により、臨床試験文書の検索と分析に新しい可能性がもたらされました。階層的エンコーディング、自己教師あり学習、そしてナレッジグラフの活用という革新的なアプローチの組み合わせにより、長文かつ複雑な臨床試験文書の効果的な表現と検索を実現しました。この技術は、臨床試験の設計や分析のプロセスを大幅に改善することが期待されます。
5. 臨床試験設計の自動化: AO-Trial
これは、EMNLP 2023で発表した「AO-Trial: Prompt Language Model for Clinical Trial Design」という論文に基づく研究です。この研究は、私の学生であるWangとDania、そして私自身との共同研究です。
5.1 タイトル、対象疾患、介入に基づく適格性基準の生成
AO-Trialの主な目的は、臨床試験の包含基準と除外基準を自動的に生成することです。このタスクでは、試験のタイトル、対象となる疾患、そして試験で使用される薬剤(介入)という3つの主要な情報を入力として使用します。
例えば、試験のタイトル、対象疾患、使用する薬剤の情報を与えると、システムは適切な包含基準と除外基準のリストを生成します。
5.2 三段階アプローチ: 事前学習、微調整、生成
AO-Trialは、以下の3つの主要なステップを経て適格性基準を生成します:
- 事前学習(Pre-training): この段階では、他の適格性基準を活用してモデルを事前学習させます。
- 微調整(Fine-tuning): 次に、プロンプト情報を取り入れます。プロンプトは、生成すべき基準の種類や特定の側面を指定する一種のヒントやアクションとして機能します。
- 生成(Generation): 最後に、学習したモデルを使用して、新しい試験のための適格性基準を生成します。この過程は反復的に行われます。
5.3 ベースラインモデルとの性能比較
AO-Trialの性能を評価するために、私たちはいくつかの主要なベースラインモデルと比較実験を行いました。具体的には、GPT-2やT5などの一般的な言語モデルとの比較を行いました。
実験結果は非常に興味深いものでした。包含基準の生成タスクにおいて、AO-Trialは他のベースラインモデルを大幅に上回る性能を示しました。同様に、除外基準の生成タスクでも、AO-Trialは最も高い性能を達成しました。
これらの結果は、AO-Trialが臨床試験の文脈を適切に理解し、より関連性の高い、質の高い適格性基準を生成できることを示しています。一般的な言語モデルと比較して、AO-Trialは臨床試験の特殊性をより良く捉え、試験設計者のニーズにより適した出力を提供することができます。
AO-Trialの開発により、臨床試験設計プロセスの重要な部分を自動化する大きな一歩を踏み出すことができました。この技術は、試験設計者の作業を支援し、より効率的で一貫性のある適格性基準の作成を可能にします。
6. 患者-試験マッチング: Trial-GPT
患者と臨床試験のマッチングは、臨床試験の実施プロセスにおいて非常に重要な部分です。この課題に取り組むため、私たちはTrial-GPTという新しい手法を開発しました。これは、米国国立医学図書館の同僚であるChinとTrieuとFlorea博士、そして私の学生Zunとの共同研究です。
6.1 二段階マッチングプロセス: 基準レベルと試験レベル
Trial-GPTは、患者と試験のマッチングを二段階で行います。第一段階では、個々の適格性基準レベルでマッチングを行います。次に、第二段階で試験全体レベルでのマッチングを行います。
具体的には、患者の臨床ノートを入力として受け取り、試験の適格性基準(包含基準A、B、C、Dや除外基準a、bなど)と照合します。Trial-GPTは各基準に対して患者がマッチするかどうかを判断し、その理由を説明します。
6.2 患者の臨床ノートと試験基準のマッチング例
Trial-GPTは、患者の臨床ノートと試験の適格性基準を照合する際、非常に詳細な分析を行います。例えば、ある基準に対して、以下のような出力を生成します:
「基準D: 頭痛が他の診断によるものではない 関連する文: 臨床ノートの4、5、6番目の文 適格性の判断: この患者は基準を満たさない(除外) 理由: 患者の頭痛は他の診断によるものである可能性が高いため」
このように、Trial-GPTは各基準に対して詳細な分析と説明を提供します。
6.3 関連性スコアと適格性スコアの算出
個々の基準レベルでのマッチングが完了した後、Trial-GPTは試験レベルでの総合的な評価を行います。ここでは、2つの重要なスコアを算出します:関連性スコアと適格性スコア。
関連性スコアは、患者の状態が試験の対象疾患や条件に関連しているかどうかを示します。適格性スコアは、患者が試験の適格性基準をどの程度満たしているかを示します。
これら2つのスコアを組み合わせることで、Trial-GPTは患者と試験の overall マッチング度を評価します。両方のスコアが高い患者が、その試験に最も適した候補者となります。
6.4 評価結果とベースラインとの比較
Trial-GPTの性能を評価するために、我々はいくつかの実験を行いました。試験レベルの評価において、Trial-GPTはBERTベースのベースラインモデルよりも大幅に高いランキングスコアを達成しました。
除外判定のタスクにおいても、Trial-GPTは高い精度を示しました。これは、試験に適さない患者を正確に識別できることを意味します。
これらの結果は、Trial-GPTが患者-試験マッチングタスクにおいて非常に有効であることを示しています。特に、二段階のマッチングプロセスと詳細な説明機能は、既存の手法に比べて大きな利点となっています。
Trial-GPTの開発により、臨床試験の患者リクルーティングプロセスを大幅に改善できる可能性が示されました。この技術を活用することで、適切な患者をより迅速かつ正確に特定し、臨床試験の効率と成功率を向上させることができるでしょう。
7. 臨床試験特化型言語モデル: Panacea
Panaceaは、臨床試験に特化した言語モデルです。この研究は、私の学生であるJia LiとSi Wang、そしてワシントン大学シアトル校のShang Wang教授と彼の学生Hu Liとの共同研究です。
7.1 大規模臨床試験コーパスの構築: Trial Panorama
Panaceaモデルの開発の最初のステップは、大規模な臨床試験コーパス「Trial Panorama」の構築でした。このプロセスは以下のように進めました:
- データ収集: 14の異なるソースから臨床試験文書と関連アプリケーションを収集しました。
- データ処理: 収集したデータを解析し、冗長性を排除しました。その後、モデルの微調整に適した形式にトークン化しました。
- データセットの多様性確保: 最終的に得られたデータセットは、約80万件の臨床試験プロトコルと130万件の試験関連論文を含み、14の異なるソースから多様な疾患や条件をカバーしています。
7.2 モデルトレーニングのプロセス: 知識注入と指示調整
Panaceaモデルのトレーニングは、2つの主要なステップで行いました:
- 知識注入(連続的な事前学習): 基本モデルとしてMistral 7Bモデルを選択し、Trial Panoramaコーパスを使用して連続的な事前学習を行いました。
- 指示調整: 様々な臨床試験関連タスクに対する指示調整データセットを作成し、Panaceaモデルに特定の指示に従う能力を教え込みました。
7.3 多様な臨床試験タスクへの適用
Panaceaモデルは、臨床試験に関連する様々なタスクに適用できます。主なタスクには以下のようなものがあります:
- 試験設計: プロトコルの異なるセクション(適格性基準、研究アーム、アウトカム指標など)の設計を支援します。
- 試験検索: 関連する臨床試験を効果的に検索し、要約することができます。
- 患者-試験マッチング: 患者の臨床データと試験の適格性基準を照合します。
7.4 性能評価: オープンソースLMとの比較
Panaceaモデルの性能を評価するために、様々なオープンソースの言語モデルと比較実験を行いました。評価は臨床的関連性と意味的類似性の両面から行いました。
結果として、Panaceaは全てのタスクにおいて、他のオープンソースLMを大きく上回る性能を示しました。特に、適格性基準の設計、研究アームの定義、アウトカム指標の設定などの複雑なタスクで、Panaceaは顕著に高い性能を発揮しました。
これらの結果は、Panaceaが臨床試験領域の特殊性をよく理解し、より適切かつ正確な出力を生成できることを示しています。Panaceaの開発により、臨床試験のプロセス全体を支援する強力なツールが誕生し、試験設計から患者リクルーティング、データ分析に至るまで、臨床試験の様々な段階で活用できる可能性を秘めています。
8. まとめ
本日の講演では、AIを活用して臨床試験を加速する方法について、私たちの研究成果を中心に紹介しました。
我々の研究は、臨床試験のプロセスを効率化し、最終的には新しい治療法をより早く患者さんに届けることを目指しています。具体的には、以下のような成果を上げることができました:
- Trial2Vec:臨床試験文書の効果的な検索を可能にする手法を開発しました。階層的エンコーディングと自己教師あり学習を組み合わせることで、従来の手法よりも高い精度で類似試験を検索できるようになりました。
- AO-Trial:臨床試験の適格性基準を自動生成する手法を開発しました。タイトル、対象疾患、介入に基づいて、高品質な包含基準と除外基準を生成することが可能になりました。
- Trial-GPT:患者と臨床試験のマッチングを行う手法を開発しました。二段階のマッチングプロセスにより、個々の適格性基準レベルと試験全体レベルでの評価を行い、より正確なマッチングを実現しました。
- Panacea:臨床試験に特化した大規模言語モデルを開発しました。Trial Panoramaという大規模コーパスを用いて学習させることで、様々な臨床試験関連タスクに対応できるモデルを実現しました。
これらの技術を組み合わせることで、臨床試験のプロセス全体を大幅に効率化できる可能性があります。例えば、新しい試験の設計段階では、Trial2Vecを用いて類似の試験を素早く見つけ出し、AO-Trialを使って適格性基準の初期案を自動生成することができます。そして、試験の実施段階では、Trial-GPTを用いて適切な患者を効率的に見つけ出すことができます。さらに、Panaceaモデルは、これらのプロセス全体をサポートし、より高度な分析や意思決定支援を提供することができます。
これらの研究成果が、臨床試験の効率化と、ひいては医薬品開発の加速に貢献できることを願っています。