※本記事は、スタンフォード大学医学部教授およびスタンフォードヘルスケアのチーフデータサイエンティストであるNigam Shah博士によるウェビナー「Creating Fair, Useful, and Reliable AI in Healthcare」の内容を基に作成されています。このウェビナーは、スタンフォード大学エンジニアリングスクールが提供するStanford Onlineの一環として配信されました。
本記事では、ウェビナーの内容を要約・構造化しておりますが、原著作者の見解を正確に反映するよう努めています。ただし、要約や解釈による誤りがある可能性もございますので、より正確な情報や文脈については、Applications of Machine Learning in Medicine programの公式ページ(https://stanford.io/49wbDXY )をご参照ください。
また、Stanford Onlineでは、スタンフォード大学の各部門が提供する学術・専門教育プログラムを通じて、より詳細な知識を得ることができます。プログラムの詳細については、Stanford Online(https://online.stanford.edu/ )をご覧ください。
本記事の引用・転載の際は、出典を明記していただきますようお願いいたします。
1. 医療データとAIの基礎
1.1. 患者タイムラインデータの特徴と課題
私たちはAIやMLについて多くの議論をしていますが、あまり話題に上がらない重要な点があります。それは、AIやMLは訓練データの質に大きく依存するということです。医療分野では、私たちは患者のタイムラインからデータを使用してAIやMLモデルを構築しています。
患者のタイムラインを時間軸で見ると、一人の架空の患者が4回ほど入院し、その中でICU滞在も経験しているような状況を考えることができます。このタイムライン上で、私たちは様々なタイプのデータを収集しています。例えば、ECG、血圧、呼吸数、心拍出量などのバイタルデータ、投薬オーダー、各種文書、検査結果などです。
しかし、医療現場での重要な特徴は、任意の時点で全てのモダリティのデータが収集されているわけではないということです。時間軸上の特定の縦列を見ると、その時点で必要なモダリティのデータのみが収集されています。また、特定のデータモダリティの横列を見ても、患者を含めどの個人でも5年以上の縦断的なカバレッジを持つことは稀です。
このデータの特性は非常に重要です。なぜなら、これらのデータをどのように操作し、テキストをどのように処理し、特徴量エンジニアリングをどのように行うかが、最終的なAIやモデルのパフォーマンスに、他のどの要因よりも大きな影響を与えるからです。このような理由から、私たちはスタンフォードの授業でこの点を重点的に扱っています。
データの不完全性や欠損パターンを理解し、適切に処理することは、医療AIの開発において基礎的かつ重要な課題となっています。これらの課題に対する理解なしには、効果的なAIモデルの構築は困難です。
1.2. 医療AIの3つの主要機能(分類・予測・推奨)
医療分野でのAIモデルの活用には、大きく分けて治療の要否の判断と治療方法の決定という2つの用途があります。治療の要否判断は、さらに分類(診断)と予測(予後)に分けることができます。
分類と予測の違いを明確にすることは非常に重要です。一般的な表現では、「画像を分析して肺炎を予測する」や「画像を分析して犬を予測する」といった言い方をすることがありますが、これらは実際には予測ではなく分類です。写真を撮る前から犬は犬であり、X線を撮る前から肺炎は存在していたからです。
この区別は、特に医療現場で重要な意味を持ちます。例えば、「セプシス予測器」と呼ばれるものの多くは、実際には予測器ではありません。これらは、患者が既にセプシスを発症しているものの、医療チームがまだそれを認識していない状況を検出する分類器です。この意味論的な違いは、一見些細に思えるかもしれませんが、非常に重要です。予測だと考えると、その結果を予防しようとする方向に思考が向かいます。しかし、実際には分類・診断であることを理解していれば、既に存在する状態の治療に焦点を当てることができます。
推奨システムについては、これが最も困難な課題となっています。データに多くの欠損("holes")や偏り("biases")があるため、信頼性の高い推奨を行うことは非常に難しい状況です。医療分野では、この課題に取り組むのに40年もの歳月を要しています。ただし、私たちのキャンパスでいくつかの成功事例を生み出すことができました。
このように、医療AIの各機能には明確な区別と固有の課題があり、それらを正しく理解することが効果的な実装への第一歩となります。
1.3. 医療AIの応用領域(科学・実践・医療提供)
医療AIの技術的な実装を考える際、私たちは「医学の科学的発展」「医療実践の向上」「医療提供の改善」という3つの領域のどこを目指しているのかを明確にする必要があります。これらの違いを具体的な例で説明させていただきます。
科学的発展の例として、洗練された数学的手法を用いて、駆出率が保たれた心不全が実は3つのサブタイプに分類できることを発見するような研究が挙げられます。これは分類の第一列目に該当し、疾病に対する科学的理解を深めるものです。例えば、サブタイプ1の患者は2年以内に死亡する可能性が高く、サブタイプ3の患者は10年間安定している、といった知見が得られます。
医療実践の向上には、さらに2つの要素が必要です。第一に、血液検査やアルゴリズムによる検査、画像検査などの方法で、患者が来院した際にどのサブタイプに属するかを判定できる検査方法が必要です。第二に、リスクの高い患者に対して、より積極的または異なる治療を行うための選択肢が必要です。もし全ての患者に同じ治療を行うのであれば、検査を実施することは医療コストの増加につながるだけです。
医療提供の改善は、このような検査と治療の体系を5年から10年にわたって1,000人、10,000人規模で実施し、患者の寿命が延び、コストが削減され、生活の質が向上するといった具体的な成果として現れます。
このように、AIの医療応用を考える際には、それがこの3つの領域のどこに位置づけられるのかを明確に理解することが重要です。各領域で求められる要件や評価基準が異なるため、開発の初期段階でこれを認識しておくことが、効果的な実装につながります。
2. Green Buttonプロジェクトの事例
2.1. ベッドサイドでの意思決定支援の実装
私たちのキャンパスで実施したGreen Buttonプロジェクトについて説明させていただきます。このプロジェクトのアイデアはシンプルなものでした。私たちは40-50年にわたって、ベッドサイドで難しいケースに直面した際に、何百万人もの他の患者のタイムラインデータから類似の患者を検索し、それらを集約して、より良い意思決定を行えないかと考えました。
この取り組みの背景には、医療エビデンスの信頼性に関する深刻な課題がありました。ある研究では、医師たちが約1週間の期間で行った診療上の意思決定を追跡し、それらの決定に先行する公表データがあったかどうかを調査しました。驚くべきことに、約80%の場合において、医師たちは事前に公表されたデータを持っていませんでした。これは、データが存在しなかったというわけではなく、医師がそのデータを認識していなかったか、アクセスできなかったことを意味します。さらに、医師たち自身の主観的な評価によると、手元の具体的な質問に対して特定の研究データを持っていたのは、わずか3%未満のケースでした。
このような状況を改善するため、私たちはオンデマンドでデータを分析するベッドサイドコンサルテーションサービスを実施しました。医師はケースを私たちに紹介し、私たちは推奨事項を含む書面での報告書を提供しました。
このプロジェクトの成功を受けて、私たちの学部長とCEOから「これをどのように世界に広めていくのか」という質問を受けました。シリコンバレーらしい方法で、私たちはAtropos Healthという企業を立ち上げました。当初、私たちのキャンパスでは1-2日かかっていた分析を、企業では24時間以内、時には数時間で実施できるようになりました。さらに生成AIの登場により、統計的研究生成システムとチャットを通じて対話的に研究を実施できるようになり、数分で結果を得られるようになりました。
このように、データから意思決定の改善まで、機械学習、チャットボット、その他のテクノロジーを活用することで、非常に速いペースで進歩を遂げることができました。
2.2. 医療コスト予測と早期介入の効果
私たちは、比較的シンプルなAIを用いて、来年度に医療費が高額になる可能性のある患者を予測するモデルを開発しました。これは深層ニューラルネットワークなどの複雑なものではありませんが、実用的な成果を上げることができました。
予測結果に基づいて、私たちは医療的介入を行いました。具体的には、予測結果から高リスクと判断された患者に対して、総合ケアプログラム、糖尿病管理プログラム、血圧管理プログラムなどの予防的介入プログラムへの登録を行いました。
このプロジェクトは2015年に実施されましたが、私たちの最良の推定によると、このような予防的な介入を行うことで、対象となる患者の将来の医療費の約10-15%を削減できることが分かりました。特筆すべきは、この削減が医療の質を損なうことなく達成されただけでなく、むしろ侵襲的な処置を減らすことができたという点です。
この事例は、予測に基づく早期介入の効果を実証するものとなりました。医療費の予測とそれに基づく予防的介入の組み合わせが、コスト面でも医療の質の面でも良好な結果をもたらすことを示しています。これは、AIモデルが単なるリスク予測だけでなく、実際の医療現場での具体的なアクションと組み合わさることで、真の価値を生み出せることを示す好例となりました。
2.3. リスク層別化とアクションの重要性
これまでのプロジェクトを通じて、私たちは一貫したテーマを見出しました。それは、AIが単にリスク推定値を提供するだけでなく、そこから具体的なアクションを起こすことで価値が生まれるということです。医療コスト予測の例では、早期介入を実施することで価値が生まれ、死亡率予測の場合は事前ケア計画の実施、予約不履行の予測では交通サポートの提供といった具体的なアクションにつながります。また、虚血性か出血性かの脳卒中の分類では、どの患者を救急ヘリコプターで搬送し、頭蓋内の血腫除去手術を行うかの判断に活用されています。
このような観点から、私たちは3つの重要な要素を特定しました。第一に、統計やコンピュータサイエンスによるリスク層別化(黄色の部分)、第二に、そのモデルから得られた数値に基づいて何をするのか、そのための作業能力はあるのか(緑の部分)、第三に、実施するアクション(赤い部分)が総合的に見て純益をもたらすのかという点です。
私たちのキャンパスでは、約5-6人の教員がこのテーマで研究を行い、25本程度の論文を発表してきました。その結果、一つの重要な洞察に到達しました。それは、作業能力を考慮した上で何が達成可能かに焦点を当てる必要があるということです。
この考え方は、X軸にイベントが発生する確率(1-確率)で順位付けされたケース、Y軸に累積便益をプロットしたグラフで説明できます。最初のケースでアクションを取ると一定の便益が得られ、2番目のケースでさらに便益が増加し、最終的に青い点で示される最大値に達し、その後は逓減していきます。重要なのは、リストのどこまで対応できるかを事前に答える必要があるということです。なぜなら、AIの出力に基づいてアクションを取れる能力があってこそ、価値が生まれるからです。
このように、リスク層別化だけでなく、実行可能なアクションと、それを実施するための組織の能力を総合的に評価することが、医療AIの効果的な実装には不可欠なのです。
3. FIRM (Fair, Useful, Reliable Models) アプローチ
3.1. キャパシティに基づく実現可能性評価
私たちは、これまでの研究成果を、FIRM(Fair, Useful, Reliable Models)と呼ばれるアプローチにまとめました。このアプローチの本質は、作業能力に基づいて何が達成可能かに焦点を当てることです。
実現可能性の評価において、私たちは特徴的なプロットを用いています。このプロットでは、X軸にイベント発生確率(1-確率)で順位付けされたケースを配置し、Y軸には累積便益をプロットします。最初のケースでアクションを取ると一定の便益が得られ、2番目のケースではさらに便益が増加していきます。このプロセスは青い点で示される最大値に達するまで続き、その後は逓減していきます。
このグラフの重要な点は、医療機関がリストのどこまで対応できるかという作業能力の限界を示していることです。AIの出力に基づいてアクションを取れる能力があってこそ、価値が生まれます。そのため、施設の作業能力を事前に評価し、実行可能な範囲を明確にすることが重要です。
また、実現可能性の評価では、以下の要素を含む多段階のプロセスを実施します:
- 有用性のシミュレーション
- 財務的な予測
- 倫理的考慮事項の分析
このプロセスを通じて、実行可能な閾値を設定し、組織の能力の範囲内で最大の効果を得られるように計画を立てます。これは、5-7年にわたる研究の成果を実践的なプロセスにまとめたものであり、現在では私たちの医療システムで日常的に使用されています。
このアプローチは、現在の持続不可能な状況を改善するために重要です。私たちは、これまでのAIの実装方法が持続可能でないことを示す衝撃的な数字を見出しました。良いAIの実践に関する約7-16の異なる推奨事項を分析したところ、合計で220の個別のガイダンス項目があり、その半分がモデルの構築方法に関するものでした。一方で、ワークフロー分析や倫理的考慮事項、持続可能性などに関するガイダンスは極めて少ない状況でした。
3.2. 3段階プロセス(発見・開発・普及)
私たちは、医療AIの責任ある実装のために、「発見(Discovery)」「開発(Development)」「普及(Dissemination)」という3段階のプロセスを定義しました。このアプローチは、私たちのキャンパスでの数年にわたる実践から生まれたものです。
標準的なAIに関しては、各段階での課題が明確になっています。発見段階は現状では遅すぎてコストがかかりすぎていることがわかっているため、これを改善する必要があります。例えば、私の同僚が行った驚くべき調査によると、救急外来で12誘導心電図検査を即時に実施すべき患者と、登録手続きを待ってから検査を受けられる患者を判別するモデルの検証に、10年の期間と2,800万ドルもの費用がかかったことがわかりました。この現状は明らかに持続不可能です。
開発段階では、達成可能な便益に焦点を当てる必要があります。先ほど説明したグラフを用いて、リストのどこまで対応できるかを評価します。また、財務的な持続可能性の計算も重要です。例えば、出血性か虚血性かの脳卒中の分類を行う場合、救急ヘリコプターが1機しかないような状況では、複数の患者が同時にその施設を必要とする可能性があり、ビジネスモデルとして成立しません。
普及段階では、これらの評価結果をFIRMアセスメント(firm.stan.edu)に反映させ、実装の判断材料とします。各段階で得られた知見は、次のプロジェクトの改善にも活用されます。
生成AIに関しては、この3段階プロセスにまだ多くの疑問符が残されています。特に開発と普及の段階では、従来のAIとは異なる課題が存在する可能性があり、さらなる研究と実践が必要です。しかし、このような体系的なアプローチを取ることで、医療AIの実装をより効率的かつ持続可能なものにすることができると考えています。
3.3. ワークフロー分析と倫理的評価の統合
FIRMアセスメントにおいて、最初のステップはワークフローの明確化です。私たちの実践例を紹介させていただきます。例えば、末梢動脈疾患の未診断患者を特定する分類器を実装する場合、以下のようなワークフローを設計します。まず、血管医学の専門医が結果を確認し、必要に応じて患者をプライマリケア医に紹介します。その後、プライマリケア医が血管専門医に紹介し、足首上腕指数検査を実施します。患者はこの検査を受けることを拒否するかもしれませんし、同意するかもしれません。
このワークフローの具体的なステップは重要ですが、さらに重要なのは、分類器を構築する時点で、その結果に基づく責任ある行動が明確になっているということです。これは、FIRMペーパーに直接記載されている内容です。
同じアセスメントの中で、倫理的評価も実施します。実行されるワークフローについて、以下の観点から検討を行います:
- 公平性の確保
- モデルの信頼性
- 出力結果に対する不同意が生じた場合のガバナンスプロセス
- 意思決定における自律性の確保(保険会社のアルゴリズムによるケア拒否のような事態を避けるため)
これらの評価は、実装前の第一段階で行うことが重要です。ここで得られた評価結果は、FIRMアセスメントのプロセスの一部として文書化されます。
また、運用面では基本的な運用工学の原則も適用しています。例えば、倫理的評価や財務予測、ワークフローシミュレーションなどのアセスメントに6-8週間かかると想定した場合、毎月1件のペースで評価を完了するために、リトルの法則を用いて必要な並行評価数を計算します。この計算により、2件の並行評価が可能なチーム体制が必要だということがわかりました。
最終的に、これらの活動を確実に実施するためのガバナンス体制が必要です。組織の標準的な業務とITサポートの上に、2つの層を追加します。1つは意思決定を行うガバナンス層で、「ノー」と言う権限を持つ人を明確にします。もう1つは、FIRMアセスメントを実施し、影響を受ける患者数、持続可能性、特定のグループへの害の有無などの数値を提供する分析層です。この4つの要素(標準業務、ITサポート、ガバナンス、分析)が、効果的なAI実装の基盤となります。
4. 言語モデル(LLM)の医療応用
4.1. 自然言語vs医療記録言語の特徴
2022年にLLMが登場して以来、状況は大きく変化しました。この変化について説明させていただきます。
まず、「言語」という概念を再考する必要があります。多くの人は、言語というと英語、スペイン語、ドイツ語、グジャラート語、ヒンディー語など、人間が使用する自然言語を思い浮かべます。しかし、コンピュータにとっての「言語」は、有限の語彙(辞書)から来るトークンの連続として定義されます。
この観点から見ると、患者のタイムラインも一種の「言語」と見なすことができます。なぜなら、ICD コード、CPTコード、LOINCコードなどの有限の辞書からのトークンで構成されているからです。私は「EHR言語」と呼んでいますが、これは私たちが話せる言語ではありません。これは、「この来院時にこれが起こり、この処方が行われ、次の来院時にこれが起こった」といった、全てがコードで表現される一連の出来事の連続です。
このように考えると、言語モデルの構築には2つのアプローチが可能になります。1つは、自然言語のテキストや文書から言語モデルを学習し、チャットや要約に活用する従来の方法です。もう1つは、これまで説明してきたタイムラインを使用して、将来何が起こるかを予測する方法です。これは医療におけるLLMの独自の活用方法となります。
このような二つのアプローチを統合することで、医療記録の理解と予測の両面で、より強力なツールを開発できる可能性があります。しかし、それぞれのアプローチには固有の課題があり、特に医療記録言語の場合、データの標準化や時系列の扱いなど、独自の問題に対処する必要があります。
4.2. GPT-3.5/4の臨床評価実験
私たちのキャンパスでは、自然言語を用いた言語モデルの臨床現場での有用性を検証するために、いくつかのプロジェクトを実施しました。その中から2つの重要な実験結果を共有させていただきます。
最初の実験では、先ほど説明したベッドサイドサービスから約60件の臨床質問を抽出し、GPT-3.5とGPT-4に提示しました。これらの回答を12名の医師に評価してもらい、以下の3つの観点で判定を行いました:
- 既知の参照回答と一致しているか
- 参照回答と矛盾しているか
- 判断できないか
評価結果を見ると、GPT-3.5からGPT-4への進化に伴い、一致率が上昇し、不一致率と判断不能率が低下する傾向が見られました。これは言語モデルの性能向上を示す良い指標です。
しかし、重要な課題も明らかになりました。医師たちは、回答の40-50%について、正しいのか間違っているのか判断できないと報告しました。これは臨床現場での実用化において深刻な問題です。なぜなら、ベッドサイドで自信に満ちた提案をする相手について、その提案が正しいのか間違っているのか判断できないという状況は、実用的な価値が低いからです。
この結果は、医療分野における言語モデルの利用には、まだ重要な課題が残されていることを示しています。特に、モデルの判断根拠の明確化や、医療専門家が容易に検証できる形での回答提示方法の開発が必要だと考えています。
4.3. タイムライン予測モデルの性能評価
タイムラインに基づく予測モデルの評価実験について、興味深い結果が得られました。この実験では、X軸に訓練に使用した陽性例の数、Y軸に受信者動作特性曲線(ROC曲線)の性能をプロットしました。
私たちは複数の手法を比較検討しました。従来手法として、勾配ブースティングモデル、ロジスティック回帰、ランダムフォレストを使用し、これらは図中でオレンジ色、黄色、薄い青色の線で表示されています。一方、私たちが開発したタイムライン学習型言語モデルは濃い青色の線で示されています。
結果を見ると、濃い青色の線が常に他の線の上に位置しており、タイムライン学習型言語モデルが一貫して高い性能を示していることがわかります。特に注目すべき点は、X軸の64付近に位置する青い点です。この点は、従来手法が全ての利用可能な訓練データを使用して達成できる最高性能(赤、オレンジ、薄い青の点の最高値)と同等かそれ以上の性能を示しています。
これは非常に重要な発見です。なぜなら、私たちのモデルは:
- 従来手法と比較して3-19%高い精度を達成
- 学習速度が8倍速い
- 95%少ない訓練データで同等以上の性能を実現
という3つの利点を同時に実現できたからです。
これらのモデルは「CLIMBER」と「MOTOR」という名前で公開されており、GitHubで入手可能です。この結果は、医療データの時系列的な性質を活かした言語モデルアプローチの有効性を示す重要な証拠となっています。
5. 実装と運用の課題
5.1. データエンジニアリングとデータサイエンスの統合
データエンジニアリングとデータサイエンスの機能を、医療現場でどのように統合すべきかという質問をよく受けます。特に、医療データが非常に散在しており、扱いにくい状況において、データの整理やデータベース作成に多くの時間を費やしているという声をよく聞きます。
私たちの経験から、これら2つの機能は密接に連携させる必要があります。実際、私たちの施設では、これらを同じチームに統合しています。チームの名称は「データサイエンスチーム」としていますが、実際にはデータエンジニアの数の方がデータサイエンティストよりも多いのが現状です。
このような統合的なアプローチが必要な理由は、両者が「フェンスの反対側にいて、お互いにデータを投げ合う」ような関係であってはならないからです。むしろ、協働的に作業を進める必要があります。なぜなら、必要とされる科学的分析が、データのエンジニアリング、抽出、クリーニングの方法を規定し、逆に、クリーニングと抽出の過程で行われる決定が、実行可能な科学的分析の種類に影響を与えるからです。
つまり、手袋と手のように、これらの機能は密接に連携して働く必要があります。チーム構成を最適化する際には、この点を特に考慮に入れ、両者の専門性を活かしながら、緊密なコミュニケーションが取れる体制を構築することが重要です。
5.2. プロジェクト所要期間の短縮
プロジェクトの所要期間は、チームの成熟度に大きく依存します。私たちの経験では、最初のプロジェクトから次のプロジェクト、そしてその次のプロジェクトへと進むにつれて、実施期間が劇的に短縮されていきました。
最初のプロジェクトでは、チームもなく、全員がボランティアで参加し、メールや金曜の夜に調整をする状態でした。このような状況で、エンドツーエンドのプロジェクトの完了に5年から7年という非常に長い期間を要しました。
2回目のプロジェクトでは、5-7年かけて構築したプラットフォーム、作業手順、必要なものすべてを本番環境で再現することに焦点を当てました。この段階では所要期間を1年半程度まで短縮することができました。
3回目のプロジェクトでは、さらに期間を短縮し、4ヶ月程度で完了することができました。そして、次のプロジェクトでは1ヶ月程度での完了を目指しています。
このように、プロジェクトを重ねるごとに約50%ずつ期間を短縮でき、3-4回の反復で十分に成熟したプラクティスを確立できました。この成功の主な要因は、初期のプロジェクトで確立した基盤的なプラットフォームと手順を、その後のプロジェクトで効率的に再利用できたことにあります。また、チームの経験値の蓄積と、組織的な学習プロセスの確立も重要な要素でした。
5.3. EHRデータの精度と検証方法
EHR(電子健康記録)データの取り扱いにおいて、データの精度と信頼性の確保は非常に重要な課題です。私たちの経験から、EHRデータは本質的にノイズが含まれており、エラーが存在することを前提として扱う必要があります。
このような状況に対処するため、私たちは複数の情報源による相互検証アプローチを採用しています。例えば、糖尿病の診断を確認する場合、単にICD(国際疾病分類)コードの存在だけを信頼することはできません。代わりに、HbA1c値の履歴、処方された糖尿病治療薬、さらに関連する臨床記録など、少なくとも2〜3の独立した情報源からの裏付けを必要とします。
この相互検証アプローチは、以下の原則に基づいています:
- 診断コードだけでなく、関連する検査結果を確認する
- 処方薬情報との整合性を検証する
- 臨床記録の文脈情報を考慮する
データの品質保証プロセスでは、各情報源の独立性を重視し、それぞれの情報が互いを補完し、確認し合う関係性を構築することが重要です。このような多角的な検証アプローチにより、EHRデータに内在するノイズやエラーの影響を最小限に抑え、より信頼性の高い分析基盤を確立することができます。
このプロセスは決して完璧ではありませんが、実践的な観点から見て、医療データの複雑性と不確実性に対処する現実的な方法として機能しています。データの品質保証は継続的なプロセスとして捉え、常に検証方法の改善と更新を行っていく必要があります。
6. 今後の展望と課題
6.1. 医療AIの有効性検証の重要性
医療AIの分野、特に言語モデルやジェネレーティブAIの登場により、私たちは有効性検証に特に重点を置く必要があります。これは単なる技術的な評価だけでなく、実際の臨床現場での有用性を確認する必要があるためです。
私たちはスタンフォードで、ベッドサイドでのAIの有効性を検証するためのいくつかのプロジェクトを実施しました。特に注目すべき実験の一つは、以前から運用していたベッドサイドサービスから約60の臨床質問を抽出し、GPT-3.5とGPT-4に提示したものです。12名の医師に回答を評価してもらい、既知の参照回答との一致度、不一致度、判断不能の割合を分析しました。
結果として、GPT-3.5からGPT-4への進化に伴い、回答の一致率は向上し、不一致率は減少、判断不能の割合も低下しました。しかし、依然として40-50%のケースで医師たちは判断を下すことができませんでした。これは、ベッドサイドで自信に満ちた提案をする人がいても、その正誤を判断できない状況に似ており、臨床的な有用性という観点では大きな課題を示しています。
また、Med-Alignと呼ばれるプロジェクトでは、医療記録から特定の情報(例:患者の脳卒中歴と関連する神経学的欠損)を要約するタスクを実施しました。15名の臨床医が医療記録を読んで正解を作成し、同じ指示と医療記録を言語モデルに与えて回答を生成しました。最も理想的な設定でも、医療的なプロンプトに対する回答には35%のエラー率が存在することが判明しました。
このような検証作業は、大手テック企業が数億ドルをかけてモデルを構築する中で、アカデミアが果たすべき重要な役割です。私たちアカデミアは、これらのモデルが実際に謳い文句通りの機能を果たすのかという難しい質問を投げかけ、検証する立場にあります。
長期的な効果測定については、New York Timesでも「AIは医師より優れているのか」という議論が繰り返し取り上げられ、相反する答えが示されている状況です。しかし、私たちが確実に言えることは、有効性の検証に焦点を当て続けることの重要性です。
臨床現場での評価プロセスを標準化し、長期的な効果を測定する方法を確立することは、今後の医療AI発展における重要な課題となっています。特に生成AIの分野では、開発や普及がどのようにスケールするのか、投資対効果がどうなるのかについては、まだ確信が持てない状況です。
6.2. システム間データ統合の必要性
現代の医療機関における最大の課題の一つは、データが複数のシステムに分散している現状です。一般的な病院では500から1000のITシステムが稼働しており、これは多くの人が想像する以上に複雑な状況を生み出しています。
特筆すべきは、電子カルテ(EHR)システム(例:EpicやCerner)は、これら多数のシステムの一つに過ぎないという事実です。私たちの経験から、医療データがすべてEHRに格納されているという考えは明らかな誤解です。実際には、画像管理システム(PACS)、検査システム、眼科システム、手術ビデオシステム、麻酔システムなど、数百に及ぶ独立したシステムが存在し、それぞれが重要な医療データを保持しています。
このようなシステムの分散は、以下のような課題を生み出しています:
- データの完全性の確保が困難
- システム間でのデータ整合性の維持が複雑
- 包括的な患者ケアに必要な情報へのアクセスが制限される
これは単なるシステム統合の技術的な課題ではなく、医療の質と効率性に直接影響を与える重要な問題です。統合に向けた戦略としては、まずこの現状を正確に認識し、システム間の相互運用性を段階的に高めていく必要があります。
この課題に対する解決策は、単一の巨大システムへの統合ではなく、むしろ異なるシステム間でのデータの効果的な連携と統合的な分析基盤の構築にあります。これは今後の医療AIの発展においても重要な基盤となる課題であり、継続的な取り組みが必要な領域です。
6.3. 医療従事者とAIの協働における課題
私たちの最近の研究から、医療従事者とAIの協働には予想外の課題が存在することが明らかになってきました。特に興味深い知見は、同僚のJonathan Chenが実施した研究から得られました。この研究では、医師に症例を提示し、同じ症例をGPT-4に提示し、さらに医師にGPT-4へのアクセス権を与えて症例に取り組んでもらうという比較実験を行いました。
驚くべきことに、結果は一般的な予想とは異なるものでした。医師がAIにアクセスできる場合、時として自分たちの判断を損なう結果となることが判明しました。さらに興味深いことに、AI単独の判断の方が、医師とAIの組み合わせよりも良好な結果を示すケースがありました。
この予想外の結果の背景には、医師たちがAIツールを最適な方法で活用できていないという問題があります。Jonathanの分析によると、医師たちはAIを検索エンジンのように使用する傾向があり、AIの特性を十分に理解し活用できていませんでした。これは、AIツールの効果的な使用方法に関する適切な教育・訓練の必要性を示唆しています。
効果的な協働モデルの構築には、単にAIツールを提供するだけでなく、医療従事者がそれらを適切に活用できるようになるための体系的なトレーニングプログラムの開発が必要です。AIは医療従事者の判断を補完し、支援するツールとして位置づけられるべきであり、その効果的な活用方法を確立することが今後の重要な課題となっています。
この課題に対しては、医療現場での実際の使用例を基にした具体的なトレーニングプログラムの開発や、AIツールの使用方法に関するベストプラクティスの確立が必要です。また、医療従事者とAIの役割分担を明確にし、それぞれの強みを活かした効果的な協働モデルを構築していく必要があります。