※本記事は、2024年11月14日に開催されたGLOCOM六本木会議オンライン#88「AlphaFoldが拓いた次世代の創薬・生命科学」の内容を基に作成されています。本セッションは、Zoomウェビナーとして配信され、約80名のリモート参加者が視聴しました。セミナーの詳細情報は https://www.youtube.com/watch?v=X0E8FkuyDXk でご覧いただけます。本記事では、セミナーの内容を要約しております。
登壇者プロフィール: ・大上雅史氏(東京科学大学 情報理工学院 准教授) 情報科学を専門とし、タンパク質構造データを扱う研究に長年従事。2014年に東京工業大学で博士(工学)を取得後、同大学助教を経て、2024年1月より准教授に就任。同年10月の大学統合により現職。日本学術振興会育志賞、科学技術分野の文部科学大臣表彰若手科学者賞など多数受賞。日本バイオインフォマティクス学会理事などを兼務。 ・前川徹氏(東京通信大学 情報マネジメント学部 教授/GLOCOM主幹研究員) 1978年通商産業省入省後、JETRO NYセンター、IPAセキュリティセンター、早稲田大学大学院など要職を歴任。2018年4月より現職。一般社団法人コンピュータソフトウェア協会専務理事、国際大学GLOCOM所長なども兼務。
なお、本記事の内容は講演者の大上氏の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講演映像をご視聴いただくことをお勧めいたします。
1. 創薬の現状と課題
1.1. 創薬開発の時間とコストの課題
創薬開発には莫大な時間とコストがかかることが大きな課題となっています。私の研究分野では、1つの薬剤が世の中に出るまでに数年の期間と数千億円規模のコストが必要とされることがよく知られています。この数値は集計方法によって変動することがありますが、成功確率は約13万分の1という極めて低い確率であることも指摘されています。
特に深刻な問題は、臨床試験段階での失敗です。例えば、臨床試験に進んだ後に予期せぬ副作用が発見されたり、プラセボ群と比較して十分な効果が認められなかったりして開発が中止になった場合、それまでにかけた膨大な投資が無駄になってしまいます。
このような状況を改善するためには、できるだけ早期のステージで、確実に成功が見込める化合物を選び出すことが重要です。また、臨床試験に耐えうる化合物をあらかじめ適切にデザインできることが望ましいわけです。理想的には、計算機を用いて早期段階で「これなら間違いなく100%成功する」という化合物を特定できれば素晴らしいのですが、これは実際には簡単な話ではありません。しかし、そのような未来を目指して、我々は早期ステージでできるだけ有望な化合物を見出し、世に送り出していきたいと考えています。
これらの課題に対して、情報科学技術やAIの活用により、より効率的な創薬プロセスの実現を目指しています。ただし、これは物語としての理想論ではなく、実際の課題解決に向けた具体的なアプローチとして取り組んでいます。
1.2. 多様化する創薬モダリティ
近年、特にここ10年から20年の間に、創薬のモダリティ(薬剤の種類)は大きく多様化してきています。従来は低分子薬品が主流でしたが、現在では抗体医薬品が著名になり、またペプチド医薬品も近年かなり注目されています。さらに、低分子薬品でも従来とは異なるメカニズムを持つ新しいタイプの薬剤も開発されています。
このようなモダリティの多様化は、治療を受ける患者さんの視点からは非常に喜ばしいことです。なぜなら、自分の病気に対して複数の治療選択肢が生まれ、治療の可能性が広がるからです。様々なパターンの治療法を試すことで、治癒の可能性が高まることが期待できます。
一方で、開発する側の視点からは、これらの多様なモダリティそれぞれに対応する開発体制を整えていく必要があり、より一層の努力が求められています。各モダリティに対して個別の投資が必要となり、開発にかかる手間も増加しています。例えば、ある疾患に対して抗体医薬が有効かもしれないという可能性に投資をした結果、実際に良い成果が得られるかどうかは開発を進めてみないとわかりません。
このように、医薬品業界では「モダリティ」と呼ばれる様々な種類の分子に対応できる情報科学技術、特にAIの活用が重要になってきています。これらの技術が創薬の効率化に貢献し、多様なモダリティの開発を支援することができれば、創薬開発全体の効率化につながることが期待されています。
1.3. 情報科学技術による効率化の可能性
まず、私のバックグラウンドについて説明させていただきますと、私は情報科学、いわゆるコンピューターサイエンスの研究者です。生物学や化学、創薬、医療といった分野は専門ではありませんが、一貫してプログラミングと情報科学の研究に従事してきました。タンパク質構造に関するデータを扱う研究を長年行ってきたことで、今回のノーベル賞のテーマとなったタンパク質構造予測の分野に携わることになりました。
情報科学技術、特にAIを活用することで、創薬開発プロセスの効率化が期待されています。例えば、薬剤候補となる化合物を早期段階でスクリーニングし、成功の可能性が高いものを選別することができれば、開発コストと時間の大幅な削減につながります。
実際の創薬現場では、ChatGPTのような大規模言語モデルに「新型コロナの薬が欲しい」と尋ねて即座に回答が得られるような単純な話ではありません。しかし、現在のLLM(大規模言語モデル)技術の発展や、AIによる分子設計技術の進歩を考えると、もはやこれは夢物語ではなくなってきています。
10年後か20年後かは明確には言えませんが、近い将来には、AIを活用した効率的な創薬開発プロセスが実現する可能性が十分にあると考えています。ただし、これはAIに全てを任せるのではなく、研究者の専門知識や経験と、AIによる予測・評価を組み合わせることで、より効果的な創薬開発が可能になると期待しています。
2. タンパク質立体構造予測の進展
2.1. 実験的構造解析の重要性と限界
タンパク質の立体構造は、基本的に原子の3次元座標として表現されます。この構造を明らかにするためには、従来から実験的な解析が不可欠でした。主に顕微鏡などを用いて、原子の位置関係を明らかにする構造生物学という分野で、様々な実験手法が開発・活用されてきました。
我が国でも、「タンパク3000」や「ターゲットタンパク」などの国家プロジェクトが実施され、多くの構造生物学研究者が様々なタンパク質の構造解明に尽力してきました。現在も放射光施設の整備や、構造データの国際的な管理を行う研究機関の設立など、日本は世界的な貢献を続けています。
特筆すべき点として、世界的な取り決めにより、タンパク質構造の論文を発表する際には、必ずその構造データを公開することが義務付けられています。この仕組みは、後のAlphaFoldのような人工知能の誕生にも大きく貢献することとなりました。私たちはこのような公開データを自由に使用できる環境に、大変感謝しています。
タンパク質の立体構造が分かると、その形状から機能を推定したり、既知のタンパク質との比較により類似の機能を持つ可能性を推測したりすることができます。また、薬剤設計にも活用できます。例えば、インフルエンザウイルスのノイラミニダーゼというタンパク質の構造情報から、タミフルやリレンザといった実際の薬剤が開発されました。また、肺がんの抗がん剤イレサについても、標的となるEGFRタンパク質との相互作用を立体構造上で理解することで、なぜある遺伝的変異を持つ人ではイレサが効きにくくなるのかといった議論が可能になりました。
このように、実験的な構造解析は創薬において非常に重要な役割を果たしてきましたが、時間とコストがかかるという制約があり、より効率的な構造予測手法の開発が求められてきました。
2.2. AlphaFold以前の構造予測手法
実験による構造解析に依存しない予測手法として、タンパク質の立体構造予測が従来から研究されてきました。タンパク質はアミノ酸配列という文字列で表現されますが、この文字列から立体構造を予測することが課題となっていました。
以前から、タンパク質研究者たちの間で経験則として、「配列が似ていれば形も似ている」という知見が確立されていました。例えば、ある配列の一文字が別の文字に置き換わっただけでは、全体の形状はほとんど変化しません。さらに、全体の配列を見たときに40%程度の一致があれば、残りの60%が異なっていても、大体同じ構造を取ることが知られていました。
この知見は分子進化やゲノムの進化と深く関連しており、進化的に親戚関係にある「相同性」と呼ばれる概念と結びついています。そのため、もし類縁の配列が見つかれば、その構造を参考にして予測を行うことができます。これが「ホモロジーモデリング法」と呼ばれる手法です。ただし、この方法は親戚となる配列が見つからない場合には使用できないという制限がありました。
また、タンパク質には特徴的な二次構造として、αヘリックスやβシートと呼ばれる構造が存在します。これらの二次構造は比較的予測が容易であることが分かっていたため、立体構造全体の予測が難しい場合でも、二次構造の予測は広く行われていました。さらに、天然変性領域(構造を取らない部分)の予測や、空間的に近接するアミノ酸残基の予測なども行われていました。
これらの予測技術は、いわば「モンタージュ写真」のように、部分的な情報から全体像を推測するアプローチでした。2020年以前は、このような手法が主流でしたが、精度には限界があり、より正確な予測手法の開発が求められていました。
2.3. AlphaFold2の革新性
2020年に登場したAlphaFold2は、タンパク質の立体構造予測の分野に革命的な進展をもたらしました。このツールは、DeepMindのDemis HassabisとJohn Jumperたちによって開発され、2024年のノーベル化学賞の対象となりました。
AlphaFold2は単に人工知能技術を応用しただけでなく、過去の生物物理学的な知見を効果的に束ねた点が特筆すべき革新でした。実際、タンパク質の細部に至るまでの構造を、それ以前には考えられなかったような高精度で予測することに成功しました。これは、Transformerをはじめとする深層学習技術によって、生物物理学や進化生物学から得られた多くの知見が効果的に統合された結果です。
なお、このような立体構造予測の精度を評価する国際的な取り組みとして、30年前から2年に1回のペースでタンパク質構造予測のコンペティション(CASP)が開催されています。2020年までは、立体構造予測の難しさから、コンタクトマップ(アミノ酸残基間の近接関係)や二次構造、天然変性領域の予測が主な課題でした。しかし、AlphaFold2の登場により、より困難な課題である多量体(複数のタンパク質)の構造予測や、他の分子との複合体状態の構造予測など、より高度な予測課題へと焦点が移っています。
これは、AlphaFold2が実現した高精度な構造予測が、タンパク質研究における新たな可能性を切り開いたことを示しています。今年(2024年)は第16回目のコンペティションが開催され、来月に結果発表を控えていますが、こうした継続的な技術評価を通じて、構造予測技術の更なる発展が期待されています。
2.4. タンパク質複合体予測への応用と検証
タンパク質複合体の予測は、特に注目すべき進展を見せています。例えば、EGFRという癌の増殖に関わるタンパク質の場合、シグナル伝達の過程で、Rasタンパク質やRafタンパク質、MEKタンパク質など、様々なタンパク質が相互作用します。これらのタンパク質は単独で機能するだけでなく、他のタンパク質と協調して働く側面があり、このタンパク質間相互作用(PPI)の理解が生命科学の重要な課題となっています。
AlphaFold2は当初、単体のタンパク質構造予測用のプログラムでしたが、興味深い発見がありました。2つのタンパク質配列を無理やりつなげて入力すると、複合体も予測できるのではないかという議論が広がったのです。最初にこの試みを行ったのは東京科学大学の森脇先生で、2つのタンパク質配列を特殊な文字でつないで入力すると、その連結部分が紐のようになり、2つのタンパク質が適切な位置で結合した状態を予測できることを示しました。実験で既に明らかになっていた構造と比較すると、予測された構造が非常によく一致していたのです。
これを受けて、DeepMind社も複合体予測の可能性に気づき、複合体専用に学習し直したAlphaFold2-Multimer modelを開発しました。現在では、複数のタンパク質が結合した複合体の構造予測が可能となり、複合体の機能理解や相互作用の解析に活用されています。
しかし、予測の信頼性評価には課題があります。例えば、実際には相互作用しないことが分かっている2つのタンパク質をAlphaFoldに入力した場合でも、ソフトウェアは何らかの構造を出力してしまいます。そこで私たちは、AlphaFoldの出力構造が本物らしいのか、偽物らしいのかを判別するAIを開発しました。コンボリューションニューラルネットワークを活用したこのAIは、過去の様々なプログラムと比較して世界トップレベルの判別精度を達成しています。
このように、AlphaFoldによる構造予測から、その予測の信頼性を別のAIで評価するという二段階のアプローチが、より信頼性の高い複合体構造予測を可能にしています。
3. AlphaFold3の展開
3.1. アミノ酸以外の分子への対応
AlphaFold2の後、多くの研究者が日常的にこの技術を利用するようになり、RosettaFoldなどの類似技術や、ESMfoldのようなタンパク質言語モデル(ChatGPTのGPTのタンパク質版のような技術)による高速化の試みも行われてきました。しかし、これらの技術にはアミノ酸配列で表せない分子には対応できないという制限がありました。
この制限を解決したのが、2024年5月に登場したAlphaFold3です。これは、DeepMindとIsomorphic Labsが共同開発したもので、アミノ酸以外の分子への対応を実現しました。具体的には、RNAなどの核酸分子や、様々な低分子化合物、さらには金属イオンなどとの複合体構造も予測できるようになりました。
実は、こうしたアミノ酸以外の分子への対応は、ノーベル賞を受賞したDavid Baker研究室を含め、多くの研究グループが2020年から取り組んできた課題でした。DeepMindも2023年から開発を進めており、その成果としてAlphaFold3が登場しました。同時期に、David Bakerたちも「RosettaFold All-Atom」という同様の技術を公開しています。
このように、ノーベル賞の対象となったAlphaFold2の時代からすでに次の世代へと技術が進化しています。特にAlphaFold3は、これまでアミノ酸配列のみで表現されていた予測の範囲を大きく広げ、より複雑な生体分子システムの予測を可能にしました。これは創薬研究において、より現実的な分子間相互作用の予測や、より広範な薬剤設計の可能性を開くものとして期待されています。
3.2. 予測精度の検証と限界
私たちの検証によると、AlphaFold3は確かに素晴らしい予測能力を示す一方で、完璧ではないことも明らかになってきました。私たちが独自に行った検証では、例えば、タンパク質とリガンド(低分子化合物)の複合体予測において、極めて精度の高い予測ができるケースが確認されています。緑色で示された正解構造とピンク色で示された予測構造を比較すると、リガンドの位置や周辺のタンパク質構造が非常に良く一致する例が見られました。
しかし、一方で予測が上手くいかないケースも存在します。例えば、ある事例では、本来タンパク質のポケット部分に結合するはずの薬剤が、予測では脇に寄ってしまうような結果が得られました。このように、ケースバイケースで予測精度にばらつきが見られることが分かっています。
論文等で報告されているデータを見る限り、平均的には良好な予測結果が得られることが示唆されていますが、実際の応用においては注意が必要です。特に重要なのは、予測結果が本物か偽物かをどのように判断するかという問題です。例えば、正解構造を知らない状態で予測を行った場合、その結果をどのように評価すべきか、信じるべきか否かの判断は、現状では研究者の経験に大きく依存します。
このような状況を踏まえると、AlphaFold3を含むAIによる構造予測技術を活用する際には、人間側にも知識と経験が必要とされます。例えば、予測された構造がタンパク質の性質から見て妥当かどうかを判断できる能力や、予測結果の限界を理解した上で適切に活用する判断力が、これからの生命科学研究には重要になってくると考えています。
3.3. 拡散モデルの活用
AlphaFold3の開発において、特に注目すべき革新がディフュージョンモジュール(拡散モデル)の導入です。これは、Stable Diffusionなどの画像生成AIに使われているものと同様の技術です。基本的にはAlphaFold2とあまり変わらない構造を持っていますが、アミノ酸以外の分子に対応するために、この拡散モデルを効果的に活用しています。
拡散モデルの具体的な仕組みとしては、全ての原子がランダムな状態(ガウス拡散)から始まり、そこから徐々に構造を復元していく過程を学習します。つまり、ランダムな原子の塊から、意味のある立体構造へと段階的に精密化していくプロセスを実現しています。この手法により、タンパク質だけでなく、RNAや低分子化合物、金属イオンなど、様々な種類の分子を含む複合体の構造予測が可能になりました。
この技術の特徴は、原子座標の段階的な精密化にあります。ランダムなノイズから始めて、少しずつ目的の構造に近づけていくアプローチは、従来の予測手法とは異なる新しい方向性を示しています。DeepMindが公開している動画でも、このプロセスを視覚的に確認することができ、分子が徐々に整った構造へと変化していく様子が示されています。
しかし、この拡散モデルを用いた予測にも適用限界があることを理解しておく必要があります。予測ツールはあくまでも予測であり、現実の分子の振る舞いとは異なる可能性があります。そのため、予測結果を検証し、実験的な確認を行うことが依然として重要です。
3.4. オープンソース化への動き
AlphaFold3は2024年5月に公開されましたが、当初はサーバーでしか動作せず、自分の好きな薬剤分子を入力できないなど、使用に制限がありました。このような制限により、製薬企業などが自由に使用することが難しい状況でした。
これに対して、第三者がAlphaFold3の論文を読んで再実装する動きが活発化しています。例えば、中国の検索エンジー大手のBaiduや、Lingo Biosciences、Cadiscovery、そしてTikTokで知られるByteDANceなどの企業が、AlphaFold3の独自実装に取り組んでいます。これは、大手ITやビッグテック企業が生命科学分野に強い関心を持っていることを示す興味深い現象だと考えています。
最近では、AlphaFold3のコードも公開されましたが、依然として一部に制限が残っており、製薬企業が自由に使用するには課題が残っています。しかし、この状況を改善する動きもあり、Open Fold Consortiumという別団体が、AlphaFold3の完全オープンソース版を年末までに公開すると2024年11月11日付のNatureのニュースで報告されています。
このように、AlphaFold3の技術は、単一の組織による独占的な開発から、コミュニティ主導の開放的な開発へと移行しつつあります。これにより、より多くの研究者や企業が技術を利用し、改良できるようになることが期待されています。
4. 創薬への応用展開
4.1. ペプチド設計への活用
AlphaFoldを活用したペプチド設計について、私たちは興味深い発見をしています。タンパク質に結合するペプチドを設計する際、理論的にはすべての可能性を試せば最適な配列が見つかるはずです。しかし、ペプチドが10残基の場合、20種類のアミノ酸の組み合わせで2010通りもの可能性があり、すべてを試すことは現実的ではありません。そのため、より効率的な方法が必要でした。
この課題に対して、ノーベル賞を受賞したDavid Bakerたちが開発した「Deep Network Hallucination」という手法を応用しています。この手法では、ランダムな配列から始めて、目標とする立体構造との差分を計算し、徐々に目的の形状に近づけていきます。あまりにも目標から遠い場合は除外し、近づいてきた場合はその方向性を強化するというアプローチを取ります。
特に興味深い発見として、AlphaFoldのプログラムにおける「残基番号のトリック」があります。例えば、残基番号を1,2,3,4,3,0のように設定すると、1と0が隣接していると認識され、ペプチドが環状構造を取るように予測されます。これは環状化ペプチドの設計に活用できる重要な知見です。
しかし、AIによる設計には注意すべき点もあります。タンパク質とペプチドの結合部位は一般的に疎水性になりやすく、そのためAIが設計したペプチドも疎水性が高くなる傾向があります。これは実験上、水溶性の低下という問題を引き起こす可能性があります。そこで私たちは、水溶性を考慮した重み付けを設計プロセスに組み込むことで、より実用的なペプチド設計を可能にしました。これにより、結合に重要な残基を集中的に選択しながら、疎水性残基と親水性残基のバランスを取ることができるようになりました。
このような手法により、実験的に検証可能な、より実用的なペプチド設計が可能になってきています。
4.2. 抗体設計への応用
抗体医薬品の設計においても、AlphaFoldの技術を活用することが可能です。抗体もアミノ酸の配列で構成されているため、同様の予測手法が適用できます。特に抗原に結合する部分であるCDR(相補性決定領域)の設計が重要になります。この部分の配列を最適化することで、抗体の結合親和性を向上させることができます。
私たちの研究では、ペプチド設計で用いた手法と同様のアプローチを抗体設計にも適用しています。ただし、抗体の場合は単にAlphaFoldによる予測だけでなく、物理化学計算を組み合わせることでより良い結果が得られることが分かっています。
また、抗体設計においても深層学習の枠組みで配列を提案し、それを計算機上でシミュレーションして推定し、その結果を蓄積して更にトレーニングを重ねることで、より良い配列を生成するという手法を採用しています。これはいわゆるデザイン-ビルド-テスト(DBTL)サイクルの計算機内での再現と言えます。
このアプローチにより、より結合親和性の高い抗体の配列をデザインすることが可能になってきています。ただし、これはあくまでも計算機上での妄想の段階であり、実際の検証が必要不可欠です。しかし、このような計算機による設計支援は、抗体医薬品開発の効率化に大きく貢献する可能性を秘めています。
4.3. 分子シミュレーションとの組み合わせ
AIによる予測と並行して、物理科学的な計算、特に分子シミュレーションを組み合わせることが重要です。その代表的な手法として、自由エネルギー摂動法があります。この方法では、2つの化合物の結合の強さを比較するために、一方の化合物から他方の化合物へと少しずつ変換していきます。
計算機の中では、実験では実現不可能な「確率的なゴブゴブ状態」という中間状態を表現することができます。この仮想的な中間状態を経由して計算を行うことで、結合自由エネルギーを精度よく算出することが可能になります。
具体例として、私たちはある天然物ロカグラミドとその誘導体について、どちらがより強く結合するかを直接計算することに成功しました。ただし、この計算にも注意点があります。2つの分子の構造があまりにも異なる場合、中間状態の計算が不安定になってしまいます。
このような場合の解決策として、大きく異なる分子間の変換を、より小さな変化の組み合わせに分解する手法を開発しました。これにより、直接的な変換が難しい場合でも、複数の中間状態を経由することで安定した計算が可能になりました。
また、最近の研究ではAlphaFold3を活用した計算も進めており、実験構造を使用した場合と同程度の精度が得られる可能性が見えてきています。このように、AIによる構造予測と分子シミュレーションを組み合わせることで、創薬プロセスの効率化が期待できます。特に、創薬の初期段階での化合物スクリーニングにおいて、この組み合わせは非常に有効であると考えています。
4.4. 設計・検証サイクルの実現
設計・検証サイクルは、バイオ物質作りの分野でよく言及されるDBTL(Design-Build-Test-Learn)サイクルを計算機内で再現する試みです。抗体設計を例に取ると、深層学習の枠組みで配列を提案し、それを計算機上でシミュレーションして推定を行い、その結果を蓄積して更なるトレーニングを重ねることで、より良い配列を生成することができます。
このアプローチは、抗体の場合、単にAIによる予測だけでなく、物理化学計算も組み合わせることでより良い結果が得られることが分かっています。例えば、ある抗体に対してより良い配列が存在する可能性を探索する際、計算機内でこのサイクルを回すことで、様々な候補を効率的に評価することができます。
ただし、これはあくまでも計算機上での「妄想」の段階であり、実験による検証が不可欠です。そのため、実験データとの照合を行いながら、予測モデルを継続的に改善していく必要があります。私たちの研究室では、製薬企業との共同研究や、実際のウェットな実験を行う研究者との協力を通じて、この設計・検証サイクルの実用化を進めています。
これらの研究を進める上では、計算機のパワーが重要な要素となります。特にGPUの大量使用が必要とされ、私たちの東京科学大学でも「TSUBAME」というスーパーコンピューターを活用しています。最近のトレンドとして、自然言語処理やコンピュータービジョンと同様に、生命科学分野でもGPUによる計算が不可欠になってきています。このような計算資源を効果的に活用しながら、設計・検証サイクルの精度と効率を向上させていくことが重要だと考えています。
5. 今後の展望と課題
5.1. 多様なモダリティへの対応
構造予測技術は、当初のタンパク質単体の予測から、複合体予測、さらにはRNA等の核酸分子や低分子化合物との相互作用予測へと発展してきました。これらの技術は、様々なモダリティを扱う解決策として有望です。しかし、創薬や生命科学の領域には、まだまだ取り組むべき予測タスクが数多く存在しています。
例えば、薬剤の血液脳関門の通過可能性を100%予測することは現状では不可能です。また、分子グルー(ある分子と別の分子をくっつける)のような新しいモダリティの設計も、まだ難しい課題として残っています。
そのため、私たちには新しいことができるようにする、つまり新しい予測・設計のための道具を作ることが求められています。生命科学におけるデータサイエンスは確かに発展してきましたが、シミュレーションでなければできないことも依然として多く存在しています。
特に最近の流れとして、データサイエンスとシミュレーションを駆使する総合格闘技的なアプローチが生命科学・創薬分野で進んでいることを強く感じています。このような多面的なアプローチにより、より複雑な分子システムの理解と制御が可能になってきており、今後もこの方向での発展が期待されます。
より良い創薬を実現するためには、このような新しいモダリティへの対応と、異種分子間の相互作用の理解を深めていくことが不可欠だと考えています。
5.2. データサイエンスとシミュレーションの融合
現在の生命科学、創薬分野では、データサイエンスとシミュレーションを駆使する総合格闘技的なアプローチが進んでいます。データサイエンスは確かに発展してきていますが、一方でシミュレーションでなければできないことも多く存在します。そのため、これら2つのアプローチを効果的に組み合わせることが重要になってきています。
例えば、私たちの研究では、AIによる予測とシミュレーションを組み合わせることで、より精度の高い結果が得られることを確認しています。特に、AlphaFold3のような構造予測技術と分子動力学シミュレーションを組み合わせることで、単独の手法では得られない知見を得ることができます。
このようなハイブリッドアプローチを実現する上で、計算資源の効率的な活用が重要な課題となっています。私たちの東京科学大学でも、TSUBAMEスーパーコンピューターを活用していますが、特にGPUの大量使用が必要不可欠です。自然言語処理やコンピュータービジョンと同様に、生命科学分野でもGPUによる計算が標準的になってきており、計算資源の効率的な活用がますます重要になってきています。
このように、機械学習と物理シミュレーションを融合させた新しいアプローチは、創薬研究の効率化に大きく貢献する可能性を秘めていますが、そのためには適切な計算資源の確保と効率的な活用が不可欠です。
5.3. 細胞環境を考慮した予測の必要性
In vitroレベルのシミュレーションだけでは、実際の生体内での振る舞いを完全に再現することは困難です。これは、様々な周囲の環境要因の影響が考慮されていないためです。例えば、細胞内には多くの分子が存在し、それらの存在が予測対象の分子の振る舞いに大きな影響を与える可能性があります。
特に問題となるのが、In vitroとIn vivoでの挙動の違いです。実験室での試験管内の実験(In vitro)と、実際の生体内(In vivo)では、分子の振る舞いが大きく異なることがあります。この差異を予測することは現状では非常に難しい課題となっています。なぜなら、細胞内では様々な分子が高密度で存在し、それらが複雑に相互作用しているからです。
また、私たちの検証では、均一な環境でのデータは比較的多く得られていますが、細胞内の複合環境での測定データは非常に限られていることも分かっています。今後、そういった細胞内の複合環境で測定したデータが増えてくれば、より実際の生体内の状況に近い予測が可能になるのではないかと期待しています。
このように、現状のモデルをより実用的なものにするためには、細胞内環境の影響や周辺分子との相互作用を考慮した予測手法の開発が不可欠です。これは単にAIモデルの精度を上げるだけでなく、生物学的な知見と組み合わせた総合的なアプローチが必要となる課題だと考えています。
5.4. 個人のゲノム差異への対応可能性
今後のAlphaFoldの発展において、個人のゲノムの違いがタンパク質構造にどのように影響するかを予測することが重要な課題となってくると考えています。私たちのゲノムには個人差があり、その違いによって病気になりやすさが異なってきます。この遺伝的な違いがタンパク質側でどのような構造の違いを生むのかを理解することは、今後の医療にとって極めて重要です。
しかし、現状のAlphaFoldの予測は、「似たもの同士は大体同じ」という大雑把な原理に基づいているため、配列の細かな違いがもたらす構造変化を正確に捉えることが難しい状況です。このような個人のゲノムの違いによる影響を精密に予測できるようになれば、パーソナライズド医療への応用も期待できます。
これは今後のAlphaFoldの開発において重要な課題の一つになると考えられ、次のバージョンでは、このような細かな違いもうまく検出できるような手法の開発が望まれます。このように、より精密な構造予測技術の開発は、個別化医療の実現に向けた重要な一歩となるでしょう。