※本記事は、Tanya Berger-Wolf教授によるKDD2024基調講演「AI for Nature: From Science to Impact」の内容を要約・構造化したものです。原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性があります。正確な情報については、ACM(Association for Computing Machinery)のオリジナルの講演記録をご参照ください。ACMは、約10万人のメンバーを持つ世界最大のコンピューティング教育・科学協会であり、コンピューティングを科学と職業として発展させることに専念しています。 本講演はKDD2024(The ACM SIGKDD Conference on Knowledge Discovery and Data Mining)で発表されました。詳細な情報や完全な文脈については、オリジナルの講演映像をご視聴いただくことをお勧めいたします。
Berger-Wolf教授は、オハイオ州立大学のコンピュータサイエンス工学、電気・コンピュータ工学、進化・生態学・生物学の教授であり、同大学のTranslational Data Analytics Instituteのディレクターを務めています。計算生態学者として、米国国立科学財団が支援するImageomics InstituteとAI for Biodiversity Change (ABC) Global Climate Centerを主導しています。また、Wild Me(現Conservation X Labs)の共同創設者として、UNESCOが選ぶ国連持続可能な開発目標を支援する世界の100のAIプロジェクトの一つであるWildbookプロジェクトにも携わっています。
1. イントロダクション
1.1. AIと自然科学の関係性
私が今日お話しするのは、AIを自然科学、特に生物多様性の研究と保全に応用する非常に異なるアプローチについてです。まず始めに、ここで私が「我々」と言う時、それは実際には「彼ら」、つまりこの分野の交差点で働く、非常に活発で情熱的で献身的なグローバルなコミュニティを指しています。これは大きなグループではありませんが、だからこそ私はこの講演を通じて、このコミュニティが成長することを期待しています。
私の研究は、自然に関するデータを得るための最も基本的なところから始まります。コンピューティングとAIを特に活用して、エコロジーの科学と保全のためのより多くのデータを取得する方法を探求しています。そして、これらのデータを計算可能な抽象化と定義に変換し、ネットワークやグラフなどの構造化オブジェクトとしてデータを定義する方法を研究しています。
特に重要なのは、エコロジーや野生生物学、生物多様性科学の科学分野内で検証可能な仮説を生成するために、AIを使って質問できるような方法でデータと問題を定式化することです。そして、これらの抽象的な定義からパターンを抽出し、最初に提起した科学的な問いに答え、生物多様性と保全に影響を与えることができるような方法で解析を行っています。
この研究アプローチは、科学的発見から実際の影響まで、広範な範囲をカバーしています。今日は、科学と影響の両面から、いくつかの具体的な例を紹介させていただきます。AIと科学を組み合わせることで、これまで人間の限界によって見えなかった自然界の新しい側面を発見し、理解することが可能になってきているのです。
これは単なる技術の適用ではなく、自然界の理解を深め、その保全に貢献する新しい科学的アプローチの確立を目指すものです。従来の研究手法とAIを補完的に組み合わせることで、より包括的で効果的な自然科学研究が可能になると考えています。
1.2. なぜAIを科学に活用するのか
なぜAIを科学に活用するのかという問いに対して、私はアンリ・パンカレの言葉を引用して説明したいと思います。パンカレは「科学と方法」という素晴らしい著書の中で、科学的方法の本質について語っています。その中で彼は、科学者に無限の時間があれば、「注意深く観察すること」だけで十分だと述べています。
しかし、現実には科学者には全てを観察し、特に注意深く観察するための十分な時間がありません。さらに重要なのは、不注意な観察は、まったく観察しないよりも悪い結果をもたらす可能性があるということです。これは私が学生たちにいつも伝えていることでもあります。
そのため、科学者は必然的に「選択」を強いられます。この選択の問題こそが、優れた科学の本質なのです。つまり、何を観察するのか、どのように注意深く観察するのかという選択が重要になります。
私の見解では、テクノロジーやコンピューティング、そしてAIは、科学的方法や科学的プロセスそのものを変えるものではありません。むしろ、これらの技術は、より多くのものをより注意深く観察することを可能にし、その過程で不可視だったものを可視化する手段を提供するのです。
人類は何世紀にもわたって、自然界を観察し、記録することで理解を深めてきました。ダーウィンのフィンチからジェーン・グドールの霊長類研究に至るまで、観察は常に科学の中心にありました。技術の進歩は、顕微鏡から衛星に至るまで、より細かなスケールやグローバルなスケールで、より多くのものを観察することを可能にしてきました。
現在、私たちは技術の爆発的な進歩により、自然界に関する膨大なデータを得ることができる特別な時代に生きています。これまで人類が観察できなかった多くのものを観察できるようになりました。これは、人間の観察能力の限界を超えて、新しい科学的発見の可能性を広げるものです。そして、AIはこの新しい観察・分析の可能性をさらに拡大する重要なツールとなっているのです。
1.3. パナレの科学的方法論の引用と現代的解釈
先ほど言及したパンカレの「科学と方法」からの引用をより詳しく解説したいと思います。パンカレは、科学的方法の本質について非常に重要な指摘をしています。彼は、科学者が無限の時間を持っているならば、「見なさい、そして注意深く見なさい」という指示だけで十分だと述べています。
しかし、科学者には全てを見る時間がなく、特に注意深く見る時間が限られています。そして、不注意に見るよりは、まったく見ないほうがましなのです。このため、科学者は必然的に選択を迫られます。この選択の問題こそが、優れた科学の核心部分となります。具体的には、何を観察するのか、どのように観察するのかという選択が極めて重要になってきます。
私が特に強調したいのは、テクノロジーやコンピューティング、そしてAIが果たす役割です。これらは科学的方法やプロセスそのものを変えるものではありません。むしろ、より多くのものをより注意深く観察することを可能にし、その過程で不可視だったものを可視化する手段を提供するのです。
人類は何世紀にもわたって、自然界を観察し記録することで理解を深めてきました。これは最も初期の観察記録から、ダーウィンのフィンチの研究、ジェーン・グドールの霊長類研究に至るまで続いています。そして現代では、最新の技術を駆使した観察・記録方法へと発展しています。
技術の進歩は、顕微鏡から衛星に至るまで、より細かなスケールやグローバルなスケールで、より多くのものを観察することを可能にしてきました。過去20年間の技術の爆発的な進歩により、私たちは自然界に関する膨大なデータを得ることができるようになり、これまでに観察できなかった多くのものを観察できるようになりました。
AIは、この観察と実験の新しい次元を開くツールとして機能します。それは単なる観察の自動化ではなく、人間の認知能力を超えたパターンの発見や、大規模なデータセットからの知見の抽出を可能にします。これにより、パンカレが提唱した「注意深い観察」を、人間の能力の限界を超えて拡張することが可能になっているのです。
2. 生物多様性データの現状と課題
2.1. データ収集技術の進歩
私たちは今、技術の爆発的な進歩により、自然界に関する膨大なデータを収集できる特別な時代に生きています。過去20年間で、自然界を観察・記録する技術は劇的に進化し、これまでになく多くの情報を得ることが可能になりました。
まず、衛星やリモートセンシング技術の発展により、地球規模での生態系の観測が可能になりました。また、地上や水中、空中で活動する自律走行車両の開発により、人間が直接アクセスすることが困難な環境でのデータ収集も実現しています。
さらに、生物の体に装着するセンサー技術も格段に進歩しました。これらのセンサーは、GPSによる位置情報だけでなく、心拍数や、近くにいる他の個体との相互作用、さらには頭部や手足の動きまでも記録することができます。
特に注目すべき技術として、モーションセンサーで作動するカメラ(通称:トレイルカメラやカメラトラップ)があります。これらは野生動物の行動を記録する上で革新的なツールとなっています。また、音響センサーの発展により、生物の発する音声データの収集も可能になりました。
実は、皆さんも気づかないうちに生物多様性データの収集に貢献しているかもしれません。ここで会場の皆さんに質問させていただきましたが、過去1週間で生物の写真を撮影した人はどれくらいいるでしょうか?実は、人間も生物であることを考えると、自分の写真を撮った人も含まれます。さらに、風景写真に写り込む草木や昆虫なども、私たちが気づかないうちに記録している生物データなのです。
最近では、環境DNAの分析技術も発展し、特定の環境に存在する生物種を、直接観察することなく特定することも可能になってきました。このように、技術の進歩により、私たちは自然界をこれまでにない詳細さと規模で観察できるようになっています。
しかし、これらの技術的進歩が即座にデータの問題を解決するわけではありません。むしろ、新たな課題も浮かび上がってきています。これらの技術をどのように効果的に活用し、得られたデータをいかに意味のある形で解析するかが、現在の重要な課題となっているのです。
2.2. データの地理的・社会経済的バイアス
このように技術は進歩していますが、生物多様性データには深刻な偏りが存在します。世界の生物多様性のヒートマップと、実際に収集されているデータの分布を比較してみると、その問題は明らかです。
Global Biodiversity Information Facility(GBIF)の公式な生物多様性データの分布図を見ると、驚くべきことに、生物多様性のホットスポットである地域において、むしろデータが最も少ないという逆説的な状況が見られます。この問題は、世界最大の市民科学プラットフォームであるiNaturalistのデータ(1億3千万以上の観測記録)においても同様のパターンが見られ、データは主に北米と西ヨーロッパに集中しています。
鳥類の観察記録プラットフォームであるeBirdでも同様の傾向が見られますが、さらに深刻な偏りがあります。このバイアスは地域間の格差だけでなく、各地域内でもより複雑な構造を持っています。データは都市部に集中し、都市から離れた地域ではデータが極端に少なくなります。さらに都市部の中でも、特定の地域に偏在しています。
特に注目すべき点は、観測記録数が社会経済的要因と強い相関を持っているということです。つまり、自然の分布とは無関係に、データの豊富さは地域の経済状況や社会的条件によって決定されているのです。これは、私たちが自然界の非常に限られた部分についてのみ、詳細な情報を持っているということを意味します。
このデータの偏りは、単なる地理的な問題ではありません。それは、私たちの生物多様性に関する理解そのものに影響を与え、保全活動の方向性にも大きな影響を及ぼしています。多くの生物多様性のホットスポットや、保全の優先度が高い地域において、基礎的なデータすら十分に得られていない現状は、早急に対処すべき課題です。
このバイアスを認識し、それを補正する方法を開発することは、生物多様性研究における重要な課題の一つとなっています。特に、AIを活用してデータの少ない地域での予測モデルを構築したり、限られたデータからより多くの情報を抽出する手法の開発が求められています。
2.3. 全世界の種の推定数と既知種
ここで、皆さんに衝撃的な数字をお伝えしたいと思います。世界に存在する生物種の総数について、クイズ形式で質問させていただきました。「動物、植物、菌類の種は全世界でどのくらい存在すると思いますか?」バクテリアは除外して考えてください。会場からは「数十億」「数兆」という声が上がりましたが、実際の推定数は驚くべきものです。
現在の科学的な推定では、世界の全生物種は約1000万種、最大でも1500万種程度だと考えられています。この数字は、私たちの予想をはるかに下回るものかもしれません。もちろん、この推定には誤差があるかもしれませんが、オーダーとしては2倍程度の違いはあるかもしれませんが、10倍というような大きな誤差はないと考えられています。
さらに注目すべきは、この1000万種のうち、現在までに名前が付けられ、科学的に記載された種は約200万種に過ぎないという事実です。残りの大部分はまだ未発見か、未記載の状態です。特に興味深いのは、未記載種の大部分が甲虫類だということです。ある生態学者の言葉を借りれば、「もし神が存在するなら、その神は甲虫に特別な愛着を持っているに違いない」というほど、甲虫の種の多様性は驚異的です。
この状況は、私たちが自然界について、実は非常に限られた知識しか持っていないことを示しています。特に昆虫類については、新しい土地で採取するたびに、おそらく新種を発見することになるでしょう。科学者たちは、種の同定について必ずしも常に確信が持てるわけではありません。
このデータギャップは、生物多様性の保全にとって重大な課題となっています。私たちは、まだ名前すら付けていない種を、既に失いつつあるかもしれないのです。生物多様性の損失のスピードは、新種の発見と記載のスピードを上回っているという現実は、私たちに早急な対応を迫っています。
この状況に対応するため、AIを活用した種の同定や分類の効率化、特に属レベルでの分類の自動化など、新しいアプローチが必要とされています。科学者と協力しながら、より効率的な種の同定と記載のプロセスを確立することが求められているのです。
3. IMX (Image-omics)の提案
3.1. 画像から生物学的情報を抽出する新分野
画像は、現在、自然界を含むあらゆる情報源の中で最も豊富なデータ形式となっています。過去10年間のコンピュータビジョンと機械学習の進歩により、画像データをより詳細に分析する能力は飛躍的に向上しました。今日では、比較的一般的な技術を用いて、画像中の対象物の検出や位置特定が可能になっています。
この状況を踏まえ、私たちは新しい科学分野として「Image-omics(IMX)」を提案します。IMXは、アメリカ国立科学財団(NSF)の支援を受けた研究機関であり、11の主要機関による中核的な科学者チームで構成されていますが、現在ではその範囲は当初のチームを超えて成長しています。
IMXの主な目的は、画像から直接的に生物学的情報、特に形質(trait)や表現型(phenotype)を抽出し、それらを機能(function)や遺伝型(genotype)に結びつけることです。これは、多くの意味で生物学における聖杯とも言える、表現型と遺伝型の関連付けを目指すものです。
現在、このような研究が可能になった理由は主に二つあります。一つ目は、様々なスペクトルや視点から撮影された生物の画像が大規模に収集されていることです。確かにバイアスは存在しますが、かつてない規模のデータが利用可能になっています。
二つ目は、これらの画像に関連付けられた豊富な補足情報の存在です。テキストデータ、地理空間情報、遺伝型データ、その他の分子情報など、画像以外の多様なデータが利用可能です。これにより、より多くの対象をより詳細に観察することが可能になっています。
さらに重要なのは、生物学が本質的に構造の科学であるということです。系統発生や進化系統樹、分類学など、生物学には多くの階層的構造が存在します。実際、分類学は大部分において生物を分類する科学であり、生物オントロジーの専門家たちは、タンパク質の機能から生態系に至るまで、様々なレベルでオントロジーを作成するための大規模な会議を開催しています。
IMXは、これらの生物学的構造を機械学習モデルのアーキテクチャに組み込むことで、より効果的な解析を可能にします。このアプローチにより、データのバイアスに対処し、限られたデータからより多くの情報を抽出することが可能になります。
このように、IMXは単なる画像解析ツールではなく、生物学の構造的理解と最新のAI技術を組み合わせた、新しい科学的アプローチを提供するものです。これにより、生物の形質や機能の理解を大きく進展させることが期待されています。
3.2. 分類学的構造を活用した機械学習
今日、一般的な機械学習手法の大半は、生物多様性の応用に関する文脈を全く考慮せずに開発されています。これは、機械学習手法の開発方法そのものに起因する問題です。典型的な機械学習手法の開発アプローチは、定型的なベンチマークを使用し、大規模データセットに対する精度などの非常に限られた評価指標を用いて、問題に依存しない手法を開発することに重点を置いています。
しかし、生物学、特に分類学には豊かな構造が存在します。生物学は本質的に構造の科学であり、系統発生や進化系統樹、分類学など、多くの階層的構造を持っています。実際、分類学は生物を分類する科学そのものであり、生物オントロジーの専門家たちは、タンパク質の機能から生態系に至るまで、様々なレベルでオントロジーを作成しています。
そこで私たちは、これらの構造を機械学習モデルのアーキテクチャに直接組み込むという、知識誘導型機械学習アプローチを採用しています。このアプローチは、Vipin KumarとG.Dasによって先駆的な研究が行われました。この手法により、バイアスのあるデータや、構造化が不十分なデータでも効果的に扱うことが可能になります。
具体的には、分類学的な知識を機械学習モデルに組み込むことで、以下の二つの重要な利点が得られます。第一に、データの不均衡や偏りに対してより頑健なモデルを構築することができます。第二に、モデルの出力をより解釈しやすくすることができます。
ドメインの構造を機械学習に注入することで、データが少ない領域や偏りのあるデータでも効果的に機能し、さらに結果の解釈も可能になります。この分類学的構造を活用した機械学習アプローチは、従来の機械学習手法では扱いが困難だった生物多様性の問題に対して、より効果的なソリューションを提供することができます。
このアプローチは、単なるデータ駆動型の手法ではなく、生物学の豊かな知識体系を活用した新しい形の機械学習の実現を目指すものです。これにより、生物多様性研究における機械学習の応用可能性を大きく広げることができると考えています。
3.3. BioClipファンデーションモデル
最も基本的な課題から取り組むため、私たちはまず生物の分類に着目しました。生命の樹(Tree of Life)のためのファンデーションモデルを構築するため、分類学の構造化された情報と生物学における種の定義を、大規模な画像コレクションと組み合わせました。
このBioClipファンデーションモデルの第一版では、約450,000種、1,000万枚の画像を使用しています。これは最初の試みであり、現在さらに大規模なモデルを構築中です。この規模は、世界の全既知種の約4分の1をカバーしています。
モデルはCLIPアーキテクチャをベースに、分類学の知識を組み込む形で拡張しています。このアプローチは、私たちの予想をはるかに超える素晴らしい成果を上げました。特に、ゼロショット学習やフューショット学習において優れた性能を示しています。また、互いによく似た種、特に擬態する種の識別においても高い性能を発揮しています。
さらに重要な特徴として、このモデルは種レベルだけでなく、属レベルや、より高次の分類学的階層でも分類が可能です。これは特に昆虫類、とりわけ甲虫の研究において重要です。なぜなら、甲虫のコレクションを採取する際、科学者たちは必ずしも種レベルでの同定ができるとは限らないからです。属レベルでの分類が可能であれば、科学者たちはより効率的に研究を進めることができます。
私たちはこのファンデーションモデルをベースに、すでに多くの下流タスクを開発しています。例えば、特定の形質の識別や、種間の類似性の分析などが可能になっています。現在、200万枚以上の画像を用いた次世代のファンデーションモデルを構築中であり、これはスミソニアン研究所、国立生態観測所、iNaturalistなど、多くのパートナーとの大規模な共同プロジェクトとなっています。
このモデルは、野生生物だけでなく、農業におけるデジタル化や、細胞レベルから景観レベルまで、幅広い応用が可能です。私たちの目標は、より偏りの少ない生物多様性データのソースを構築することであり、このモデルはその重要な一歩となっています。
4. 進化の可視化と仮説生成
4.1. 系統樹を活用した特徴の階層的エンコーディング
分類学的構造を活用した成功を踏まえ、私たちは異なる目的のために異なる構造を活用する可能性を探求しました。系統樹は、分類学的構造とは異なり、種の進化の歴史を符号化したものです。この系統発生的な情報を機械学習モデルに組み込むことで、新しい可能性が開けると考えました。
私たちは、系統樹を使用して画像の特徴を階層的にエンコードする手法を開発しました。このプロセスでは、画像の特徴だけでなく、潜在空間の特徴も系統樹によって導かれた方法でエンコードします。これにより、非常に深い進化の歴史から現在に至るまでの異なる階層レベルで特徴を捉えることが可能になりました。
エンコーダーを使用してこれらの特徴を潜在空間でエンコードすることで、私たちは「imum」と呼ぶものを作成します。これは、ある種のグループの系統発生の歴史に対応する表現です。この手法により、画像から直接的に進化の過程を追跡し、理解することが可能になります。
この階層的エンコーディングの特徴は、それが単なるデータの圧縮や表現ではなく、生物学的に意味のある方法で情報を構造化することです。例えば、ある特徴が進化の過程のどの段階で現れたのか、あるいはどのように変化してきたのかを追跡することが可能になります。
この手法の有効性は、合成進化シミュレーションを用いて検証しています。これにより、私たちが回復していると考える進化的特徴が、実際に意味のあるものであることを確認しています。特に最近の進化については、多くの自然史博物館が数百年前からの種のコレクションを保持しているため、私たちの仮説を直接検証することも可能です。
このアプローチにより、生物の形質の進化を時間軸に沿って理解し、視覚化することが可能になりました。これは単なる視覚化ツールではなく、生物進化の過程を理解し、新しい仮説を生成するための強力な手法となっています。
4.2. 祖先種の視覚化と仮説生成
私たちは、系統樹を活用した階層的エンコーディングの手法をさらに発展させ、デコーダーを用いて潜在空間から祖先種の候補を生成する手法を開発しました。この手法は、特定の種の祖先がどのように見えた可能性があるかを視覚化することを可能にします。
このアプローチでは、まず、現存する種の画像から得られた特徴を系統樹に基づいてエンコードします。そして、このエンコードされた情報をデコードすることで、任意の系統樹上の位置における祖先種の候補を生成することができます。これは単なる画像生成ではなく、進化の過程を考慮した生物学的に意味のある推定です。
現在、私たちはこの手法の妥当性を合成進化シミュレーションを用いて検証しています。これにより、私たちが回復していると考える進化的特徴が、実際に意味のあるものであることを確認しています。特に最近の進化については、世界中の自然史博物館が数百年前からの種のコレクションを保持しているため、私たちの仮説を直接検証することも可能です。
例えば、魚類における尾びれの形状変化など、特定の形質の進化を時間軸に沿って追跡することができます。このアプローチにより、融合した尾びれから分岐した尾びれへの進化や、頭部の形状の変化など、比較的離散的な形質の変化を検出することができました。
この手法の重要な特徴は、仮説生成と検証の両方を可能にすることです。生成された祖先種の候補は、遺伝子レベルの実験結果と照合することができ、また形態学的な化石記録とも比較することができます。これにより、進化の過程についての新しい仮説を立て、それを検証することが可能になります。
この研究は最近ECCVに採択され、公開されています。研究者たちは自身で進化をシミュレートし、検証を行うことができます。すでに、魚類のミノー種群における尾びれの分岐や頭部形状の変化など、実際の形質変化を再現できることが示されています。これらの成果は、私たちの手法が生物進化の理解に新しい視点をもたらす可能性を示しています。
4.3. 遺伝子レベルの実験との連携
私たちの開発した手法は、遺伝子レベルの実験との統合という新しい可能性を開いています。従来の遺伝子実験、特に遺伝子ノックアウトや遺伝子スワッピングといった手法と同様の操作を、進化のレベルで実施することが可能になりました。
具体的には、imum(画像の潜在空間における進化的特徴の表現)の一部を操作することで、仮想的な進化実験を行うことができます。例えば、imumの特定の部分をノイズで置き換えたり(マスキング)、あるいは異なる種のimumの一部と入れ替えたり(スワッピング)することが可能です。この操作により、潜在空間における特徴を操作し、その結果として仮説的な種がどのように見えたかを生成することができます。
この手法は、祖先の突然変異や、祖先のゲノム変異が形態的特徴に与える影響を検証する手段を提供します。例えば、魚類における尾びれの形状変化について、融合した尾びれから分岐した尾びれへの進化過程を検証することができます。また、頭部の形状変化など、比較的離散的な形質の変化についても同様の分析が可能です。
この研究はECCVに採択され、研究者たちは自身でこれらの進化実験を実施し、検証を行うことができるようになっています。すでに、合成進化シミュレーションを用いた検証により、私たちが実際に回復していると考える特徴が、生物学的に意味のあるものであることが確認されています。
特に重要なのは、この手法が遺伝子レベルの実験と形態レベルの観察を橋渡しする可能性を持っていることです。実験室で行われる遺伝子操作実験の結果と、私たちの手法による予測を比較することで、進化過程についての新しい仮説を生成し、検証することが可能になります。
このアプローチにより、進化生物学における重要な課題の一つである、遺伝子型と表現型の関係をより深く理解することができると期待しています。現在、これらの手法を用いた研究を、実際のCRISPRによる遺伝子編集実験やゲノムワイド関連解析と並行して実施しており、両者の結果を比較検証しているところです。
5. 擬態研究での応用事例
5.1. Heliconius蝶の擬態パターン
私たちの開発した手法の具体的な応用例として、Heliconius蝶における擬態パターンの研究をご紹介します。これは自然界における擬態の古典的な例です。ここで見ていただいている画像には、2種類の蝶しか写っていません。赤い枠で囲まれているのがHeliconius erato、黄色い枠で囲まれているのがHeliconius melpomeneです。
注目していただきたいのは、それぞれの地域で、この2種がいかに類似した外見を持っているかということです。地域ごとに、ペアで互いに似た模様を持っています。実は、黄色い枠の種(H. melpomene)がH. eratoを模倣していると考えられていますが、その関係性は完全には解明されていません。
この擬態が進化した理由は、一方の種が鳥類にとって不味い味がするためです。鳥は特定の模様を持つ蝶を食べることを学習により避けるようになります。そのため、同じような模様を持つ他の種も捕食を免れることができ、自然選択の結果として類似した模様を持つように進化したと考えられています。
さらに興味深いのは、擬態を行う種(ミミック)は、遺伝子のわずか半分でこの模倣を実現しているという点です。これは進化的に非常に興味深い現象です。
私たちは、まず基本的な対照学習を用いて、この擬態のシグナルを機械的に検出できるかどうかを検証しました。その結果、同種の2つの画像間の距離は小さく、非擬態種間の距離は大きく、そして擬態種間の距離はその中間という、予想通りの結果が得られました。これは、機械学習が実際に擬態のパターンを検出できることを示しています。
このアプローチにより、私たちは擬態の微細なパターンを定量的に分析することが可能になりました。これは、従来の目視による観察では捉えることが困難だった詳細な違いを、客観的に評価することを可能にします。さらに、この手法は種間の視覚的な類似性を定量化し、擬態の進化過程をより深く理解するための新しい視点を提供しています。
5.2. 鳥類と蝶の視覚の違い
しかし、本当の問題は、鳥類と蝶がこれらの模様をどのように見ているかということです。なぜなら、彼らの視覚は人間とは異なるからです。約1年前に発表された研究で、人間は蛾の特定の種類を区別するための赤橙色の視力が十分でないことが示されました。これは驚くべきことではありません。蛾や蝶の色彩は、人間の視覚のために進化したわけではなく、主にその捕食者である鳥類の視覚に対応して進化してきたからです。
鳥類は、人間には区別できない蛾の表現型の違いを容易に見分けることができ、赤橙色のスペクトルにおいても優れた視力を持っています。同様に、機械学習手法もこれらの違いを検出することができます。人間が視覚的に数値化できない特徴でも、機械学習は定量化することが可能です。
この点を実証するため、私たちは興味深い実験を行いました。一方の種(erato)で分類器を訓練し、もう一方の種(melpomene)に対してゼロショット分類を実施しました。また、その逆も行いました。その際、鳥類の視覚特性と蝶の視覚特性の両方でデータを変換して分析を行いました。
結果を示すプロットから、鳥類は蝶よりも擬態を認識することに長けていることが分かりました。つまり、鳥類は擬態種を同じ種として認識する能力が高く、エラー率が低かったのです。一方、蝶は似ているものの、その認識能力は鳥類ほど高くありませんでした。
この発見は、擬態の進化において重要な意味を持っています。鳥類の優れた視覚能力は、擬態の選択圧として機能し、より精密な模倣を促進する要因となっていることを示唆しています。一方で、蝶自身は自分たちの擬態をそれほど正確には認識できていないという事実は、擬態が捕食者の視覚システムに特化して進化してきたことを裏付けています。
5.3. 人工蝶による検証実験
これらの仮説を検証するために、私たちは非常にクールな実験手法を開発しました。この手法では、人工的な蝶を作成して実験を行います。具体的には、インタープリタブル・トランスフォーマーを用いて特定された特徴のみを持つ人工蝶を印刷し、それを実際の実験に使用します。
私たちのアプローチは、鳥類が類似して見ると予測される特徴だけを持つ人工蝶と、蝶が異なって見ると予測される特徴だけを持つ人工蝶を作成します。これらの人工蝶を飼育環境に置き、鳥類の反応を観察します。具体的には、鳥のくちばしによってつけられた穴の数をカウントすることで、どの特徴が鳥類にとって重要な視覚的手がかりとなっているかを定量的に評価することができます。
この実験デザインの優れている点は、AIによって生成された仮説を、実際の生物の行動を通じて検証できることです。私たちの予測が正しければ、鳥類は特定の特徴を持つ人工蝶に対して、より多くもしくは少ない攻撃行動を示すはずです。
具体的には、以下のような仮説を検証することができます:
- 鳥類が類似していると認識する特徴を持つ人工蝶は、同様の攻撃回数を示すはずです
- 蝶が異なっていると認識する特徴を持つ人工蝶でも、鳥類にとっては同様に見える可能性があります
- 特定の視覚的特徴が、捕食回避において特に重要な役割を果たしているかどうか
これは、AIによって生成された仮説を実験的に検証する素晴らしい例です。精度だけでなく、検証可能な科学的仮説の生成に機械学習を活用する新しい方法を示しています。また、この手法は他の擬態システムの研究にも応用可能で、視覚的な進化適応の研究に新しい視点をもたらすことが期待されます。
6. 保全生物学への応用
6.1. IUCNレッドリストの課題
私たちが直面している最大の課題の一つは、世界の生物多様性の損失です。現在、約100万種が絶滅の危機に瀕しているという深刻な警告が出されています。先ほど説明したように、全生物種が約1000万種であることを考えると、これは生きている世界の生物多様性の約10%が絶滅の危機に直面しているという、非常に衝撃的な数字です。私たちは、第6次大量絶滅の最中にいるのです。
この状況に対処するために、AIを意思決定支援に活用する必要があります。AIを世界的な生物多様性の指標や保全目標、あるいは非常にローカルな保護区や生息地に特化した保全指標と結びつける必要があります。重要なのは、AIの精度ではなく、AIを用いた情報が保全に関する意思決定にどれだけ影響を与えるかということです。
国際自然保護連合(IUCN)のレッドリストは、種の保全状態を公式に判断し、世界の生物多様性をモニタリングする国際機関です。種が絶滅危惧種であると言われる時、それはIUCNレッドリストの種委員会が、個体数の傾向などの特定の基準に基づいて判断を下したということを意味します。
しかし、IUCNレッドリストが監視している約16万種のうち、22,000種以上の公式な保全状態は「データ不足(Data Deficient)」とされています。これは、最も基本的な判断を下すための基礎的なデータすら不足していることを意味します。さらに、約6万種については個体数の推移が不明です。
つまり、モニタリング対象種の半数以上について、私たちは本当の状況を把握できていないのです。これは決して珍しい種だけの問題ではありません。例えば、シャチ(最大のイルカ類で、見過ごすことが難しい種)はデータ不足種とされています。また、ホッキョクグマのような象徴的な保護種でさえ、個体数の推移は不明とされています。
このような状況で、もし主要な種についてさえこれほどの不確実性があるとすれば、甲虫などの小さな生物についてはどれほどの知識不足があるかは想像に難くありません。実際、分類群別に見ると、脊椎動物についてはかなりの知識があり、昆虫についてはそれより少なく、植物についてはさらに少なく、菌類についてはほとんど何も分かっていません。現在評価されている菌類の種は300種程度で、これは地域の森に生息する菌類の数よりも少ないかもしれません。
6.2. 個体識別技術(Wildbook)
この課題に対する一つの解決策として、私たちは個体識別技術の開発に取り組んできました。2013年に開始したWildbookプラットフォームは、様々な種の個体識別のための多くの手法を開発し、統合してきました。これは多様な研究者グループによって開発された技術を一つのプラットフォームにまとめたものです。
Wildbookの特徴は、縞模様のある動物、斑点のある動物、しわのある動物、切れ込みのある動物など、様々な特徴を持つ動物に対応できることです。例えば、クジラのヒレの形状やイルカの背びれの形状など、水中生物の個体識別も可能です。これにより、地上、水中、空中を問わず、多くの種で個体識別が可能になっています。
現在、Wildbookは70種以上の生物に対応するプラットフォームとなっています。最近では、私の個人的なお気に入りであるリーフィーシードラゴンとウィーディーシードラゴン(サンゴ礁の指標種となる、エイリアンのような見た目のタツノオトシゴの仲間)にも対応を拡大しました。
さらに最近では、シャチ(killer whales)もプラットフォームに追加されました。この追加は特に重要です。なぜなら、先ほど述べたように、シャチはIUCNレッドリストでデータ不足種に分類されているからです。個体識別技術を用いることで、比較的容易に個体を識別できるようになり、急速にデータを蓄積することができます。これにより、IUCNレッドリストの種委員会がシャチをデータ不足から実際の保全状態へと移行させるのに必要なデータを提供できると考えています。
このプラットフォームの重要な点は、単なる技術的なソリューションではなく、科学者、保全活動家、一般市民など、様々な立場の人々が協力してデータを収集し、共有できる仕組みを提供していることです。これにより、グローバルな種の保全状態をより正確に把握し、効果的な保全活動につなげることが可能になっています。
しかし、この技術にも限界はあります。すべての種に適用できるわけではなく、個体の外見的特徴が明確でない種や、画像撮影が困難な種には適用が難しいという課題があります。また、データの質の保証や、プライバシーの問題など、運用面での課題も存在します。
6.3. 個体数調査の成功事例
Wildbookの成功事例の一つとして、ジンベエザメの調査プロジェクトを紹介したいと思います。このプロジェクトは、Wildbookのサブセクションである「Shark book」の一部として実施されています。現在までに、110,000件以上の観察記録から22,000以上の個体が固有に識別されています。これらのデータは、ボランティア、専門の科学者、保護プロジェクト、そしてソーシャルメディアからも収集されています。
このデータ収集の成果は、実際の保全活動に大きな影響を与えました。収集されたデータに基づき、IUCNレッドリストにおけるジンベエザメの保全状態が「危急(Vulnerable)」から「絶滅危惧(Endangered)」に変更され、個体数の傾向も「安定」から「減少」へと修正されました。これは、種の状態が悪化したというわけではなく、より正確なデータが得られたことによる変更です。
この評価の変更は、単なる分類の変更以上の意味を持っています。より正確な保全状態の評価により、より適切な政策の立案と評価が可能になり、種の保護のためのより効果的な行動につながっています。実際、この変更から7年が経過し、すでに個体数の傾向に変化が見られ始めています。
さらに、このデータは種の生物学に関する最も包括的な理解にも貢献しています。ジンベエザメは世界中を移動する種であり、一つのプロジェクトや個人では完全な理解を得ることは不可能です。データを共有し、グローバルな視点で分析することで初めて、種全体の状態を把握することができます。
このように、AIを活用した個体識別技術は、単なる技術的なツールではなく、人々を結びつけ、データを共有し、グローバルな種の理解を深めるためのプラットフォームとしても機能しています。その結果、科学的な発見と保全活動の両面で大きな成果を上げることができています。
この成功は、技術だけでなく、様々な立場の人々の協力があってこそ達成できたものです。科学者、保全活動家、一般市民など、多くの人々が力を合わせることで、より効果的な生物多様性の保全が可能になることを示しています。
7. 市民科学とAIの統合
7.1. グレビーシマウマ調査
同じ技術を用いて、私たちは世界で初めて、種全体の完全な個体数調査を実施することに成功しました。対象としたのは絶滅危惧種のグレビーシマウマです。世界には約3,000頭のグレビーシマウマしか残っていません。その大半がケニアに生息し、エチオピアにも数百頭が生息しています。
2016年に、私たちは革新的な調査を実施しました。何百人もの人々がケニア中を車で巡回し、目撃したすべてのグレビーシマウマの写真を撮影しました。参加者は実に多様で、全国の学校の子供たちから地元の公園レンジャー、望遠レンズを持った観光客、そして当時のケニア駐在米国大使のボブ・ゴデックまで含まれていました。
この調査では、40,000枚以上の画像が撮影され、実質的に生存するすべてのグレビーシマウマが記録されました。その後の検証でも、カバー率の高さが確認されています。この手法により、これまでで最も正確な個体数調査を実施することができました。
この成功を受けて、ケニア野生生物公社は「これはシマウマの数え方ではない」という従来の立場から、「これこそが今後シマウマを数える方法だ」という立場に完全に転換しました。その結果、2年ごとの定期的な調査が義務付けられ、2018年と2020年、そして2024年と調査を継続しています。
2018年の調査では、さらに多くの人々が参加し、より多くの写真が収集されました。そして、カバー率の高さにより、非常に精度の高い信頼区間を持つ個体数推定が可能になりました。
このプロジェクトの革新的な点は、参加のハードルを大幅に下げたことです。参加者に求められるのは、ただシマウマの写真を撮ることだけです。そして、それこそが最も重要なことでした。最高の機械学習アルゴリズムでも、市民の参加と信頼なしには、このプロセスへの信頼を構築することはできなかったでしょう。
イベントのキャッチフレーズは「Kenyans Powering Conservation(ケニア人による保全の推進)」でした。この取り組みを実現するため、GPS対応カメラの寄付を受け、また各車両に最低1台のGPS対応カメラを確保するため、古い方式のQRコードを使用してすべてのカメラの同期を行いました。
7.2. 地域コミュニティの参加
地域コミュニティの参加を促進するため、私たちは非常に慎重かつ包括的なアプローチを採用しました。まず、地域のNPO組織と協力して、何が起こるのか、なぜそれが重要なのか、撮影された写真がどこに行くのか、そして科学者や保護団体がそのデータをどのように使用するのかを説明する詳細な小冊子を作成しました。
次に、国中を回って、英語、スワヒリ語、サンブル語の3つの言語でトレーニングセッションを実施しました。これは、すべての参加者が何をすべきかを理解し、なぜそれを行うのかを理解できるようにするためでした。言語の選択は、地域コミュニティの多様性を考慮し、誰も取り残されないようにするための重要な配慮でした。
また、保護団体のスタッフに対しては、Wildbookの使用方法に関する特別なトレーニングを実施しました。これにより、彼らが自身でデータ分析を行えるようになることを目指しました。実際には、私たちは何度も繰り返しトレーニングを行う必要がありましたが、この過程自体が重要な学習機会となりました。
技術的な課題に対しては、創造的な解決策を見出しました。例えば、すべての車両にGPS対応カメラを確保することは困難でしたが、各車両に最低1台のGPS対応カメラを置き、他のカメラとの同期にQRコードを使用するという古い方式を採用することで、この問題を解決しました。
このような包括的なアプローチにより、プロジェクトは単なるデータ収集以上の意味を持つようになりました。それは地域社会の能力構築と環境保護意識の向上にも貢献しています。私たちがこのプロジェクトで獲得したTシャツは、単なる記念品以上の意味を持っています。それは、地域コミュニティの参加と貢献の象徴となっているのです。
このアプローチの成功は、技術的なソリューションと人々の参加を効果的に組み合わせることの重要性を示しています。最高の機械学習アルゴリズムでも、地域コミュニティの積極的な参加と信頼なしには、真の成功を収めることはできないということを、このプロジェクトは明確に示しています。
7.3. 保全政策への影響
このプロジェクトの成功は、具体的な政策変更という形で実を結びました。ケニア野生生物公社と、グレビーシマウマが生息する6つの県の知事たちが、この調査データに基づいて絶滅危惧種管理に関する宣言に署名したのです。これは、単なる声明以上の意味を持つ出来事でした。この宣言に基づいて、実際にリソース(資金、人材、土地)が保全活動のために配分されることになったからです。
特に印象的だったのは、ケニア野生生物公社のサイモン・G氏の言葉です。「これは市民科学と機械学習の保全への力を示すものだ」という発言は、私の心を大きく揺さぶりました。これは、ケニア野生生物公社の職員が公式に「機械学習」という言葉を使用した、おそらく史上初めての出来事だったと思われます。
このプロジェクトは、地域社会に大きな影響を与えました。地域コミュニティが自らの環境保護に主体的に関わることで、保全活動への理解と支援が深まりました。また、技術を活用した新しい調査手法が導入されたことで、より効率的かつ正確なモニタリングが可能になりました。
今後の展望としては、この成功モデルを他の絶滅危惧種の保全活動にも適用していくことが考えられます。特に、データ不足種の状況把握や、地域社会との協働による保全活動の実施において、このアプローチは大きな可能性を持っています。
また、このプロジェクトは、AIと市民科学の統合が、単なるデータ収集以上の価値を生み出せることを示しました。それは、科学的な知見の蓄積、政策決定への影響、そして地域社会の能力構築と環境意識の向上という、複数の側面で成果を上げることができるのです。
このような包括的なアプローチは、今後の保全生物学において重要なモデルケースとなるでしょう。技術と人々の協力、そして政策との連携という三つの要素を効果的に組み合わせることで、より効果的な保全活動が可能になると考えています。
8. 今後の課題と展望
8.1. ドメイン知識の統合
もし私が皆さんに一つの行動提案をするとすれば、それは分類学と系統発生の違いを学ぶことや、生物多様性の科学やエコロジー、保全活動に直接関わることではありません。また、機械学習の専門家として生物多様性の分野にどのように貢献できるかわからないという方もいらっしゃるかもしれません。
そこで、私たちが直面している大きな課題をリストアップしてお伝えしたいと思います。その中でも特に重要なのが、ドメイン知識を機械学習に組み込む方法です。これは単なる外部的な変換ではなく、本質的な統合を目指すものです。これは知識誘導型機械学習のパラダイムとして知られていますが、さらなる拡張が必要です。
現在の課題は、生物学的な知識構造をAIモデルのアーキテクチャに効果的に組み込む方法を見つけることです。これまでの成功事例として、分類学的構造や系統樹を活用した事例を紹介しましたが、これはまだ始まりに過ぎません。
解決へのアプローチとしては、以下のような方向性が考えられます:
- 生物学の本質的な構造(分類体系、進化関係、生態学的相互作用など)をモデルアーキテクチャに直接組み込む方法の開発
- ドメイン専門家の知識をモデルの学習過程に効果的に反映させる手法の確立
- 生物学的な制約や規則をモデルに組み込むための数理的フレームワークの構築
これらの課題に取り組むことで、より洗練された生物学的AIモデルの開発が可能になると考えています。このアプローチは、単なるデータ駆動型の手法を超えて、生物学の深い理解に基づいた新しい形のAIの実現を目指すものです。
8.2. 長いテールのデータ対応
機械学習におけるもう一つの重要な課題は、既に知っている小さな部分に対してさらに過学習を進めるのではなく、データの長いテールにどう対応するかということです。これは、生物多様性データが本質的に持つ特徴を反映しています。
現在の典型的な機械学習の開発アプローチは、ステレオタイプ的なベンチマークを使用し、大規模データセットに対する限られた評価指標のバリエーションを用いて、問題に依存しない手法を開発することに重点を置いています。このアプローチが、巨大なデータセットの利用を推進し、実世界のデータの大部分を代表していない非常に小さな部分に対して、ますます過学習を進める方向に私たちを導いています。
特に自然界のデータセットの多くは、非常に長いテールを持つ分布を示します。つまり、少数の種や現象について大量の情報がある一方で、大多数についてはほとんど情報がないという状況です。従来の精度重視のアプローチでは、データの豊富な部分での性能は向上しますが、長いテール部分は無視されがちです。
さらに、これらの応用の多くは、本質的にオープンセット・オープンワールドの問題です。新しい種が常に追加され、最も困難な課題は新種の発見や、生物多様性損失の新しい要因の発見など、発見的な性質を持つものです。このような問題は、従来の精度測定では適切に評価できません。
そこで、私は以下のような新しいアプローチを提案します:
- データの少ない領域での性能を重視した評価指標の開発
- 少ないデータからの学習を可能にする新しいアーキテクチャの設計
- ドメイン知識を活用した転移学習や適応学習の手法の開発
- 新しい発見や仮説生成を支援する手法の開発
これらのアプローチにより、生物多様性研究における「知られざる大多数」に対する理解を深めることができると考えています。精度だけでなく、発見可能性や仮説生成能力を重視した新しい評価基準の確立も必要です。
8.3. 不確実性の定量化
不確実性の定量化は、科学におけるAIの活用と意思決定支援の両方において重要な課題です。特に生物多様性の分野では、データの不完全性や偏り、自然界の本質的な変動性により、不確実性は避けられない要素となっています。
例えば、これまで紹介したグレビーシマウマの調査では、高いカバー率により精度の高い信頼区間を得ることができましたが、多くの種ではそのような理想的な条件は得られません。そのため、不確実性を適切に評価し、定量化する手法の開発が必要です。
私たちは、以下のような側面から不確実性の定量化に取り組んでいます:
- モデルの予測に対する信頼度の評価
- データの品質や代表性の評価
- 生物学的な変動性の考慮
- 時間的・空間的なスケールの違いによる不確実性の評価
特に重要なのは、これらの不確実性を意思決定者や政策立案者に理解しやすい形で提示することです。IUCNレッドリストの評価などでは、不確実性の程度を明確に示すことが、適切な保全措置の実施につながります。
精度向上への取り組みとしては、ドメイン知識の活用、データ収集方法の改善、モデルのアンサンブル学習などを進めていますが、同時に不確実性の存在を認識し、それを適切に扱う方法の開発も重要だと考えています。
8.4. モデル構成の課題
生態系やその中での生物多様性を理解するために、私たちは多くのモデルを持っています。これまで説明してきた画像分析モデル、個体識別モデル、個体数推定モデルなど、それぞれが特定の側面を理解するために開発されてきました。しかし、これらのモデルを効果的に組み合わせ、統合することは大きな課題となっています。
特に重要な課題は、複数のモデルを組み合わせる際の構成方法です。生態系を理解するための様々なモデルを持っていますが、これらのモデルをどのように統合し、特にドメイン知識やドメインモデルをどのようにプロセスに組み込むかが課題となっています。
私たちが目指すのは、単なるモデルの連結ではなく、生物学的な意味を持つ方法での統合です。例えば、種の同定、個体識別、行動分析、生態系相互作用など、異なるレベルのモデルを、生物学的な知見に基づいて統合する必要があります。
効率的な構成手法の開発においては、以下の点が重要になります:
- モデル間の依存関係の明確化
- 異なるスケールのデータと予測の統合
- ドメイン知識に基づく制約の組み込み
- モデルの不確実性の伝播の理解と制御
これらの課題は技術的な問題であると同時に、生物学的な理解を深めることにもつながります。モデルの構成方法自体が、生態系の構造や機能についての私たちの理解を反映するものとなるべきだと考えています。
8.5. 人間と機械のパートナーシップ
人間と機械のパートナーシップを設計時から考慮することは、後付けの考慮事項ではなく、本質的に重要な課題です。グレビーシマウマの調査プロジェクトで示されたように、最高の機械学習アルゴリズムであっても、人々の参加と信頼なしには、プロセスへの信頼を構築することはできません。
効果的な協働方法の開発においては、以下の点が重要です:
- 参加への障壁を下げること(例:写真を撮るだけで参加できる)
- 地域コミュニティの言語や文化的背景を考慮したトレーニングプログラムの開発
- データの収集から分析、政策への反映まで、各段階での人々の関与
- 技術的なソリューションと人々の経験や知識の効果的な統合
将来的な発展可能性としては、このような人間と機械のパートナーシップが、科学的発見と保全活動の両面で大きな成果をもたらすと考えています。もし私たちが成功し、というよりも成功した時、その見返りは計り知れません。それは科学的発見と自然界の理解を深めるだけでなく、私たちの素晴らしい惑星の生物多様性を救うことにもつながるのです。
これまで紹介してきた課題に取り組むことで、生物多様性の研究と保全に革新的な進歩をもたらすことができると確信しています。そのためには、世界中の熱心で献身的な人々のパートナーシップが不可欠です。最近開催されたAIと生物多様性の研究室に関する情報セッションは、YouTubeで視聴可能であり、この分野で活動する世界中の研究室の3分間のプレゼンテーションを見ることができます。私たちのコミュニティへの参加を心からお待ちしています。