※本記事は、国際電気通信連合(ITU)が主催するAI for Goodグローバルサミットのウェビナー「Unraveling History's Enigmas with AI and Robotics in Archaeology」の内容を基に作成されています。本ウェビナーはAI for Goodロボティクス・プログラミングトラックの一環として開催されました。
登壇者は、ノッティンガム大学レバーヒューム・フェローのThea Sommerschield氏、Google DeepMindスタッフリサーチサイエンティストのYannis Assael氏、ArchAI創業者のIris Kramer氏、ライデン大学ポストドクトラル研究員のAlex Brandsen氏、ライデン大学計算考古学助教授のTuna Kalaycı氏の5名です。モデレーターはペンシルベニア大学考古学・人類学博物館のフィールド考古学者Paul Zimmerman氏が務めました。
本記事では、ウェビナーの内容を要約・再構成しております。なお、本記事の内容は登壇者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈についてはオリジナルの動画をご視聴いただくことをお勧めいたします。AI for Goodの詳細については https://aiforgood.itu.int/ をご覧ください。
1. セッション概要と導入
1-1. AI for Good グローバルサミットの目的と本セッションの位置づけ
Gilane Martinez Roa(ITU): 本日は「AIとロボティクスで歴史の謎を解き明かす」と題したAI for Goodウェビナーへようこそ。このセッションは、AI搭載ロボティクスが人類の可能性を解き放ち、国連の持続可能な開発目標(SDGs)の達成を後押しする様子を探る、AI for Goodロボティクス・プログラミングトラックの一環です。AI for Goodは、国際電気通信連合(ITU)がスイスと共同で40の国連姉妹機関と連携しながら運営する、行動指向型のグローバルプラットフォームです。AIの実践的な応用事例を特定し、その解決策を世界規模で展開することを目的としています。本日は各界を代表するパネリストの皆さまをお迎えしていますが、参加者の皆さまにもライブビデオウォール機能を通じて積極的に質問やコメントを投稿していただき、活発なインタラクティブセッションをともに作り上げていただければ幸いです。
1-2. モデレーター Paul Zimmerman による導入:フィールド考古学の限界とテクノロジーへの期待
Paul Zimmerman(ペンシルベニア大学考古学・人類学博物館): 本日のモデレーターを務めます。私はポッドキャスト「Archotech Podcast」を長年ホストしてきた立場でもあり、考古学とテクノロジーという二つの流れを融合させ、人類の共有の過去を新しい方法で理解しようとする試みに強い関心を持っています。
フィールド考古学者として率直に申し上げると、発掘調査という行為は本質的に「抽出的かつ破壊的」なものです。一度発掘したサイトを再発掘することはほぼ不可能であり、私自身の現場での作業も、データ収集と現場での整理が中心で、その後の詳細な分析にまで至ることは稀です。私たちフィールド考古学者が現場から持ち帰るのは膨大なデータの塊ですが、そこから意味を引き出す作業は常に後回しになりがちです。
だからこそ、本日の登壇者の皆さんが取り組んでいることに私は強く期待しています。彼らはフィールドで収集された膨大なデータを蒸留し、考古学的情報の理解に向けた新しいアプローチを模索しています。まず最初に、古代語の解読に取り組むYannis AssaelとThea Sommerschieldのお二人にご登壇いただきます。
2. 古代ギリシャ碑文の解読・年代・産地推定AI「Ithaca」
2-1. 古代碑文研究(エピグラフィ)の重要性と三つの課題
Thea Sommerschield(ノッティンガム大学): 本日このような場でお話しできることを大変光栄に思います。私たちがこの研究をAI for Goodの場で紹介したいと思ったのは、テクノロジーが世界の未来にいかにポジティブな影響を与えられるかを示すことが、研究者としての責務だと感じているからです。このプロジェクトはGoogle DeepMindとノッティンガム大学、オックスフォード大学、ヴェネツィア大学、アテネ経済経営大学の学際的なコラボレーションによって実現しました。
機械学習は通常、過去のデータから未来を予測するために使われます。しかし私たちの研究はその逆、すなわち「過去を予測する」ことを目指しています。過去の知識なくして未来の理解はあり得ないというのが私たちの出発点です。古代史の研究において重要な役割を担う学問のひとつが、碑文の研究、すなわちエピグラフィです。碑文とは石などの媒体に直接刻み込まれたテキストであり、古代の人々が自ら記した一次資料です。支配者層だけでなくあらゆる社会階層の人々が、あらゆる主題について記したこれらの碑文は、「勝者によって書かれた歴史」に偏らない、多様で重層的な古代世界の理解を可能にします。
しかしながら、碑文研究には根本的な困難が三つあります。第一に、数千年という歳月の中で碑文は損傷を受け、テキストが判読不能になったり失われたりします。第二に、碑文が本来の発見地から移動されていたり、場合によっては違法に持ち出されていたりすることがあり、出所の特定が困難です。第三に、放射性炭素年代測定などの技術は、碑文が刻まれている石材には適用できません。このため、エピグラファーと呼ばれる専門家が、失われたテキストの復元、産地の推定、そして年代の特定という三つの作業を手作業で行わなければならず、それは極めて複雑かつ膨大な時間を要するプロセスでした。
2-2. データセット構築・モデル設計・説明可能性へのアプローチ
Yannis Assael(Google DeepMind): 私たちはこの三つの課題を深層学習によって同時に解決しようと考えました。そのためにはまず、機械学習に使える大規模なデータセットが必要です。既存のギリシャ語碑文のデジタルコーパスはそのままではモデルに読み込める形式ではなく、膨大な前処理が必要でした。私たちが選んだのは、古代ギリシャ語碑文の最大のデータセットである「PHI」です。ギリシャ語を選んだ理由は、デジタルコーパスの入手可能性、言語の多様性、そして私たち自身の専門的関心と経験にあります。
しかし問題がありました。PHIのデータ全体であっても、現在の最先端モデルはそれをまるごと暗記できてしまうほどの容量を持っています。そのため、データの多様性を高めるために大量のデータ拡張手法を導入しました。テキストのクリッピングやマスキング(これはまさに私たちが解こうとしているタスクそのものです)、単語の削除、文の入れ替えなど、さまざまな技術を組み合わせました。
こうして開発したのが「Ithaca」です。IthacaはTransformerベースのニューラルネットワークアーキテクチャを採用しており、GeminiやChatGPT、Claudeと根本的には同じ仕組みです。ただし、私たちは碑文研究に特化した二つの重要な改良を加えました。ひとつは、文字レベルと単語レベルの両方を扱えるようにしたことです。単語は文脈情報を与えてくれますが、碑文の場合、単語の一部が損傷している場合があるため、文字レベルの処理が不可欠です。もうひとつは、歴史家にとって説明可能な結果を出力できるよう設計したことです。
Thea Sommerschield: 歴史家のチームが最初に私たちに尋ねたのは「なぜそう判断したのか」という問いでした。単一の予測を返すのではなく、モデルがどのような仮説を持っているかを可視化することが目標でした。例えばテキストの欠損箇所を復元する際、画面下部に異なる濃淡で示されるアテンションの可視化によって、モデルがどの単語に注目しているかを確認できます。「アライアンス(同盟)」という単語を復元する際に、モデルはアテナイ人とタリアン人を指す語に強く注目していました。これはアテナイとタリアの同盟という文脈から自然な帰結ですが、誰もそれをモデルに教えたわけではありません。古代ギリシャ語の碑文全体にアクセスできるからこそ、モデル自身がこのような文脈的なつながりを捉えられるのです。産地の推定においては、異なる確率分布を地図上に可視化して古代世界のつながりを示し、年代推定においては10年ごとの確率分布を可視化して歴史家が判断を下せるよう支援しています。
2-3. 実験結果:人間・AI単独性能と人間+AI協働の比較、歴史的論争碑文への応用
Yannis Assael: 評価結果は、医学分野でも見られるような非常に興味深いパターンを示しました。テキスト復元のタスクにおいて、古代史の専門家単独の正解率は約25%でした。一方、私たちの深層ニューラルネットワークであるIthacaは単独で約60%を達成しました。そして専門家がIthacaと組み合わせて作業を行った場合、パフォーマンスはモデル単独の数値を超えました。年代推定と産地推定においても良好な結果が得られており、紀元前800年以上前に書かれた碑文に対しても、平均誤差30年未満という精度で年代を推定できています。
さらに重要なのは、Ithacaが実際の歴史的論争に貢献できるかどうかを検証した実験です。年代についての学術的議論が続いているアテナイの重要な法令群を対象に、これらのテキストをIthacaの学習データから意図的に除外した上で年代推定を行わせました。その結果、Ithacaの推定値は、最新の歴史学的理解と独立して一致していました。これは、大規模データセットを前例のない形で活用することで、歴史的事象の年代を再考する手助けができることを雄弁に示しています。
Thea Sommerschield: この結果は、IthacaのようなモデルがAIと人文科学の協働の可能性をいかに拡張できるかを示す実例です。研究成果はNature誌の表紙を飾り、オープンアクセスで公開されています。
2-4. 公開・教育・学際的研究の展開と「過去の予測が未来の理解につながる」という示唆
Thea Sommerschield: 研究の社会的インパクトを最大化するために、私たちはIthacaの無料インタラクティブ版をithaca.deepmind.comで公開しました。研究者・教育者・博物館スタッフ・学生など誰でもアクセスできます。また、欧州で80名以上の教師を対象に、古代世界とAI研究を橋渡しするカリキュラムのトレーニングを実施しました。
Yannis Assael: さらに私たちは、AIと古代言語研究の交差点にある研究を俯瞰したレビュー論文も執筆しました。その中で一貫して明らかになったのは、学際的なチームによって書かれた論文が最も洞察に富んだ結果をもたらし、最も価値のある課題に取り組んでいるという事実です。この知見を踏まえ、自然言語処理のトップカンファレンスであるACLに、碑文言語のための機械学習ワークショップを初めて設立しました。驚いたことに、このワークショップはACLの全ワークショップの中で最多の投稿数を記録しました。この分野に着手して六、七年前のことを思えば、まったく予想外の反響でした。
冒頭で申し上げた通り、機械学習は通常「過去から未来を予測する」ために使われます。しかし歴史は繰り返すという性質を持つがゆえに、「過去を予測する」Ithacaもまた、結果として未来を予測するひとつの方法であると言えるかもしれません。文化・歴史・機械学習は不可分に絡み合っているのです。
3. グレイ・リテラチャーの意味論的検索エンジンとロボティクスへの接続
3-1. 考古学グレイ・リテラチャーの課題:同義語・多義語問題とBERT特化チューニングの実験
Alex Brandsen(ライデン大学): 私が取り組んでいる問題をご説明します。考古学の世界では、開発工事が行われるたびに考古学者が現地に入り、発見物を記録したレポートを作成します。オランダだけでも、こうしたレポートは数十万件に上ります。これらは「グレイ・リテラチャー」と呼ばれる未公刊の灰色文献であり、特定の研究目的のために掘られた発掘調査とは異なり、建設工事が行われる場所であればどこでも調査が行われるという意味で、考古学的記録のより無作為なサンプルとして非常に重要な資料です。
しかしながら、このグレイ・リテラチャーは現状ほとんど活用されていません。各種アーカイブに保存されているものの、現在の検索システムはタイトルや概要といったメタデータのみを対象としており、本文全体を検索することができません。例えば、ある発掘レポートの主題が青銅器時代と新石器時代であったとしても、発掘の一角で小さな中世の遺物が見つかっていた場合、それはタイトルにも概要にも記載されず、事実上検索から完全に抹消されてしまいます。こうした「小さな発見」が積み重なることで、考古学的記録に大きな空白が生じているのです。
この問題を解決するために私が取り組んでいるのは、全文テキストを対象とした検索エンジンの構築です。ただし、単純な全文検索には別の問題があります。考古学の分野には同義語と多義語が非常に多く存在するからです。例えばオランダ語の「Swifterbant」という語は、地名でもあり、時代区分でもあり、土器の型式名でもあります。逆に「Flint(フリント)」という語は、人名(Dr. FlintやMr. Flint)である場合もあれば、石材の種類を指す場合もあります。こうした曖昧さを解消せずにキーワード検索を行うと、無関係な結果が大量に混入してしまいます。
そこで私たちが採用したのが、固有表現認識(Named Entity Recognition、NER)です。テキスト中に登場する語を自動的に検出し、「これは地名としてのSwifterbant」「これは遺物としてのFlint」というように意味カテゴリに分類することで、考古学者が実際に探しているものに対してより意味的な検索を実現しようとしています。
この固有表現認識を実現するために使用したのがBERTモデル、すなわちBidirectional Encoder Representations from Transformersです。BERTのTransformer部分はGPTのTと同じ仕組みであり、大量のラベルなしテキストから言語を学習した後、人間がラベル付けしたデータを用いて分類タスクを追加学習させることができます。固有表現認識においては、GPTタイプのモデルにはやや劣る面もありますが、BERTはいまでも高い性能を発揮します。
実験では、英語・オランダ語・ドイツ語の三言語を対象として、すでに存在していた汎用BERTモデルをベースラインとして使用しました。そこに大量の考古学文献を追加学習させ、考古学専用のBERTモデルを構築しました。これによりモデルは考古学の専門用語やジャーゴンを理解できるようになりますが、この段階ではまだ固有表現を見つけることはできません。最終ステップとして、人間が実際に単語をクリックして「これは遺物」「これは時代区分」とラベル付けしたデータを与えることで、固有表現の抽出能力を獲得させました。
評価指標としてF1スコアを見ると、ルールベースの手法や従来の機械学習手法であるCRF(条件付き確率場)に比べて、BERTモデルは全体的に優れた性能を示しました。さらに汎用BERTモデルから考古学特化BERTモデルに切り替えることで、F1スコアが2〜3ポイント向上しました。この数字は小さく見えるかもしれませんが、考古学という特殊な専門領域においては、汎用モデルをそのまま使っても十分な精度は得られないことを示しています。「ChatGPTが何でも解決する」という言説はよく耳にしますが、考古学においてはそれは当てはまりません。ドメイン特化のファインチューニングが依然として不可欠なのです。抽出されたすべての固有表現は検索エンジンに統合され、考古学者が実際に必要とする情報へのアクセスを大幅に改善します。
3-2. 今後の展望:チャット型インターフェース、ロボットへの言語指示、身体化知能の哲学的意義
Alex Brandsen: 今後の展望としては、大規模言語モデルを活用してドキュメントから情報を直接抽出するチャットインターフェースの構築を考えています。例えば、大量の文書から放射性炭素年代測定の数値をまとめて抽出したり、特定のデータセットに対して問い合わせを行える「アーケオロジーGPT」のようなチャットインターフェースを実現することが目標です。もうひとつの展望が、音声認識やテキスト入力によるヒューマン・ロボットインタラクションです。人間の自然言語をロボットが理解できるコマンドに変換するという試みで、これは私が取り組んできたBERTを使った言語処理よりも格段に複雑なタスクになります。そしてここで問いが生じます。これらは「本当の知能」と言えるのか、と。この問いへの答えをTunaが引き継いでくれます。
Tuna Kıja(ライデン大学): Alexが提示した問いは実に深いものです。ここでDraの言葉を引用したいと思います。「身体を持たないニューラルネットワーク、すなわち大規模言語モデルは、人間の世界に適応する能力において根本的なハンディキャップを抱えている」。この定義に従えば、身体を持たない知能と身体を持つ知能は明確に区別されます。身体化(Embodiment)パラダイムとは、知能は抽象的なアルゴリズムとして単独に存在することはできず、物理的な実体、すなわち物理ロボットまたはシミュレーテッドエージェントとして具現化されて初めて成立するという考え方です。
この思想の源流は実は非常に古く、ユダヤ教のタルムード的伝統におけるゴーレムの物語にまで遡ることができます。ゴーレムとは、ある理念・思想の身体的具現化のシミュレーションであり、身体化された知能というコンセプトが古代から繰り返し人類の想像力に現れてきたことを示しています。近年の大規模言語モデルの隆盛によって、私たちはこの身体化知能の重要性をいったん忘れかけていましたが、考古学と歴史はまさに次の研究の文脈提供者としての役割を果たすと私は考えています。考古学はその性質上、常に身体的なタスクに満ちており、ロボティクス研究にとって格好の試験環境を提供しているのです。
3-3. フィールドアシスタントロボットの開発経緯:2021年からの実験・シミュレーション・現在の課題
Tuna Kıja: 考古学における身体的タスクの代表例として二つを挙げます。ひとつは野外調査(サーベイ)です。考古学者は太古の昔から野原を歩き回り、土器片や石器などの物質文化を発見・記録してきました。もうひとつは選別(ソーティング)です。発掘調査では大量の土壌サンプルを採取し、微細な遺物を一点ずつ手で拾い上げる作業が必要で、これは損失を最小化するために欠かせない工程です。私たちはこの二つの身体的タスクに対して、それぞれロボットシステムによる解決策を提案しています。
フィールドアシスタントについては、多種多様なセンサーを搭載したロボットシステムを考古学者の補助として使用し、コンピュータビジョンと機械学習を組み合わせて土器・石器などの遺物を自動検出するというアイデアです。ソーティングアシスタントについては現在もまだ概念段階ですが、X・Y・Z軸で動作するデカルト座標系ロボットシステムにコンピュータビジョンと機械学習を組み込むことで、選別作業を補助できると考えています。
開発の歴史を振り返ると、私たちは2021年に着手しました。最初のステップはドメインエキスパートへのヒアリングです。デルフト工科大学の研究者や学生と連携を開始し、自律システムが考古学者の補助として機能できる可能性を探りました。初期結果は良好で、研究を継続する確信を得ました。翌年はシミュレーテッドエージェントを用いた実験と、人工的な環境での機械学習の試験運用を行いました。白い背景に置かれた土器片であれば、モデルはすべてを容易に検出できました。しかし現実の野外はそれほど単純ではありません。
現在進行中の研究では、移動手段(ロコモーション)の問題に取り組んでいます。あらゆるフィールドは地形が異なり、一つのソリューションで対応できません。脚式システム・車輪式システム・履帯式システムのそれぞれについて実験を行っており、Technosという企業との共同研究を通じて、脚式が車輪式より優れているのか、あるいは状況に応じて切り替えられるハイブリッドなシステムが最善なのかを検証しています。もうひとつの課題が、動画ストリームからリアルタイムで土器を検出する機械学習の実装です。ロボットデバイスから得られるデータに対してリアルタイム処理を行うことは計算コストが非常に高く、自律システムを構築するためにはこの精度と計算コストのバランスについてパラダイムシフトが必要だと考えています。
3-4. 移動システムの比較・土器検出・スウォームロボティクスとオープンハードウェア戦略
Tuna Kıja: 設備の拡充計画についても共有します。現在、第二のローバーの購入を予定しており、これによってスウォームロボティクス、すなわち複数ロボットによる群れの概念を考古学サーベイで実験できるようになります。複数のロボットが協調して広大なフィールドをカバーし、通信・測位問題を解決しながら、まるで人間の調査チームのように機能する体制を目指しています。各ユニットには多様なセンサーの搭載が想定されており、深度カメラやスペクトルカメラを活用して遺物検出の機械学習問題にアプローチする計画です。
また、デカルト座標系ロボットシステムも今年中に導入する予定であり、ソーティングアシスタントとしての機能実現に向けた開発を本格化させます。そして私たちが強く推進したいのが、オープンハードウェアという考え方です。これらのロボットシステムは非常に複雑かつ高価であり、特に国境を越えた機器の輸入は現実的な障壁になります。
Paul Zimmerman: まさにそこが重要な点ですね。私が研究しているイラクのフィールドにこういったロボットを持ち込もうとすると、輸入の問題は非常に現実的な壁になります。
Tuna Kıja: だからこそオープンハードウェアを推進しているのです。3Dプリンティングによるアドオンパーツを使えば、ロボットユニットをより汎用的かつ相互運用可能なものにできます。現地で部品を印刷してロボットを組み立て、そのままフィールド調査を進めるという未来が、オープンハードウェアによって実現できます。私たちはすでにこのアプローチの実験を始めており、ロボティクスが考古学研究のユニバーサルなツールとなれるよう取り組んでいます。最後に、私たちが議論のために提起したいいくつかの問いを共有します。まず、精度はどこまで必要なのかという問題です。私たちは常により高い精度を追い求めますが、タスクによっては低い精度でも従来のアプローチより有益な場合があります。次に、学習と検証を繰り返すたびにかかる環境コストをどう削減するかという問題。そして考古学とロボティクスという超学際的な分野をどのように組み合わせて新しいパラダイムに挑むか。さらに、石器や車輪を発明した人類がロボットデバイスという新たな発明を手にした今、考古学はこの技術的変化について何を語れるのか。そして最後に、自動化が考古学の労働と知識生産に与える影響という問いです。ロボットは考古学者の仕事を奪うのか、それとも補完するのか。これらはすべて、まだ答えのない開かれた問いです。
4. 航空・衛星画像と深層学習による景観考古学
4-1. 遺構検出の手法と博士研究:LiDAR・クロップマーク・深層学習による自動検出の仕組みと新発見
Iris Kramer(景観考古学・スタートアップ創業者): 私がAIを考古学に応用する旅を歩み始めたきっかけは、景観の中に潜む考古学的遺構をいかに検出するかという問いでした。遺構の検出にはさまざまなセンサーが使われます。航空写真やLiDAR(光検出・測距)センサーがその代表です。私たちが探しているのは、地下に埋まっているものや、地表にわずかな凹凸として残っているものです。地表に凹凸が残っていれば、LiDARによってその起伏を検出することができます。しかし遺構が完全に地下に埋まってしまっている場合、地表からの直接的な観察は不可能です。そのような場合に頼るのが「クロップマーク」という代理指標です。夏の乾燥した時期、地下の遺構の影響を受けた土壌では作物の生育が阻害され、上空から見ると周囲と異なる色の模様として現れます。これらをとらえるためには、衛星あるいは航空機に搭載されたセンサーから俯瞰的な視点が不可欠です。
しかしながら、このような空中画像から遺構を見つけ出す作業は、極めて手間のかかる手動プロセスです。考古学的遺構はどこにでもあるわけではなく、広大な景観の中に散在しており、例えば墳墓だけを探そうとすれば、イギリス全土に広がる膨大な画像を丹念に見ていかなければなりません。遺構の場所さえ分かれば保護の手を差し伸べることができますが、場所が分からなければさまざまなリスクにさらされたままです。こうした背景から、AIによって作業を高速化・精度向上することには大きな意義があります。
私の博士研究では、この遺構の自動検出を深層学習によって実現することに特化して取り組みました。手法の仕組みはシンプルです。衛星やLiDARセンサーからの画像と、対象となる遺構の位置をポリゴンまたはバウンディングボックスで示したラベルデータを組み合わせ、深層学習モデルに与えます。するとモデルは内部的に、ラベルされた遺構が持つ線・エッジ・色のパターンといった「指紋」を学習し、それに似た特徴を持つ未知の画像中の遺構を検出できるようになります。重要なのは、学習に使ったのは明瞭に残っている典型的な遺構であっても、長年の農耕によって輪郭が薄れてしまったような不明瞭な遺構まで検出できるという点です。スコットランドのアイル・オブ・アラン島では、この手法によってそれまで知られていなかった円形遺構を新たに発見しました。こうした事例は、AIが単なる作業効率化ツールにとどまらず、実際に新たな考古学的発見をもたらすことができることを示しています。
4-2. 研究から商業化へ:開発事業への組み込みと国家スケールの景観マッピング
Iris Kramer: 博士研究を通じて技術的な可能性を実証した後、私はより大きなスケールで社会的インパクトを生み出すために、アカデミアを離れて自分の会社を立ち上げることを決意しました。研究の世界では考古学への資金投入は限られていますが、開発事業の文脈ではまったく異なります。建設工事に際して考古学調査が法的に義務付けられている多くの国々では、考古学的調査は開発コスト全体の約2%を占めており、それが開発プロセスを遅延させるとして開発業者から敬遠されています。私たちが提供できるのは、景観のどこに考古学的遺構が存在するかを事前にリスク評価することです。これにより、遺構が豊富に残る地域を開発ルートや設計の段階から避けることが可能になります。地中に埋まったままの遺構は、発掘されて露出するよりもはるかに良い状態で保護されます。発掘は不可逆的な破壊を伴うものであり、「掘らないことが最良の保護」という考え方が私たちのアプローチの根底にあります。
具体的な成果として、スコットランドのLiDAR画像を用いたラウンドハウス(円形住居跡)・ヒルフォート(丘上要塞)・リグ・アンド・ファロー(畝跡)・採石場などの多様な遺構の検出をすでに実現しています。中でも特に注目すべきは、リグ・アンド・ファロー、すなわち中世の農耕による畝跡の国家規模マッピングです。これはイングランド全土を対象としたプロジェクトで、モデルによる検出精度は非常に高く、人間の専門家によるラベルと比較しても良好な一致を示しました。調査の結果、驚くべきことにイングランド全土の約3%にリグ・アンド・ファローが存在することが明らかになりました。これはイングランドの面積の3%を遺跡として保護しなければならないことを意味するわけではありませんが、その遺存状態の評価と優先的保護が必要な地域の特定に直接役立てることができます。この知見は、植林を推進するフォレストリー・コミッションとの協働にも活用されており、リグ・アンド・ファローの良好な保存状態にある場所には植林を避け、保存状態の低い場所では植林を許可するという、景観保護と土地活用の両立に貢献しています。
またクロップマークの分析においても、AIが高い精度で円形の埋葬塚や矩形の遺構を検出することに成功しています。画像上で赤くハイライトされた専門家によるラベルと、AIによる検出結果が非常によく一致しており、この技術の実用性が実証されています。さらに過去の航空写真に加え、歴史的地図を新たなデータソースとして活用する取り組みも進めています。イギリス全土で1900年時点の土地利用状況を歴史的地図からマッピングし、かつて森林・果樹園・湿地であった場所を特定しました。これは生態系の観点からも非常に重要な知見です。かつて森林だった場所に再び植林を行うと、菌根菌ネットワークなど地中の生物学的遺産が残っている可能性があり、任意の場所に植林するよりもはるかに速く森林が再生することが分かっています。土壌の健全性は、こうした生息地の回復において決定的な役割を果たします。
4-3. 歴史地図・時系列分析による景観変化の可視化とインフラ計画・持続可能な開発への貢献
Iris Kramer: 歴史的地図を用いた分析では、かつてどこにヘッジロー(生垣)や農地の境界線が存在していたかも国家スケールで特定しました。これらも景観復元プロジェクトにおいて生態学的に重要な手がかりとなります。古代林の消失マッピングでは、ロンドン周辺で都市開発によって失われた森林が最も集中していることが可視化されました。例えばロンドン近郊のウォルトン・オン・テムズでは、古代林の上に新たな開発が進行中であることが地図上で明確に確認できます。
複数の年代の地図データを重ね合わせることで、1900年・1950年・現在という時系列で景観の変化を追跡することも可能になりました。デボン地方を例に挙げると、かつてサイダー生産で知られたこの地域では、果樹園が広く分布していましたが、穀物などの換金作物が普及するにつれて農地への転換が進み、果樹園の大幅な減少が数値として可視化されました。こうした変化の「なぜ」まで分析できることが、この手法の大きな強みです。
Paul Zimmerman: Irisさんの研究は、考古学が開発や生態学と深く絡み合っていることを改めて示してくれました。私自身、中東でのフィールドワークや米国でのCRM(文化資源管理)の仕事を通じて、都市拡大と遺跡保護の間でのジレンマを常に感じています。バグダッドの東方向への拡大を記録した歴史的スパイ衛星写真を分析した同僚は、すでに舗装されて失われた多くの遺跡を特定しました。人々には生活の場が必要であり、すべてを保護することは不可能です。しかしIrisさんの研究のように、事前に何が失われる可能性があるかを把握できれば、より賢明な意思決定が可能になります。
Iris Kramer: まさにそこが重要です。例えば大規模な鉄道路線の建設計画を例にとると、ルートが決まった後に考古学的調査のコストを試算するのではなく、計画の初期段階から私たちのデータを組み込むことで、考古学的に重要な場所を避けたルート選定や設計の最適化が可能になります。景観の中に積み重なったさまざまな層、リグ・アンド・ファローの上に広がる森林や農地、その下に埋まる先史時代の遺構、それらを同時に把握し解きほぐしていくことが、持続可能な開発のために私たちが目指していることです。ご関心のある方は、私のTEDxトークや会社のウェブサイトもぜひご覧ください。
5. 全体討論:AIの信頼性・環境コスト・データ倫理
5-1. AIへの懐疑論とハルシネーション問題:ペトラ神殿の体験談とRAGへの移行の必要性
Paul Zimmerman: 少々挑発的に聞こえるかもしれませんが、率直な問いを投げかけさせてください。AIは今や巨大なマーケティング用語と化しており、懐疑的な見方が広がっています。以前、同僚の研究者が特定の公開LLMを使って非常に良い結果が得られたと興奮気味に話してくれました。インドの遺跡に関する質問をしたところ、その回答が非常に良かったというのです。彼女に倣って私も試してみました。自分がかつて携わったヨルダンのペトラにある遺跡について質問したのですが、最初の回答はあまり良くありませんでした。そこでより具体的に、1990年代に発掘に関わったグレート・テンプルの列柱廊について尋ねたのです。このグレート・テンプルは、柱頭に象の頭部の彫刻が施されているという非常に珍しい特徴で知られています。ところがLLMが返してきたのは、古典建築一般に当てはまるような汎用的な列柱廊の説明であり、象の頭部については一切言及がありませんでした。権威あるように聞こえる回答でありながら、最初のケースでは少し間違っており、二番目のケースでは私が最も知りたかった情報が完全に欠落していました。こうした状況において、言語モデルはどの程度信頼できるものなのでしょうか。
Alex Brandsen: 核心を突く問いだと思います。私たちはこれらのモデルを擬人化しすぎている節があります。GPTタイプのLLMは本質的にテキスト予測エンジンです。人間らしく聞こえるように最適化されているのであって、真実を出力するように最適化されているわけではありません。ペトラの象の柱頭のような、一般的にはあまり議論されない周辺的なトピックについては、学習データにそれが含まれていないか、ごくわずかしか登場しない場合、モデルは人間らしく聞こえる何かを出力しようとします。内部的には「列柱廊について話しているから、他の列柱廊について書かれた文章から何かを繰り返そう」という統計的な処理が行われているだけです。その特定の遺構を知らないから、それらしい別の情報を流暢に出力してしまうのです。この問題に対して私たちが向かうべき方向は、RAG、すなわち検索拡張生成(Retrieval-Augmented Generation)です。LLMをそのまま使うのではなく、特定のデータセットを接続し、LLMをデータセットへの問い合わせインターフェースとして機能させます。これにより、LLMは「この文書のこの文章に象の頭部のことが書かれている」という形で、情報源を明示しながら回答を返すことができます。LLMはあくまでもインターフェースであり、情報の真の出所は検証可能な一次資料です。今の段階でできることは非常に多くありますが、情報検索と統合するこの方向へ進まなければなりません。
Yannis Assael: 私はギリシャ人ですので、哲学的な観点から少し付け加えさせてください。懐疑することは良いことであり、それが進歩を生むのです。問題として認識されているものを、私は「解決すべき問い」として捉えています。主要な産業研究所では、これらのモデルの内部メカニズムを分析し、学習プロセスがどのように行われるかを理解しようとする素晴らしい研究が進んでいます。LLMを使う際には、出力結果を必ず二重確認することを強くお勧めします。次の単語を予測するという行為は、世界の構造をモデルに教える優れた方法ではありますが、特定の難しいタスクにおいては十分でない場合もあります。私はこの分野の未来、特に考古学への応用という観点での進歩に強い好奇心を持っています。自然言語処理のトップカンファレンスで最多投稿数を記録したワークショップの事例が示すように、これらのモデルがあらゆる分野に与えるインパクトは日々拡大しています。
Paul Zimmerman: 先ほどのIthacaの発表でも触れられていましたが、欠損した単語の補完や解釈において専門家の関与を維持することが重要だという点は強調しておきたいと思います。考古学は人類の過去の研究であり、どれほどロボットやエージェントが発展しても、それは人間が作り出したものを人間が研究する営みです。ヒューマニスティックな視点を保つことが、AIを正しい方向に進める上で不可欠です。
Tuna Kıja: Yanisのコメントに付け加えて言えば、人類の進歩は不可避であり、私たちは確実に前進しています。しかしSDGsについて議論している場として、進歩のコストについても考えなければなりません。大規模言語モデルの精度が1〜2ポイント向上するたびに、それに見合うだけの環境負荷がかかっているのかという問いです。
5-2. 環境コスト・FAIRとCAREデータ原則・遺跡情報の機密性と先住民コミュニティへの配慮
Paul Zimmerman: Tunaが提起したLLMのエネルギー消費問題は、近年ニュースでも多く取り上げられていますね。モデルの学習と検証を繰り返すたびに生じる環境コストを、どう削減していくかは重要な議題です。では次の問いに移りましょう。Alexさん、あなたはオランダのグレイ・リテラチャーを扱っていますが、米国では同様のCRM(文化資源管理)報告書の多くが、州の官僚機構のどこかに埋もれた状態のグレイ・リテラチャーです。一方で、遺跡の場所が公開されれば略奪者に狙われる恐れがあったり、先住民や子孫コミュニティにとって非常にセンシティブな情報を含んでいたりするため、彼らの同意なく情報を公開することはできません。米国ではFAIR原則とCARE原則という概念が盛んに議論されています。FAIR原則とは、Findable(発見可能)・Accessible(アクセス可能)・Interoperable(相互運用可能)・Reusable(再利用可能)の頭文字を取ったもので、主にコンピュータサイエンスやオープンソースの世界から生まれた概念です。一方CARE原則とは、Collective benefit(集合的利益)・Authority to control(管理の権限)・Responsibility(責任)・Ethics(倫理)の頭文字で、先住民コミュニティをはじめとするより多くの声をデータの議論に取り込もうとするものです。あなたはCARE原則、特に「管理の権限」をどのように担保していますか。
Alex Brandsen: 非常に重要な問いです。オランダではFAIR原則は研究全般において強く意識されていますが、CARE原則はあまり議論されていません。オランダには私が知る限り、明確な先住民グループが存在しないため、ヨーロッパ全般においてCARE原則の認知度はまだ低い状況です。この点については私自身が専門家というわけではないので、深く踏み込むことは避けますが、私たちが選択しているアプローチをお話しします。私たちはアグリゲーター、つまり情報の集約者として機能しており、データそのものへの介入はしないという立場です。具体的には、各アーカイブ自身がエンバーゴや倫理的な制約に基づいてアクセス権限を設定し、公開可能と判断したデータのみを私たちの検索エンジンに取り込むという方針をとっています。データの公開・非公開の判断はアーカイブとデータ提供者に委ね、私たちはそのルールに従うというわけです。
ただしこのアプローチには限界もあります。ある分野でほぼすべてのデータが非公開であれば、実質的に何も活用できないという状況が生じます。理論上は、データを収集しながらも出所を曖昧にする手法も考えられますが、言語モデルは学習データに含まれる情報を、たとえモデル内に明示的に符号化されていなくても、出力として再現してしまう可能性があります。例えば「アムステルダムでこの金が発見された」という情報が学習データに含まれていれば、モデルがそれを出力し、人々がその場所に掘りに行くというリスクは現実にあります。だからこそ、アーカイブとデータ提供者がこれらの原則の専門家として主導的な役割を果たすべきであり、私たちはその判断に従うという立場が最も適切だと考えています。
Paul Zimmerman: FAIRとCAREの違いを整理しておくと、FAIRは主にコンピュータサイエンスの文脈から来ており、比較的実装しやすい側面があります。一方でCAREはより多くの声を議論に引き込もうとするものであり、実装はずっと難しい。北米の考古学において今最も重要な広義のテーマのひとつが、まさにこの問題、すなわちデータをどのように収集し共有するか、そして誰がその会話に参加するかという問いです。
Iris Kramer: 私の視点から補足すると、AIはあくまでもツールです。私たちができることは、景観の中の考古学的遺構をできる限り検出し、インベントリを充実させることです。例えばリグ・アンド・ファローがイングランドの3%に存在するという知見は、地域ごとにその希少性の違いを把握することを可能にします。ある県では希少で珍重されるが、別の県では多く分布しているという情報は、地方自治体の開発許可の判断においても有益な根拠となります。最終的にどこを守り、どこで開発を許可するかを決めるのは政策立案者であり、AIはその判断を支える情報基盤を提供するという役割を担うものです。検出・インベントリ化・情報提供という私たちの貢献が、より賢明で持続可能な意思決定につながることを願っています。
