※本記事は、Dragos Margineantu氏(ボーイング社)による、ACM KDD2024カンファレンスでの講演の内容を基に作成されています。 本記事では、講演の内容を要約しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講演映像をご覧いただくことをお勧めいたします。 本講演の完全な映像は、以下のURLでご覧いただけます: https://www.youtube.com/watch?v=Wvvg0bjWw9I
1. イントロダクション
1.1 発表者の背景と研究の経緯
私はまず、この発表の機会を与えてくださったKDD組織委員会に感謝したいと思います。このコミュニティは私にとって常にインスピレーションの源であり、私自身の研究やチームの研究の方向性を導く重要な存在でした。
2016年まで、私はコアな機械学習研究者として活動してきました。その年に、私の所属するBoeing社で自律飛行機を開発する機能を担当する機会が訪れました。それまで、この分野に足を踏み入れることを躊躇していた理由は、単純に非常に複雑に見えたからでした。
私には自律走行車や自律掃除機、室内自律ロボットに取り組む友人たちがいました。大学院時代からSebastian ThrunやAndrewなど、多くの研究者と議論を重ねてきました。しかし、この分野は機械学習だけではない、はるかに多くの科学的知見が必要な領域だと感じていました。
2016年、私の会社で重要な会議がありました。当時、機械学習は非常に注目されており、未解決の問題すべてに対する答えを機械学習が提供してくれると期待されていました。実際、機械学習・AIコミュニティは私たちに非常に強力なツールを常に提供してくれています。しかし、システムの構築を始めると、「ここに新しいアルゴリズムがあります」「ここに新しいモデルがあります」と考え始め、その他の部分は簡単に解決できるだろうと誤って考えてしまいます。
この状況は、Sydney Harrisの風刺画が見事に表現しています。私たちは、画像から腫瘍を検出できれば放射線科医は不要になる、ハンバーガーを焼く制御ができればハンバーガーの職人は不要になると考えがちです。しかし、これは周辺にある重要な要素を無視してしまっているのです。
確かに、この周辺領域に関する多くの科学的知見はこのコミュニティの外にあります。しかし、私が学んだ重要な点は、エンドツーエンドの意思決定システムを構築するためには、私たち機械学習研究者が、これらのサブシステムやサブ機能が何を最適化し、その目的が何であるかを少なくともハイレベルで理解しておく必要があるということです。
私を含め、多くの研究者がデータを入手し、予測を行い、それがUCIリポジトリの素晴らしいデータセットから始まるエンドツーエンドの素晴らしいシステムの一部になると想像して研究を始めました。しかし、この会議での応用データサイエンスに関する発表で見てきたように、実際にはこれらのシステムを構築することがいかに困難で、何に注意を払う必要があるかということが重要なのです。
1.2 エンドツーエンドの意思決定システムの課題
私たちの研究コミュニティでは、よく「システムはもうすぐデプロイできる状態になります。あとは少しだけデータが必要です」という声を耳にします。「シミュレーションからでも、オンラインからでも、とにかく少しだけデータを収集すれば、システムは準備完了です」というものです。しかし、私たち全員が知っているように、その「少しだけのデータ」は、いつの間にか「もっとデータ」「さらにデータ」となり、多くの場合、私たちは期待する堅牢性を達成できずにいます。
一方で、私たちのコミュニティの一員であり、深層学習のための素晴らしいツールキットや広く読まれている深層学習の本を執筆したFrançois Cholletは、その著書の初版で重要な指摘をしています。「現在の深層学習技術では、たとえ膨大な人間によるアノテーションデータがあったとしても、多くのアプリケーションは手の届かないところにある」という謙虚な声明を出しています。これは、機械学習全般についても同様に当てはまる真実です。
私たちはシステムの構築を始めるとき、制御コンポーネント、計画コンポーネント、対話・音声コンポーネント、予測コンポーネント、論理コンポーネント、数学的コンポーネントなどが必要になることは理解しています。しかし、これらがどのように組み合わさるのかについて、深く考えることは少ないのです。グラフとして考えるかもしれませんが、それ以上の考察は避けがちです。
昨日の夕食時にAlex Simsusと話をしていた際に、彼の研究は私の研究とは全く異なる分野であるにもかかわらず、同じような結論に達していることが分かり、興味深い発見がありました。Tanyaの招待講演での結論なども、同様の方向性を示しています。
ここで重要なのは、「データがもう少しあれば」という考えが、実際には想定以上に複雑な課題を含んでいるということです。私たちは無限のデータがあったとしても対応できない応用分野が存在することを認識し、それに対してどのようなアプローチを取るべきか、過去からの学びと現在の経験を通じて考えていく必要があります。
システムを構築する際、私たちは単にアルゴリズムやモデルを考えるだけでなく、それらがどのように実世界で機能し、他のコンポーネントとどのように相互作用するのか、そしてシステム全体としてどのように統合されるのかを、より深く考える必要があります。これは実世界での複雑さに対応するための本質的な課題なのです。
1.3 実世界システムの構造的特徴
システムの構築を始めるとき、私たち全員が認識しているのは、システムには制御コンポーネント、計画コンポーネント、対話や音声のコンポーネント、予測コンポーネント、論理コンポーネント、数学的コンポーネントなどが必要だということです。しかし、これらがどのように組み合わさるのかについて、私たちはあまり深く考えません。単純にグラフとして考えるかもしれませんが、それ以上の考察は避けがちです。
しかし、航空機の開発に携わり始めたとき、私が気づいたのは、実はそこには明確な構造が存在するということでした。実際、どのような種類の自律走行車両を開発しているチームでも、同様の構造が見られます。私は、これらのシステムに存在する非常に単純化された構造を特定しようと試みました。そして驚くべきことに、この構造は私たちの脳の構造とも一致していることがわかりました。
この構造の中で、まず知識ベースというものがあります。これは通常、静的な、歴史的な知識、地図、事実、建物の位置、ルールなどを含む、システムにとって比較的静的な部分です。次に、知覚システムと対話システムがあり、これらは異なるスケールや異なる頻度でのセンシングを行う学習の重要な部分です。これには画像、テキスト、インターネットアクセス、その他すべての入力が含まれます。
さらに、自律システムの場合、何らかのアクチュエーションを扱う制御システムが存在します。しかし、最も重要なのは中央に位置する意思決定コンポーネントです。これは自動車や航空機、ロボットの場合、プランナーとその計画の実行者として機能します。このコンポーネントは非常に重要な役割を果たし、私たちがこれらのシステムを開発する際には、その構造と機能を考慮に入れることが重要です。
このプランナーには階層性があり、それは抽象化の階層となっています。例えば、今晩の夕食に行くための計画を考えてみましょう。高いレベルでは、天気、道路、交通、制約条件、夕食の前にパンを買う必要があるなど、高次元の知識が必要です。一方、低いレベルでは、基本的に制御が行われ、これは低次元ですが非常に高い頻度で発生します。
私たちは夕食のことを1秒間に24回も考えはしません。より低い頻度で考えますが、アクチュエーターや制御は低次元で、典型的に30Hz、60Hz、200Hzといった高い頻度で機能する必要があります。
この階層構造は基本的に実行可能性(tractability)によって駆動されています。低次元である理由は、これらのシステムが通常30Hz、60Hz、200Hz等で機能する必要があるためです。より高いレベルでは、より低い頻度で機能する必要があります。
このことは非常に重要です。なぜなら、私たちが開発する学習システムはこの構造のあらゆる場所に存在することになるからです。NLP、音声認識、画像認識などはすべてこの側面に位置し、知識ベースに知識を生成する学習、アクチュエーションのための学習など、それぞれが必要な頻度とその次元で機能する必要があります。このような構造を意識しながら、これらの学習システムをどのように開発するかを考えることが重要なのです。
2. システムの基本構造
2.1 知識ベースと静的情報の役割
このシステムの構造において非常に重要な要素の一つが知識ベースです。知識ベースは、システムの中で比較的静的な部分として機能します。私がここで言う知識ベースとは、典型的には静的で歴史的な知識を含むものです。具体的には、地図情報、ルール、建物の位置などの事実に関する情報が含まれます。
この知識ベースの重要な特徴は、その情報が比較的静的であるという点です。例えば、建物の位置情報や基本的な航空規則などは、頻繁には変更されません。これは、システムが常に参照できる基盤となる情報として機能します。
知識ベースは、私たちの脳の機能とも類似した構造を持っています。昨日の議論でAlexも言及していましたが、このような静的な知識の保持と活用は、人間の認知システムにおいても重要な役割を果たしています。
この知識ベースは、システムの他のコンポーネント、特に意思決定を行うプランナーにとって極めて重要です。例えば、航空機システムにおいて、空港の位置や滑走路の構造、航空規則などの静的な知識は、安全な飛行計画を立てる際の基礎となります。
ただし、この「静的」という性質は相対的なものです。知識ベースの情報も時間とともに更新される必要があります。例えば、新しい建物が建設されたり、規則が改定されたりした場合には、その情報を適切に更新し維持管理していく必要があります。この更新のプロセスは、システムの信頼性と安全性を維持する上で重要な要素となります。
また、知識ベースは単なるデータの集合ではありません。それは、システムが理解し活用できる形式で構造化された知識の集積です。この構造化された知識は、システムの他のコンポーネント、特にプランニングや意思決定を行うコンポーネントが効率的にアクセスし、活用できる形で組織化される必要があります。
私たちのシステムでは、この知識ベースは、高次元の知識を含む上位層から、より具体的な制御情報を含む下位層まで、階層的に構造化されています。これにより、システムは状況に応じて適切なレベルの知識にアクセスし、効率的な意思決定を行うことが可能となります。
2.2 知覚・対話システムの機能
システムの構造において、知覚システムと対話システムは重要な機能を果たしています。これらのシステムは、異なるスケールと異なる頻度でセンシングを行う、学習が大きく関与する部分です。私たちのシステムでは、画像、テキスト、インターネットアクセスなど、あらゆる種類の入力を処理する必要があります。
これらの知覚・対話システムの特徴として、異なるスケールでのセンシングがあります。例えば、航空機システムの場合、近距離での障害物検知から遠距離での気象状況の把握まで、様々なスケールでの知覚が必要となります。各スケールにおいて、センサーは異なる特性と制約を持っており、それらを適切に統合することが重要です。
また、これらのシステムは高頻度と低頻度の情報処理を同時に行う必要があります。例えば、画像認識システムは毎秒複数回の処理を行う必要がありますが、航空管制との対話は比較的低頻度で行われます。これらの異なる頻度の情報を適切に処理し、統合することが、システム全体の性能に大きく影響します。
私たちのシステムでは、画像やテキスト、インターネットアクセスなどの様々な入力を統合する必要があります。この統合は単純な情報の結合以上のものです。例えば、航空機の視覚システムからの情報と、管制塔からの音声情報、そしてインターネットを通じた気象情報など、異なる種類のデータを意味のある形で統合する必要があります。
これらの異なる入力ソースは、それぞれが独自の特性と課題を持っています。例えば、視覚情報は高頻度だが環境条件に影響されやすく、音声情報は低頻度だが重要な文脈情報を含んでいます。インターネットからのデータは広範な情報を提供しますが、リアルタイム性に制約があります。
これらの知覚・対話システムは、他のシステムコンポーネント、特に意思決定を行うプランナーと密接に連携する必要があります。異なるスケールと頻度の情報を、意思決定に適した形で提供することが重要です。また、これらのシステムは常に進化し続ける必要があります。新しいセンサー技術や通信プロトコルの出現に応じて、システムを更新し、より効果的な知覚と対話を実現していく必要があります。
2.3 階層的プランニングと実行制御
システムの中心に位置するプランナー、つまり意思決定コンポーネントについて説明することは非常に重要です。自動車や航空機、ロボットのシステムでは、このコンポーネントはプランナーとその計画の実行者として機能します。
このプランナーには明確な階層性があり、それは抽象化の階層として機能しています。例えば、今晩の夕食に行くための計画を考えてみましょう。高レベルでは、天候、道路状況、交通状況、制約条件(例:夕食の前にパンを買う必要がある)など、高次元の知識を扱う必要があります。一方、低レベルでは基本的に制御が行われ、これは低次元ですが非常に高い頻度で実行されます。
この階層構造の重要な特徴は、高次元の知識から低次元の制御への変換プロセスです。一度、高レベルでの決定(例:どのルートを取るか、どの時間に出発するか)が行われると、それは徐々により具体的な制御命令(例:ステアリングの角度、速度の調整)に変換されていきます。
プランニングにおける抽象度の違いは、システムの効率性と実行可能性にとって非常に重要です。私たちは例えば、夕食のことを1秒間に24回も考え直すことはしません。より低い頻度で考えます。しかし、アクチュエーターや制御は、典型的に30Hz、60Hz、200Hzといった高い頻度で機能する必要があります。
この階層構造は基本的に実行可能性(tractability)によって駆動されています。低レベルで低次元である理由は、これらのシステムが通常30Hz、60Hz、200Hz等で機能する必要があるためです。より高いレベルでは、より低い頻度で機能することが可能です。
実行時の適応的制御も重要な要素です。計画は静的なものではなく、実行中に常に状況に応じて調整される必要があります。例えば、予期せぬ障害物が現れた場合や、天候が急変した場合など、システムは高レベルの計画を維持しながらも、低レベルでの制御を適応的に調整する必要があります。
このような階層的なプランニングと実行制御の構造は、私たちの脳の機能とも類似しています。人間も同様に、高レベルでの計画立案から、低レベルでの運動制御まで、異なる抽象度でのプランニングと制御を行っています。この構造を理解し、適切に実装することが、効果的な自律システムを構築する上で非常に重要なのです。
2.4 次元と頻度の重要性
システムの構造において、次元と頻度の関係は非常に重要な要素です。私たちのシステムでは、高次元から低次元へ、そして低頻度から高頻度への遷移が存在します。この構造は、高次元の知識を扱う上位レベルから、低次元の制御を扱う下位レベルまでの階層として実現されています。
高次元・低頻度のレベルでは、例えば今晩の夕食に行くための計画のように、天候、道路状況、交通状況、様々な制約条件など、多くの次元の情報を扱います。このレベルでの決定は比較的低頻度で行われ、私たちは同じ決定を1秒間に24回も行う必要はありません。
一方、低次元・高頻度のレベルでは、実際の制御が行われます。このレベルでの制御は低次元ですが、非常に高い頻度で実行される必要があります。典型的には、30Hz、60Hz、200Hzといった高い頻度での処理が要求されます。これは、システムが実時間で適切に応答するために不可欠です。
この階層構造が存在する主な理由は、実行可能性(tractability)の考慮にあります。低レベルで低次元にする理由は、これらのシステムが高頻度で機能する必要があるためです。全ての次元を高頻度で処理しようとすると、計算量が膨大になり、実時間での処理が困難になってしまいます。
例えば、航空機の制御システムを考えてみましょう。高レベルでは、飛行経路、天候、他の航空機の位置、空港の状況など、多くの次元の情報を考慮する必要があります。しかし、これらの決定は比較的低頻度で行われます。一方、実際の機体の制御は、エレベーターやエルロン、ラダーなどの制御面の調整という低次元の問題に変換され、これらは高頻度で実行される必要があります。
この構造は、私たちの脳の機能とも類似しています。高次の認知機能は比較的低頻度で行われますが、運動制御などの低次の機能は高頻度で実行されます。この階層性によって、複雑な問題を tractable な形で解決することが可能になります。
したがって、システムを設計する際には、この次元と頻度の関係を慎重に考慮する必要があります。各階層で適切な次元数と処理頻度を設定し、それらが全体として効率的に機能するようにすることが重要です。これは、実用的なシステムを構築する上で避けては通れない考慮事項なのです。
3. モジュール性の重要性
3.1 エンドツーエンド学習の限界
私たちは機械学習コミュニティにおいて、エンドツーエンドの学習とその実現可能性について議論を重ねてきました。しかし、実世界のシステムは本質的にモジュール性を持つ必要があります。私たちは確かに機械学習において、エンドツーエンドの実現を目指していますが、既存のシステムはモジュール型で開発される必要があるという現実に直面しています。
この理解は、多くの応用データサイエンスの発表でも示されているように、これらのシステムを構築することがいかに困難で、何に注意を払う必要があるかということを示しています。実際、昨晩のAlexとの夕食での会話でも、彼の研究は私の研究とは全く異なる分野であるにもかかわらず、同様の結論に達していることが分かりました。Tanyaの招待講演での結論も同じ方向を指していました。
単一のモデルで全ての問題を解決しようとする試みには明確な限界があります。私たちはよく「システムはもうすぐデプロイできる状態になります。あとは少しだけデータが必要です」という声を耳にします。「シミュレーションからでも、オンラインからでも、とにかく少しだけデータを収集すれば、システムは準備完了です」というものです。しかし、私たち全員が知っているように、その「少しだけのデータ」は、いつの間にか「もっとデータ」「さらにデータ」となり、多くの場合、私たちは期待する堅牢性を達成できずにいます。
これは、私たちのコミュニティの一員であるFrançois Cholletが、その著書の初版で指摘した重要な点と一致します。「現在の深層学習技術では、たとえ膨大な人間によるアノテーションデータがあったとしても、多くのアプリケーションは手の届かないところにある」という謙虚な声明は、この現実を的確に表現しています。
デモと実用システムの違いは特に顕著です。デモでは単一のモデルで印象的な結果を示すことができるかもしれませんが、実用システムでは、異なる機能を持つ複数のモジュールが協調して動作する必要があります。これは、実世界での複雑な要求に対応するために不可欠な構造なのです。
このような理解から、私たちは実世界のシステムをモジュール化して開発する必要性を認識しています。それぞれのモジュールが特定の機能に特化し、それらが適切に連携することで、全体として堅牢なシステムを構築することができます。これは、単なる技術的な選択ではなく、実用的なシステムを構築する上での本質的な要件なのです。
3.2 人間の認知における模倣性の知見
人間の認知における模倣性について、非常に興味深い研究成果がMIT、Georgia Tech、University of Texas Austin、UCLAの研究グループによって発表されました。彼らは昨年この研究を発表し、2024年にarXivで更新されたバージョンを公開しています。
この研究が示したのは、人間の認知が本質的にモジュール型であるという事実です。私たちは単一の生成モデルですべての機能を実行しているのではありません。研究グループは、人間の認知には明確に分離された機能が存在することを示しました。具体的には、プランニング機能、メタ認知と自己モニタリング機能、推論と理論的思考のコンポーネントなどが存在します。特筆すべきは、これらの機能は現在の生成モデルにはほとんど実装されていない機能だということです。
さらに重要な発見として、エピソード記憶の存在があります。例えば、この会議が終わった後、私はここにいて何かを学んだという事実を否定することはできません。このイベントは、私の脳の中で、この場所と時間に結びついた記憶として表現されることになります。これは人間の認知における重要なモジュール性の一例です。
このような研究結果は、私たちが機械学習において追求している大規模モデルによるエンドツーエンドの実現について、重要な示唆を与えています。人間の認知がこのようなモジュール性を持っているという事実は、私たちのシステム設計にも影響を与えるべきでしょう。これらの論文は、知能や認知が構造化される必要があり、これらの機能が実際には異なる方法で実行されているということを理解する必要性を示しています。
私は、少なくとも私たちの生涯の間は、単一モデルによるエンドツーエンドの実現は見られないだろうと考えています。デモとしては単一モデルで何かを達成できるかもしれませんが、実際に機能するシステムとしては実現できないでしょう。人間の認知の研究が示すように、真に効果的なシステムは、適切に分離され、相互に連携する機能モジュールから構成される必要があるのです。
3.3 実世界システムのモジュール構成
実世界のシステムにおけるモジュール性について、特に知覚システムの視点から説明したいと思います。現在、知覚の分野で働いているほぼすべての人が理解していることは、システムは単なる検出器や顔認識器、物体認識器だけではないということです。私たちは、その前段階にデータの前処理、スライシング、注意メカニズムなどが必要であることを理解しています。そして、その学習器の上に、トラッキングや推論のシステムが必要で、これらすべてが相互に接続されています。そして最終的に、これらの上に意思決定システムが構築されるのです。
このモジュール性は今では十分に理解されていますが、私たちはこれについて語ることを避けたり、時にはこれについて言及しないことさえあります。しかし、ここで重要な点を指摘させてください。現在では、検出器を含むボックスだけでなく、その出力について推論し、トラッキングを行うシステムについて考えることが重要になっています。
実際、画像、テキスト、音声のいずれの検出に取り組んでいる方々も、検出自体よりも、その出力についての推論とトラッキング、推論に多くの時間を費やしているはずです。そして、これらの要素に大きく依存しながら、システムを構築しているのです。
このようなモジュール構成の重要性は、実用的なシステムを構築する上で避けては通れません。各モジュールは明確な機能を持ち、それらが適切にインターフェースを通じて連携することで、全体として効果的なシステムとなります。例えば、知覚システムでは、前処理モジュールがノイズの除去や信号の正規化を行い、検出モジュールが対象の識別を行い、推論モジュールがその結果の意味付けを行います。
システム全体の統合においては、各モジュール間のインターフェースの設計が極めて重要です。これは単なる技術的な接続の問題ではなく、情報の流れと変換の設計の問題です。モジュール間でどのような情報をどのようなタイミングで受け渡すか、それぞれのモジュールがどのような前提で動作するのか、これらを慎重に設計する必要があります。
このモジュール性は、システムの保守性、拡張性、そして何より信頼性を確保する上で重要です。単一の巨大なシステムではなく、適切に分割された機能モジュールとして実装することで、各部分の検証や改善が容易になり、システム全体の品質向上につながるのです。
4. システムの評価方法
4.1 航空機衝突回避実験の事例
私たちは空中での障害物回避のための強化学習モデルを開発し、実機での実験を行いました。この実験を通じて、システム評価の重要性と複雑さを実感することができました。
この任務は、航空分野において非常に重要視されている技能の一つです。商業パイロットの訓練では、1機の物体を回避することから始まり、2機の物体を回避することは非常に難しい課題とされています。ここで注意すべき点は、これらの対象は敵対的な物体ではありません。つまり、あなたの存在に気づいていない航空機を回避する必要があるのです。
実際の状況では、2機の航空機の回避だけでなく、より複雑なシナリオも考慮する必要があります。私たちのパイロットからのアドバイスによると、多くの場合、パイロットと気球の組み合わせに遭遇することがあります。これは、様々な場所で気球フェスティバルが開催されるためです。また、航空機と気象現象の組み合わせも考慮する必要があります。これらすべてを航空機の速度で空中で回避しなければならないのです。
私たちは強化学習ベースのソリューションを開発し、デプロイしました。実験の様子を収めたビデオをお見せしましょう。このビデオでは、パイロットたちが次のように説明しています:「私たちはグランドカウンティ国際空港にいます。衝突回避シナリオにおいて、回避操作を生成するための革新的な飛行ソフトウェア機能のテストを行っています。機械学習アルゴリズム、AIには一般的に保証が必要です。私たちは、アルゴリズムが基本的に安全性を保つことを確認したいのです。」
さらに、パイロットは一般市民が持っているパイロットへの信頼を、自動化システムへの信頼に移行させる必要性について言及しています。実験では、ニューラルネットワークが私たちのCaravan自律実証機を別の航空機の周りに経路変更させようとしています。これは地上でのバックエンドの処理ではなく、すべてをリアルタイムで機上で行っています。
システムは、侵入機が特定の方位にあり、この距離にあるという情報を受け取ると、AIがその回避方法を出力します。システムは侵入機と気象条件を回避するための最適な学習済み手順を持っています。しかし、私たちは予期できない異なる条件下でも安全性が維持されることを確認する必要があります。
強化学習自体は最適化であり、複数の侵入機を回避する軌道を生成する必要がある場合、最適化の観点から非常に複雑なタスクとなります。システムはパイロットが行うような知的な判断を行い、侵入機と気象セルの間を通り抜けるための経路を選択する方法で、私たちを何度も驚かせました。
実験に参加したパイロットからは、「このテクノロジーを見ていると、私がおそらく選んだであろう経路を示していて、とてもエキサイティングです」という評価を得ました。このような実機を使用したテストは他に例がなく、実際の航空機で、実際の空域内の他の航空機と共に行うため、非常にクールな研究です。私たちはその限界を押し広げているのです。
実験を通じて、保証技術が成熟しつつあることが確認できました。ニューラルネットワークが航空機上で安全に飛行できることを、私たち自身、規制当局、そして顧客に証明するために必要なツール、技術、プロセスを持つための良い軌道に乗っていると感じています。
4.2 パイロットからのフィードバック
このシステムを開発する上で、最も時間がかかったのは何だと思いますか?実は、システムの開発それ自体ではありませんでした。システムは、シミュレーション環境で学習され、その後拡張されました。実際、数週間程度で安全で最適なシステムを訓練することができました。
しかし、パイロットにシステムを見せた時、彼らは「これは航空機を追い越す方法ではない」「これは回避の仕方として適切ではない」と指摘しました。システムは確かに安全でしたが、パイロットが期待する方法で動作していなかったのです。私たちは他のパイロットも観察する可能性のある空域に自分たちを組み込もうとしていたため、これは重要な問題でした。
特に、私の同僚のDennisが率いたこのプロジェクトでは、システムの安全性を主張しましたが、重要な課題が浮かび上がりました。例えば、もう一方の航空機が非常に遅い場合、私たちのシステムはその前を通過して追い越そうとしました。これは航空分野では絶対にしてはいけない行為なのです。
このような伝統的な航空慣習との整合性を取るため、さらに半年以上の時間を要しました。この追加の期間は、他の機能、基本的には伝統と人間の期待、そしてパイロットが実際に行うことに最適化するために費やされました。
システムの受容性という観点では、単に技術的な安全性を示すだけでは不十分でした。パイロットコミュニティに受け入れられるためには、彼らの経験と知識に基づく暗黙の規則や慣習にも従う必要がありました。これは、技術的な最適化とは異なる、文化的な最適化とも言えるものです。
私たちは当初、安全性と最適性だけを考慮していましたが、実際の運用環境では、パイロットの直感的な理解、既存の航空文化との整合性、そして他のパイロットとの相互運用性など、より広範な評価基準が存在することを学びました。これらの基準は、システムの技術的な性能と同様に重要であり、実際の運用環境での成功に不可欠な要素であることが分かりました。
4.3 安全性と伝統的手法の両立
この実験で、私たちが最も時間を費やしたのは何だと思いますか?実は、システムの基本的な開発や訓練ではありませんでした。システムはシミュレーションで訓練され、その後拡張されましたが、実際に安全で最適なシステムを数週間で構築することができました。
しかし、実際の最適化に取り組んだ際、特に私の同僚のDennisが主導したプロジェクトでは、パイロットの期待と伝統的な手法を組み込むために、さらに半年以上の時間を必要としました。これは、他の機能、特に伝統やパイロットの期待、そしてパイロットが実際に行う行動に合わせて最適化を行うためでした。
スコアリングの複雑さは、実世界のタスクにおいて特に顕著です。正常な行動を記述することは比較的簡単です。例えば、通常の道路を通常の方法で運転する車やバイク、あるいは航空機の動作を記述することは容易です。しかし、実際の難しさは、その正常性の外側にある無限の空間にあります。
この無限の空間において、ある行動が絶対に禁止されているもの、極端な状況では許容されるもの、そして受け入れ可能な行動や方針があります。私たちはこの空間に苦心し、システムを展開する前に、これが実際に最大の課題の一つとなりました。
例えば、パイロットたちは「これは航空機を追い越す方法ではない」「これは回避の仕方として適切ではない」と指摘しました。システムは安全でしたが、パイロットが期待する方法で動作していませんでした。より具体的な例として、他の航空機が非常に遅い場合、システムはその前を通過して追い越そうとしました。これは航空分野では絶対に避けるべき行為です。
実践的な教訓として、形式化できることは形式化し、その後すぐに新しい制約と新しい最適化機能に対応する方法を用意し、より多くのデータが得られた場合にはそれを活用することが重要です。全システムにおいて、誰も単に誤差を最小化するために最適化しているわけではないのです。
このような経験から、私たちは実世界のシステムでは、技術的な安全性と最適性だけでなく、人間の経験と知識に基づく暗黙の規則や期待にも適応する必要があることを学びました。これは単なる技術的な問題ではなく、文化的な適応の問題でもあり、システムの実用化において避けては通れない重要な要素なのです。
5. データ・知識・未知の領域
5.1 既知と未知の体系化
システムを構築する際、情報の内容という観点から考える必要があります。そこには、データ、知識、そしてこれらの未知の領域が存在します。私は、まずこの関係を機械学習101の観点から説明したいと思います。
私たちは機械学習において、データを何らかのアルゴリズムに投入し、複数のアルゴリズムを通じて仮説を生成するという基本的なプロセスを学んできました。しかし、先ほどの航空機の映像で見たように、スコアリングが重要であり、私たちの決定を環境に送ることも同様に重要です。しかし、それと同じくらい重要なのが最初の部分です。
実世界では、誰も単にどこかで利用可能なデータだけに頼ることはありません。あなたやあなたの同僚、あなたのチームは常に、データを処理し、収集し、特徴を決定し、更新するという意思決定プロセスの一部となります。そして、機械学習アルゴリズムを開発することになります。私たちの多くの時間は、実際にそこで費やされています。
任意の時点で、私たちは次のような状況に直面します:青い線は利用可能な知識を表し、これはイベントの空間を示しています。x軸上にイベントがあり、青い線は知識が利用可能な領域を示しています。緑の線は、データが利用可能な場所を示しています。
ここで問題となるのは、知識もデータも持っていない場所です。これが「未知の未知(unknown unknowns)」の領域です。さらに、「既知の未知(known unknowns)」の領域も扱う必要があります。この機械学習コミュニティでは、未知の領域、特に既知の未知の領域に対処するための多くの手法が開発されています。
これは、データはないが知識が存在する領域を指します。特にハイリスクなシステムでは、常に衝突の可能性を想定することができます。実際にそのようなデータポイントを生成することはできないかもしれませんが、シミュレーションを通じて対応することができます。
問題に取り組み始めるとき、特にこれらのハイリスクな問題では、多くの場合、知識は断片的にしか存在せず、データがほとんどないか全くない状態から始まります。そこには多くの未知の未知が存在します。私たちの目標は、この状態から、可能な限りイベントの全空間をカバーする状態に移行することです。このプロセスをどのように進めるべきかを考える必要があります。
5.2 滑走路侵入検知の実証実験
2020年、私は現在の航空分野で最もリスクの高い課題の一つに取り組み始めました。実際、FAAとニューヨークタイムズは昨年(2023年8月)、これを今日の航空分野で最もリスクの高い問題の一つとして指摘しています。それは、滑走路での侵入事故(インカーション)の問題です。
この問題は非常に深刻です。FAAによると、アメリカでは1日に6件の侵入事故が発生しています。その大半は事故には至りませんが、残念なことに今年初めには羽田空港で悲劇的な事故が発生し、多くの人命が失われました。これは、航空機の着陸時に別の航空機との侵入事故が起きたことによるものでした。
2020年にこの問題に取り組み始めた時、私たちは大きな課題に直面しました。このような事象に関する視覚的なデータが、文字通り存在しないのです。パイロットは侵入事故がどのように発生するかを説明することはできますし、私たち全員がそれを想像することはできます。しかし、視覚的なデータは非常に限られていました。ADSBデータ(Flight Awareで見られるようなセンサーデータ)もほとんどありませんでした。
この状況で、私たちはどのように進めるべきでしょうか?データが野生の状態で非常に高価な場合、まずはそのデータを入手する方法を見つけるか、あるいはそのデータなしでは始めないという判断をする必要があります。最初のデータがないまま始めることは避けるべきです。その後、シミュレーションやデータ生成について考えることができます。
このような高リスクのアプリケーションでは、データの生成は非常に困難です。多くの場合、規制があり、医療分野では患者に対する実験はできませんし、私たちの分野でも安全上の制約が多くあります。このような状況で、私たちはどのようにしてデータを収集し、安全な実験環境を構築したのでしょうか。
私たちは、データ収集の方法を見出す必要がありました。そして、それは安全で制御された環境で行う必要がありました。パイロットの多くは、キャリアを通じて1、2回の侵入事故しか経験しません。しかし、私たちはコンピュータシステムにそれらの状況を多数見せる必要があります。シミュレーションだけでは正確に再現することができない、これらの状況を実際に作り出す方法を見つける必要がありました。
5.3 モンタナ空港での実地データ収集
私たちはこの課題に取り組むため、モンタナ州にある空港を実験場として活用することを決めました。これは「Runway Clear」と呼ばれる、知覚ベースのプロジェクトの一つで、最終進入と着陸時のハザード検知に焦点を当てています。
私たちは実験用の航空機を用意し、滑走路21への車両の意図的な侵入という、通常の空港では決して起こしてはいけない状況を再現しました。このような実験が可能だったのは、BoeingがMARCO(Montana Aviation Research Company)と協力関係にあり、この空港が民間所有であったためです。これにより、車両を追加したり、複雑性を増したりすることが可能になりました。他の空港では決して実現できないような実験環境を構築することができました。
私たちは空域を閉鎖し、システムのためにこれらの状況を視覚的に生成する劇場のような環境を作り出しました。これは非常に重要です。なぜなら、多くのパイロットは、キャリアを通じて1、2回の侵入事故しか経験しませんが、コンピュータシステムにはより多くの事例を見せる必要があるからです。シミュレーションだけでは正確に再現できない状況を、実際に作り出す必要があったのです。
パイロットにとって、地上の車両を認識することは、滑走路が安全かどうかを判断する上で非常に重要です。私たちは、地上の潜在的なハザードをパイロットに警告する新しい方法を開発するために、この技術を活用しています。航空機に搭載された様々なカメラを使用して知覚画像を取得し、空港環境内の物体を追跡しています。
このプロジェクトでは、チームメンバーが自分のプロジェクトに対してオーナーシップを持つことができます。これは機械学習システムのテストベッドとして素晴らしい環境です。ここでシステムが機能すれば、世界中のどこでも機能するはずです。
私たちの目標は、数年後には搭載型の安全アドバイザリーシステムを構築し、その後さらに自動化を進めていくことです。デスクで開発したソフトウェアを実際の航空機に搭載し、飛行させてデータを収集する経験は、他では得られない貴重なものです。
現在、私たちは多数の検出器とパイプラインを持っており、多くの場合、パイロットよりも優れた性能を発揮しています。パイロットたちは、着陸時に侵入の有無を確認することが彼らの重要な機能の一つだと認めていますが、反射や影、そして巨大な滑走路のラインなどにより、白いラインの上にある白い車両はほとんど見えないことがあります。私たちのシステムは、現在の人間の能力を超えて、パイロットを支援することができます。
6. 未知領域への対処方法
6.1 不確実性の推定と較正
私は、未知の領域、つまりモデル化されていない現象は、必ず存在するという認識から始めたいと思います。行動の前提条件をすべて予測することは不可能であり、行動の暗黙の結果をすべて列挙することも不可能です。このことは、システムを展開する際の主要な要件として考慮されるべきです。つまり、展開されたシステムは、世界の不完全なモデルしか持ち得ないという前提で、安全に動作する必要があるのです。
この課題に対する私の最初のアプローチについて説明したいと思います。まず、おそらく皆さんも同意されると思いますが、学習モデルには不確実性の推定値が必要です。しかし、それは学習モデルだけでなく、システム全体にも必要です。例えば、2つのシステムを融合する場合でも、その不確実性の推定値を持ち、それを較正することが非常に重要です。
私のチームでは、一つの重要なルールを設けています。出力が一つだけのモデルは受け入れません。必ず2つの出力、あるいは2つのクラスの出力を持つ必要があります。一つは予測値(それが何であれ、数値、テキスト、画像、検出など)、もう一つは不確実性の推定値です。私は論文のレビューを行う際、不確実性の推定値がないことを理由に論文を却下することはしませんが、小さなコメントとして必ず指摘するようにしています。
なぜなら、この不確実性の推定は基本的に重要だからです。後ほど説明しますが、この不確実性の推定値は、私たちがこれから見ていくような方法で使用されます。私たちは常に未知の領域に直面しており、その不確実性を適切に推定し、較正することなしには、安全なシステムを構築することはできません。
私たちのチームでは、不確実性の推定に関して、単なる理論的な推定だけでなく、実践的なアプローチを重視しています。例えば、複数のモデルからの出力を組み合わせる際には、各モデルの不確実性推定値を考慮に入れた統合方法を採用しています。また、これらの不確実性推定値は、システムの動作を制御する際の重要な入力としても使用されます。
このアプローチは、未知の未知(unknown unknowns)や既知の未知(known unknowns)に対処する上で不可欠な要素となっています。私たちは、不確実性の推定と較正を、システム設計の中核的な要件として位置づけているのです。
6.2 複数モデルのポートフォリオ活用
私たちのチームでは、不確実性の推定を超えて、より広範なアプローチを開発してきました。その中心となる考え方は、Marvin Minskyが指摘した重要な洞察に基づいています。「何かを本当に理解するということは、一つの方法でしか理解していないのであれば、実は理解していないということだ」という彼の言葉は、私たちの研究に大きな影響を与えています。
実際、この会議での発表や私の発表を含め、私たちはほとんどの場合、一つのモデル、一つのビジョンの決定を生成するモデル、一つの予測を生成するモデル、一つの自然言語対話モデルについて考えています。しかし実践では、実際に複数のモデルを構築することは非常に有用であることが分かってきました。
私たちは、これを単なるアンサンブルを超えたものとして、「モデルのポートフォリオ」と呼んでいます。これらのモデルを確率的な方法で融合することで、より深い理解、多面的な理解に近づくことができます。さらに、これらのモデルは必ずしも学習モデルである必要はありません。エンジニアリングされたモデルを含めることも可能です。
このアプローチを採用する理由の一つは、ソフトウェアエンジニアリングとエンジニアリングの冗長性の観点からです。私たちは、実行時にモデルが失敗する可能性があることを知っています。そのため、世界を一つの方法で理解し、別の方法でも理解し、さらに別の方法でも理解することが重要です。
例えば、私たちの着陸システムの場合、すべての視覚的タスクの融合を行っています。実際に複数のモデルを使用し、それらの融合を行っていますが、さらに他のモダリティも考慮しています。その一つが対話です。航空機は実際に管制塔との対話アクセスを持っており、この異なる頻度で提供される情報は、意思決定に有意義な知識を提供することができます。例えば、ある航空機が滑走路を横断する許可を得ている場合、その航空機が滑走路を横断することをより高い確信度で予測できます。
これは新しいアイデアではありません。Minskyから始まり、この分野には多くの初期の研究があります。私は、堅牢性を実現するために、私たちがこれらのアイデアを再検討する必要があると考えています。複数のモデルを組み合わせ、それぞれの強みを活かしながら、システム全体の信頼性を高めていく。これが、未知の領域に対処する上で重要なアプローチなのです。
6.3 特徴量の保持と階層的検知
私は、Marco DunaやNilsと1990年代に研究していた当時とは異なる考え方を持つようになりました。当時、私たち全員が、データのクリーニングや特徴量の除去について議論していました。しかし、今日では私は特徴量を除去しないようにしています。なぜなら、異常を検出する際に、通常のドメインでは有用ではないかもしれない特徴量や特徴量のドメインに立ち戻ることが多いからです。
この考え方について、よく考えてみてください。計算能力に余裕がある場合、特徴量を除去せず、できるだけ多くの特徴量を投入することが有効です。ノイズの問題は認識していますが、特徴量の階層を考慮することが重要です。
良い異常検出器では、実際に複数の層で検出を行います。まず正常性を検出し、次に異常性を検出し、そして特徴量の関連性を考慮します。例えば、文字「Q」とその上のセディーユ(アクセント記号)について考えてみましょう。「Q」と「O」を区別する必要がある場合、「Q」のセディーユは重要な特徴となります。多くの言語で「Q」の出現頻度は低いのですが、この特徴は重要な意味を持ちます。
このアイデアを、UC BerkeleyとUCLAのTomlinのグループの同僚たちと一緒に検証し、実際に展開しました。例えば、地上での実験では、左側から来る車両を検出するためのシステムがあります。そのための検出器は優れた性能を発揮していましたが、ある時点で煙をシミュレートして、カメラの視界を失わせる実験を行いました。
このような状況では、カメラに関連するすべての特徴量と視覚的特徴を失うことになります。しかし、システムは他の特徴量に切り替える必要があります。基本的に、車両がどこにいる可能性があるかを予測し、その方向に移動して停止するという判断を行います。
この研究は、2020年に「closed safety kernel」として、2つの論文で発表されました。これは、学習モデルによる検出が失われた場合でも、堅牢性のために他の特徴量や手法を活用できることを示しています。
したがって、このような階層的なアプローチと特徴量の保持は、システムの堅牢性を高める上で重要な要素となります。単一の特徴量や検出方法に依存するのではなく、複数の特徴量を相補的に利用することで、システムの信頼性を向上させることができるのです。
6.4 保守的な計画への切り替え
私たちは現在、この不確実性の領域、この無知の領域で動作しているシステムに対して、さらに一歩進んだアプローチを取っています。例えば、現在の航空管制では、航空機が電気系統などの制御を失った場合、Mayday(非常事態)が宣言されます。その航空機は最寄りの空港に着陸し、その空港は空域を閉鎖し、すべてがクリアされます。このような対応は実生活でも行われており、システムにも同様のアプローチを実装しています。
私たちは実際にこれをテストしました。地上では、地上車両、航空機、人などを対象とした視覚システムを持っています。しかし、意図的に航空機の検出をシステムに学習させませんでした。これは単なる検出器です。地上車両のみを学習対象としました。しかし、航空機が視界に入ってきた場合、システムはそれを検出し、より高い不確実性を示します。
重要なのは、システムの意思決定が検出結果に基づいているのではなく、不確実性に基づいているという点です。最悪のシナリオでは、航空機に追従する必要があり、より長い距離を保つ必要があります。そこで私たちは、その車両が何であるかという予測値ではなく、不確実性に基づいて速度を制御しています。このデモンストレションは実際に行われ、DARPAのウェブページにもビデオが掲載されています。
基本的に、私たちは保守的な計画にフォールバックします。この場合、その物体が何であるかは分かりませんが、距離を保つという保守的な方針を採用します。これは、人間も同様の行動を取ることを思い出してください。例えば、あなたの母親は「部屋に大きな男がいたら、その部屋から出なさい」と教えたかもしれません。
このような不確実性に基づく制御と保守的な計画へのフォールバックは、不確実性の推定値があれば容易に達成できます。これは、システムの安全性を確保する上で非常に重要なアプローチです。未知の状況に遭遇した際に、システムが安全側に倒れる(エラーが発生した場合でも安全な状態を維持する)ように設計することで、システム全体の信頼性を高めることができます。
このアプローチは、単なる技術的な解決策以上のものです。これは、人間の直感的な判断や経験則を、システムの安全機構として形式化したものと言えます。不確実性が高い状況では、より保守的な行動を取るという原則は、システムの安全性を確保する上で基本的な戦略となっています。
6.5 予測と確率的アプローチ
最後に言及したい重要な点は、特に現在の生成モデルの時代において、私たちは予測をできるだけ行うべきだということです。私たちは、世界で何が起こるかを予測し、できる限り多くの予測を行う必要があります。
この分野で、私の同僚のLiam Cruzが正規化フローを活用した研究を行っています。正規化フローは、標準的なニューラルネットワークモデルが予測する位置だけでなく、滑走路上のアクターの存在確率も予測することができます。実際、この手法は非常に効果的に機能しており、予測と予測確率の両方を提供することで、私たちの行動や判断の指針となっています。
この予測と生成モデルの活用は、未知の未知(unknown unknowns)の領域を探索する上で特に重要です。このような確率的なアプローチにより、起こり得る世界の状態を予測し、それに対する準備を整えることができます。これは私たちが生成モデルを使用する一つの方法であり、他の方法でも特にこの種の予測に活用しています。
私たちの手法の特徴は、単なる点推定ではなく、確率分布全体を予測することです。これにより、システムは可能性のある結果の範囲を理解し、それぞれの確率を考慮した上で意思決定を行うことができます。
未知の領域を探索する際、このような確率的なアプローチは特に重要です。なぜなら、完全な確実性を持って予測することは不可能であり、むしろ可能性の分布を理解し、それに基づいて行動を計画することが重要だからです。
この予測と確率的アプローチは、実際の運用環境において、システムの堅牢性と適応性を高める上で重要な役割を果たしています。予測された確率分布に基づいて、システムは状況に応じて適切な行動を選択することができます。これは、単なる決定論的なアプローチを超えて、不確実性を明示的に考慮した意思決定を可能にします。
7. 人間とシステムのインターフェース
7.1 人間中心の意思決定支援
前述した階層的なプランナーの中には、常に人間が存在していることを指摘しました。私たちが開発するこれらのシステムは、すべて人間をサポートするものです。David Mindelが約10年前に出版した著書は、現在でも私の思考に大きな影響を与え続けています。
もし将来、私たちが自律走行車を持つことになったとしても、それは私たちの指示に従って動作するものであるべきです。私たちがステアリングを直接操作することはないかもしれませんが、そのシステムは私たちの目標を達成し、私たちの制約を最適化するために機能するべきです。
David Mindelは、その著書の中で具体的な事例を通じて示しています。多くの場合、人間は適切なタイミングで適切な情報を得ることができれば、優れた意思決定者になることができるのです。このことは非常に重要です。実は、私たちのコミュニティ全体としても、これらのインターフェースや情報提供のタイミングについてあまり時間を費やして考えていないのが現状です。
これは単なる見落としではありません。例えば、航空機のコックピットは、数十年にわたって人的要因の専門家やパイロットによって最適化されてきました。そこに私たちが登場し、より多くの自動化、より複雑な機能を追加しようとしているのです。しかし、現在私たちが持っているインターフェースは非常にシンプルです。
このインターフェースの問題に対しても、私たちは学習やデータサイエンスのアプローチを検討する必要があります。人間と機械の相互作用において、適切なインターフェースの設計は、システム全体の効果的な機能にとって決定的に重要です。
これは単なる技術的な問題ではありません。人間がシステムと効果的に協働し、必要な時に適切な判断を下せるようにするためには、人間の認知能力や意思決定プロセスを深く理解した上で、インターフェースを設計する必要があります。人間中心の設計アプローチを採用することで、システムは人間の能力を補完し、強化することができるのです。
7.2 情報提供のタイミングの重要性
現在の航空機のコックピットは、数十年にわたる進化の結果です。人的要因の専門家やパイロットたちの綿密な研究と経験に基づいて、コックピットは最適化されてきました。この長年の蓄積は、情報提供のタイミングがいかに重要であるかを示しています。
今、私たちはより多くの自動化とより複雑な機能をこれらのシステムに追加しようとしています。しかし、私たちが現在持っているインターフェースは非常にシンプルなものです。これは重大な課題です。コックピットのような複雑な環境で、新しい自動化機能を既存のシステムに統合する際には、単に機能を追加するだけでなく、その情報をいつ、どのように提供するかが極めて重要になります。
私たち研究コミュニティ全体として、これらのインターフェースや情報提供のタイミングについて、十分な時間を費やして考えていないのが現状です。これはただの見落としではありません。実際、インターフェースの設計自体が、学習やデータサイエンスのアプローチを必要とする重要な研究領域となっています。
例えば、パイロットが適切なタイミングで適切な情報を得られれば、優れた意思決定者になれることがわかっています。しかし、情報の洪水やタイミングの悪い情報提供は、かえって意思決定を妨げる可能性があります。この balance を取ることは、システム設計における重要な課題の一つです。
これらのインターフェースに対しても、学習的なアプローチを検討する必要があります。つまり、パイロットの行動パターン、意思決定のタイミング、状況認識の変化などを分析し、それに基づいて適切な情報提供のタイミングを決定する手法を開発することが求められます。
このような人間中心の設計アプローチは、技術的な側面だけでなく、人間の認知能力や意思決定プロセスを深く理解することを必要とします。私たちは、過去数十年にわたるコックピット設計の教訓を活かしながら、新しい自動化機能をいかに効果的に統合できるか、真剣に考える必要があります。
8. 結論と今後の展望
8.1 AIの2つの主要な利点
私は、AIには二つの大きな利点があると考えています。一つは知識の獲得です。そしてここで重要なのは、KDDが単なるデータマイニングを意味するのではなく、Knowledge Discovery(知識発見)を意味するということです。これは、私たちのコミュニティの使命であるべきだと考えています。
二つ目の利点は、意思決定の支援です。これは私たちのコミュニティだけでなく、他のコミュニティとも協力して進めていくべき分野です。システムは人間の意思決定を支援し、より良い判断を可能にする方向で進化していくべきです。
私たちが見てきたように、実世界のシステムは複雑で、単一のモデルや手法では対応できません。知識の獲得においても、意思決定支援においても、複数のアプローチを組み合わせ、それぞれの強みを活かしながら、システム全体として効果的に機能させる必要があります。
特に航空分野における私たちの経験から、技術的な最適性だけでなく、人間の経験や知識、文化的な要素も含めて総合的に考慮する必要があることを学びました。AIは、これらの要素を統合し、人間の能力を補完し強化する方向で発展していくべきです。
このように、AIの発展は単なる技術的な進歩以上のものを目指すべきです。知識の獲得と意思決定支援という二つの主要な利点を活かしながら、人間とシステムがより効果的に協働できる未来を築いていく必要があります。そのためには、継続的な研究開発とともに、実世界での経験から学び続けることが重要です。
8.2 知識発見とデータマイニングの方向性
KDDという言葉は、単なるデータマイニングを意味するのではありません。KDDは Knowledge Discovery(知識発見)を意味し、これこそが私たちのコミュニティの本質的な使命であるべきだと私は考えています。
私たちのコミュニティや他のコミュニティが今後注目すべき概念は、知識と推論、そして意味の理解です。これらは新しいAIの概念ではありませんが、この方向性に焦点を当てることが、私たちに堅牢性をもたらすと考えています。なぜなら、これらの要素は、システムが実世界の複雑さに対応し、適切な意思決定を支援する上で不可欠だからです。
全体として、私たちは次のような方向性を目指すべきです。まず、データだけでなく、知識をどのように獲得し、体系化し、更新していくかを考える必要があります。また、その知識を基に推論を行い、意思決定に活かす方法を発展させなければなりません。さらに、単なるパターンの認識や予測を超えて、現象の意味を理解し、それを基に適切な行動を選択できるシステムを開発していく必要があります。
この方向性は、私たちがこれまで見てきた実世界の課題、例えば航空システムにおける意思決定支援などにも直接的に関連しています。システムは単にデータを処理するだけでなく、状況を理解し、適切な判断を下すための知識と推論能力を持つ必要があるのです。