※本記事は、AWS re:Invent 2024のセッション「Building safe enterprise AI with Securiti AI & Amazon Bedrock (AIM114)」の内容を基に作成されています。セッションはAWSのパートナーであるSecuriti社によって提供されました。
本セッションは、AWS re:Inventの公式サイト(https://go.aws/reinvent )でご覧いただけます。また、その他のAWSイベントに関する情報は https://go.aws/3kss9CP でご確認いただけます。本記事では、セッションの内容を要約しております。
なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルのセッション録画をご覧いただくことをお勧めいたします。
登壇者紹介: Paul氏 - Securiti社 企業におけるAIの安全な実装とデータガバナンスの専門家。Securiti AIのGencoreソリューションの開発を主導し、エンタープライズAIの安全な導入手法を確立。特に、データプライバシー保護、セキュリティ確保、規制対応の分野で豊富な経験を持つ。本セッションでは、組織が直面する生成AI導入の課題と、その実践的な解決策について解説を行った。 (※登壇者の詳細情報は限定的であるため、セッションの内容から推測される情報を含めて構成しています)
1. イントロダクション
1.1. 生成AIの経済的影響
生成AIは、過去数十年間で登場したあらゆる技術を凌駕する速度で発展を続けています。私の見立てでは、このAIの進化は、2030年までに15.7兆ドルという驚異的な経済的インパクトをもたらすと予測されています。
このような急速な発展は、他の技術では類を見ないものです。特に注目すべき点は、私たちが目にしているこれらの進歩が、組織の持つ独自のデータ(構造化・非構造化を問わず)とLLMやその他のAIモデルとの連携に基づいているということです。この技術革新は、Copilotの活用やビジネスプロセスの自動化、そして従来では想像もできなかったような新しい分析手法やインサイトの創出を可能にしています。
このような世界を一変させるような技術革新が、私たち自身のデータに依存しているという事実は、私にとって最も興奮させられる要素です。しかし、このような大きな力には大きな責任が伴います。私たちのデータこそが、生成AIの成功を支える燃料なのです。
1.2. データと生成AIの密接な関係
私たちが目にしている生成AIの進歩は、組織が保有する独自のデータとAIモデルとの密接な関係に基づいています。これは特に、構造化・非構造化データをLLMや任意のモデルと連携させることで実現されています。この連携こそが、私たちが耳にする様々なイノベーションの源泉となっています。
具体的には、Copilotの開発やビジネスプロセスの自動化、そして従来では想像もできなかったような新しいカテゴリーのアプリケーションやインサイト、分析手法を生み出すことを可能にしています。つまり、生成AIの革新性は、選択したモデルと、そのモデルに提供できる情報との密接な関係性に強く依存しているのです。
私にとって、生成AIに関して最も興奮させられる点は、この世界を一変させる技術の成功が、私たち自身のデータに依存しているという事実です。これは、私たちが提供するデータが、生成AIの成功を左右する重要な燃料となっているということを意味します。しかし、このような大きな力には当然のことながら、大きな責任が伴います。生成AIは私たちのデータに新しい側面を付加し、これまでに経験したことのない課題をもたらすのです。
1.3. 企業における生成AI導入の現状
生成AIの導入に関して、私たちは現在ある種の板挟み状態に直面しています。一方では、他社に先駆けてAIを採用し、これらのユースケースをいち早く実現することで得られる莫大な可能性があります。しかし他方では、これまで想定もしていなかった新たなリスクや懸念事項が山積しています。
この状況を如実に表すのが、最近の調査結果です。CIOのわずか37%しか、自社の生成AIソリューションが本番環境に対応できていると感じていないのです。つまり、大多数の企業が導入に向けて足踏みをしている状況です。
この導入の遅れは、生成AIがもたらす大きな可能性と、それに伴う新たな課題との間で企業が板挟みになっているという事実を反映しています。企業はこの板挟み状態、つまり膨大な価値創出の可能性と、それに付随する多くの懸念事項との間での均衡を取ることに苦心しているのです。この状況を打開するためには、新たなアプローチが必要とされています。
2. 生成AIがもたらす新たな課題
2.1. セキュリティの課題
生成AIは、私たちのデータに新しい側面をもたらしました。これは、これまでに経験したことのない新たな課題を生み出しています。その第一の課題がセキュリティです。
私たちが直面している最も重要なセキュリティ課題の一つは、ジェイルブレイクのような悪意のある外部からの攻撃への対応です。これらの攻撃者は、生成AIシステムの脆弱性を突いて不正アクセスを試みようとします。
もう一つの重大な課題は、内部からの脅威です。例えば、通常であれば特定の従業員と共有することのないファイルが、モデルへのクエリを通じて意図せず露出してしまうようなケースです。これは従来のセキュリティ対策では想定していなかった新しいタイプの脆弱性です。
このように、生成AIの導入によって生まれる新しいセキュリティの脆弱性に対して、私たちは包括的な対策を講じる必要があります。これは単なる既存のセキュリティ対策の延長ではなく、生成AIという新しい技術特有の脅威に対応した、新しいアプローチが求められているのです。
2.2. データプライバシーの課題
生成AIの活用において、次に直面する重要な課題は顧客に対する私たちのコミットメントに関するものです。データプライバシーの保護、特に顧客情報を常に安全に保つことは、私たちの最重要の責務の一つです。
ここで重要なのは、データがどのように使用され、どこに送信されているかに関わらず、常にプライバシーを確保し続けなければならないという点です。従来のデータ保護の仕組みでは、データの使用場所や送信先が比較的限定的でしたが、生成AIの導入により、データの移動や利用のパターンが大きく変化しています。
このような状況下で、私たちは顧客情報の保護に対する責任を、より広範な文脈で捉え直す必要があります。データが生成AIモデルによって処理される際も、そのプライバシーが完全に保護されていることを保証しなければなりません。これは単なるデータの暗号化や保管場所の管理だけでなく、AIモデルとの相互作用における包括的なプライバシー保護の仕組みが必要となることを意味しています。
2.3. データガバナンスの要件
生成AIの導入により、データガバナンスの要件も新たな次元に入っています。私たちは、データが組織内を移動する際の履歴を完全に把握し、その全体的なライフサイクルを追跡する責任があります。これは従来のデータガバナンスの範囲を大きく超えるものです。
特に重要なのは、データが組織内を移動する際の追跡方法です。生成AIモデルを介したデータの流れは、従来のシステムよりもはるかに複雑になっています。私たちは、データがどのように組織内を移動し、どのモデルによって処理されているのかを、常に正確に把握しておく必要があります。
また、データフローの管理においては、単にデータの移動を追跡するだけでなく、そのデータがどのようにモデルによって利用され、どのような結果を生み出しているのかまで、包括的に管理する必要があります。このガバナンス要件は、組織のアカウンタビリティを確保する上で不可欠な要素となっています。生成AIの時代において、データガバナンスは単なるコンプライアンスの問題ではなく、ビジネスの信頼性と持続可能性を確保するための重要な基盤となっているのです。
2.4. 規制対応の必要性
生成AIの導入において、私たちが直面する最後の重要な課題は、外部の規制機関に対する責任です。規制当局への対応は、単なるコンプライアンスの問題を超えて、組織の信頼性と持続可能性に直接関わる重要な要素となっています。
私たちには、外部の規制機関に対して説明責任を果たす必要があります。これは、単にデータの取り扱いに関する規制を遵守するだけでなく、生成AIを活用する中で発生する新しい形態のデータ利用や処理に関しても、適切な対応を取る必要があることを意味します。
規制要件への適合は、ビジネスを展開する上で不可欠な要素です。これは、組織のデータ管理プラクティスが、現在の規制要件を満たすだけでなく、今後予想される規制の変更にも柔軟に対応できる体制を整えることを意味します。生成AIの導入により、これらの規制対応の重要性は一層高まっており、より包括的かつ戦略的なアプローチが必要とされています。
3. Securiti AIのGencore ソリューション
3.1. 段階的アプローチの重要性
このような課題に対して、私は問題提起だけでなく、解決策も提示したいと思います。多くの組織は、すべてのデータに常時アクセス可能な包括的なモデルの構築から始めようとしますが、私はそれを推奨しません。
Securiti AIのGencoreソリューションを開発する際、私たちは「良い解決策とは何か」を最小規模のドメインで定義することから始めました。最小のユースケースに対して、何が最適な解決策なのかを突き詰めて考え、それを企業レベルで展開可能なものにしていくアプローチを取りました。
この段階的なアプローチは、生成AIの導入における重要な成功要因となっています。小規模なドメインから始めることで、リスクを最小限に抑えながら、実際の効果を確認し、必要な調整を加えることができます。そして、その成功事例を基に、より大きな規模への展開を進めていくことで、企業全体のAI導入を確実なものにすることができます。
このアプローチにより、私たちは「良い解決策」の定義を実践的に確立し、それを企業レベルで展開可能な形に発展させることに成功しました。これは、企業がAIを安全かつ効果的に導入するための現実的な道筋を示すものとなっています。
3.2. 主要機能
私たちが考える「良い解決策」は、以下の主要な機能から構成されています。
第一に、エンタープライズデータシステムへの安全かつ確実な接続機能です。これにより、組織の重要なデータソースに対して、セキュアなアクセスが可能となります。
第二に、アクセスしたデータの無害化プロセスです。このプロセスでは、露出させたくない機密情報や認証情報を自動的に検出し、削除または編集する機能を提供します。
第三に、技術的な要素の自動化です。データのベクトル化をどのように行うか、どの埋め込みモデルを使用するか、どのベクターデータベースにデータを格納するか、そしてどのモデルに接続するかといった技術的な判断を自動化します。これらはすべて対話的なUIを通じて利用可能で、企業が推奨または利用可能としたモデルの中から選択することができます。
最後に、包括的なセキュリティを確保するための3層のファイアウォールアプローチを実装しています:
- プロンプトファイアウォール:悪意のある攻撃者からの保護
- 検索ファイアウォール:無害化や編集が必要なデータ、またはユーザー権限に基づいて露出すべきでないデータの制御
- レスポンスファイアウォール:非決定論的なシステムが常に設定された安全範囲内で動作することの保証
これらの機能は、インタラクティブでクリック可能なUIを通じて提供され、エンタープライズ環境で推奨されるモデルや利用可能なモデルの中から簡単に選択できるようになっています。
4. ソリューションの特徴
4.1. 柔軟な構成
すべての計画は、ユーザーとの接触によって変化することがあると言われます。そのため、私たちは柔軟な構成を重視しています。生成AIのユースケースを、構想から本番環境まで導入する美しいパイプラインを設計しましたが、同時に、より小規模で機動的なユースケースにも対応できる柔軟性を確保しています。
例えば、データの準備だけを支援してほしい、データの無害化だけを支援してほしい、あるいはベクターデータベースへのデータ読み込みだけを行いたいといった、特定の機能のみを必要とするケースがあります。私たちのソリューションでは、前のスライドで説明したパイプライン全体を構成要素に分解し、必要な機能だけを選択して利用することができます。
この柔軟性は、アクセス方法にも反映されています。すべての機能は、直感的なUIを通じて利用することも、APIを介してアクセスすることも可能です。この選択肢により、組織は自身のニーズや技術的要件に応じて、最適な方法でソリューションを活用することができます。パイプラインの全体を使用するか、その一部のみを使用するか、そしてUIとAPIのどちらを通じてアクセスするかは、完全にユーザーの選択に委ねられています。
4.2. 共通フレームワークのメリット
効率性と信頼性の向上は、共通フレームワークの採用によってもたらされます。私たちのソリューションでは、すべての生成AIユースケースを共通の実施ポリシー層の上に構築することができます。同様に、認証済みのモデルやLLM、そしてデータを安全にアクセスし無害化するための共通の方法論も提供しています。
この一貫性が、効率性と信頼性を高める重要な要素となっています。ポリシーコントロール、アクセス層、モデルの利用可能性において一貫性を確保することで、組織は生成AIの導入に対する確信と効率性を獲得することができます。
このフレームワークの特徴は、共通のアーキテクチャとフレームワークを活用することで、より深い洞察を得られる点にあります。例えば、ファイルとLLMの関係性、ベクターデータベースとユースケースの連携、機密データとアウトカムの関連付けなど、様々な文脈に基づく洞察を得ることができます。このように、単一の標準化されたフレームワークを使用することで、組織全体で一貫した安全なAIの実装が可能となり、同時により深い洞察を得ることができます。
4.3. コンテキスト分析による洞察
共通フレームワークとアーキテクチャを活用することで、私たちは「コンテキスト洞察」と呼ぶ付加的な価値を提供することができます。真の洞察とは、これまで知られていなかった関係性を発見することです。パイプラインを構築する過程で、私たちはファイルとLLMを接続し、ベクターデータベースをユースケースと結びつけ、機密データをアウトカムと関連付けています。
この仕組みにより、利用者の関心に応じて、いつでもこれらの洞察にアクセスすることが可能です。具体的な例として、私たちが「GenAIパイプライン」と呼ぶビジュアライゼーションがあります。これは、コーディング経験のない非技術者が生成AIのユースケースを実現した際の例を示しています。
このパイプラインの中のすべての要素は対話的に操作可能です。データの読み込み元を確認したり、どのような機密データが露出しているかを確認したり、使用している埋め込みモデルやLLMを確認したりすることができます。これにより、組織内で実現されているすべての生成AIユースケースにおいて、ガバナンス、起源、監査可能性の360度のビューを即座に得ることができます。
5. 実装事例
5.1. Copilotの導入事例
実際の導入事例の一つとして、私たちはCopilotの導入をサポートしました。この事例では、主な課題は適切な埋め込みモデルの呼び出し、適切な場所へのデータの収集、ベクターデータベースへの接続、そしてこれらすべての監視と管理でした。
私たちは、これらの技術的な要素をすべて直感的なUIの中に統合することで、この課題に対応しました。その結果、顕著な成果を上げることができました。応答速度は70%向上し、AIが73%のクエリを処理できるようになり、さらに92%という高い満足度を達成することができました。
この成功の鍵となったのは、技術的な複雑さを抽象化し、使いやすいインターフェースを提供したことです。エンドユーザーは複雑な技術的詳細を意識することなく、直感的にシステムを利用することができます。同時に、すべての処理が適切なセキュリティとプライバシーの制御の下で行われることで、高い信頼性と満足度を実現することができました。
5.2. データベクトル化の最適化事例
もう一つの事例として、パイプラインの一部に特化した最適化の取り組みをご紹介します。この事例では、データのベクトル化をより効率的に行うことが主な目的でした。多くの組織が直面する課題として、すでに作成したガイドやマニュアルを持っており、それらを一箇所に集めてすべての人がアクセスできるようにしたいというニーズがありました。
しかし、ここで重要な課題が発生します。これらの文書には、当初自分自身や自分のチーム向けに作成した際には問題なかったユーザー名やパスワード、個人の名前や住所などの情報が含まれている可能性があります。Copilotをオンラインにする際に、これらの情報が意図せず露出するリスクがあります。
この課題に対して、私たちは自動的なデータ無害化プロセスを実装しました。文書内のすべての機密情報を安全に検出し、自動的に削除または編集を行います。その後、安全な形でベクトル化を行い、データを格納します。これにより、組織は自信を持ってユースケースを展開することができます。このプロセスにより、文書の安全性を確保しながら、効率的なベクトル化を実現することができました。
5.3. 規制対応事例
最後の事例として、データの編集と無害化を規制要件に準拠して行う取り組みをご紹介します。このプラットフォームの重要な特徴は、データセット内の機密情報を理解するだけでなく、それらの機密情報がどの規制に関連するかを把握できる点です。
例えば、単に「名前、住所、クレジットカード番号をPIIまたはSPIとして扱う」というポリシーを適用するのではなく、「PCI DSS v4.0に準拠する」という形で規制要件を直接指定することができます。これにより、この規制に違反する可能性のあるデータを自動的に検出し、即座に編集・無害化することが可能です。
このアプローチの革新的な点は、ビジネスレイヤーでの自然な思考方法を、生成AIのユースケース全体に適用できるポリシーや規則に変換できることです。つまり、組織の規制遵守担当者が理解している形で規制要件を指定し、それを技術的な制御に自動的に変換することができます。これにより、組織は生成AIの導入に際して、より高い信頼性を持ってコンプライアンスを確保することができます。