※本記事は、AWS re:Invent 2024のセッション「Building safe enterprise AI with Securiti AI & Amazon Bedrock (AIM114)」の内容を基に作成されています。
登壇者:Paul(Securiti社) AWS re:Invent 2024のライトニングトークセッションにて、企業向けAIの安全な構築についてSecuriti社の知見を共有しました。
セッションの完全な内容は、AWS公式チャンネルにて視聴可能です:https://www.youtube.com/watch?v=d5Ve8R8GrNI
本記事は、セッションの内容を要約・構造化したものです。なお、本記事の内容は登壇者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性があります。正確な情報や文脈については、オリジナルの動画をご視聴いただくことをお勧めいたします。
AWS re:Inventの他のセッションやイベント情報については、以下のリソースをご参照ください:
- AWS re:Invent: https://go.aws/reinvent
- AWS Events: https://go.aws/3kss9CP
- AWS YouTube Channel: http://bit.ly/2O3zS75
本セッションは、AWSパートナーであるSecuriti社によって提供されています。
1. イントロダクション
1.1. 生成AIの現状と影響力
生成AIは、過去数十年間に登場したどのテクノロジーよりも急速な発展を遂げています。私は、このセッションのヘッドラインが少しクリシェに感じられるかもしれないことを理解していますが、実際のところ、AIは他のすべてのテクノロジーを大きく凌駕し続けています。予測によると、生成AIは2030年までに世界経済に15.7兆ドルもの影響を与えると見込まれています。
特に注目すべき点は、これらの進歩がすべて、企業の固有データ(構造化・非構造化を問わず)とLLMやモデルとの接続に基づいているということです。この技術の革新性は、私たちが選択したモデルに適切な情報を提供することと密接に結びついており、それがCopilotやビジネスプロセス自動化、そして以前では想像もできなかったような新しいカテゴリのアプリケーション、インサイト、分析を生み出しています。
私が生成AIについて最も興奮するのは、この世界を変革する技術が、その成功を私たち自身に依存しているという事実です。私たちのデータが生成AIの成功を支える燃料となっているのです。しかし、このような大きな力には大きな責任が伴います。私たちのデータが生成AIの成功を左右する重要な要素となっているのです。
このように、企業における生成AIの位置づけは、単なる技術革新を超えて、企業の保有するデータ資産の価値を最大限に引き出し、ビジネスを変革する可能性を秘めた重要な存在となっています。
1.2. 企業データと生成AIの関係性
私たちが目にしているAIの進歩は、企業の固有データとAIモデルの連携に基づいています。この進歩の特筆すべき点は、構造化・非構造化を問わず、企業が保有する独自のデータをLLMやモデルと組み合わせることで実現されているということです。
この連携によって、Copilotの開発、ビジネスプロセスの自動化、そして以前では考えられなかったような新しいカテゴリのアプリケーションやインサイト、分析が可能になっています。私にとって、生成AIの最も興奮する点は、この世界を変革する技術の成功が、まさに私たち自身のデータに依存しているという事実です。
しかし、ここで重要なのは、データが生成AIの燃料となっている一方で、これは新しいデータの表面(surface)を生み出すということです。この新しい表面は、私たちがこれまで経験したことのない方法でデータを扱うことを意味します。このような状況において、私たちのデータは生成AIの成功を左右する重要な要素となっているのです。つまり、企業データと生成AIの関係は、単なるツールとデータの関係ではなく、相互に価値を高め合う共生的な関係にあると言えます。
このように、生成AIの成功は、企業が保有するデータの質と量、そしてそれらを適切に活用する能力に大きく依存しています。ただし、この大きな力には大きな責任が伴うことを私たちは常に意識しておく必要があります。
2. 生成AIがもたらす新たな課題
2.1. セキュリティの脅威
生成AIは私たちのデータに新しい表面(surface)をもたらしました。この新しい表面は、これまで私たちが経験したことのない課題を生み出しています。セキュリティの観点から見ると、大きく二つの脅威に直面しています。
第一の脅威は、ジェイルブレイクのような悪意のある外部からの攻撃です。これらの攻撃者は、生成AIシステムの脆弱性を突いて不正アクセスを試みます。このリスクは、従来のセキュリティ対策では十分に対応できない新しい課題となっています。
第二の脅威は、内部からの脅威です。特に注目すべき点は、通常であれば従業員と共有されることのないファイルが、モデルのクエリを通じて意図せずに露出してしまうというリスクです。例えば、従業員が生成AIを使用してクエリを実行する際に、本来アクセス権限のない機密情報が応答に含まれてしまう可能性があります。
これらの脅威は、生成AIがデータに新しい表面を追加したことに起因しています。この新しい表面は、従来のセキュリティ対策では想定されていなかった方法でデータが露出する可能性を生み出しています。そのため、私たちはこれらの新しい脅威に対して、適切な対策を講じる必要があります。従来のセキュリティ対策に加えて、生成AI特有のリスクに対応した新しいセキュリティ措置が不可欠となっているのです。
2.2. データプライバシーの課題
生成AIを活用する上で、私たちには顧客に対する重要な約束があります。それは、データプライバシーの保護です。具体的には、顧客情報を常に安全に保つという責任があり、これは情報がどのように使用され、どこに送信されるかに関わらず、徹底的に維持されなければなりません。
私たちは、AIシステムを通じて顧客データを扱う際に、そのデータが常に安全に保たれるよう確実にする必要があります。例えば、モデルがクエリに応答する際に、意図せずに顧客の機密情報が露出しないよう、適切な保護措置を講じなければなりません。
これは単なるデータの保護以上の意味を持ちます。私たちは顧客との信頼関係を築き、維持する責任があります。この信頼関係は、顧客データのプライバシーを確実に保護することで成り立っています。特に、生成AIの導入により、データの使用方法や送信先が多様化する中で、このプライバシー保護の重要性はさらに高まっています。
2.3. データガバナンスの責任
データガバナンスは生成AIの利用において重要な責任の一つです。私たちは、データが組織内をどのように移動し、どのように使用されているかを完全に把握し、追跡する必要があります。特に、データのライフラインと履歴を組織全体とモデルを通じて完全に追跡できることが求められています。
このデータガバナンスの責任は、従来のデータ管理とは異なる様相を見せています。なぜなら、生成AIモデルを通じてデータが移動する際、そのデータの流れは従来の方法では追跡が困難な場合があるからです。データは組織内で様々な形で移動し、モデルによって処理されるため、その全体像を把握することが重要です。
私たちには、このデータの動きを透明性を持って管理し、必要に応じて説明責任を果たせるようにする義務があります。これは単なるデータの追跡だけでなく、組織全体のデータガバナンスフレームワークの一部として、包括的に管理される必要があります。
2.4. 規制要件への対応
生成AIの活用において、私たちには外部の統制機関に対する責任があります。組織が生成AIを活用する中で、私たちは規制の観点から様々な責任を負っています。これは単なるコンプライアンスの問題ではなく、組織としての説明責任を果たす上で重要な要素となっています。
規制要件は多岐にわたり、特にデータの取り扱いに関する規制は厳格です。例えば、後ほど詳しく説明するPCI DSS v4.0のような具体的な規制フレームワークに準拠する必要があります。これらの規制は、データの収集、処理、保存、そして生成AIモデルによる利用のすべての段階において遵守されなければなりません。
私たちは、これらの規制要件に対して、単に受動的に対応するのではなく、積極的にコンプライアンスを確保する必要があります。外部統制機関からの要求に応えるだけでなく、組織自体が適切な管理体制を構築し、規制要件を満たしながら生成AIの活用を推進していく必要があります。これは、後ほど説明するGencoreソリューションにおいて、重要な設計上の考慮事項となっています。
3. 現状の課題
3.1. ポテンシャルとリスクのジレンマ
私たちは現在、生成AIに関して重要な岐路に立たされています。一方では、AIを他社に先駆けて採用し、ユースケースを早期に実現することで得られる莫大な可能性があります。生成AIは、これまで想像もできなかったような革新的なソリューションを提供する可能性を秘めています。
しかし、この大きな可能性は、同時に新しいリスクや懸念事項と表裏一体の関係にあります。これまで経験したことのない課題に直面しているのです。このジレンマは、多くの組織が生成AIの採用を躊躇する要因となっています。
この状況を解決するために、私は問題を縮小して考えることを推奨しています。つまり、「良い状態とは何か」を定義することから始めるのです。すべてのデータに常時アクセスできる包括的なモデルを目指すのではなく、最小限のドメインと最小限のユースケースから始めて、それを企業レベルで実用可能なものに発展させていく方法を考えるべきです。これが、私たちがSecuriti AIのソリューション、Gencoreを開発する際に採用したアプローチです。
このアプローチにより、潜在的なリスクを管理可能なレベルに抑えながら、生成AIの持つ革新的な可能性を活用することが可能になります。ポテンシャルとリスクのジレンマは、段階的なアプローチと適切な管理フレームワークによって解決できるのです。
3.2. CIOの懸念
最近の調査によると、CIOの中で生成AIソリューションが本番環境に準備が整っていると感じているのは、わずか37%に留まっています。この数字は、生成AIの潜在的な可能性と、それを実現する上での現実的な課題との間に大きなギャップが存在することを示しています。
このような低い準備状況の背景には、先に述べたポテンシャルとリスクのジレンマが大きく影響しています。CIOたちは、生成AIがもたらす莫大な可能性を認識しながらも、その実装に伴う新しいリスクや懸念事項によって、実際の導入に踏み切れない状況に直面しています。
彼らは実質的な行き詰まりに陥っています。その理由は、一方では他社に先駆けてAIを採用し、ユースケースを早期に実現することによる大きな可能性があり、他方では前例のない新しいリスクや懸念事項が存在するためです。この状況は、多くのCIOが生成AIの本番環境への導入を躊躇する主な要因となっています。CIOたちは、これらの課題に対する実践的かつ効果的なソリューションを必要としているのです。
4. Securiti AIのソリューション:Gencore
4.1. 基本アプローチ
私たちは、Securiti AIのソリューションであるGencoreを開発する際に、問題を縮小して考えることから始めました。「良い状態とは何か」を最小限のドメインと最小限のユースケースから定義し、それを企業レベルで実用可能なものにしていくというアプローチを採用しました。
このアプローチは、以下の重要な要素から構成されています。第一に、企業のデータシステムへの安全で確実な接続を実現します。これにより、企業の既存のデータ資産を安全に活用することが可能になります。
第二に、データの無害化(サニタイズ)機能を提供します。これにより、センシティブな情報や認証情報を露出させることなく、必要な情報だけを適切に編集・削除することができます。
第三に、技術的な側面を自動的に処理します。例えば、データのベクトル化をどのように行うか、どの埋め込みモデルを使用するか、どのベクターデータベースにデータを格納するか、そしてどのモデルに接続するかといった技術的な選択を最適化します。
これらすべての機能は、インタラクティブなクリック可能なUIを通じて提供されます。これにより、ユーザーは長いモデルのリストから選択する必要がなく、企業が利用可能または推奨するモデルから簡単に選択することができます。このUIは、技術的な複雑さを隠蔽しながら、必要な機能への直感的なアクセスを提供します。
このような包括的なアプローチにより、企業は生成AIの導入に伴う技術的な課題を効率的に解決し、安全かつ効果的にAIシステムを運用することが可能になります。
4.2. マルチレイヤーファイアウォールアプローチ
Gencoreでは、多層的なファイアウォールアプローチを採用して、すべてのセキュリティ要件を確実に満たすようにしています。このアプローチは3つの重要なファイアウォール層から構成されています。
第一の層は、プロンプトファイアウォールです。これは、先に述べた悪意のある攻撃者からのジェイルブレイクなどの攻撃を検知し、防御する役割を果たします。システムに対する悪意のある操作を試みるプロンプトを、それが実行される前に捕捉することが可能です。
第二の層は、検索ファイアウォールです。このファイアウォールは、ユーザーの権限に基づいて情報のフィルタリングを行います。例えば、未サニタイズのデータや、ユーザーの権限レベルでは閲覧を許可されていない情報については、そもそも応答に含まれないようにフィルタリングします。これにより、情報の不適切な露出を事前に防ぐことができます。
第三の層は、レスポンスファイアウォールです。これは非決定的なシステムが常に設定された制限の範囲内で動作することを保証します。生成AIシステムの予測不可能な振る舞いを制御し、常に企業のガードレールの中で運用されることを確実にします。
これら3つのファイアウォール層が連携することで、包括的なセキュリティ保護を実現し、企業の重要なデータと生成AIシステムの安全な運用を確保しています。
5. ソリューションの柔軟性と効率性
5.1. コンポーザブルなパイプライン
私たちは計画というものが実際のユーザーとの接触で変化することを理解しています。そのため、生成AIユースケースのための完全なパイプラインを構想する一方で、より小規模で機動的なユースケースにも対応できる柔軟性を備えています。
例えば、「データの準備だけを支援してほしい」「データの無害化だけを手伝ってほしい」「ベクターデータベースへのデータ読み込みだけを行いたい」といった部分的なニーズにも対応可能です。パイプライン全体を使用するか、その一部だけを使用するかは、ユーザーのニーズに応じて選択することができます。
さらに、これらの機能は、直感的なUIを通じて操作することも、APIを通じてアクセスすることも可能です。この柔軟性により、それぞれのユースケースに最適な方法でソリューションを活用することができます。先に示したパイプライン全体は完全にコンポーザブル(組み立て可能)な設計となっており、必要な時に必要な部分だけを選択して使用することができます。
5.2. 共通の実施ポリシーレイヤー
私たちのソリューションでは、効率性と信頼性を高めるために、すべての生成AIユースケースを共通の実施ポリシーレイヤーの上に構築しています。これにより、各ユースケースが独自のポリシーを持つのではなく、組織全体で一貫した管理が可能になります。
具体的には、このレイヤーは3つの重要な要素から構成されています。第一に、統一された実施ポリシーを適用することで、すべてのユースケースで同じ基準とルールが確実に適用されます。第二に、認証済みのモデルとLLMの管理を一元化することで、承認されたAIモデルの一貫した使用を保証します。第三に、データアクセスと無害化の標準的な手法を提供することで、すべてのユースケースで一貫したデータ保護が実現されます。
この共通レイヤーによって実現される一貫性は、ポリシー管理、モデルの利用可能性、データアクセス方法の面で効率性と信頼性を生み出しています。ソリューション全体を通じて、この一貫性が維持されることで、組織は安心して生成AIを活用することができます。
5.3. コンテキスト分析による洞察
共通のフレームワークとアーキテクチャを活用することで、私たちは「コンテキスト洞察」と呼ぶ付加的な価値を提供しています。真の洞察とは、それまで知られていなかった関係性を明らかにすることです。パイプラインを構築する過程で、私たちはファイルとLLMの関係、ベクターデータベースとユースケースの連携、そして機密データと成果の関連付けを行っています。
ここで重要なのは、これらの洞察がいつでも指先一つで利用可能だということです。例えば、非技術者のユーザーがコーディング経験なしで生成AIのユースケースを実現した例を見てみましょう。生成AIパイプラインと呼ばれるこの画面では、すべての要素がインタラクティブになっています。データの読み込み元を確認したい場合はクリックするだけで表示され、どのような機密データが露出しているかも確認できます。さらに、埋め込みモデルやLLMの詳細も簡単に確認することができます。
これにより、あらゆるユースケースにおいて、ガバナンス、プロベナンス(来歴)、監査可能性に関する360度の完全な可視性を得ることができます。つまり、生成AIパイプラインの全体像を常に把握することが可能になっているのです。
6. 実績と事例研究
6.1. Copilotの導入事例
具体的な導入事例として、あるお客様のCopilot実装プロジェクトについてお話しします。このケースでは、お客様は適切な埋め込みモデルの呼び出し、適切な場所へのデータの収集、ベクターデータベースとの接続、そしてこれらすべての監視と管理という技術的な課題に直面していました。
私たちのソリューションでは、これらの技術的要素をすべて直感的なUIを通じて提供することで、これらの課題を解決しました。その結果、驚くべき成果を上げることができました。具体的には、応答速度が70%向上し、AIが73%のクエリを自動的に処理できるようになりました。さらに、ユーザー満足度は92%という高い水準を達成しました。
これらの数字は、技術的な課題を適切に解決し、使いやすいインターフェースを提供することで、生成AIの実装を効果的に進められることを示しています。特に、直感的なUIを通じて複雑な技術的要素を抽象化したことが、高いユーザー満足度につながったと考えています。
6.2. データベクトル化の最適化事例
このユースケースでは、お客様がパイプラインの一部分のみを利用する形での導入を行いました。具体的な課題は、自社で作成したガイドやマニュアルを一箇所に集約し、全従業員がアクセスできるようにしたいというものでした。しかし、これらの文書には、元々は個人や特定のチーム向けに作成された際に含まれていたユーザー名やパスワード、個人の名前や住所など、センシティブな情報が含まれていました。
この課題に対して、私たちは文書のベクトル化においてデータ無害化の機能を提供しました。つまり、文書に含まれる可能性のあるセンシティブな情報を自動的に特定し、Copilotをオンラインにする前に安全に編集・削除する機能を実装しました。これにより、お客様は自信を持ってユースケースを展開することができました。
特に重要なのは、この文書処理の過程で、従来は安全だと考えられていた情報が、より広範なアクセスを提供するCopilotの文脈では潜在的なリスクとなり得ることを発見できた点です。このように、データベクトル化のプロセスを通じて、文書のセキュリティとプライバシーを新しい視点から見直し、最適化することができました。
6.3. 規制準拠のデータ無害化事例
最後の事例として、データの編集・無害化において規制準拠を確実にする方法についてお話しします。私たちのプラットフォームは、単にデータの何が機密情報であるかを理解するだけでなく、特定の種類の機密データがどの規制に関連するかを理解する能力も備えています。
例えば、従来のアプローチでは「名前、住所、クレジットカード番号をPIIまたはSPIと見なす」というようなポリシーを適用していました。これに対して、私たちのプラットフォームでは「PCI DSS v4.0に準拠する」という、より自然な形でポリシーを設定することができます。システムは自動的にこれに違反する可能性のあるデータを特定し、即座に編集・無害化します。
このように、ビジネスレベルでの自然な考え方をそのままポリシーとルールとして適用し、生成AIのユースケース全体に反映させることができます。これにより、規制準拠の確保がより直感的かつ効率的になり、組織は自信を持って生成AIを活用することができるようになります。企業の通常の思考方法に沿った形で規制対応を自動化できることが、このアプローチの大きな特徴です。