※本記事は、2024年に開催されたAWS re:Inventにおける「[NEW LAUNCH] Amazon Nova understanding models (AIM395-NEW)」セッションの内容を基に作成されています。プレゼンテーションの詳細情報は、Amazon Web Services (AWS)の公式YouTubeチャンネルで公開されている動画(https://www.youtube.com/watch?v=KEzL6VywPBQ )でご覧いただけます。本記事では、セッションの内容を要約・構造化して記事として再構成しております。
本記事の内容は、登壇者であるFirat Elbey氏(Amazon AGIのプリンシパルプロダクトマネージャー)、Imre Kiss氏(Amazon AGIのサイエンスディレクター)、Fabian氏(Amazon AGIのサイエンスマネージャー)、およびPeter Goldstein氏(Hearst社のチーフAIプロダクトストラテジスト)の発表内容を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もございます。正確な情報や文脈については、オリジナルの動画をご視聴いただくことをお勧めいたします。
また、AWSの最新イベント情報については、公式サイト(https://go.aws/3kss9CP )をご参照ください。AWSに関する詳細な技術情報や事例については、AWS公式YouTubeチャンネル(http://bit.ly/2O3zS75 )もご活用ください。
1. Amazon Novaの概要と位置づけ
1.1. モデルファミリーの構成
Firat Elbey(Principal Product Manager at Amazon AGI): 私たちは昨日、業界最高の価格性能を実現する次世代の基盤モデル、Amazon Novaを発表しました。Amazon Novaは、異なる入力からテキストを生成するモデル群と、テキストから画像や動画を生成するモデル群を提供します。
理解モデルのラインナップについて、知能レベルの昇順で4つのモデルを紹介させていただきます。まず、最も低レイテンシーの応答を非常に低コストで提供するテキストオンリーモデルのAmazon Microです。残りの3つはマルチモーダルモデルです。
最初のマルチモーダルモデルはAmazon Nova Liteで、画像、テキスト、ビデオの入力を処理する非常に低コストなモデルであり、高速な処理が特徴です。次にAmazon Nova Proは、幅広いタスクに対して精度、速度、コストのベストな組み合わせを実現する高性能なマルチモーダルモデルです。
最後に、Amazon Nova Premierは最も高性能なマルチモーダルモデルであり、複雑な推論が必要な場合や、カスタムモデルのディスティレーションのための教師モデルとして最適です。
これらのモデルは、フロンティア知能を提供し、最先端の精度で幅広いタスクを実行できるように設計されています。各モデルは、それぞれの知能層で最も高速なモデルの1つとして設計されており、低レイテンシーアプリケーションに最適です。各モデルは、最先端の知能を最低コストで提供する優れた価格性能を実現しています。
これらのモデルは、プロプライエタリなシステムやAPIとの対話が必要なエージェントアプリケーションで使いやすく、効果的に動作するように設計されています。これらのモデルはBedrockに単に存在するだけでなく、Bedrockのエージェント、Bedrock知識ベース、Bedrockガードレールと完全に統合されています。
お客様のコントロール性を重視し、Micro、Lite、Proでは独自のラベル付きデータを使用して精度を向上させるためのファインチューニングをサポートしています。さらに、Amazon NovaはBedrockのディスティレーションサービスを使用したディスティレーションもサポートしています。ディスティレーションは、通常「教師」と呼ばれる高性能なモデルから、より小さく効率的なモデルに知識を転送する際に使用されます。
1.2. 各モデルの特徴と性能比較
Firat Elbey(Principal Product Manager at Amazon AGI): Nova Microは128Kのコンテキスト長を持つテキストからテキストへのモデルです。200以上の言語をサポートし、前述の通りファインチューニングとディスティレーションをサポートしています。特にディスティレーションではNova Proを教師として使用し、特定のアプリケーション向けの精度を向上させることができます。
ベンチマークの結果を見ると、Nova Microは言語理解、翻訳、推論、コード補完、数学的問題解決など幅広いタスクで優れた性能を示しています。95%信頼区間を用いた統計的有意性テストでは、Llamaとの比較で11/11のベンチマーク、Geminiとの比較で12/12のベンチマークで同等以上の性能を示しました。モデルの出力は毎秒210トークンと高速で、低レイテンシーアプリケーションに最適です。
Nova Liteはテキスト、画像、文書、ビデオを入力として受け取り、テキストを出力する300Kのコンテキスト長を持つモデルです。従来のモデルは文書をネイティブにサポートせず、画像を無視して単にテキストを解析するだけでしたが、Nova Liteは文書中のテキストと画像の両方を処理し、より多くの価値を抽出できます。
Nova LiteはGPT-4o Miniとの比較で19個中17個、Geminiとの比較で21個中17個、テキストのみのHaiku 3.5との比較で12個中10個のベンチマークで同等以上の性能を示しました。
同様に300Kコンテキスト長を持つNova Proは、Liteと同じく、テキスト、画像、文書、ビデオを入力として受け取り、テキストを出力します。その機能と業界をリードする速度とコスト効率により、ビデオ要約、Q&A、マルチステップワークフローを実行できるAIエージェントなど、ほぼすべてのタスクに適しています。
Nova ProはGPT-4oとの比較で20個中17個のベンチマーク、Geminiとの比較で21個中16個のベンチマークで同等以上の性能を示しました。このクラスで最高とされるSonnetとの比較では、約半数のベンチマークで同等以上の性能を示し、残りのベンチマークでも非常に近い性能を実現しています。
これらのベンチマークテストは、これらのモデルがそれぞれの知能層で最高の性能を発揮し、多くの分野でリードしていることを示しています。これらのモデルの速度とコスト効率の高さを考慮すると、非常に魅力的なソリューションとなっています。
1.3. 価格性能比較
Firat Elbey(Principal Product Manager at Amazon AGI): 前述のベンチマークと比較したのと同じモデルについて価格性能を比較させていただきます。Artificial Analysisによって実施された分析に基づくと、これらのモデルは非常にコスト効率が高く、すべて最も魅力的な象限に位置しています。
特にBedrockで提供されているモデルに焦点を当てると、Amazon Novaは最もコスト効率の高いモデルファミリーとして際立っています。Micro、Lite、Proは、Bedrock上の同じ知能クラスで最高性能のモデルと比較して、少なくとも4倍以上のコスト効率性を実現しています。
この優れた価格性能比は、私たちが追求してきた設計目標の成果です。各モデルは、それぞれのインテリジェンスレベルにおいて最高の性能を維持しながら、最も効率的な価格で提供できるように最適化されています。
分析では、従来の同等クラスのモデルと比較して、特にレイテンシーと価格の両面で優位性を示しています。この結果は、実際のアプリケーション開発における総所有コストの大幅な削減につながることを示唆しています。
2. Amazon Novaの主要機能
2.1. ネイティブビデオ理解能力
Firat Elbey(Principal Product Manager at Amazon AGI): Nova ProとLiteの主要な機能の1つとして、ネイティブなビデオ理解能力を紹介します。例えば、Nova Proにサッカーの試合の動画を見せると、詳細な内容説明を生成することができます。
これまでのモデルでは、お客様はこのような動画を処理する際、動画をキーフレーム画像に分割して画像理解モデルに渡す必要がありました。このプロセスは多くの追加手順を必要とし、非常に面倒でした。
しかし、Nova LiteとProでは、ビデオ要約などのタスクにおいて、Bedrock上で動画コンテンツをネイティブに処理することができます。これにより、動画コンテンツの理解と分析が大幅に簡素化され、より効率的になりました。
デモンストレーションでお見せした通り、モデルは動画の文脈を理解し、時系列に沿って展開される内容を正確に把握することができます。これは単なるフレーム単位の理解ではなく、動画全体のストーリーや文脈を理解する能力を示しています。
2.2. 手書き文書の理解と変換
Firat Elbey(Principal Product Manager at Amazon AGI): ここで、Amazon Novaの手書き文書に対する理解能力をデモンストレーションしてみましょう。単純に画像とテキストプロンプトを提供するだけで、データを機械可読形式に変換することができます。
このデモでは、Nova Liteを使用した簡単なチャットインターフェースで手書き文書の処理能力を実証します。Nova Liteは画像上の情報を正確にキャプチャし、その情報をJSONフォーマットで出力して後続の処理を容易にします。もちろん、出力フォーマットは必要に応じて自由に選択することができます。
この機能により、お客様は手書きの請求書などのコンテンツから効率的に情報を抽出することができます。これは、特に手書き文書のデジタル化や自動処理が必要な業務プロセスにおいて、大きな価値を提供できると考えています。高い精度で手書き文字を認識し、構造化されたデータに変換する能力は、多くの業務効率化の可能性を開きます。
2.3. 複雑な技術図面の理解と分析能力
Firat Elbey(Principal Product Manager at Amazon AGI): より複雑な例として、詳細な技術図面の解析能力をお見せしたいと思います。ここでは非常に複雑な図面を使用し、モデルに図面の内容を要約させ、さらにプロセスの改善提案を求めてみましょう。
このデモでは、Nova Proを使用しています。プロンプトを送信すると、モデルは詳細な説明を提供し、この図が流体処理システムを示していることを正確に識別し、システムの構成要素を説明します。さらに、このようなシステムが化学処理プラントなどでどのように使用されるかについても説明を加えます。
システムの改善提案を求めると、Nova Proは安全機能として冗長性を追加するなど、詳細な提案を提供します。このような能力は、チーム間や組織間でのドキュメント理解や知識移転を大幅に簡素化することができます。複雑な技術図面を即座に理解し、実用的な提案を生成する能力は、技術文書の理解と活用において大きな価値を提供します。
2.4. UI操作とブラウザ自動化機能
Firat Elbey(Principal Product Manager at Amazon AGI): Novaのビジュアル知能、指示遵守能力、およびアクション実行能力を組み合わせることで、さらに強力な機能が実現できます。Mind2Web、VisualWebBench、GroundUIなどのコンピュータエージェントベンチマークで業界をリードする性能を達成しています。
これは実践的には、開発者がNova モデルに簡単な指示を与えるだけで、ウェブサイト、ブラウザ、画面ベースのアプリケーションと自然に対話するエージェントを作成できることを意味します。
[デモ発表者]: このデモでは、Amazon Novaモデルを活用したコンピュータエージェントが、エンドユーザーのタスクを自動化するためにブラウザやスクリーンベースのユーザーインターフェースを汎用ツールとして使用し、マルチステップのアクションを計画・実行する様子をお見せします。
最も広く使用されているSaaSのERPシステムの1つであるSAP S/4HANAを使用した営業担当者とNova搭載コンピュータエージェントの対話例を見てみましょう。Fit Cyclesという顧客の特定の注文の配送先住所を変更する必要があるとします。エージェントに自然言語で注文5116の配送情報を更新するように依頼できます。
ここからは私はシステムに触れません。マウスもキーボードも操作しません。Novaのビジュアルインストラクションフォローとエージェント機能を組み合わせることで、Mind2Web、VisualWebBench、GroundUIなどの主要なコンピュータエージェントベンチマークで業界をリードする性能を実現しています。これにより、エージェントは今ご覧の通りS/4HANAをナビゲートすることができます。
Novaモデルに簡単な指示を提供することで、開発者はウェブサイト、ブラウザ、スクリーンベースのツールでアクションを実行する機能を構築できます。ここでは、エージェントの次のアクションと中間的な思考を見ることができます。UIをスクロールして注文番号5116を探すなど、ステップバイステップで最適なステップを考えています。
エージェントは顧客に代わって自律的にブラウザを操作しています。S/4HANAのUIを理解し、顧客情報の入力など、様々な要素と対話します。フォームに入力することもできますし、リンクやドロップダウンをクリックすることもできます。エージェントは適切な注文を会社名と注文IDで検索し、新しい配送先住所を設定するためにフォームフィールドを更新しています。
番地、地区、そして郵便番号、市、地域が更新されました。これがNova Computer Agentsのパワーです。
3. エージェント機能の詳細
3.1. APIとUI操作の統合能力
Imre Kiss(Science Director with Amazon AGI): Nova ProとLiteはマルチモーダル入力を含むエージェントワークフローにネイティブなサポートを提供します。これらのワークフローにより、開発者は仮想拡張生成(VAG)、API実行、UIアクチュエーションを使用するアプリケーションを構築できます。例えば、クライアントアプリケーションを自動化するためのAPI操作の予測などが可能です。
エージェントの中心的な機能は、入力に基づいてAPI、関数、またはツールを正確に呼び出す能力です。そのため、私たちはBerkeley Function Calling Leaderboardでノバのベンチマークを実施しました。このリーダーボードは、ユーザーからの自然言語リクエストに基づいて実世界の関数を正確に呼び出し、利用する能力を評価します。
特にNovaモデルは、AST実行とマルチターンメトリクスで優れた性能を発揮しています。これは、しばしば曖昧なユーザーリクエストを理解し、それらをAPI呼び出しに正確に変換し、実世界のAPIから正確な応答を得て、会話が進展し軌道を変えても、これを複数のターンにわたって実行する能力を示しています。
Novaの性能は、BFCLチームのオリジナルのキュレートされたテストセット(Non-live)と、はるかに多くのツールと曖昧なリクエストを含むユーザー収集のライブテストセットの両方で維持されています。全体として、BFCLの18の異なる関数呼び出しカテゴリー全体での性能に基づいて、Amazon Novaモデルは、それぞれのインテリジェンス階層で業界をリードする精度を、コストとレイテンシーのごく一部で提供しています。
精度、コスト、レイテンシー、これら3つはすべて、成功するエージェントアプリケーションをスケールするために重要な要素です。この統合された能力により、開発者は複雑なワークフローを自然な形で自動化することが可能になります。
3.2. Berkeley Function Calling Leaderboardでの性能
Imre Kiss(Science Director with Amazon AGI): エージェントのコア機能の1つであるモデルのAPI、関数、ツール呼び出し能力を評価するため、私たちはBerkeley Function Calling Leaderboard(BFCL)でNovaの性能を検証しました。このベンチマークはユーザーからの自然言語リクエストに基づいて実世界の関数を呼び出し、活用する能力を評価するものです。
ご覧の通り、Amazon Novaモデルは特にAST実行とマルチターンメトリクスで優れた性能を示しています。これらのメトリクスは、しばしば曖昧なユーザーリクエストを理解し、それをAPI呼び出しに正確に変換する能力、実世界のAPIから正確な応答を取得する能力、そして会話が進展し方向性が変化していく中でこれらを維持する能力を評価しています。
この性能は、BFCLチームが厳選したオリジナルのNon-liveテストセットだけでなく、より多くのツールと曖昧なリクエストを含むユーザー収集のライブテストセットでも維持されています。BFCLにおける18の異なる関数呼び出しカテゴリー全体の性能に基づくと、Amazon Novaモデルは各インテリジェンス層で業界をリードする精度を達成しており、しかもそれを従来のモデルと比較して大幅に低いコストとレイテンシーで実現しています。
これらの3つの要素 - 精度、コスト、レイテンシー - はすべて、エージェントアプリケーションを実用的なレベルまでスケールする上で極めて重要な要素となります。
3.3. MOCAエージェントの実装例
[デモ発表者]: このデモでは、Nova対応のコンピュータエージェントMOCA(My on-Call agent)が、エンドユーザーのタスクを自動化するためにブラウザを汎用ツールとして使用し、マルチステップのアクションを計画・実行する様子をお見せします。
まず、MOCAはチケット概要に含まれる情報に基づいて計画を生成します。コンピュータエージェントはReactループを使用し、MOCAが利用できるツールから情報を収集し、各ステップで問題のroot causeを特定できるかどうかを判断します。
MOCAには利用可能なツールのライブラリがあり、ログなどの情報にアクセスするためにAPIを使用するか、サービスメトリクスなどの情報にアクセスするためにブラウザを使用します。これはNovaがUIを理解してブラウザを操作できるため、APIとUI両方を統合したコンピュータエージェントを実現できるからです。
この時点で、MOCAはチケットから収集した情報に関連するエラーグラフを見つけるため、CloudWatch UIのナビゲーションが必要だと判断します。コンピュータエージェントは自律的にウェブブラウザを操作してこれを行います。グラフを見つけ、拡大し、その画像をNovaに渡して分析させます。
Novaのマルチモーダル理解と推論能力により、スパイクの時間と値を正確に特定し、問題のroot causeをさらに特定することができます。チケットへの最後のコメントはroot causeとNovaの思考過程です。MOCAは未使用のクライアントIDをシステムから最近削除したことが原因であると正しく特定しました。
Imre Kiss(Science Director with Amazon AGI): このデモは非常に印象的でした。お客様がこれらのモデルを使って何を構築するのか、私は本当に楽しみにしています。
3.4. エージェントアーキテクチャの設計
Imre Kiss(Science Director with Amazon AGI): MOCAのアーキテクチャは実際とてもシンプルです。ユーザーはMOCAコンピュータエージェントと対話し、エージェントはReactループとして記述された全体的なタスクのオーケストレーションを実行します。MOCAはマルチモーダル推論、指示遵守、ツール呼び出しのためにNova Proを使用し、APIとUIアクチュエーションツールの両方を利用します。
APIツールを使用してサービスの説明やログなどの必要なデータを収集し、UIアクチュエーションツールを通じてウェブブラウザを使用してユーザーに代わってアクションを実行します。デモでお見せしたようにCloudWatchでサービスチャートを見つけて分析するなどの操作が可能です。Nova Proはこれまでに収集したすべての情報に基づいてエージェントの次のステップを決定する計画を生成し、root causeの特定に成功した時点でゴールを達成します。
エージェントの開発者は、基本的に以下の手順に従うだけで構築が可能です:
- エージェントの目標に基づいた基本的な自然言語による説明としてのシステムプロンプトを定義
- CloudWatchダッシュボードなどのデータソースにアクセスするAPIツールとUIベースのツールの両方に対して、シンプルな自然言語による説明を含む構造化フォームでツールライブラリを定義
- 適切なクライアントライブラリを使用してツールを実装
- 最後に、モデルが計画・ツール選択、ツール呼び出し、root cause判定のステップを繰り返すことができるReactのスキャフォールドを実装
全体として、MOCAは4つのAPIおよびUIツールを含めて約400行のコードと自然言語ステートメントで構成されています。これは特定のシステムを構築するために必要なコードとツールは異なりますが、MOCAで可能なことの一例を示しています。
4. モデルのカスタマイズと最適化
4.1. ファインチューニングの手法と効果
Fabian(Science Manager at Amazon AGI): 私たちのNova モデルは、優れた価格性能比をすぐに利用できるだけでなく、簡単なカスタマイズも可能です。ファインチューニングを使用することで、お客様は独自のカスタムデータ、特に特定のプロンプトとレスポンスを使用して、Novaモデルのゼロショット精度をカスタムユースケースに対して向上させることができます。
この結果、カスタマイズされたAmazon Novaモデルは、さらに優れた価格性能比を提供し、プロンプトエンジニアリングや長く高価なプロンプトに費やす時間を削減することができます。お客様はMicro、Lite、そして最も強力なProモデルを含む、すべてのAmazon Novaモデルをファインチューニングすることができます。
マルチモーダル機能に関しても、画像や動画の入力に対するコンテキスト固有の応答を改善するためのファインチューニングを提供しています。このアプローチにより、お客様のユースケースに特化した高精度な応答を実現することができます。
ファインチューニングは、プロンプトとレスポンスのペアを使用したモデルのカスタマイズだけでなく、画像認識や動画理解など、マルチモーダルな側面でも効果を発揮します。これにより、特定の業界や用途に特化した高精度な応答を実現することができ、プロダクション環境での実用的な導入を加速することができます。
4.2. ディスティレーション手法の活用
Fabian(Science Manager at Amazon AGI): ファインチューニングに加えて、Amazon Novaモデルはディスティレーションを通じてさらなる改善が可能です。私たちは最も性能の高いAmazon Nova Proを教師モデルとして使用し、Amazon Nova MicroまたはLiteモデルの精度を向上させることができます。
ラベル付きデータが少量しかない場合や、プロンプトのコレクションがあるもののレスポンスがない場合でも、Nova Proを教師として使用することで、ファインチューニングやトレーニングに使用できる追加の合成データを生成することができます。
このアプローチにより、非常に高速なNova MicroとLiteモデルの速度と、Nova Proのインテリジェンスと汎化能力を組み合わせることができます。つまり、小規模なモデルでありながら、より大規模なモデルの知識と能力を活用することができるのです。
このディスティレーションプロセスは、特に特定のドメインやタスクに特化したモデルを作成する際に非常に効果的です。Nova Proの深い理解と推論能力を、より軽量なモデルに効率的に転移することで、実運用環境での実用的な導入を加速することができます。
4.3. 17 APIタスクでの実験結果
Fabian(Science Manager at Amazon AGI): 私たちは、Nova MicroとLiteの早期バージョンでファインチューニングを実施したお客様との実験結果を共有したいと思います。このスライドでは、17のAPIを使用した関数呼び出しタスクに対して、Nova Microモデルを最適化した結果を示しています。
APIの調整にはこれらのモデルを使用し、API間のオーケストレーションを行いました。Nova Microのファインチューニングにより、品質スコアが大幅に向上し、すでにNova Liteのアウトオブボックス性能に匹敵するか、それを上回る結果となりました。さらに、このタスクのベースラインとして使用されているGPT-4 Miniのアウトオブボックス性能も上回ることができました。
同じファインチューニングをより高性能なNova Liteモデルに適用すると、2倍高価なGPT-4 Miniを明確に上回る性能を発揮し、さらに30%高速な推論を実現しました。この実践的な例は、特にNova モデルのカスタマイズが、業界をリードする価格性能比をさらに向上させ、お客様に完全な柔軟性を提供して適切なソリューションを構築できることを示しています。
この結果から、今日からGen AIアプリケーションをカスタムAmazon Nova モデルで強化することをお勧めします。カスタマイズによって、より高速で効率的な運用が可能になり、同時に高い精度を維持することができます。
5. 技術的特性と性能
5.1. レイテンシーと処理速度の分析
Fabian(Science Manager at Amazon AGI): 多くの実世界のユースケースでは低レイテンシーは妥協できない要素であり、そのためNova モデルは速度を重視して設計されています。一般的にモデルの速度を測定する方法として、固定の入力とタスク数に対して、モデルが1秒あたりに生成できるトークン数を測定します。
artificialanalysis.aiによる分析では、Amazon Micro、Lite、およびProはすべて低レイテンシーを示し、同じ知能クラスのモデルと比較して最も高い出力トークン数を実現しています。これらのモデルはBedrockで提供されている同じインテリジェンスクラスのモデルの中でリーダーとなっています。
また、昨日発表された新しいレイテンシー最適化Bedrock推論により、Bedrock上のすべてのモデルがQSC(品質・速度・コスト)の向上を実現できることも付け加えたいと思います。
速度だけがモデルの唯一の側面ではないため、私たちは速度と品質の関係についても分析を行いました。一方の軸に出力トークン数、もう一方の軸にartificialanalyzers.aiが標準ベンチマークグループで比較した品質を示しています。理想的な位置は右上の緑の領域であり、LiteとMicroの両方のモデルがそこに位置しています。市場の最高のモデルと比較して、同等以上の速度または精度を実現しています。
同様にProモデルも緑の右上の領域に位置しており、高速な処理速度を提供しています。また、このプロットの点の大きさはモデルのコストを示しており、Novaの小さな点は、より大きな点で示される他のモデルと比較して、コスト効率が優れていることを示しています。
5.2. コンテキスト長の処理能力
Fabian(Science Manager at Amazon AGI): 私たちはすでに複数のダウンストリームタスクでの性能数値を共有し、エージェントのリアック能力とその詳細についても説明しました。しかし、お客様からの強い要望として、長いコンテキストを処理するモデルの能力があります。そのため、私たちはNova モデルを構築する際に、長文書を非常にうまく処理し、複雑な文書理解において最高の性能を発揮できるように設計しました。これには、マルチモーダル文書、チャート理解などのすべての領域が含まれます。
この能力を測定するために、私たちは「needle in the haystack」タスクを使用しました。これは、長い文書内に隠された特定のコンテンツを見つける能力を測定する一般的なタスクです。文書の長さに応じて、どこかに関連する文が隠されており、プロンプトはその文に対する答えを見つける必要があります。
中央の表が示すように、私たちのモデルは128Kコンテキスト長において非常に強い数値を示しています。Microは97%、Liteは98%、Proは99%の精度で、ほぼすべての場合において文書から正しい情報を取得できています。左側のヒートマップは、32K、64K、128Kの異なるコンテキストで、文書のどの位置に情報が隠されているかに応じた性能を示しています。緑色の部分が多いことから、Nova Microは隠された情報の種類に関係なく、非常に強力な処理能力を持っていることがわかります。
しかし、128KはあくまでもNovaモデルの限界ではありません。これはNova Microの限界であり、LiteとProモデルは両方とも300Kのコンテキストをサポートしています。これは現在Bedrockで提供している最長のコンテキスト長です。どちらのモデルも、特にProモデルは300Kまで高い精度を維持しています。
さらに、300Kもまた Amazon Nova understanding modelsの将来的な限界ではありません。私たちのモデルはすでにもっと長いコンテキストを処理することができます。ヒートマップで示している通り、100万トークンの入力長まで精度は非常にうまく分散しています。そして本日、来年には最大500万トークンの長いウィンドウをサポートすることを事前発表させていただきます。
5.3. Needle in Haystack実験の結果
Fabian(Science Manager at Amazon AGI): Needle in Haystack実験の結果をより詳細に説明させていただきます。このヒートマップは、情報が文書のどの位置に配置されているかに応じて、異なるコンテキスト長での検索精度を視覚化したものです。横軸はコンテキスト長(32K、64K、128K、300K)を示し、縦軸は文書内での情報の位置を示しています。
Nova Microモデルのヒートマップでは、広範な緑色の領域が見られ、これは文書内のどの位置に情報が配置されていても、一貫して高い検出精度を維持できていることを示しています。これは単なる情報検索ではなく、文書の文脈を理解した上で関連情報を正確に特定できる能力を示唆しています。
さらに高度なLiteとProモデルでは、300Kまでのコンテキスト長でも同様の高い精度を維持しています。特筆すべきは、文書の長さが増加しても、情報の位置による性能低下がほとんど見られないことです。これは、モデルが長文書全体を効果的に理解し、処理できることを示しています。
最も印象的なのは、実験を100万トークンまで拡張した際の結果です。ヒートマップは引き続き均一な性能分布を示し、これは私たちのモデルアーキテクチャが非常に長いコンテキストでも効果的に機能することを実証しています。このような堅牢な性能は、将来の500万トークン対応への確かな基盤となっています。
6. Hearstでの実践事例
6.1. 導入背景と期待される効果
Peter Goldstein(Chief Product and AI Strategist for Hearst): Hearstについて少しご説明させていただきます。Hearstは220億ドル以上の売上を誇る多国籍コングロマリットで、22,000人以上の従業員を抱えています。Hearstというブランド自体はあまり馴染みがないかもしれませんが、私たちのブランドや子会社の多くは非常によく知られています。
Hearst Magazinesでは、Cosmopolitan、Good Housekeeping、Car and Driverなどのブランドを展開しています。また、San Francisco Chronicle、Houston Chronicleなどの新聞、35以上のメディア市場でのテレビ局を運営しています。A&EやESPNとのジョイントベンチャーによる所有権も持っています。
しかし、Hearstはメディアだけではありません。FDBやMCG、QGendaなどのブランドを持つHearst Health、MotorやBlackbookを展開する自動車部門、CAMPを持つ航空部門、そしてFitch Ratingsで知られるFitch Groupという金融部門も展開しています。
私たちは過去2年間、生成AIを優先事項として取り組んできました。その理由は、私たちの多くのビジネスが本質的に情報処理ビジネスだからです。情報を取り込み、キュレーションし、変換し、そしてデータとサービスとしてお客様に提供しています。これは明らかに生成AIの強みとなる領域です。
私たちの経営陣、特にCEOは、これが私たちの優先事項であることを理解し、この2年間で生成AIに大きく投資してきました。インストラクターが主導する訓練を全従業員に提供し、生成AIに慣れ親しみ、その能力を理解し、実践的な経験を得られるようにしています。
また、生成AI用の社内ポータルを構築し、生成AIアプリケーションを開発できる環境を整備しました。このポータルでは、従業員がMeta、Anthropic、そして現在はAmazon NovaモデルをBedrock APIを通じて利用できます。各組織と協力して生産性を大幅に向上させる機会を特定し、高いROIを見込める分野での生成AIの活用を推進しています。
最後に、生成AI機能を直接お客様に提供したり、バックエンドで生成AIを活用して新しい種類の体験を提供したりすることで、お客様のエクスペリエンスを向上させる方法を探っています。
6.2. ビデオ広告分析の実験結果
Peter Goldstein(Chief Product and AI Strategist for Hearst): 私たちは、Amazon Novaモデルの早期アクセスの機会を得て、ビデオ広告の分析実験を実施しました。メディア企業として、企業から広告を受け取ることが多いのですが、私たちはそれらの広告が私たちのプラットフォームで成功する可能性があるかどうかをモデルに判断させたいと考えました。
このためには、モデルが広告を理解する必要があります。単に広告内の詳細や画像を見るだけでなく、より重要なのは広告のナラティブ、つまり広告が伝えようとしているメッセージと、それがどのように結びついているかを理解することです。例えば、ある自動車会社の広告では、時代とともに進化する自動車技術を示し、異なる工場や異なるレベルで個人を登場させていました。Nova モデルはこのナラティブを理解し、広告の目的を的確に把握することができました。
また、この広告のターゲットとなる層をモデルに伝え、ターゲット外の人々がどのように反応するかを予測させる必要がありました。そのため、私たちはペルソナを作成し、それらのペルソナをステアリングプロンプトとして使用することで、同じビデオコンテンツに対する異なる視点を得ることができました。
特に重要なのは、モデルが単に事実的な情報(車が表示されていることやエンジニアが時間を通じて移動していることなど)を抽出するだけでなく、人々がこれに対してどのように感情的に反応する可能性があるか、美的な側面、トーンが過度なものか、提示したペルソナにとって適切かどうかを判断できたことです。
Amazon Novaは、このようなフィードバックを非常にうまく提供し、「これがお客様から提供された広告です。これが私たちのモデルが予測する受け取られ方です。変更すべき点があるかもしれません。あるいは、狙っているペルソナにとってはちょうど良いかもしれません」というような情報を提供することができました。これらの結果は私たちにとって非常に期待が持てるものでした。この機能は、広告配置を最適化する上で重要な前進だと考えています。
6.3. 業務最適化の可能性と経済効果
Peter Goldstein(Chief Product and AI Strategist for Hearst): 大規模な視覚理解能力は、これまでのモデルの大半で欠けていた機能の1つでした。私たちのプロセス、特にバックエンドのプロセスの多くは、人間が文書を評価し、人間のペースでレビューする必要がありました。この種のモデルを活用することで、事前に情報を抽出し、コンテキストを理解し、それを従業員に提示することができます。従業員はそれをレビューし、意味があるかどうかを確認することができます。人間をループに入れたままにすることは非常に重要です。
特に私たちは、メディア、金融、自動車、医療など、多くの業界にまたがる応用可能性を目にしています。正直なところ、これらの機能が業務フローを最適化し、お客様のために迅速かつ柔軟に動けるようになる方法については、まだ表面をなぞっているに過ぎません。より多くのデータを消費し、それに基づいてより多くのコンテンツを生成できるようになることで、お客様への提供内容を拡大することができます。
Fitch Groupでは、何十ページもの文書から比較的少数のデータポイントを抽出する必要があります。ヘルスケアワークフローの処理では、保険会社からの承認を取り込み、処理し、特定のケースに一致させる必要があります。理想的なシナリオではクリーンなPDFが得られるかもしれませんが、多くの場合、FAXなどのテクノロジーで送られてきます。また、航空分野では、メンテナンス記録がダラスのエアストリップからはクリーンなPDFで届くかもしれませんが、ドバイやその他の地域のエアストリップからは同じようにはいきません。さらに、フォーム自体にない情報を手書きのメモから抽出する必要もあります。
その結果として、私たちの組織にもたらされる推定節約効果は数千万ドルに達すると見込んでいます。この機能と、それが私たちのビジネスにもたらす可能性について、私たちは非常に期待しています。
7. 今後の展開
7.1. Nova Premierの展望
Firat Elbey(Principal Product Manager at Amazon AGI): Nova Premierについて、機能の一部をご紹介する前に簡単にお話しさせていただきます。これは私たちの最も高性能なモデルとなります。いくつかの機能について、私たちは非常に期待しています。特に、複数のステップを必要とする複雑なタスクを完了するために、より深いレベルの推論を提供することが期待されています。
私たちは近い将来、このモデルを提供できるようになる見込みです。その最大の特徴は、複雑なタスクに対する深い推論能力です。これは単なる単一ステップの処理ではなく、複数のステップを必要とするタスクを論理的に分析し、実行する能力を持っています。
Premierの能力は、既存のNovaモデルファミリーの強みを基盤としながら、より高度な推論能力とマルチステップのタスク実行能力を提供します。これにより、より複雑で洗練された応用が可能になると考えています。このモデルの詳細な機能と正確な提供時期については、今後の発表をお待ちください。
7.2. 5百万トークンのコンテキスト長対応
Fabian(Science Manager at Amazon AGI): 300Kのコンテキスト長もまた、Amazon Nova understanding modelsの将来的な限界ではありません。私たちのモデルはすでにもっと長いコンテキストを処理することができます。お見せしたヒートマップが示すように、100万トークンの入力長までの精度は非常にうまく分散しています。
そして本日、私は来年に向けた重要な発表をさせていただきます。私たちは最大500万トークンの長いウィンドウをサポートする予定です。このような長いコンテキスト長でも、現在のモデルと同様の高い精度を維持できることを確認しています。
これにより、より長い文書や複雑な文脈を必要とするユースケースにも対応できるようになります。例えば、長時間の会議録、詳細な技術文書、複数の関連文書の同時処理など、これまで扱うことが難しかったタスクも効率的に処理できるようになります。
この拡張は、単にコンテキスト長を増やすだけでなく、モデルの基本的な理解能力と処理能力を維持したまま実現される予定です。これは私たちのモデルアーキテクチャの堅牢性を示すものであり、より広範なアプリケーションの可能性を開くものだと考えています。
7.3. マルチモーダル機能の拡張計画
Firat: マルチモーダル機能に関して、Andy Jassyが発表したように、私たちは新たな音声対応モデルの開発を進めています。このモデルは音声とテキストの両方を入力として受け付け、同様に音声とテキストの両方を出力として生成できる能力を持ちます。
さらに注目すべき点として、より高度な「any-to-any」モデルの開発も進めています。このモデルは、テキスト、画像、音声、ビデオ、スピーチなど、あらゆる形式のインプットを受け付け、それらのモダリティのいずれかで出力を生成することができます。これは単一のモデルで実現される機能です。
このアプローチは、複数のモダリティをサポートする必要のあるお客様のアプリケーションにとって、非常に便利な解決策となります。従来のように異なるモデルを選択して組み合わせたり、モデルを連鎖させたりする必要がなくなるためです。この「any-to-any」モデルで実現できることには本当にワクワクしており、これらのモデルは2025年初頭にリリースされる予定です。
現時点で既に、AWSのBedrockプラットフォーム上でAmazon Novaモデルを試すことができます。既存の実装との比較評価や、Bedrockのプレイグラウンドでの簡単なテスト利用が可能です。また、プロンプトガイドやクイックスタートレシピなどのリソースにすぐにアクセスできるよう、QRコードをスキャンしてページをブックマークすることをお勧めします。さらに、AWSワークショップ(AIM 332)では、Amazon Nova理解モデルを使用したエンドツーエンドのハンズオン体験も提供しています。