※本記事は、2025年1月6日に米国ラスベガスで開催されたCES 2025におけるNVIDIA創業者兼CEOのJensen Huang氏による基調講演の内容を基に作成されています。CES(Consumer Electronics Show)は、Consumer Technology Association (CTA)®が主催する世界最大規模のテクノロジーイベントです。
本記事では、講演の内容を要約・整理して記載しております。なお、本記事の内容は講演の内容を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、より詳細な情報や正確な文脈については、オリジナルの講演映像をご覧いただくことをお勧めいたします。
Jensen Huang氏は、Fortune誌とThe Economist誌から世界最高のCEOに選出され、TIME誌の世界で最も影響力のある100人にも選ばれています。先見性のある考え方とテクノロジーへの情熱で知られ、本講演ではNVIDIAの最新技術と革新的な取り組みについて発表されました。
なお、本記事で言及されている製品仕様や発売時期などの情報は、講演時点のものであり、変更される可能性があることをご了承ください。
1. イントロダクション
1.1. CESの意義と技術の可能性
CESは単に次の技術を見せる場ではありません。私たちは、何が可能かを追求する場を創造しているのです。技術と人類が交差する地点で、その可能性は無限に広がります。技術は単に課題を解決するだけでなく、それらの課題を新たな機会へと変換する力を持っています。
私たちがここに集まっている理由は、単なる技術イベントのためではありません。共にコネクトし、問題を解決し、発見するためです。技術は単に進歩しているだけでなく、私たちを結びつけ、自律的な未来へと導き、より良いケアへとつなげ、生活をよりダイナミックに、そしてより人間的なものにしています。
現代の課題には大胆な解決策が必要です。CESは、その解決策が形作られ始める場所なのです。持続可能性における画期的な進展、増加する世界人口を養うための進歩。この週は単なるブレークスルーのための舞台ではなく、発見の火種となります。
ここで皆さんが目にする全ての技術、画面、ピクセルは、人類の創造性と技術力が出会うことで生まれる非凡な可能性を示しています。私たちは今、人々をつなぎ、最大の課題を解決する力を持ち、まだ発見されていない無限の可能性を提供するものを祝福しようとしています。まさに今、世界が注目しているのです。さあ、共に飛び込みましょう。
1.2. Gary ShapiroによるJensen Huang紹介
Consumer Technology Association(CTA)のCEOであり副会長のGary Shapiroは、世界で最も影響力のある企業の一つとなったNVIDIAの創設者兼CEOであるJensen Huangを紹介しました。NVIDIAは、CESで祝福される最先端のイノベーションを体現する企業であり、Jensen Huangはアイデア、技術、そして信念の力で産業界と社会を再形成する真のビジョナリーとして評価されています。
Shapiroは、「もし私がJensenが最後にCTAのイベントで話した内容をもう少し注意深く聞いていれば、既に引退していたかもしれない」と冗談を交えながら述べました。過去30年間にわたり、Jensenはヘルスケアから自動車、エンターテインメントまで、世界中のあらゆる産業で変革を推進する力としてNVIDIAを確立してきました。
今日、NVIDIAはAIとアクセラレーテッドコンピューティングの分野で革新的な進展を遂げ、その技術は世界中のほぼ全ての人々とビジネスに影響を与えています。NVIDIAのイノベーションにより、高度なチャットボット、ソフトウェア定義の車両向けロボット、巨大な仮想世界、高度に同期化された工場フロアなど、多岐にわたる技術革新が可能となっています。
Huangは、FortuneとThe Economistによって世界最高のCEOに選ばれ、Time誌の世界で最も影響力のある100人にも選出されています。しかし、私たち全員と同様に、彼の成功は最初から約束されていたわけではありません。JensenはDenny'sで皿洗いとバスボーイとして働き始めました。そこで学んだ勤勉さ、謙虚さ、もてなしの心の価値が、NVIDIAの初期の課題を乗り越える際の支えとなったと語っています。
このように、Jensenの軌跡は単なる技術革新の物語ではなく、人間的な価値観と技術的なビジョンが融合した成功事例として描かれています。
2. NVIDIAの歴史とAIの進化
2.1. 1993年からのNVIDIAの軌跡
Jensen Huang:私たちの旅は1993年に始まりました。NV1の開発から、私たちは通常のコンピュータではできないことを実現できるコンピュータを作りたいと考えていました。NV1は、PCでゲームコンソールを実現することを可能にしました。
私たちは当時、UDA(Unified Device Architecture)というプログラミングアーキテクチャを開発しました。面白いことに、名前からCの文字が抜けていましたが、それは後に追加されることになります。UDAの最初の開発者であり、UDA上で動作した最初のアプリケーションは、セガのバーチャルファイターでした。
この取り組みは、私たちの長年の夢であった「標準的なPCでゲームコンソールのような体験を実現する」というビジョンの第一歩となりました。これは単なるハードウェアの開発ではなく、コンピューティングの可能性を広げる挑戦でした。
このNV1という製品は、後のNVIDIAの方向性を決定づける重要な一歩となりました。私たちは常に、既存のコンピュータの限界を超えることを目指し、それは今日まで続くNVIDIAの根本的な企業理念となっています。
2.2. GPUとCUDAの開発
1999年に、私たちはプログラマブルGPUを発明し、これが現代のコンピュータグラフィックスを可能にする20年以上の驚異的な進歩の始まりとなりました。このプログラマブルGPUは、後にNVIDIAが開発する多くの革新的な技術の基盤となりました。
そして1999年から6年後の2005年、私たちはCUDAを発明しました。CUDAの開発目的は、GPUのプログラマビリティを豊富なアルゴリズムセットに対して説明できるようにすることでした。当初、CUDAは説明するのに苦労する技術でした。実際、その価値が広く理解されるまでには約6年かかりました。
セガのバーチャルファイターは、この進化を象徴する素晴らしい例です。Virtual Fighter 6は、これまでのどのバージョンとも異なり、完全に映画のような品質を実現しています。これは、プログラマブルGPUとCUDAの組み合わせがもたらした革新の具体的な成果です。
この技術の進化は、私たちのGPUがゲームだけでなく、より広範な計算処理に活用できることを示しました。特に2012年以降、AIの発展において重要な役割を果たすことになりました。このように、ゲーム用に開発された技術が、現代のAI革命の基盤となったのです。
2.3. AIの進化
2012年、Alex Krizhevsky、Ilya Sutskever、そしてGeoff HintonがCUDAを発見し、AlexNetの処理に活用しました。それ以降、AIは信じられないペースで進化を続けています。AIの進化は知覚AIから始まり、画像、言葉、音声を理解できるようになりました。その後、生成AIへと発展し、画像やテキスト、音声を生成できるようになりました。そして今、推論、計画、行動ができるエージェントAI、さらには物理AIへと進化しています。
特に2018年に起きた重要な出来事として、GoogleのTransformerがBERTとしてリリースされ、AIの世界は大きく変わりました。Transformerは人工知能の領域を完全に変えただけでなく、コンピューティング全体の様相を一変させました。私たちは、AIが単なる新しいアプリケーションやビジネスチャンスではないことを正しく認識しました。より重要なのは、Transformerによって可能になった機械学習が、コンピューティングの仕組みを根本的に変えるということでした。
今日、コンピューティングは全ての層で革新が起きています。CPUで実行される命令を手作業でコーディングし、人間が使用するソフトウェアツールを作成する従来の方法から、GPUで処理されるニューラルネットワークを作成・最適化する機械学習へと変化し、人工知能を生み出しています。技術スタックの各層が完全に変革されており、わずか12年でこの信じられない変化が起きたのです。
現在、私たちはあらゆる種類の情報を理解できるようになっています。テキスト、画像、音声といった一般的なものだけでなく、アミノ酸や物理学まで理解できます。さらに、それらを翻訳し、生成することも可能です。応用範囲は無限です。実際、今日見られるほとんどのAIアプリケーションは、「どのような種類の入力情報から学習したのか」「どのような種類の情報に翻訳したのか」「どのような種類の情報を生成しているのか」という3つの基本的な質問で理解することができます。
このように、AIはもはや単なるアプリケーションの一つではなく、コンピューティングの新しい基盤となっており、その可能性は私たちの想像をはるかに超えて広がっています。
3. RTX Blackwell GPU発表
3.1. RTX 50シリーズの仕様と性能
本日、私たちは次世代のRTX Blackwellファミリーを発表します。このGPUは文字通り驚異的な性能を誇ります。920億個のトランジスタを搭載し、AI演算性能は4ペタOPSを実現しています。これは前世代のAdaと比較して3倍以上の性能向上を達成しました。
レイトレーシング性能については380テラフロップスを実現しており、これにより計算が必要なピクセルに対して、可能な限り美しい画像を生成することができます。さらに、シェーダー演算性能は125テラフロップスを達成しています。
特筆すべきは、並行シェーダーが搭載されており、浮動小数点演算用と整数演算用の2つのデュアルシェーダーを実装していることです。また、Micron社のG7メモリを採用し、1.8テラバイト/秒という前世代の2倍のメモリ帯域幅を実現しています。
新世代のRTX Blackwellでは、AIワークロードとコンピュータグラフィックスワークロードを混在させる能力を備えています。この世代の革新的な特徴として、プログラマブルシェーダーがニューラルネットワークを処理できるようになりました。その結果、私たちはニューロテクスチャー圧縮とニューロマテリアルシェーディングを発明しました。これによりAIを使用してテクスチャーを学習し、圧縮アルゴリズムを学習することで、驚くべき結果を得ることができます。
これらの技術革新により、AIによるレンダリングと従来のグラフィックス処理を完璧に融合させ、かつてない品質と効率性を実現しています。
3.2. AIによる画像生成能力の実証
皆さんが先ほどご覧になったのは、リアルタイムのコンピュータグラフィックスです。コンピュータグラフィックス研究者や科学者の誰もが、このレベルでの全ピクセルのレイトレーシングは不可能だと言うでしょう。レイトレーシングは光のシミュレーションであり、皆さんが目にした幾何学的な要素の量は途方もないものでした。しかし、人工知能がなければこれは実現不可能だったでしょう。
私たちは2つの基本的な技術を採用しています。まず、プログラマブルシェーディングとレイトレース加速を使用して、信じられないほど美しいピクセルを生成します。そして、そのピクセルによって制御された人工知能が、他の大量のピクセルを生成するのです。
AIは空間的に他のピクセルを生成できるだけでなく、色がどうあるべきかを理解しています。これは、NVIDIAのスーパーコンピュータで事前に学習されており、GPU上で動作するニューラルネットワークが、私たちがレンダリングしなかったピクセルを推論し予測できるのです。
最新世代のDLSSは、空間的な生成に加えて、フレームを超えた生成も行います。私たちが計算する1フレームに対して、3つの追加フレームを予測生成することができます。つまり、フルHD 4Kで見た4フレームは、約3,300万ピクセルに相当します。そのうち、私たちが実際に計算したのはわずか200万ピクセルです。
これは絶対的な奇跡です。プログラマブルシェーダーとレイトレーシングエンジンを使用して200万ピクセルを計算し、AIが他の3,300万ピクセルすべてを予測するのです。その結果、AIは計算量が少なくて済むため、信じられないほどの高性能でレンダリングができます。もちろん、そのモデルを学習させるには膨大な量のトレーニングが必要ですが、一度学習すれば生成は非常に効率的です。
これが人工知能の驚異的な能力の一つであり、GeForceが人工知能を可能にし、今や人工知能がGeForceを革新している理由なのです。
3.3. 価格帯と製品ラインナップ
RTX 4090は$1,599の価格であり、これは最高の投資価値があります。$1,599を持ち帰って、皆さんの$10,000のPCエンターテインメントコマンドセンターに組み込むことができます。そうですよね?違いますか?恥ずかしがる必要はありません。液冷で、あちこちに派手なライトが付いていて、外出時には鍵をかけるようなセットアップです。これは現代のホームシアターなのです。そして今、$1,599で、その性能を大幅に向上させることができるのです。
新しいBlackwellファミリーでは、RTX 5070が提供する性能は、RTX 4090と同等です。これを$549という価格で実現できるのは、人工知能なしでは不可能でした。4ペタOPSのAIテンソルコア性能とG7メモリがあってこそ実現できたのです。5070で4090の性能を$549で提供できるというのは、まさに革新的です。
そして、製品ラインナップは5070から5090まで展開します。5090は4090の2倍の性能を実現しています。私たちは1月から大規模な生産を開始します。これらのGPUは、人工知能とコンピュータグラフィックスの融合により、前世代では不可能だった性能を実現しています。
特にRTX 570の性能対価格比は、私たちが誇るべき成果です。これまで最上位モデルでしか実現できなかった性能を、より多くのユーザーが手の届く価格帯で提供できるようになりました。これは、技術革新の民主化という私たちの使命の重要な一歩です。
3.4. ノートPC向けGPUの展開
私たちは、これらの巨大な性能を持つGPUをノートPCに搭載することに成功しました。5070ノートPC版は、$1,299からの価格で4090相当の性能を実現しています。このラップトップGPUは、デスクトップの4090の性能を持っているのです。
実際に、ここに実機を持ってきました。見てください。この14.9mmの薄型ノートPCに、私たちは5070を搭載することに成功しました。人工知能なしでは、このような実装は不可能でした。なぜなら、私たちはテンソルコアを使って必要な最小限のピクセルのみをレイトレーシングし、残りのピクセルは人工知能で生成しているからです。その結果、エネルギー効率は驚異的なレベルに達しています。
そして、ノートPC向けの製品ラインナップも充実させました。最上位の5090から5080、5070 TI、そして5070まで、幅広いラインナップを用意しています。特筆すべきは、5090を薄型ノートPCに搭載できるようになったことです。これは、コンピュータグラフィックスの未来がニューロレンダリング、つまり人工知能とコンピュータグラフィックスの融合にあることを示しています。
新世代のノートPCは、デスクトップと遜色ない性能を、モバイル環境で実現します。これは単なる技術的進歩ではなく、ユーザーがどこにいても最高のグラフィックス性能とAI処理能力を利用できるという新しい可能性を開くものです。
4. AIの拡張とスケーリング
4.1. AIスケーリング則の3段階
産業界は人工知能のスケーリングを追求し、競争を繰り広げています。スケーリング則は強力なモデルであり、研究者や産業界によって複数の世代にわたって観察され、実証されてきた経験則です。
このスケーリング則は、以下の相関関係を示しています:より多くの学習データを持ち、より大きなモデルを持ち、より多くの計算能力を適用すればするほど、モデルはより効果的に、より高い能力を発揮するようになります。このスケーリング則は現在も継続的に進化しています。
特に注目すべきは、インターネットが毎年、前年の約2倍のデータを生成している点です。私の予測では、今後2年間で人類は、人類の歴史上生成されたすべてのデータを上回るデータ量を生成することになるでしょう。さらに、このデータは動画や画像、音声などを含むマルチモーダルなものになってきています。
これらすべてのデータは、AIの基礎的な知識、つまり基盤的な知識を学習するために使用することができます。私たちは、このスケーリング則に基づいて、より大規模な計算能力を提供し、より多くのデータを処理し、より大きなモデルを構築することで、AIの能力を継続的に向上させていくことができます。これは単なる理論ではなく、実際の産業界での実績によって裏付けられています。
4.2. トレーニングスケーリング
第一のスケーリング則が事前学習によるスケーリングです。私たちは、インターネットが毎年前年の2倍のデータを生成しているという事実を目の当たりにしています。これは驚異的なペースであり、次の数年間で人類は、これまでの歴史で生成されたすべてのデータを上回る量のデータを生み出すことになるでしょう。
さらに重要なのは、このデータの性質が変化していることです。データはますますマルチモーダルになってきており、動画、画像、音声などが含まれています。これらすべてのデータは、AIの基礎的な知識、つまり基盤的な知識を学習するために使用することができます。
このような膨大なデータを活用した事前学習は、AIの基本的な知識と能力を形成する上で極めて重要です。これは、人間が学校で基礎教育を受けるのと同じように、AIにとっても基礎的な理解と能力を築く crucial な段階です。スケーリング則は、より多くのデータ、より大きなモデル、より多くの計算能力を投入することで、AIの性能が継続的に向上することを示しています。
マルチモーダルなデータの活用により、AIは単一の領域だけでなく、複数の領域にまたがる深い理解を得ることができます。これは、将来の AI システムがより豊かな文脈理解と、より自然な形での人間とのインタラクションを実現する上で重要な要素となります。
4.3. ポストトレーニングスケーリング
2つ目のスケーリング則は、ポストトレーニングスケーリング法則です。この技術は、強化学習とヒューマンフィードバックのような技術を活用します。基本的な仕組みとしては、AIが人間のクエリに基づいて回答を生成し、それに対して人間がフィードバックを提供します。
もちろん、実際はそれよりもはるかに複雑です。このシステムでは、高品質なプロンプトを適切な数だけ用意し、強化学習システムを通じてAIにスキルの洗練を促します。特定のドメインでの問題解決能力を向上させたり、数学的推論能力を高めたりすることができます。
これは、学校を卒業した後にメンターやコーチからフィードバックを受けて成長するのと似ています。AIは実際のテストを受け、フィードバックを得て、自己改善を図ります。また、AIフィードバックと合成データ生成といった技術も活用します。
これらの技術は、いわば自己練習のようなものです。AIは特定の問題に対する正解を知っており、それを得るまで試行を繰り返します。例えば、定理の証明や幾何学的な問題など、機能的に検証可能で答えが明確な複雑な問題に対して、AIは回答を生成し、強化学習を通じて自己改善を行います。
ポストトレーニングには膨大な計算量が必要ですが、その結果として非常に優れたモデルを生成することができます。実際、ChatGPT、GPT-4、Gemini Proなどの進化は、このポストトレーニングスケーリングの重要性を実証しています。
4.4. テストタイムスケーリング
私たちは現在、3つ目のスケーリング則を活用しています。このテストタイムスケーリングは、AIが使用される時、つまり推論時のリソース配分に関係しています。AIは、パラメータを改善する代わりに、回答を生成するためにどれだけの計算を使用するかを決定することに焦点を当てます。
推論とは、このプロセスを考える一つの方法です。長時間の思考も同様です。直接的な推論や単一の回答を出す代わりに、AIは問題について推論し、複数のステップで考えることができます。複数のアイディアを生成し、AIシステムがそれらのアイディアの中からどれが最適かを評価することもできます。また、問題をステップバイステップで解決することもできます。
テストタイムスケーリングは非常に効果的であることが証明されています。ChatGPTからGPT-4、そしてGemini Proに至るまで、私たちはこれらのスケーリング法則が段階的に進化していく様子を目の当たりにしています。将来、AIが回答を生成する際、AIは自分自身と対話し、内部で反省し、処理を行うようになるでしょう。
現在のトークン生成が人間の読書速度に合わせて1秒あたり20〜30トークン程度であるのに対し、将来のAIは内部での思考により、はるかに高速なトークン処理が必要となります。そのため、トークンの生成速度を大幅に向上させ、同時にコストを大幅に削減する必要があります。これにより、サービス品質を極めて高く保ちながら、顧客へのコストを低く抑えることができ、AIは継続的にスケーリングしていくことができるのです。
5. Blackwellシステムの詳細
5.1. GB200 MVLink 72の仕様
Blackwellは本格的な生産に入っています。すべてのクラウドサービスプロバイダーが現在システムを稼働させており、約15のコンピュータメーカーからシステムが提供されています。約200の異なるSKU、200の異なる構成が用意されており、液冷式と空冷式、x86とNVIDIA Grace CPU版、MVリンク36×2やMVリンク72×1など、世界中のあらゆるデータセンターに対応できるよう様々な構成を用意しています。
このMVリンクシステム、GB200 MVLink 72は、実に驚異的な仕様を持っています。その性能は1.4エクサフロップスのAI浮動小数点演算性能を実現しています。興味深いことに、世界最速のスーパーコンピュータがエクサフロップス以上の性能を達成したのはつい最近のことですが、このシステム1台で1.4エクサフロップスを実現しています。
メモリ容量は14テラバイトを搭載していますが、さらに注目すべきは、そのメモリ帯域幅です。1.2ペタバイト/秒というメモリ帯域幅は、現在世界中で行われているインターネットトラフィック全体に匹敵する規模です。
このシステムには合計で1,030億個のトランジスタが搭載されており、2,592のCPUコアと大量のネットワーキング機能を備えています。これらのBlackwellダイと、コネクトXネットワーキングチップ、そしてMVリンクスパインを組み合わせることで、この驚異的なシステムが実現しています。12テラバイト、いや14テラバイトのHBMメモリを搭載し、これこそが私たちが目指していたBlackwellシステムの奇跡なのです。
5.2. 製造と展開の課題
このMVリンクシステムは、製造と展開に関して前例のない課題を突きつけています。現在、このシステムは世界中の45の工場で製造されています。この規模の製造展開は、人工知能がいかに広く普及し、産業界がいかに大きくAIにコミットしているかを示しています。
このシステムは、1.2トンという重量を持ち、約60万個のパーツで構成されています。この規模は約20台の自動車に相当します。消費電力は120キロワットに達し、背面には全てのGPUを接続するスパインが搭載され、約3.2キロメートル(2マイル)の銅ケーブルと5,000本のケーブルが使用されています。
製造プロセスは極めて複雑です。私たちはシステムを製造し、液冷テストを行い、その後完全なテストを実施します。しかし、1.2トンという重量のため、システムを分解して部品単位でデータセンターに出荷し、データセンターの外で再度組み立てを行ってから設置するという手順を取る必要があります。
この複雑な製造と展開プロセスは途方もないものですが、これらのシステムはAIトークンを生成する工場となり、私たちが使用するChatGPTやGemini、そして将来的には私たちの携帯電話でのAIアプリケーションなど、あらゆるアプリケーションがこれらのAIトークンを消費することになるのです。
5.3. パフォーマンスの向上
私たちがこれほど大規模な製造に取り組んでいる理由は、スケーリング則が計算能力の大幅な増強を必要としているからです。Blackwellは、前世代と比較してワット当たりの性能を4倍に向上させました。これは、基本的に1世代で、モデルのトレーニングコストを3分の1に削減できることを意味します。あるいは、同じコストで3倍の規模のモデルを構築できるということです。
しかし、より重要なのは、これらのシステムがAIトークンを生成する工場となるということです。私たちがChatGPTやGeminiを使用する際、そして将来的には私たちの携帯電話でAIアプリケーションを使用する際、これらのアプリケーションはすべてこのAIトークンを消費することになります。
すべてのデータセンターは電力によって制限されています。したがって、Blackwellのワット当たりの性能が前世代の4倍であるということは、データセンターで生成できるビジネス量、生成できる収益が4倍になることを意味します。このように、これらのAIファクトリーシステムは、文字通り今日の工場となっているのです。
このパフォーマンス向上により、より大規模なモデルの学習が可能になり、より高品質なサービスを低コストで提供することができます。これは、AIサービスの民主化と、より広範な展開を可能にする重要な進歩です。
6. エンタープライズAIの展開
6.1. Nvidia Nims
エンタープライズでのAI活用を支援するため、私たちはNvidia Nimsを開発しました。これは本質的にAIマイクロサービスであり、複雑なCUDAソフトウェア、CuDNN、cuTLASS、TensorRT LLM、Tritonなど、様々な技術コンポーネントとモデル自体をパッケージ化し、最適化してコンテナに収めたものです。
このパッケージ化されたサービスは、どこにでも持ち運ぶことができます。私たちはビジョン、言語理解、音声、アニメーション、デジタルバイオロジーなど、さまざまな分野のモデルを提供しており、さらに物理AIのための新しい興味深いモデルも追加予定です。
Nimsの特筆すべき点は、NVIDIAのGPUが現在すべてのクラウドで利用可能になっているため、これらのモデルもあらゆるクラウドで実行できることです。また、すべてのOEMでも利用可能です。つまり、これらのモデルを自社のソフトウェアパッケージに統合し、AIエージェントを作成することができます。それがCadenceのエージェントかもしれませんし、ServiceNowのエージェント、あるいはSAPのエージェントかもしれません。そして、顧客が望む場所でそれらを展開することができるのです。
これにより、エンタープライズのお客様は、自社のニーズに合わせてAIを柔軟に導入し、既存のシステムと統合することが可能になります。
6.2. Nemo
Nemoは、本質的にデジタル従業員のオンボーディングとトレーニング評価システムです。将来、これらのAIエージェントは実質的にデジタルワークフォースとなり、従業員と並んで働くことになります。専門化されたエージェントを企業に導入する方法は、まさに新しい従業員をオンボーディングするのと同じような方法で行われるべきです。
私たちは、これらのAIエージェントが企業固有の言語や語彙を学び、ビジネスプロセスを理解し、企業独自の働き方を習得できるようにする様々なライブラリを用意しています。企業は成果物がどのようなものであるべきかの例を示し、AIがそれを生成しようとし、フィードバックを受け、評価を受けるというプロセスを経ます。
さらに重要なのは、ガードレールの設定です。これはAIエージェントに対して、してはいけないこと、言ってはいけないことを明確に示し、アクセスを許可する情報を制限することができます。
言い換えれば、今後、すべての企業のIT部門は、AIエージェントのHR部門のような役割を果たすことになるでしょう。今日のIT部門がIT業界からのソフトウェアを管理・維持しているように、将来的にはデジタルエージェントのオンボーディング、育成、改善を行い、企業での活用を推進することになります。つまり、IT部門は一種のAIエージェントHRのような存在になっていくのです。
6.3. Llamaニューロンモデル
本日、私たちはLlamaをベースにした一連のモデル群、Nvidia Llamaニューロン言語基盤モデルを発表します。Meta社のLlama 3.1は完全な現象となっており、35万回から65万回ものダウンロードを記録し、約6万もの異なるモデルに派生されています。これは、ほぼすべての企業と産業界がAIの取り組みを開始する大きなきっかけとなった単一の要因と言えます。
私たちは、Llamaモデルがエンタープライズ用途にさらに最適化できることに気づきました。そこで、私たちの専門知識と能力を活用して微調整を行い、Llamaニューロンスイートのオープンモデル群を開発しました。
このスイートには、非常に高速なレスポンスタイムを実現する小規模なモデルから、メインストリーム向けのスーパーモデル、そしてウルトラモデルまで、様々なサイズのモデルが用意されています。特にウルトラモデルは、他のモデルの教師モデルとして使用できます。また、報酬モデル評価者として、他のモデルが生成した回答の良し悪しを判断し、フィードバックを提供することもできます。基本的に教師モデルとして、知識の蒸留モデルとして、非常に大規模で高性能なモデルとして機能します。
これらのモデルは、チャット、指示、検索など、異なる種類の機能に対するリーダーボードで第1位を獲得しています。世界中のAIエージェントで使用される様々な機能に対して、これらは素晴らしいモデルとなるでしょう。
6.4. エンタープライズパートナーシップ
私たちのNVIDIA AIテクノロジーは、IT業界全体に統合されています。素晴らしいパートナーたちと共に、驚くべき成果を上げています。ServiceNowやSAP、そしてシーメンスと産業用AIで素晴らしい成果を上げています。Cadenceは素晴らしい仕事をし、Synopsisも同様です。
特に、私はPerplexityとの仕事を誇りに思っています。彼らは検索を革新しました。また、Codiumも注目に値します。世界中の3,000万人のソフトウェアエンジニアにとって、これは次の巨大なAIアプリケーション、次の巨大なAIサービスとなるでしょう。すべてのソフトウェアエンジニアがソフトウェアアシスタントを持つことになります。もし持たないのであれば、明らかに生産性が低く、より質の低いコードしか生成できないことになるでしょう。
これは3,000万人のソフトウェアエンジニアに影響を与えます。世界には10億人の知識労働者がいます。AIエージェントは、間違いなく次のロボティクス産業となり、マルチトリリオンドルの機会となるでしょう。このエコシステムを通じて、私たちはAIの可能性を企業全体に広げ、新しい価値を創造し続けています。
7. 物理AIとCosmos
7.1. 基盤モデル
もし大規模言語モデルが、左側のコンテキストとプロンプトを受け取り、一度に一つずつトークンを生成して出力を生成するとすれば、物理AIは全く異なる仕組みを必要とします。私たちが求めているのは、物理的な世界を理解する能力を持つ基盤モデルなのです。
たとえば、あなたがPDFをロードする代わりに、周囲の環境がコンテキストとなり、質問の代わりに「あそこに行ってその箱を持って来て」といった要求があり、テキストのトークンの代わりにアクションのトークンを生成するようなものです。これは、将来のロボティクスにとって非常に理にかなったアプローチであり、その技術は目前に迫っています。
しかし、そのためには私たちはGPTのような言語モデルではなく、世界モデルを作る必要があります。このモデルは物理的な世界の言語を理解しなければなりません。重力、摩擦、慣性といった物理的な動力学を理解する必要があります。また、幾何学的・空間的な関係も理解しなければなりません。
さらに、因果関係も理解する必要があります。何かを落とせば地面に落ちる、何かを突けば倒れる、といったことです。そして物体の永続性も理解しなければなりません。たとえば、ボールがキッチンカウンターを転がって反対側に行ったとき、ボールは別の量子宇宙に消えてしまったわけではなく、まだそこにあるということを理解する必要があります。
これらの直感的な理解は、今日のほとんどのモデルが苦手とするものです。そこで私たちは、世界基盤モデルを作る必要があったのです。
7.2. 動画トレーニング
本日、私たちは世界初の世界基盤モデルとなるNVIDIA Cosmosを発表します。このモデルは2000万時間の動画でトレーニングされています。これらの2000万時間の動画は、物理的なダイナミクスに焦点を当てています。
トレーニングデータには、自然のダイナミクスな動き、人間の歩行、手の動き、物体の操作など、様々な要素が含まれています。また、高速なカメラの動きなども含まれています。重要なのは、このトレーニングが創造的なコンテンツの生成を目的としているのではなく、AIに物理的な世界を理解させることを目的としているということです。
これらの動画から、私たちのAIは物理法則、物体の相互作用、人間の動作パターンを学習します。自然現象のダイナミクスを理解し、それらがどのように変化し、相互に影響し合うかを学びます。特に人間の動作理解は、将来のロボティクスやヒューマンインタラクションにとって重要な要素となります。
このような大規模な動画データセットでのトレーニングにより、私たちは物理的世界のより深い理解を持つAIを作り出すことができます。この理解は、後のロボットモデルに活かされ、物理的な世界での実際の動作に変換されることになります。
7.3. Omniverse統合
Cosmosの魔法は、Omniverseと接続したときに起こります。その理由は基本的にこうです。Omniverseは物理的に完全に正確ではありませんが、物理原理に基づいたシミュレーションシステムです。これは、アルゴリズム的な物理、原理に基づいた物理シミュレーションが可能なシステムなのです。
このシステムをCosmosに接続することで、生成の基準となるグラウンドトゥルースを提供することができます。これは、大規模言語モデルをRAG(検索拡張生成)システムに接続するのと同じ考え方です。AIの生成を真実に基づいて制御したいのです。
その結果、物理的にシミュレートされた、物理的に基礎付けられたマルチバース生成器が実現します。このシステムの応用例は本当に素晴らしく、特にロボティクスや産業用途において、非常に興味深いものとなっています。
Cosmosを使用することで、AIは物理的な世界の原理に基づいて生成を行うことができ、その生成結果は現実世界の物理法則に従ったものとなります。これは、将来のロボティクスシステムやシミュレーションにとって極めて重要な進歩です。Omniverseとの統合により、私たちは物理的に正確で、かつ創造的な可能性を持つAIシステムを実現することができるのです。
7.4. オープンライセンス
本日、私たちはCosmosプラットフォームをオープンライセンスで提供することを発表します。このプラットフォームには、リアルタイムアプリケーション用の自己回帰モデル、高品質な画像生成用の拡散モデル、実世界の語彙を学習するための高度なトークナイザー、そしてCUDAとAIで加速された完全なデータパイプラインが含まれています。
Cosmosは、GitHub上で公開され、誰でもアクセス可能になります。私たちは、極めて高速なモデルから主流向けのモデル、そして知識移転モデル(教師モデル)まで、さまざまなサイズのモデルを用意しています。
私たちは、このCosmos世界基盤モデルが、ロボティクスと産業用AIの世界において、Llama 3がエンタープライズAIにもたらしたような革新をもたらすことを期待しています。オープンライセンスでの提供により、開発者コミュニティがこれらのモデルを活用し、改良し、新しい応用を見出すことができます。
このように、物理的世界を理解するAIの基盤を広くコミュニティと共有することで、ロボティクスと産業用AIの発展を加速させることができると考えています。これは単なる技術の共有ではなく、物理的世界を理解するAIの新しい時代の幕開けとなるでしょう。
8. 産業応用事例
8.1. 倉庫自動化
私たちは、サプライチェーンソリューション企業のKeonと、プロフェッショナルサービスのグローバルリーダーであるAccenture、そしてNVIDIAの3社で、1兆ドル規模の倉庫・流通センター市場に物理AIをもたらすパートナーシップを結びました。
高性能な倉庫物流の管理には、常に変動する複雑な要因のネットワークをナビゲートする必要があります。これには、日々の需要変動や季節的な需要の変化、空間的な制約、労働力の可用性、そして多様なロボットや自動化システムの統合などが含まれます。現在の物理的な倉庫の運用KPIを予測することは、ほぼ不可能な状況でした。
これらの課題に対処するため、Keonは産業用デジタルツインを構築するためのNVIDIA OmniverseのブループリントであるMEGAを採用しています。まず、Keonの倉庫管理ソリューションが、デジタルツイン内の産業用AIブレインにタスクを割り当てます。例えば、バッファーロケーションからシャトルストレージソリューションへの荷物の移動などです。
ロボットのブレインは、Omniverseにデジタル化された物理的倉庫のシミュレーション内に配置されています。このデジタル化には、CAD、ビデオ、画像から3D、点群データ、AI生成データまで、様々なデータをオープンUSDコネクタを使用して集約しています。ロボットの群れは、Omniverseデジタルツイン環境を知覚し、推論し、次の動きを計画し、行動することでタスクを実行します。
これにより、Keonは物理的な倉庫に変更を加える前に、処理能力、効率性、稼働率などの運用KPIを測定しながら、無限のシナリオを大規模にシミュレーションできるようになりました。このように、NVIDIAとKeon、Accentureは、産業用自律システムを再発明しているのです。
8.2. 自動運転車開発
自動運転車革命が、ついに到来しました。多くの年月を経て、WaymoやTeslaの成功により、自動運転車がついに実現したことは明らかです。私たちはこの産業に対して、3つのコンピュータを提供しています。AIをトレーニングするためのトレーニングシステム、シミュレーションシステム、合成データ生成システムとしてのOmniverse、そして今やCosmos、さらに車載コンピュータです。
各自動車メーカーは、これらのコンピュータを1つ、2つ、あるいは3つ全て使用して私たちと協力しています。データセンターではWaymo、Xpeng、Tesla、そして世界最大のEVメーカーであるBYDと協力しています。JLRは素晴らしい車を開発中で、Mercedesは今年からNVIDIA搭載車の生産を開始します。
本日、私たちはToyotaとNVIDIAが次世代AVの開発でパートナーシップを結ぶことを発表できることを非常に嬉しく思います。さらに、Lucid、Rivian、Xiaomi、そしてVolvoなど、多くの素晴らしい企業とも協力しています。Wabiは自動運転トラックを開発中で、Auroraも今週、NVIDIAを使用して自動運転トラックを開発することを発表しました。
毎年1億台の車が製造され、世界中に10億台の車両があり、毎年1兆マイルが走行されています。これらすべてが、高度に自律的あるいは完全に自律的になろうとしています。私は、これが最初のマルチトリリオンドルのロボティクス産業になると予測しています。
この事業は私たちにとって既に重要な規模に達しています。これらの車の一部が世界中で量産を開始しており、私たちのビジネスは既に40億ドルの規模で、今年は50億ドルの売上規模に達する見込みです。
8.3. Thorプロセッサ
これがThorです(プロセッサを手に持って)。これはロボティクスコンピュータです。大量のセンサー情報を取り込み、処理する必要があります。19台のカメラ、高解像度レーダー、ライダーなど、すべてのセンサー情報がこのチップに入力され、このチップがそれらのセンサー情報を処理し、トークンに変換し、Transformerに入力して、次のパスを予測します。
このAV(自動運転車)コンピュータは、現在フル生産に入っています。Thorは、現行世代のOrin(前世代プロセッサ)と比較して20倍の処理能力を実現しました。Orinは現在、自律走行車の実質的な標準となっています。
このロボティクスプロセッサは、実は完全なロボットにも搭載可能です。AMR(自律移動ロボット)や人型ロボットにも使用でき、頭脳部分や操作部分として機能させることができます。このプロセッサは、基本的にユニバーサルなロボティクスコンピュータとなっています。
8.4. DriveOS安全認証
私たちのドライブシステムのもう一つの重要な部分で、私が非常に誇りに思っているのが安全性への取り組みです。DriveOSは、自動車業界において最高レベルの機能安全規格であるASIL-Dまで認証された、初のソフトウェア定義のプログラム可能なAIコンピュータとなりました。
この認証の達成は、約15,000エンジニア年に相当する開発努力の結果です。これは本当に驚異的な仕事でした。その結果、CUDAは現在、機能安全が確保されたコンピュータとなっています。
これは、ロボットを開発している皆さんにとって非常に重要な意味を持ちます。NVIDIAのCUDAを使用することで、業界最高レベルの安全性基準を満たしたシステムを構築することができます。ISO 26262の認証を取得したことで、自動運転車やロボティクスの開発において、安全性と革新性の両立が可能になりました。
このDriveOSの安全認証は、単なる技術的な達成以上の意味を持っています。これは、AIと自動運転技術が実用段階に入り、実際の道路で人々の生命を預かるレベルに達したことを示す重要なマイルストーンなのです。
9. ロボティクス展開
9.1. Isaac Grootプラットフォーム
世界中の開発者たちが次世代の物理AIを搭載したロボットを開発しています。人型ロボットの開発には、大量の実世界のデータが必要ですが、それらを収集し、キュレートするのはコストがかかります。NVIDIA Isaac Grootは、これらの課題に対処するために4つの重要な要素を提供します。
まず、ロボット基盤モデルを提供します。これは、ロボットの基本的な動作や理解のための基礎となるモデルです。次に、データパイプラインを用意しています。これにより、効率的にデータを収集し、処理することができます。
さらに、シミュレーションフレームワークを提供し、Thorロボティクスコンピュータを搭載しています。これらの要素を組み合わせることで、開発者は効率的にロボットシステムを開発することができます。
特に、Isaac Grootのブループリントは、模倣学習のためのシミュレーションワークフローを提供し、開発者が少数の人間によるデモンストレーションから指数関数的に大きなデータセットを生成することを可能にします。これは、私たちが目指している一般的なロボティクスの実現に向けた重要なステップとなります。
9.2. 人型ロボット開発支援
一般的なロボット向けのChatGPTの瞬間が目前に迫っています。実際、私たちがお話してきたすべての実現技術が、次の数年間で非常に急速な、そして驚くべきブレークスルーを可能にするでしょう。
一般的なロボティクスが非常に重要な理由は、トラックや車輪を持つロボットが特別な環境を必要とするのに対し、私たちが作ることができる3つのロボットは、グリーンフィールドやブラウンフィールドの適応を必要としないという点です。もし私たちがこれらの素晴らしいロボットを構築できれば、私たちが自分たちのために作ってきたまさにこの世界にそれらを展開することができます。
この3つのロボットとは、まずエージェントAI(情報労働者であるため、オフィスのコンピュータに対応できれば十分です)、次に自動運転車(私たちは100年以上かけて道路と都市を作ってきました)、そして人型ロボットです。
私たちがこの3つの技術を解決できれば、これは世界が今まで見た中で最大の技術産業になるでしょう。そのため、ロボティクスの時代はすぐそこまで来ています。重要な能力は、これらのロボットをトレーニングする方法です。
人型ロボットの場合、模倣情報の収集は非常に難しい作業です。車の場合は単に運転すればよく、私たちは常に運転しているわけですが、人型ロボットの場合、人間のデモンストレーションは非常に労力のかかる作業です。そのため、数百のデモンストレーション、数千の人間のデモンストレーションを何らかの方法で取り入れ、人工知能とOmniverseを使用して何百万もの合成的に生成された動きを生成する賢明な方法を見つける必要があります。そしてそれらの動きから、AIがタスクの実行方法を学習できるようにする必要があります。
9.3. シミュレーションワークフロー
まず、Groot Teleopを使用することで、熟練作業者がApple Vision Proを使用してロボットのデジタルツインにポータル接続することができます。これは、物理的なロボットがなくてもデータを収集できることを意味します。また、オペレーターはリスクのない環境でロボットを操作でき、物理的な損傷や摩耗の可能性を排除することができます。
単一のタスクをロボットに教えるために、オペレーターは少数のテレオペレーション・デモンストレーションを通じてモーションの軌跡を記録します。その後、Groot Mimicを使用してこれらの軌跡を、はるかに大規模なデータセットに増幅させることができます。
次に、OmniverseとCosmosを基盤とするGroot Genを使用して、ドメインのランダム化と3Dへの拡大を行い、指数関数的に大きなデータセットを生成します。OmniverseとCosmosのマルチバース・シミュレーション・エンジンは、ロボットのポリシーをトレーニングするための大規模なデータセットを提供します。
ポリシーのトレーニングが完了すると、開発者は実際のロボットに展開する前に、Isaac Simでソフトウェア・イン・ザ・ループのテストとバリデーションを実行することができます。このように、シミュレーション環境を活用することで、安全かつ効率的にロボットの開発とテストを進めることができます。
9.4. モーション生成技術
私たちのNVIDIA Isaac Grootは、模倣学習のための革新的なモーション生成技術を実現しています。一般的なロボットモデルを開発するには、膨大な量の実世界のデータが必要ですが、これらの収集とキュレーションにはコストがかかります。
私たちのアプローチでは、まず熟練作業者からの少数のデモンストレーションを収集します。これらのデモンストレーションは、実際のロボットがなくても、デジタルツイン環境で収集することができます。単一のタスクに対して、テレオペレーションによるデモンストレーションを通じて動作の軌跡を記録します。
次に、Groot Mimicを使用してこれらの軌跡を大規模なデータセットに拡張します。さらに、OmniverseとCosmosを基盤とするGroot Genを使用して、ドメインのランダム化と3次元への拡張を行い、指数関数的に大きなデータセットを生成します。
このデータセットを使用して、ロボットの政策(ポリシー)をトレーニングします。OmniverseとCosmosのマルチバース・シミュレーション・エンジンによって提供される大規模なデータセットは、ロボットが効果的に学習するための基盤となります。実機への展開前に、Isaac Simでソフトウェア・イン・ザ・ループのテストとバリデーションを実施することで、安全かつ効率的な開発が可能となります。
このように、人間のデモンストレーションから始まり、データ拡張を経て、実践的なロボット制御政策の学習まで、一貫したワークフローを提供しています。
10. Project Digits
10.1. 新型AIスーパーコンピュータ
約10年前、私たちはプロジェクト・デジット(Deep Learning GPU Intelligence Training System)という素晴らしいプロジェクトを社内で開始しました。発表前に、私たちはこれをDGXと略称化し、RTX、AGX、OVXなど、当社の他の製品名との調和を図りました。
DGX1は人工知能を革新しました。私たちがこれを開発した理由は、研究者やスタートアップが、すぐに使えるAIスーパーコンピュータを手に入れられるようにするためでした。従来のスーパーコンピュータの構築方法では、自前の施設を建設し、インフラを整備し、文字通り一から作り上げる必要がありました。
2016年、私は最初のDGX1をスタートアップ企業のOpenAIに届けました。イーロン・マスクやイリヤ・サツキヴァーも立ち会い, 多くのNVIDIAのエンジニアも参加して、私たちはDGX1の到着を祝いました。これが明らかに人工知能を革新したわけですが、今や人工知能は至る所にあります。研究者やスタートアップのラボだけでなく、AIは新しいコンピューティングの方法となっています。
今、私は夢を見ています。DGX1がもっと小さくなればいいのにと。そして、私たちの最新のAIスーパーコンピュータがここにあります。現在はProject Digitsと呼んでいますが、もし良い名前があれば、ぜひ教えてください。これはAIスーパーコンピュータで、NVIDIAのAIスタック全体を実行します。DGXクラウドもこの上で動作し、どこかに置いて、ワイヤレスまたはコンピュータに接続して、クラウドスーパーコンピュータのように使用することができます。必要であればワークステーションとしても使えます。
10.2. GB110チップ
これが内部のチップです。GB110と呼ばれる極秘チップで、現在本格的な生産に入っています。このチップは、私たちが製造する最小サイズのGrace Blackwellです。CPUはGrace CPUで、世界をリードするSoCカンパニーであるMediaTekとの協力のもと、NVIDIA向けに製造されています。
このCPU SoCは、チップ間MVリンクを通じてBlackwell GPUと接続されています。このように、この小さなデバイスは完全な生産体制に入っており、私たちのスーパーコンピューティングの技術を、デスクトップサイズにまで凝縮することに成功しました。
これは単なるサイズの縮小ではなく、本格的なAIスーパーコンピュータとしての性能を維持しながら、アクセシビリティを大幅に向上させた製品です。GB110は、エンジニアリングチームの驚異的な成果を示す象徴的な製品となっています。小型化と高性能を両立させ、NVIDIAの技術をより身近なものにすることを実現しました。
10.3. MediaTekとの協業
私たちは、世界をリードするSoCカンパニーであるMediaTekと協力して、このCPU SoCを開発しました。彼らはNVIDIA向けにこのCPUを製造し、さらにチップ間MVリンクを介してBlackwell GPUと接続する統合アーキテクチャを実現しています。
このコラボレーションは、単なる製造パートナーシップを超えています。MediaTekの持つSoC開発の専門知識と、私たちのGPUおよびAI技術を組み合わせることで、小型でありながら強力なコンピューティング能力を持つシステムを作り出すことができました。特に、チップ間MVリンクの実装は、CPUとGPU間の高速なデータ転送を可能にし、統合システムとしての性能を最大限に引き出すことを可能にしています。
この協業の成果は、デスクトップサイズのAIスーパーコンピュータという形で結実しました。MediaTekとの緊密な連携により、私たちは高性能コンピューティングの新しい形を提供することができるようになったのです。
10.4. デスクトップ展開
このAIスーパーコンピュータは5月頃の提供開始を予定しています。私たちは非常に広範な可能性を考えています。PCやMac、あらゆるデバイスで利用可能です。なぜなら、これはクラウドプラットフォームとして機能し、デスク上に置かれるクラウドコンピューティングプラットフォームだからです。
また、必要に応じてLinuxワークステーションとしても利用できます。もし二台のDigitsを持ちたい場合は、Connect Capを使って接続することで、GPUダイレクトを含むすべての機能を持つスーパーコンピュータのように使用することができます。私たちの完全なスーパーコンピューティングスタックがすぐに利用可能になります。
このように、デスクトップサイズでありながらスーパーコンピュータ級の性能を提供し、既存のコンピューティング環境に柔軟に統合できる設計となっています。スケーラビリティと接続性を重視することで、ユーザーは必要に応じて計算能力を拡張することができ、これまでにない形でAIコンピューティングを身近なものにすることができます。