※本レポートは、2024年に開催されたNVIDIA AI Summit Japanにおける、NVIDIA創業者兼CEO Jensen Huang氏の基調講演および、ソフトバンクグループ株式会社 代表取締役会長兼社長執行役員 孫正義氏との対談内容を基に作成されています。 NVIDIA(NASDAQ: NVDA)は1993年の創業以来、アクセラレーテッドコンピューティングのパイオニアとして、1999年のGPUの発明を通じてPCゲーム市場の成長を牽引し、コンピュータグラフィックスを再定義し、現代のAI時代の幕開けに貢献してきました。現在は、産業のデジタル化を推進する、データセンタースケールのソリューションを提供する総合的なコンピューティングインフラ企業として事業を展開しています。 本レポートでは、講演および対談の内容を要約しております。なお、本レポートの内容は登壇者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講演映像をご覧いただくことをお勧めいたします。また、本レポートで言及されている将来の見通しに関する記述は、現時点での予測に基づくものであり、実際の結果はさまざまな要因により大きく異なる可能性があることをご了承ください。
1. イントロダクション
1.1 NVIDIAと日本の歴史的関係
日本はNVIDIAの創業初期から非常に重要な市場であり、多くの「初めて」を実現してきた場所です。現在、日本には350のスタートアップ、25万人の開発者、そして数百の企業からなる大きなエコシステムが構築されています。
最も重要な「初めて」の一つは、SEGAとの協業でした。有名な3Dゲーム開発者の鈴木裕氏が、SEGAの素晴らしい3DゲームをNVIDIAのGPUに移植する最初のゲーム開発者となりました。この協業は、NVIDIAのゲーム分野における重要な第一歩となりました。
また、NVIDIAのCUDAを使用して最初のスーパーコンピュータを構築したのも日本でした。東京工業大学のTsubame 1.2は、NVIDIAのGPUを科学計算の進歩に活用する道を開きました。これは、GPUの用途を大きく広げる画期的な出来事でした。
さらに、モバイルプロセッサの分野でも日本との重要な協業がありました。これは、現在でも私たちにとって非常に大切なプロジェクトの一つである任天堂Switchへとつながっています。
日本市場は、NVIDIAにとって単なるビジネス上のパートナー以上の存在です。実際、日本がなければ今日のNVIDIAは存在していなかったと言っても過言ではありません。これは非常に深い意味を持っています。なぜなら、日本は最初のAIスーパーコンピュータ、CUDAスーパーコンピュータを構築した場所だからです。
現在、私たちは新しい時代、AI革命の始まりを迎えています。これは新しい産業であり、非常に重要な技術の変革期です。そしてこの時期に、素晴らしい日本企業とパートナーシップを組み、日本にAIをもたらすことができることを大変嬉しく思います。このパートナーシップを通じて、私たちは共にこの素晴らしい機会を活用していきたいと考えています。
なお、このAIサミットには、GMOインターネットグループ、ヒューレット・パッカード・エンタープライズ、Microsoft Azure、三井物産がプラチナスポンサーとして、さらに56の企業がスポンサーとして参加していただいています。このような幅広い支援は、日本におけるNVIDIAのエコシステムの強さを示しています。
1.2 NVIDIAのコア技術としてのシミュレーション
NVIDIAの本質は、シミュレーション技術企業です。私たちは、主に3つの重要な領域でシミュレーション技術を展開しています。
第一に、物理シミュレーションです。これは私たちの基盤となる技術であり、現実世界の物理法則を正確にモデル化し、コンピュータ上で再現する能力を持っています。このシミュレーション能力は、科学的な研究から工学的な応用まで、幅広い分野で活用されています。
第二に、仮想世界のシミュレーションです。私たちは、完全なデジタル環境を構築し、その中で様々な事象をシミュレートする技術を持っています。冒頭でご覧いただいたデモンストレーションは全てシミュレーションによるものでした。これは単なるアニメーションではなく、リアルタイムで動作する高度なシミュレーション技術の結果です。
第三に、インテリジェンスのシミュレーションです。この技術により、人工知能システムの動作をシミュレートし、その振る舞いを予測することが可能になります。これは、AI開発における重要な要素となっています。
これらのシミュレーション技術を通じて、私たちは未来を予測する手助けをしています。その意味で、NVIDIAはタイムマシンを作っているとも言えます。シミュレーション技術は、単なる技術的な機能を超えて、未来の可能性を探索し、より良い決定を下すための重要なツールとなっています。
これらのコア技術は、私たちの最新のブレークスルーの基盤となっており、特に日本のエコシステムにおいて、パートナー企業とともに、これらの技術を活用した革新的なソリューションを生み出しています。
1.3 日本市場での重要なマイルストーン
日本市場は、NVIDIAの歴史において数々の重要なマイルストーンを生み出してきました。これらの成果は、単なるビジネス上の成功を超えて、NVIDIAの技術革新の方向性を決定づける重要な転換点となりました。
最初の重要なマイルストーンは、SEGAとの3Dゲーム開発協力です。有名な3Dゲーム開発者である鈴木裕氏が、SEGAの革新的な3DゲームをNVIDIAのGPUに移植する最初の開発者となりました。この協力は、NVIDIAのゲーム分野における基盤を確立し、後のゲーミングGPUの発展に大きな影響を与えました。
次に画期的だったのは、東京工業大学によるTsubame 1.2スーパーコンピュータの開発です。これは、NVIDIAのCUDAを使用して構築された最初のスーパーコンピュータでした。このプロジェクトにより、NVIDIAのGPUを科学計算の分野で活用する道が開かれ、GPUコンピューティングの可能性が大きく広がりました。
さらに、モバイルプロセッサ分野での重要なマイルストーンとして、Nintendo Switchの開発が挙げられます。このプロジェクトは、現在でも私たちにとって非常に重要な取り組みの一つです。NVIDIAのモバイルプロセッサ技術が、革新的なゲーム機プラットフォームの中核として採用されたことは、私たちの技術の汎用性と信頼性を示す重要な実績となりました。
これらのマイルストーンは、それぞれが独立した成果というだけでなく、NVIDIAの技術進化の重要な節目となっています。ゲーム開発から科学計算、そしてモバイルデバイスへと、私たちの技術の適用範囲を広げていく過程で、日本市場での成功が重要な役割を果たしてきました。これらの経験は、現在のAI革命における新たな挑戦においても、貴重な基盤となっています。
2. アクセラレーテッドコンピューティング
2.1 CPUとGPUの補完的関係
NVIDIAは、アクセラレーテッドコンピューティングを発明した企業です。このアプローチの特徴的な点は、CPUを置き換えるのではなく、補完することにあります。実際、コンピューティング業界で、CPUの置き換えを目指さなかった企業は、私たちがほぼ唯一だったと言えます。
私たちの目標は、計算負荷の高いワークロードをGPUにオフロードすることで、CPUを補強することでした。これにより、CPUとGPUそれぞれの最も得意とする処理を活かすことができます。CPUは逐次処理に極めて優れており、GPUは並列処理に非常に優れています。これらのプロセッサが協調して動作することで、最大限の性能を引き出すことができます。
このコンピューティングモデルは、世界にとって全く新しいものです。実際、CPUのみを使用するコンピューティングは、私の生まれた年の翌年である1964年から存在し、60年の歴史があります。今日、世界で見られるコンピュータ上で動作しているものの大部分は、CPU上で実行されています。
しかし、今、コンピューティングモデルに根本的な変化が起きています。ただし、この変化を実現するためには、CPU上で逐次的に実行されているソフトウェアを単にGPU上で並列実行するように移行するだけでは不十分です。私たちは、まったく新しいアルゴリズムを創造する必要がありました。
これは、コンピュータグラフィックスの分野でOpenGLがグラフィックスプロセッサを通じてアクセラレーションを可能にしたように、多くの異なるアプリケーションのために、OpenGLのような数多くのドメイン固有のライブラリを作成する必要があったのです。
2.2 NVIDIAの350種類のライブラリ群
私たちは、OpenGLのようなドメイン固有のライブラリを、様々なアプリケーション向けに開発してきました。現在、当社には350もの異なるライブラリがあり、それぞれが特定の用途に向けて最適化されています。その中でも特に重要ないくつかのライブラリについて説明させていただきます。
cuLithoは計算リソグラフィー向けのライブラリです。チップのマスク作成には多くの層があり、従来は計算に数週間を要していましたが、cuLithoによってそれを数時間に短縮することができました。この高速化により、チップの製造サイクルタイムを短縮できただけでなく、より高度なリソグラフィーアルゴリズムの開発が可能となり、2ナノメートル、1ナノメートル、そしてそれ以降の半導体物理学の進歩を促進することができます。
AI Aerialは、5Gの無線スタックをコンピュータ上でリアルタイムに実行可能にする革新的なライブラリです。これはCUDAアクセラレータ上で動作する実質的な無線機として機能します。
その他にも、cuDSSはスパースソルバー向け、CUDA-Qは量子回路シミュレーション向け、Parabricksは遺伝子シーケンシング向け、cuVSはAIで使用されるベクターデータベースのインデックス作成とクエリ向けのライブラリです。
特筆すべきは、CuPyNumericという数値処理ライブラリです。NumPyは世界で最も人気のある数値処理ライブラリで、500万人の開発者が使用しており、先月だけでも3,000万回ものダウンロードがありました。このCuPyNumericは、マルチGPU、マルチノードで完全に高速化されています。
また、cuDFはSQL、Pandas、Polarsのような構造化データ処理向け、cuOPTは古典的な巡回セールスマン問題を何百倍も高速化し、Modulusは AI物理向けのライブラリです。
これらのライブラリの中でも、最も重要なものの一つが、深層ニューラルネットワークの様々な層を処理するcuDNNです。このライブラリは、深層学習を加速し民主化することで、過去10年間で機械学習を100万倍のスケールにまで拡大することを可能にし、ChatGPTに代表される人工知能の画期的な進歩をもたらしました。
2.3 cuDNNとAIの民主化
私たちが作成した最も重要なライブラリの一つが、深層ニューラルネットワークのための「cuDNN」です。このライブラリは、ディープラーニングスタックの様々な層を処理するために設計されました。
cuDNNの開発により、私たちは非常に重要な成果を達成することができました。この10年間で、cuDNNを活用して深層学習を加速し民主化することで、機械学習のスケールを100万倍に拡大することが可能になりました。この機械学習のスケールの100万倍の増加は、現在我々が目にしているChatGPTという画期的な進歩、すなわち人工知能の出現を可能にしました。
cuDNNは、ソフトウェア開発の方法にも特別な変革をもたらしました。これは単なる処理の高速化以上の意味を持っています。cuDNNによって、深層学習の研究者や開発者は、ニューラルネットワークの層の処理に関する低レベルの実装の詳細を心配することなく、より高レベルの設計や最適化に集中することができるようになりました。
このライブラリは、深層学習の民主化において中心的な役割を果たしました。研究機関や企業が、独自のAIモデルを効率的に開発・展開することを可能にし、結果として現在のAI革命の基盤となる技術進歩を加速させました。
cuDNNがもたらした革新は、その後のAI開発の方向性を大きく変えることになりました。これは単なる技術的な進歩ではなく、AIの可能性を全く新しい次元に引き上げ、現在のAIブームの技術的な基盤を形成することになったのです。
3. ソフトウェアパラダイムの変革
3.1 ソフトウェア1.0からソフトウェア2.0へ
ソフトウェア開発は、根本的な変革期を迎えています。これまでのソフトウェア1.0では、ソフトウェアプログラマーがコードを記述してアルゴリズムを定義し、それが機能となっていました。このコードがソフトウェアとなり、入力を受け取って出力を予測する仕組みでした。人間によって書かれたこのコードは、CPU上で最も効率的に動作するように設計されていました。このように、ソフトウェア1.0は、コーディングとCPU上で動作するソフトウェアという形で特徴付けられます。
一方、ソフトウェア2.0では、コンピュータが非常に高速になったことで、膨大な量の観測データを与えることが可能になりました。これにより、コンピュータが自ら関数を予測し、学習することができるようになりました。つまり、コーディングに代わって機械学習が中心となり、CPU上で動作するコードに代わって、GPU上で動作するニューラルネットワークが主役となったのです。
このニューラルネットワークは、GPU上で動作する新しいオペレーティングシステム、新しいコンピュータの使用方法の基礎となっています。具体的には、大規模言語モデルとして形になっています。
このソフトウェア1.0から2.0への移行は、単なる技術的な変更以上の意味を持っています。これは、ソフトウェア開発の根本的な考え方の変革であり、人工知能時代における新しいパラダイムの確立を意味しています。この機械学習アプローチは、非常にスケーラブルであることが証明されており、さまざまな用途に適用することができます。
3.2 機械学習の拡張性
この機械学習アプローチは、驚くべき拡張性を示しています。まず、インターネット上の膨大なテキストデータを学習することで、言語の基本的な要素である単語、語彙、文法、そして単語の意味までを、パターンと関係性を見出すことによって理解することが可能になりました。
しかし、この技術の応用範囲はテキストだけにとどまりません。デジタル化されたテキスト、音声、画像、動画など、あらゆる種類のデータに対して同様のアプローチを適用することができます。さらに重要なのは、マルチモーダル学習の実現です。例えば、「猫」という単語と猫の画像を結びつけることで、異なるモダリティ間の関連性を学習することができます。
この技術の革新的な点は、データの理解だけでなく、生成能力も獲得したことです。私たちは今や、あらゆる種類のデータを理解し、異なるモダリティを接続し、さらにインテリジェントな情報を生成することが可能になっています。
素晴らしいスタートアップ企業や革新的なアプリケーションを見ると、それらは常にこの2つの組み合わせのいずれかに分類されます。テキストからテキストへの変換は、要約や質問応答、テキスト生成、ストーリーテリングを可能にします。動画からテキストへの変換はキャプション生成を、画像からテキストへの変換は画像認識を実現します。テキストから画像への変換はMidjourneyのような画像生成を、テキストから動画への変換はRunway MLのような動画制作を可能にします。
さらに、タンパク質からテキストへの変換でタンパク質の機能を説明したり、テキストから化学物質への変換で創薬のための化学物質の性質を予測したりすることも可能です。また、動画とテキストから機械の動作生成、つまりロボティクスへの応用も実現しています。
これらの組み合わせのそれぞれが、新しい産業、新しい企業、新しいアプリケーションの使用事例を生み出しており、まさにカンブリア爆発のように、アプリケーションの数が爆発的に増加しています。そして、私たちはまだその始まりに立っているのです。
3.3 大規模言語モデルによる新しいオペレーティングシステム
機械学習の特性の一つとして、より大きな脳、つまりより大きなモデルに、より多くのデータを教えることで、よりスマートになるという「スケーリング則」があります。モデルのサイズとトレーニングデータ量を拡大すると、インテリジェンスの効果、品質、パフォーマンスが向上するという証拠が数多く示されています。
業界では毎年、モデルのサイズを約2倍に拡大しており、それに応じて2倍のデータ量が必要となり、結果として4倍のコンピューティングリソースが必要となります。次世代の人工知能を実現するために必要な計算リソースは、この「スケーリング則」により、驚異的な規模に達しています。
このスケーリングは、事前学習だけでなく、事後学習の段階でも重要です。事後学習には、強化学習、人間からのフィードバック、AIからのフィードバックなど、様々な方法が含まれます。また、事後学習段階での合成データ生成の活用など、多くの手法が開発されています。トレーニング、事前学習、事後学習のすべての段階で大きなスケーリングが見られ、優れた結果が得られています。
Anthropic社のClaudeやOpenAI社のGPT-4が発表された際、新しい種類の推論の可能性が世界に示されました。従来の推論は、質問に対して一回の応答を返すワンショット方式でした。しかし、実際の思考プロセスはしばしば一回の応答以上のものを必要とします。
新しい推論では、複数の計画を立て、複数の潜在的な回答の中から最適なものを選択することができます。人間のように、答えを出す前に熟考することができ、これを「リフレクション」と呼んでいます。また、問題を段階的に分解して考えていく「思考の連鎖」なども可能になっています。
このように、次の単語を生成するだけでなく、思考、熟考、計画立案を可能にする様々な技術が開発されており、これが第二のスケーリング則、つまり推論のスケーリング則を生み出しています。これらの二つのスケーリング則により、私たちは extraordinary(途方もない)な速度でコンピューティングを推進する必要があります。
4. Blackwellシステムの紹介
4.1 ハードウェア仕様と革新的特徴
AIはチップの問題だけではありません。これらのAIシステムは非常に大規模なものです。Blackwellは、GPUの名称であると同時に、このシステム全体の名称でもあります。
Blackwell GPUそのものが既に驚異的です。Blackwellダイが2つあり、それぞれのBlackwellダイは世界最大のチップとなっています。各ダイには104億のトランジスタが搭載されており、TSMCの最先端の4ナノメートルプロセスで製造されています。
これら2つのBlackwellダイは、中央部分にある低エネルギーリンクを介して10TB/秒の速度で接続されています。その接続部分、つまり継ぎ目の部分には、数千もの相互接続があります。
メモリシステムには、SK HynixとMicronから供給される8つのHBM3Eメモリが搭載されています。これらのメモリは合計で8TB/秒の速度で動作します。また、これら2つのGPUは、非常にエネルギー効率の高いシリーズを通じて、1TB/秒でCPUに接続されています。
各GPUは、1.8TB/秒のNVLinkを通じて接続されています。これは非常に多くのテラバイト/秒を意味します。このような高速な接続が必要な理由は、このシステムが単独では動作できないためです。
世界最先端のコンピュータでさえ、人工知能のために単独で動作することはできません。時には、このようなノードが何千台も必要で、それらが1つのコンピュータとして動作する必要があります。また、異なる顧客や異なるクエリに応答するために、個別に動作する必要がある場合もあります。
このように、Blackwellシステムは、単なる高性能なGPUではなく、AIワークロードに最適化された完全な統合システムとして設計されています。その性能と柔軟性は、現代のAI計算の要求に応えるために不可欠なものとなっています。
4.2 システムアーキテクチャ
GPUを他の数千のGPUと接続するために、私たちは2つのConnectX-7を搭載していますが、それだけでなくNVLinkも必要です。このNVLinkにより、私の背後にあるラック内の複数のGPUを接続することができます。
このラックには、NVLink 5.0を使用して1.8TB/秒で接続されており、これは世界最高帯域幅のネットワークと比べて35倍も高速です。これにより、すべてのGPUをこのNVLinkスイッチに接続することができます。1つのラックには9つのNVLinkスイッチがあり、各ラックには72台のコンピュータがこのスパインを通じて接続されています。
このNVLinkスパインは銅線で構成されており、50ポンド(約22.7kg)もの銅が使用されています。この驚異的なI/Oを持つNVLinkによって直接駆動され、コンピュータにこのように接続されます。このスイッチにより、これらのコンピュータすべてが1つのシステムとして統合されます。
結果として、72台のコンピュータが1つの巨大なGPUとして接続されます。ソフトウェアの観点からは、これは単一の巨大なチップとして認識され、これらのNVLinkで接続された72システムからなるこの1つのラックは、3,000ポンド(約1,360kg)の重量があります。この重量のため、残念ながらステージ上にお見せすることはできません。また、このシステムは120kWの電力を消費します。私の友人たちに例えると、これは多くの任天堂Switchの電力消費量に相当します。
このBlackwellシステムは、このようなスーパーポッドとして構成することも、あるいは何千台、願わくは何十万台ものシステムを持つ巨大なデータセンター全体として構成することも可能です。これらはスイッチによって接続されます。一部はQuantum InfiniBandスイッチを使用し、専用のAIファクトリーを構築したい場合や、NVIDIA Spectrum-Xという革新的なイーサネットシステムを使用して既存のイーサネット環境に統合したい場合にも対応できます。
4.3 スケーラビリティと適応性
Blackwellシステムの最も重要な特徴の一つは、その驚異的な適応性です。このシステムは、AIスーパーコンピュータとして構築することも、エンタープライズデータセンターに統合することも、ハイパースケーラーに組み込むことも可能で、さらにはエッジ向けに構成することもできます。Blackwellシステムは、世界のコンピューティングインフラストラクチャのあらゆる場所に適合できるよう、非常に適応性の高い設計になっています。
しかし、このBlackwellコンピュータの上には、さらに重要なものがあります。すべての液冷システム、配線を備えたこれらのコンピュータを目にすると、人々は圧倒されるでしょう。このような驚異的なコンピュータをどのようにプログラムするのかという疑問が生じるはずです。
ここで重要になってくるのが、NVIDIAのソフトウェアスタックです。CUDA、NCCL、Megatron、Megatron-Core、TensorRT LLM、Tritonなど、長年にわたって私たちが開発してきたすべてのソフトウェアがシステムに統合されており、これによって世界中の誰もが、AIスーパーコンピュータを展開することが可能になっています。
そして、その上には、人々がAIを簡単に構築できるようにするAIソフトウェアが用意されています。このように、ハードウェアからミドルウェア、そしてアプリケーションまでの完全な統合により、Blackwellシステムは真の意味で適応性のあるプラットフォームとなっています。世界中のコンピューティングインフラストラクチャのどこにでも展開可能であり、かつ、誰もが利用できる形で提供されているのです。
5. AIの2つの主要形態
5.1 デジタルAIワーカー(AIエージェント)
AIについて、私は2つの重要な形態があると考えています。最初の形態はデジタルAIワーカーです。これらのAIワーカーは理解し、計画を立て、行動を起こすことができます。
このデジタルAIワーカーは、マーケティングキャンペーンの実行、カスタマーサポート、製造サプライチェーンの計画立案、チップの最適化、ソフトウェア開発の支援など、様々なタスクを実行できます。また、創薬産業では研究アシスタントや実験室アシスタントとして、CEOのチューターとして、あるいは従業員全員のチューターとして機能することも可能です。
これらのAIエージェントは、本質的にデジタル従業員のようなものです。そして、人間の従業員と同様に、適切なトレーニングが必要です。具体的には、会社に迎え入れる際にはデータを用意してエージェントを会社について教育し、求める機能に応じて特定のスキルのトレーニングを行います。トレーニング後は、学ぶべきことを適切に学習したかを評価し、求められた仕事を行い、求められていない仕事は行わないようにガードレールを設定します。
そして実際の運用段階では、BlackwellからAIトークンという形でエネルギーを供給し、他のエージェントとチームとして協力して問題を解決できるようにします。
NVIDIAはサービス事業を行わず、最終製品やソリューションの提供も行いません。しかし、エコシステムがAIを構築し、提供し、継続的に改善することを可能にする技術を提供します。このために、AIエージェントのライフサイクルライブラリやライフサイクルプラットフォームとしてNeMoを提供しています。
NeMoには、データキュレーションからトレーニング、ファインチューニング、合成データ生成、評価、ガードレールまで、私が言及したすべての段階のためのライブラリが含まれています。これらのライブラリは、世界中のワークフローやフレームワークに統合されています。私たちは、AccentureやDeloitteなどのサービスプロバイダー、そして世界中の企業と協力して、これを大企業に提供しています。
また、ServiceNowのようなISVとも協力しています。現在、ServiceNowはプラットフォームのライセンスを提供し、従業員がServiceNowプラットフォームを通じてサポートを受けています。将来的には、ServiceNowは問題解決を支援するためにレンタル可能な多数のAIエージェント、つまり実質的にレンタル可能なデジタル従業員も提供するでしょう。私たちは、ServiceNow、SAP、Cadence、Ansys、Snowflakeなど、世界中の企業と協力して、企業の生産性向上を支援するエージェントを構築しています。
重要なことは、これらのエージェントは、どのような仕事でも100%をこなすことはできませんが、100%の人々の仕事の50%を支援できるということです。つまり、AIが50%の人々の仕事を奪うと考えるのではなく、AIが100%の人々の仕事の50%を支援すると考えるべきです。このように考えることで、AIが企業の生産性、そしてあなたの生産性を向上させることが理解できます。
AIは仕事を奪うのかと人々に聞かれますが、私はいつも同じ答えをします。それは真実だからです。AIはあなたの仕事を奪いません。他の誰かが使うAIが、あなたの仕事を奪うのです。だからこそ、できるだけ早くAIの活用を始めることが重要なのです。
5.2 フィジカルAI(ロボティクス)
AIの第二の形態は、フィジカルAIです。これは同じ基本技術が機械システムの中に組み込まれたものです。ロボティクスは間違いなく世界で最も重要な産業の一つとなるでしょう。
ここ日本では、世界の製造用ロボットの50%が生産されています。川崎重工業、FANUC、安川電機、三菱電機という4つのリーダー企業が、世界のロボットシステムの半分を製造しています。ロボットが製造業の生産性を大きく向上させてきたにもかかわらず、長年にわたってロボット産業の成長は概ね横ばいでした。その理由は、ロボットが特定の用途に特化しすぎていて、十分に柔軟性がないためです。異なるシナリオや条件、作業に適用できるように、より柔軟で、自己適応・学習が可能なAIが必要なのです。
ロボティクスを実現するためには、3つのコンピュータを構築する必要があります。第一のコンピュータは、これまでの例で示してきたようなAIのトレーニングのためのものです。第二のコンピュータは、AIに練習の場を提供し、学習し、撤退し、学習のための合成データを受け取ることができる場所としてのシミュレーションのためのものです。私たちはこれをOmniverseと呼んでいます。Omniverseは、フィジカルAIやロボティクスの作成に使用できる仮想世界デジタルツインのライブラリ群です。
Omniverseでの検証、トレーニング、評価の後、モデルを実際のロボットに搭載することができます。その中には、人型ロボット用に設計されたロボティクスプロセッサであるJetson Thorがあります。このループは継続的に繰り返されます。NeMo AIエージェントライフサイクルプラットフォームがあるように、AIを作成可能にするOmniverseプラットフォームも存在するのです。
最終的に私たちが目指すのは、左側でAIが世界を見て、動画を見て、周囲の状況を理解し、人々が何を望んでいるかを理解し、そしてその結果として関節の動きを生成することです。テキストから動画を生成したり、テキストから薬品のための化学物質を生成したりできるように、テキストから関節の動きを生成することができるのです。
このコンセプトは生成AIと非常によく似ています。Omniverseと私たちが構築したすべてのコンピュータ、この3つのコンピュータと最新の生成AI技術の間に、人型ロボティクスの時代が到来したと考えています。
人型ロボットが非常に難しい理由は明らかですが、ソフトウェア開発が極めて困難であることに加えて、その利点は計り知れません。世界に簡単に展開できるロボットシステムは2つしかありません。1つは自動運転車です。その理由は、私たちが世界を車に適応させるように作り変えたからです。もう1つは人型ロボットです。これら2つのロボットシステムは、世界中のブラウンフィールドのどこにでも展開することができます。なぜなら、私たちは世界を人間のために作り上げてきたからです。
これは非常に困難な技術ですが、その時が来ました。そして、その影響は計り知れないものとなるでしょう。
6. 日本におけるAIインフラ構想
6.1 SoftBankとの戦略的パートナーシップ
本日、私たちは非常に重要な発表をさせていただきます。NVIDIAはSoftBankと提携し、日本のAIインフラストラクチャを構築することになりました。私たちは共同で、日本最大のAIファクトリーを構築します。
このAIファクトリーは、NVIDIA DGXで構築され、完成時には25AIエクサフロップスの処理能力を持つことになります。ここで重要な参考として、世界最大のスーパーコンピュータでさえ、つい最近まで1エクサフロップスでした。これは、AIを生産するための巨大なインフラとなります。
しかし、AIを配信するためには、SoftBankはNVIDIAのAerialを統合します。これは、先ほど私が言及した5G無線をCUDA上で実行するエンジンです。これにより、基地局のコンピュータ、ベースバンド、AIコンピュータを5G-RANから統合することができます。私たちは今、通信ネットワークをAI-RANへと進化・再発明しようとしています。
このネットワークは、音声、データ、ビデオを伝送できますが、将来的には新しい種類の情報である「インテリジェンス」も伝送することになります。これはSoftBankの日本国内の20万サイトに展開され、5,500万人の顧客にサービスを提供します。
私たちは、AIを生産するAIファクトリーと、AIを配信するAI配信ネットワークを構築します。さらにその上に、新しい種類のストア、つまりAIストアを構築します。これにより、SoftBankが作成したAIや、サードパーティが作成したAIを5,500万人の顧客に提供することが可能になります。
これらのアプリケーションは、先ほど私が説明したNVIDIA AI Enterpriseの上に構築され、すべての人がAIを利用できるような新しいストアが作られます。これは素晴らしい開発です。その結果として、日本全土に広がるAIグリッドが実現することになります。
このAIグリッドは、インフラストラクチャの一部となり、最も重要なインフラストラクチャの一つとなるでしょう。物資の製造と流通のためには工場と道路というインフラが必要であり、エネルギーと通信のためのインフラが必要であるように、新しい種類のインフラを作るたびに、新しい産業と新しい企業が生まれ、新しい経済機会と繁栄がもたらされます。
もし道路と工場がなければ、産業革命は起こりえなかったでしょう。エネルギーと通信がなければ、IT革命も起こりえなかったでしょう。これらの新しいインフラストラクチャは、それぞれが新しい機会を開いてきました。だからこそ、SoftBankとこれを実現できることを、私は非常に嬉しく思っています。
6.2 25エクサフロップスのAIファクトリー計画
私たちがSoftBankと構築する日本最大のAIファクトリーは、NVIDIA DGXを基盤として構築されます。この施設は、完成時に25 AIエクサフロップスという驚異的な処理能力を持つことになります。この規模を理解するために、つい最近まで世界最大のスーパーコンピュータでさえ1エクサフロップスの処理能力しかなかったことを考えると、この計画の革新性が分かるでしょう。
このインフラストラクチャは、宮川社長のチームとの協議により、日本国内で最大規模のAIデータセンターとなります。私たちは、この強力なプラットフォームを研究者、学生、スタートアップ企業に提供することを計画しています。具体的には、彼らがより良いアクセスを得られるよう、より多くの計算能力を使えるよう、補助金を提供することを検討しています。
インフラ構築には多額の資本が必要ですが、SoftBankは日本に対して大きな投資を行っています。このような規模のインフラストラクチャを構築することは、単なる技術的な進歩以上の意味を持ちます。これは、日本のAI開発能力を飛躍的に向上させ、新しい産業とイノベーションを生み出すための基盤となります。
AIファクトリーの構築は、従来の産業インフラの構築と同様に、その上に新しい産業やサービスが生まれる可能性を秘めています。特に、研究者やスタートアップ企業にとって、このような高度な計算資源へのアクセスは、革新的なAIアプリケーションやサービスの開発を加速させる重要な機会となるでしょう。これは、単なる計算インフラの提供を超えて、日本のAIエコシステム全体を活性化させる触媒となることが期待されています。
6.3 AI-RANによる新しい通信インフラ
私たちが実現しようとしているAI-RANは、従来の通信ネットワークを根本的に変革するものです。SoftBankの通信網にNVIDIAのAerialを統合することで、基地局コンピュータ、ベースバンド、AIコンピュータを5G-RANから一体化し、通信ネットワークをAI-RANへと進化させます。このネットワークは、従来の音声、データ、ビデオに加えて、新しい種類の情報である「インテリジェンス」も伝送することになります。
このシステムの具体的な応用例をいくつかご紹介させていただきます。例えば、基地局の下を車が通過する場合を考えてみましょう。車からの映像が基地局に送信され、基地局に搭載されたAIが映像を解析します。このAIモデルは車載には重すぎる可能性がありますが、基地局であれば実装可能です。基地局のAIが車の周囲の状況を理解し、安全性を確保するための支援を提供できます。これは実質的に、自動運転車のための航空管制システムのような役割を果たすことになります。
もう一つの応用例は、工場の知能化です。工場内に設置された多数のカメラからの映像が基地局に送信され、基地局のAIモデルによって工場全体がAI化されます。これにより、工場に対して直接質問をすることが可能になります。例えば、「事故は起きていないか?」「異常はないか?」「けが人は出ていないか?」といった質問に対して、工場が日報を提供することができます。このAIモデルは工場内に置く必要はなく、SoftBankの基地局で動作させることができます。
このように、物理的なオブジェクト、例えばスタジアム、道路、工場、倉庫、オフィス、ビルディングなど、あらゆるものをAI化することが可能です。ChatGPTと会話するように、これらの物理的なオブジェクトと対話することができるようになります。例えば、「倉庫の通路に障害物や漏れはないか?」と尋ねると、AIは「通路に障害物や漏れ、危険はありません。映像から見る限り、通路は整理整頓されており、清潔で障害物のない安全な状態を保っています」といった応答をすることができます。
これらの応用例が示すように、AI-RANは単なる通信インフラの進化ではなく、物理世界とデジタル世界を融合させ、新しい形のインテリジェントインフラストラクチャを実現するものです。SoftBankの20万のサイトと5,500万人の顧客基盤を活用することで、この革新的なインフラを日本全土に展開することが可能になります。
7. 孫正義氏との対談
7.1 テクノロジー革命の歴史的考察
私は長年テクノロジー業界にいて、PCの革命から始まり、インターネット、クラウド、モバイルクラウド、そしてAIへと、産業の変遷を見てきました。その中で、孫さんは実に特別な存在です。彼は、各世代の革新者たちとパートナーシップを結び、勝者と共に歩んできた唯一の起業家であり、イノベーターなのです。
思い返してみると、日本にBill Gatesを連れてきたのは孫さんでした。Jerry Yangを日本に招いたのも孫さんでした。中国のクラウド産業を可能にしたAlibabaの発展も、孫さんが実現させました。Steve Jobsを日本に招き、iPhoneをもたらしたのも孫さんでした。
そして、おそらく多くの方はご存じないかもしれませんが、ある時期、孫さんはNVIDIAの筆頭株主でもありました。(この話題で二人で泣くことができます。)孫さんは、100%の成功率でコンピューティングの歴史における各技術革命の創造者を見出してきました。
私が孫さんに「どうやってそれを成し遂げたのか?」と尋ねると、孫さんは「私はただラッキーだっただけです。適切な時期に生まれ、あなたのような素晴らしい起業家たちと出会うことができました。それは情熱であり、夢であり、本物のパイオニア、本物のイノベーターを嗅ぎ分ける直感なのです。私はラッキーでしたが、それは私たちが同じビジョンを嗅ぎ分けることができたからです。オオカミがオオカミの匂いを嗅ぎ分けるように。」と答えてくれました。
(私は2匹の子犬を飼っているので、このメンタルイメージはあまり好きではありませんが)このように、孫さんは各時代の技術革新を見抜き、そのパイオニアたちと共に歩むことで、テクノロジーの進化に大きく貢献してきました。
7.2 AIがもたらす産業革命の規模
孫さんに、これまでの技術革新の歴史と比較して、このAI革命がどのように異なるのか、どのように感じているのか尋ねました。
孫さんは、「これは最も刺激的で、最もダイナミックで、未来の最前線です。これは100倍、1000倍の規模です。これは最大の波なのです。それが私の感じ方です」と答えてくれました。
私も、数学的な観点や産業的な観点から、この変革の重要性を次のように考えています。AIはソフトウェアですが、これまでの私たちが作り出してきたソフトウェア産業とは、全く異なる種類のものです。これまでのソフトウェア産業は、人間が使用するツールを作る産業でした。しかし、今回初めて、このニューラルネットワーク、大規模言語モデル、エージェント、ロボットは、ツールではなく、スキルや作業そのものを実現するものとなっています。彼らは実際に仕事をこなすことができます。
そして、仕事の市場規模は1兆ドルではなく、100兆ドル規模なのです。そのため、この産業は単なるIT産業の移行ではなく、すべての産業の変革なのです。これが、なぜこれほど大きな出来事なのかという理由です。
孫さんは、この点について次のように述べています。「人類は、他のどの種と比べても、超優れた脳を持つ唯一の動物です。脳の力のおかげで、人類はとても力強い存在となりました。筋肉だけを比較すると、ライオンや象の方が大きな筋力を持っています。しかし、人類は最も賢い脳を持っています。そして今日のGDPのすべての活動は、人類の脳の活動に基づいています。だから、この革命はすべての産業に影響を与えることになるでしょう。」
さらに私は、原子に支配される産業では、その規模に限界があると指摘しました。原子を動かすことには物理的な制限があるからです。しかし、AIの産業は電子の産業です。量子力学に支配され、無限に大きくなる可能性があります。そして、インテリジェンスは、単なるモノの移動と比べて、はるかに価値があります。思考や推論の連鎖は驚くべきものです。
このように、AIがもたらす産業革命は、これまでの産業革命とは質的にも量的にも異なる、かつてない規模の変革となることが予想されます。
7.3 日本のAI戦略とビジョン
現在、日本には350のスタートアップがNVIDIAと協力していますが、これは世界全体の22,000社と比較すると、その割合はあまりにも少ないと言わざるを得ません。孫さんと私はこの状況を大きく変えていく必要があると考えています。私たちは、若い起業家たちやイノベーターたちが、AIに飛び込み、参入し、関与していくことを奨励しなければなりません。
そのためのインフラは整いつつあります。宮川さんと私は、日本最大のAIデータセンターを構築する計画について議論を重ねています。私たちは、多くの奨励プログラムを創設し、若い世代が新しいモデルを試し、AIアプリケーションを開発できるよう、計算能力を補助していく予定です。ほぼ無料で利用できるようにする計画です。
このとき、孫さんから「Jensen!スタートアップや研究者のために、あなたも寄付をすべきですよ!」という提案がありました。(実は、孫さんに会うたびにお金がかかるのです。)しかし、これは皆にとって良いことです。
孫さんは、「私たちは例を示すことで、リードしていかなければなりません」と述べています。現在、日本には世界の22,000社中わずか350のスタートアップしかないという状況は、明らかに理に適っていません。私たちは、研究者や起業家たちが、計算能力の心配をすることなく、新しいアイデアを試すことができる環境を作り出していく必要があります。
日本のAI戦略は、単なる技術開発支援を超えて、エコシステム全体の育成を目指すものでなければなりません。そのためには、インフラストラクチャの整備、人材育成、そして何よりも、チャレンジを恐れない起業家精神の醸成が不可欠です。私たちは、日本の持つ潜在力を最大限に引き出し、グローバルなAI革命の中で主導的な役割を果たせるよう、支援を続けていきます。
8. 将来展望
8.1 国家としてのAI主権の重要性
各国が目覚めつつある重要な認識があります。それは、自国のデータ、つまり自国民のデータが、その国の知識、文化、インテリジェンスを符号化しているという事実です。このデータは、天然資源と同様に、その国に帰属する国家的な資産なのです。
したがって、各国は自国のデータを処理し、自国民のためのAIへと変換すべきです。これを他国にアウトソースすることは全く理にかなっていません。孫さんも「これは非常に重要な点です。これはソブリンデータセンターの問題です。各主権国家、各政府は、国家安全保障データを自国のデータセンター、AIデータセンターに移行しなければなりません。それは各国が自国内に持たなければならないものとなるでしょう。各国の国家安全保障、データセキュリティは、各国の保護対象として規制されるようになるでしょう」と述べています。
実際、すべての国が独自のインテリジェンスを生産することになります。そして、すべての企業も独自のインテリジェンス、独自のAIを生産することになります。企業がAIを作らないなどということは、どうして可能なのでしょうか?私は、それは自分の脳を他人に譲り渡すようなものだと考えています。
世界はこの考えに目覚めつつあります。そして最も重要な第一歩は、国家的なグリッド、AIグリッドが存在しなければならないということです。道路がなければ自動車産業は存在できないのと同じように、今やAIのための基盤を構築することが、あらゆる国にとって不可欠な課題となっているのです。
8.2 日本のロボティクスとAIの融合
ロボティクス革命が世界中で起きている中で、私は日本以上にこのAIロボティクス革命をリードするのにふさわしい国はないと考えています。その理由は明確です。この国はロボットを愛しているのです。皆さんはロボットを愛しています。そして、世界最高のロボットの数々を作り出してきました。
私たちが成長過程で親しんできたロボットたち、私たちが人生を通じて愛してきたロボットたち、さらに私の個人的なお気に入りであるマジンガーZやガンダムに代表されるような革新的なロボットの数々。これらはすべて日本から生まれました。
私は、日本が最新の人工知能のブレークスルーを活用し、メカトロニクスにおける専門知識と組み合わせることを強く願っています。世界中で、メカトロニクスにおいて日本以上の技術を持つ国はありません。これは非常に重要な機会であり、必ずや掴み取らなければなりません。
実際に、日本のAIは素晴らしい進歩を見せています。私たちには多くのパートナーがいます。大規模言語モデルを構築している産業技術総合研究所、楽天、ソフトバンク・インテュイションズ、NTT、富士通、NEC、名古屋大学、コトバテクノロジーズなどがあります。
AIクラウドの分野では、産業技術総合研究所、ソフトバンク、さくらインターネット、GMOインターネットグループ、HIGHRESO、KDDI、Rutileaが、日本のエコシステムを発展させるためのAIクラウドを構築しています。
さらに、多くのロボティクス企業が、AIが提供する新しい可能性を理解し始めています。安川電機、トヨタ、川崎重工業、Rapyutaなどの企業がその例です。また、医療画像システムの分野でも、キヤノン、富士フイルム、オリンパスなどが、AIを活用しています。これらの医療機器は、将来的にはより自律的になり、看護師AIエージェントが内蔵され、看護師の診断をガイドする助けとなるでしょう。
このように、AIの活用は創薬産業を含め、様々な分野に広がっています。私は、ここでの進歩を大変喜ばしく思っています。そして、AIの革命を活用するために、さらに加速していきたいと考えています。
8.3 パーソナルAIエージェントの未来像
孫さんとの対談で、彼は個人向けAIエージェントの未来について情熱的なビジョンを語ってくれました。Bill Gatesが「すべてのデスクトップにPC」を、Steve Jobsが「すべての手にスマートフォン」を掲げたように、今や私たちは「すべての人にAIエージェント」を提供する時代を迎えようとしています。
これらのパーソナルAIエージェントは、旅行や休暇の計画を立てたり、教育をサポートしたりと、私たちの生活のあらゆる場面で活用されることになります。特筆すべきは、これらのエージェントが私たちの人生に寄り添う存在となるという点です。
今日の私たちの孫たちは、1歳からiPhoneと共に成長し、写真を見る際には2本の指で画面をつまむような動作を自然に行います。静止画でさえそうするのです。なぜなら、彼らは2本の指があれば、どの画像でも拡大できると考えているからです。
将来、彼らは画像を見て、それに話しかけるようになるでしょう。そして画像が返答することを期待するようになります。1歳の頃から自分専用のエージェントを持ち、そのパーソナルエージェントは第二の仲間として共に成長していきます。あなたの体調、健康状態など、すべてを把握しているのです。
このエージェントは、あなたの家庭教師となり、子供の頃から共に学び、読んだすべてのものを記憶し、教えたすべてのことを覚えています。まさにあなた専用のアリストテレスとなるのです。これは完全なるデジタルツインとなり、日本の国内知識や文化などを備えた独自のエージェントは、驚くべき未来を持っています。
このような未来は、私たちが今構築しているAIインフラストラクチャによって初めて可能となります。そしてこれは、単なる技術的な進歩以上の意味を持っています。これは人類の知的能力の拡張であり、新しい形の知的パートナーシップの始まりなのです。