※本記事は、Google I/O '25 Keynoteの内容を基に作成されています。元の動画はGoogleの公式YouTubeチャンネルで公開されており、「Google I/O '25: AIの新時代へ - Geminiが切り拓く無限の可能性」として視聴することができます。動画の詳細情報は https://goo.gle/4jlp80v でご覧いただけます。
本記事では、基調講演の内容を要約しております。なお、本記事の内容は原内容を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画をご視聴いただくことをお勧めいたします。また、この基調講演はアメリカ手話(ASL)の通訳版も提供されています。GoogleのソーシャルメディアアカウントやGoogle I/Oの公式サイトも参照いただければ、より詳細な情報をご確認いただけます。
1 開会セクション
1.1 オープニング挨拶(Sundar Pichai)
Sundar Pichai:みなさん、おはようございます。Google I/Oへようこそ。会場のShorelineにお集まりの皆さん、そして世界中からバーチャルで参加されている皆さん、本当にお会いできて嬉しいです。
今日はGeminiシーズンの始まりだと聞きましたが、実際のところ、Googleでは毎日がGeminiシーズンなんですよ。通常であれば、I/Oに向けた数週間は私たちからあまり情報が出ないものです。これは、最高のモデルをこのステージのために取っておくためでした。しかし、私たちのGemini時代では、最も高性能なモデルを3月の何の変哲もない火曜日にリリースしたり、AlphaEvolveのような画期的な成果を1週間前に発表したりすることも珍しくありません。
私たちは最高のモデルをできるだけ早くみなさんの手元に届け、製品に組み込みたいと考えています。そのため、かつてないスピードでリリースを行っています。前回のI/O以降、12以上のモデルと研究ブレークスルーを発表し、20以上の主要なAI製品や機能をリリースしました。
1.2 AIの進捗状況と成果の共有(Sundar Pichai)
Sundar Pichai:モデルの急速な進歩に特に興奮しています。ここにグラフで示されている通り、進歩の一指標であるEloスコアは、最初のGemini Proの世代から300ポイント以上向上しています。そして今日、Gemini 2.5 ProはLMArenaリーダーボードのすべてのカテゴリでトップに立っています。
これは多くのベンチマークで最先端の性能を発揮しており、コーディング能力も大幅に向上しました。更新された2.5 ProはWebDev Arenaで1位に達し、前バージョンよりも140 Eloポイント上回っています。主要なコーディングプラットフォーム全体で高い評価を得ており、AIコードエディタのCursorでは、Geminiは今年最も急成長しているモデルとなり、毎分何十万行もの受け入れられたコードを生成しています。
最も印象的な成果の一つは、2週間前にGeminiが「ポケモンブルー」を完全クリアしたことです。8つのバッジをすべて獲得し、勝利への道を進み、四天王とチャンピオンを倒しました。これで、API(人工ポケモン知能)の実現に一歩近づいたといえるでしょう。
世界はAIに反応し、かつてないスピードで採用しています。進歩の一指標として、昨年の今頃、私たちは月間9.7兆トークンを製品とAPI全体で処理していましたが、現在では月間480兆トークンを処理しています。わずか1年で約50倍の増加です。
開発者向けAIツール全体でも採用の波を見ています。現在、700万人以上の開発者がGoogle AI StudioとVertex AI両方でGemini APIを使用してアプリケーションを構築しており、前回のI/O以降で5倍以上の成長を遂げています。Vertex AI上でのGemini利用は昨年と比較して40倍以上に増加しています。
AIの採用は私たちの製品全体で増加しています。Geminiアプリは現在、月間アクティブユーザー数が4億人を超えています。特に2.5モデルでは強い成長と利用者の増加が見られ、Geminiアプリで2.5 Proを使用している人々の間では、利用率が45%上昇しました。
検索分野でも信じられないほどの勢いを見せています。現在、AI Overviewsの月間ユーザー数は15億人を超えています。これは、Google検索が世界のどの製品よりも多くの人々に生成AIを提供していることを意味します。AI Overviewsに加えて、AIモードは検索にとって次の大きなステップです。これについては後ほど詳しく説明します。
このすべての進歩が意味するのは、私たちはAIプラットフォームシフトの新しい段階に入ったということです。数十年の研究が世界中の人々にとって現実のものとなりつつあります。
1.3 インフラストラクチャーの説明(Sundar Pichai)
Sundar Pichai:これらすべての進歩を可能にしているのは、世界をリードする私たちのインフラストラクチャであり、AIへのフルスタックアプローチの基盤となっています。第7世代TPU「Ironwood」は、大規模な思考と推論を可能にする最初の設計です。前世代の10倍のパフォーマンスを提供し、1ポッドあたり驚異的な42.5エクサフロップスの計算能力を備えています。素晴らしいですね。そして今年後半にはGoogle Cloudのお客様にも提供される予定です。
TPUに至るまでのインフラの強みが、大幅に高速化されたモデルを提供するのに役立っています。LMArenaリーダーボードの上位モデルの中で、Geminiは1秒あたりに生成される出力トークン数で上位3つのスポットを占めており、同時にモデル価格も大幅に下がっています。価格とパフォーマンスの間にはトレードオフがありますが、何度も繰り返し、最も効果的な価格ポイントで最高のモデルを提供することができています。
Googleはフロンティアをリードしているだけでなく、フロンティア自体を根本的に変えたのです。その結果、より多くの知能がすべての人に、あらゆる場所で利用可能になっています。
1.4 研究プロジェクトの紹介(Sundar Pichai)
Sundar Pichai:研究が今日の製品をどのように変革しているかについて、Project Starline、Astra、Marinerという3つの例を共有したいと思います。
数年前のI/OでデビューしたProject Starlineは、離れていても同じ部屋にいるような感覚を作り出すことを目標とした画期的な3Dビデオ技術です。技術的な進歩を続け、今日は次の章を発表する準備ができました。Google Beamという新しいAIファーストのビデオコミュニケーションプラットフォームを紹介します。
Beamは、2Dビデオストリームをリアルな3D体験に変換する最先端のビデオモデルを使用します。舞台裏では、6台のカメラが異なる角度からあなたを捉え、AIを使用してこれらのビデオストリームを結合し、3Dライトフィールドディスプレイ上でレンダリングします。ほぼ完璧なヘッドトラッキングをミリメートル単位で、毎秒60フレームでリアルタイムに実現します。結果として、はるかに自然で没入感のある会話体験が得られます。
私たちはこの技術を他の人々に提供できることに非常に興奮しています。HPと協力して、最初のGoogle Beamデバイスが今年後半に初期のお客様向けに利用可能になります。HPは数週間後により多くの情報を共有する予定ですので、ご期待ください。
長年にわたり、StarlineからGoogle Meetに基礎技術を取り入れてきました。その中には、言語の壁を取り除くためのリアルタイム音声翻訳も含まれています。これが南米のバケーションレンタルを予約する際に、言語がわからなくても役立つ例をご覧いただきましょう。
[ビデオデモでは、話者の口調、パターン、表情まで見事に一致した翻訳システムが示されています]
ご覧いただいたように、話者の口調、パターン、さらには表情まで見事に一致しています。言語間でいかに自然で自由な会話が可能になるかがわかります。今日、このリアルタイム音声翻訳をGoogle Meetに直接導入します。英語とスペイン語の翻訳は現在、サブスクライバーが利用可能で、今後数週間でさらに多くの言語が展開される予定です。また、リアルタイム翻訳は今年後半に企業向けにも提供される予定です。
I/Oステージでデビューした別の初期研究プロジェクトがProject Astraです。これは、周囲の世界を理解できる汎用AIアシスタントの将来の能力を探るものです。私たちはこれを製品に取り入れ始めています。現在、Gemini Liveにはproject Astraのカメラと画面共有機能が搭載されており、あなたが見ているものについて話し合うことができます。人々はこれを就職面接の練習やマラソンのトレーニングなど、様々な方法で活用しています。
[ユーモラスなビデオデモでは、Geminiが間違った認識を指摘する様子が紹介されています]
Geminiはあなたが間違っているときにそれを指摘するのが得意ですね。これを本日からAndroidとiOSの全ユーザーに展開します。
次に、研究プロトタイプのProject Marinerもあります。これはウェブとやり取りしてタスクを完了できるエージェントです。振り返ると、私たちはエージェントを、高度なAIモデルの知能とツールへのアクセスを組み合わせたシステムと考えています。エージェントはあなたの代わりに、あなたの管理下で行動を起こすことができます。
コンピュータの使用は重要なエージェント機能です。これによりエージェントはブラウザやその他のソフトウェアと対話し操作することができます。Project Marinerはコンピュータ使用能力をテストする初期の一歩でした。12月に早期研究プロトタイプとしてリリースし、それ以来大きな進歩を遂げています。
まず、マルチタスキングを導入し、最大10の同時タスクを監視できるようになりました。次に、「教えて繰り返す」という機能を使用しています。これは、タスクを一度見せると、将来の類似タスクの計画を学習するというものです。
Project Marinerのコンピュータ使用機能をGemini APIを通じて開発者に提供します。Automation AnywhereやUiPathなどの信頼できるテスターはすでにこれを使って構築を始めており、今夏にはより広く利用可能になる予定です。
コンピュータ使用は、エージェントエコシステムが繁栄するために必要な幅広いツールセットの一部です。エージェントが互いに話せるようにするためのオープンなAgent2Agentプロトコルなどがあります。これをCloud Nextで60以上のテクノロジーパートナーのサポートとともに立ち上げ、その数が増えることを期待しています。また、Anthropicが導入したモデルコンテキストプロトコルがあり、エージェントが他のサービスにアクセスできるようになります。今日、私たちは、Gemini SDKがMCPツールと互換性を持つことを発表できることを嬉しく思います。
これらの技術が連携して、エージェントをさらに便利にします。そして、Chrome、Search、Geminiアプリにエージェント機能を導入し始めています。
1.5 パーソナルコンテキストの紹介(Sundar Pichai)
Sundar Pichai:研究を現実のものにする最良の方法は、それをあなた自身の現実において本当に役立つものにすることです。ここで、パーソナライゼーションが非常に強力になります。私たちはこれを「パーソナルコンテキスト」と呼ぶ機能で実現しようとしています。
あなたの許可があれば、Geminiモデルは、プライベートで透明性があり、完全にあなたの管理下にある方法で、Google apps全体の関連コンテキストを使用できます。Gmailでの例をお見せしましょう。
AIを活用したスマートリプライ機能はご存知かもしれません。これがいかに人気かは驚くべきことです。今、それらの返信があなたのように聞こえたらどうでしょうか。それが「パーソナライズドスマートリプライ」の背後にある考え方です。
友人が私にアドバイスを求めるメールを書いたとしましょう。彼はユタへのロードトリップを計画しており、私が以前この旅行をしたことを覚えています。正直に言うと、私なら短くて役に立たない返事をするでしょう。ごめんなさい、フェリックス。でもパーソナライズドスマートリプライがあれば、私はより良い友人になれます。
それはGeminiが私のためにほとんどすべての作業を行ってくれるからです。ノートやドライブを調べ、過去のメールから予約を確認し、Google Docsの旅程表を見つけてくれます - 「ザイオン国立公園への旅行」と。Geminiは過去のメールから私の典型的な挨拶を一致させ、私の口調、スタイル、お気に入りの言葉遣いを捉え、自動的に返信を生成します。
1日の運転時間を5時間未満に抑えるなどの詳細を含めたことが気に入っています。そして私のお気に入りの形容詞「exciting(わくわくする)」を使っています。素晴らしいですね!もしかしたら、いくつか変更を加えて送信したいかもしれません。
これは今夏、サブスクライバー向けにGmailで利用可能になります。そして、Search、Docs、Geminiなど全体でパーソナルコンテキストがいかに役立つかを想像できるでしょう。
今日、私は知能、エージェント、パーソナライゼーションについて話しました。これらは私たちが進歩を遂げる最前線のいくつかです。基調講演を通じてさらに多くの例を聞くことになるでしょう。
しかしまず、将来のイノベーションを推進する知能についてより多く共有できる人を紹介したいと思います。昨年、私はこの方をSir Demisとして紹介しました。今年は、彼の肩書きにノーベル賞受賞者を追加できます。Demis、どうぞステージへ。
2 Google DeepMind & Gemini for Developers
2.1 最新のGemini 2.5シリーズの紹介(Demis Hassabis)
Demis Hassabis:皆さん、こんにちは。I/Oに戻ってこられて本当に嬉しいです。私たちは歴史的な瞬間を生きています。AIが素晴らしい新しい未来を可能にしている時代です。私たちにとって、この1年は休むことのない進歩の連続でした。
Sundarが言ったように、人々はGemini 2.5との対話を楽しんでいます。皆さんがこれを使ってコードを作成し、一発でゲームやアプリを構築している様子を見てきました。膨大な推論能力を活用して、科学論文の解読からYouTubeビデオの理解まで、あらゆることに取り組んでいます。そして、Geminiが協力的で洞察力に富み、本当に役立つと感じていると教えてくれています。皆さんが素晴らしいことを成し遂げ、それを構築している様子を見るのは私たちにとって本当にエキサイティングなことです。
Gemini 2.5 Proは私たちが今まで作った中で最も知的なモデルであり、世界最高の基盤モデルです。わずか2週間前、更新された2.5 Proのプレビューをリリースし、皆さんがすぐに手に取り、それを使って構築を始められるようにしました。皆さんが作成したものに本当に感銘を受けています。スケッチをインタラクティブなアプリに変換したり、完全な3D都市をシミュレーションしたりするなど、様々な創造的な用途に使われています。
新しい2.5 Proは人気のあるコーディングリーダーボードであるWebDev Arenaでトップの座に立っています。また、教育の専門家と共に構築されたLearnLMモデルファミリーを組み込んだことで、2.5 Proは学習のための最先端モデルにもなりました。そして、LMArenaのすべてのリーダーボードで1位を獲得しています。
2.2 Gemini 2.5 FlashとPro Modelの発表(Demis Hassabis)
Demis Hassabis:Gemini Flashは私たちの最も効率的なワーホースモデルです。開発者の間で信じられないほど人気があり、そのスピードと低コストが愛されています。本日、2.5 Flashの更新版をリリースすることを発表できることを嬉しく思います。
新しいFlashはほぼすべての面で改善され、推論、コード、長いコンテキストなどの主要なベンチマークで向上しています。実際、LMArenaリーダーボードでは2.5 Proに次ぐ2位を獲得しています。
Flashは6月初旬に一般提供され、Proもその後まもなく提供されることを嬉しく発表します。皆さんのフィードバックに基づいて最終調整を行っていますが、現在AI Studio、Vertex AI、Geminiアプリでプレビューを試すことができます。
いつものように、私たちは絶えず最先端技術を前進させることを目指しており、最新の研究成果に興奮しています。詳細を共有するためにTulseeをステージにお招きします。
2.3 開発者向けツールとAPI更新情報(Tulsee Doshi)
Tulsee Doshi:ありがとう、Demis。皆さんのようなデベロッパーがGemini 2.5をより簡単に構築できるようにするための改良点を共有できることにワクワクしています。これらはすべて皆さんのフィードバックに基づいており、機能の強化、セキュリティと透明性の向上、コスト効率の改善、そしてより多くのコントロールを提供します。
まず、Demisが言及した新しい2.5 Flashに加えて、テキスト読み上げ機能の新しいプレビューも導入しています。これらはネイティブオーディオ出力上に構築された初の2話者サポートを備えています。つまり、モデルはより表現力豊かな方法で会話できるようになります。話し方の微妙なニュアンスを捉え、ささやきに切り替えるなどの機能も備えています。これは24以上の言語で動作し、言語間を簡単に切り替えることができます。例えば、モデルは英語で話し始め、途中で別の言語に切り替えて、また元の言語に戻ることができます。しかも同じ声で行えます。これはかなり素晴らしいですよね?
このテキスト読み上げ機能は本日からGemini APIで利用可能です。また、Live APIにも本日より2.5 Flashプレビューバージョンのネイティブオーディオダイアログが追加されます。これにより、より自然なGeminiを使って直接会話体験を構築できます。話者と背景の声を区別できるため、いつ応答すべきかを認識します。LoganとPaigeが開発者向けキーノートでさらに詳しく紹介する予定です。
第二に、間接的なプロンプトインジェクションのようなセキュリティ脅威に対する保護を強化しました。Gemini 2.5は現時点で最もセキュアなモデルとなっています。
また、2.5 ProとFlashの両方に、Gemini APIとVertex AIを通じた思考要約機能を追加しています。思考要約は、モデルの生の思考を取り込み、ヘッダー、主要な詳細、ツール呼び出しなどのモデルアクションに関する情報を含む明確な形式に整理します。これにより、モデルが何を考えているかについて透明性が高まり、高レイテンシのタスクに特に役立ちます。また、デバッグと理解も容易になります。
また、効率性の向上も求められていました。そこで、今日の2.5 Flashはさらに効率的になり、同じパフォーマンスを発揮するためにモデルが使用する必要のあるトークン数を削減し、評価で22%の効率性向上を実現しています。
最後に、コストとレイテンシ対品質のコントロールを提供するThinking Budgets(思考予算)を2.5 Flashで導入しましたが、その反応は素晴らしいものでした。そこで、今後数週間でモデルの一般提供と合わせて、2.5 Proにも思考予算を導入します。思考予算により、モデルが応答する前に考えるために使用するトークン数をより細かく制御できるようになります。あるいは、単純にオフにすることも可能です。
2.4 開発者向けデモ:Three.jsアプリケーション(Tulsee Doshi)
Tulsee Doshi:Demisが言ったように、Gemini 2.5 Proはコーディングにおいて信じられないほど優れています。ここで、あなたがどんなアイデアも実現できる方法をお見せしましょう。
ニューヨーク市のアメリカ自然史博物館に行ったことがあれば、素晴らしい展示が数多くあることをご存知でしょう。それを今日皆さんに紹介するために、Google AI Studioで2.5 Proに写真を共有し、詳細を学べるシンプルなウェブアプリを作ってもらいました。これが今の状態ですが、もっとインタラクティブにしたいと思います。デザインについてはまだアイデアを練っているところですが、いくつか考えがあります。
これは以前にも見たことがあるかもしれません。誰かがナプキンにスケッチした素晴らしいアイデアを持ってきます。PMとして、私はよくこういう立場にいます。標準的な2次元のウェブデザインは一つのことですが、3Dにしたいと考えていました。しかし、3Dへの移行は簡単ではないことがわかりました。シーンの設定、カメラ、照明など、多くの新しい要素について学ぶ必要があります。
幸いなことに、2.5 Proがその助けになります。ここで私がやることは、先ほど見せた球体のイメージを追加し、そのイメージに基づいてコードを更新するよう2.5 Proに依頼するプロンプトを追加することです。
2.5 Proに作業してもらいましょう。ご覧のように、考え始めており、私が依頼したことに基づいて計画を作成しています。そして既存のコードベースに適用していきます。Geminiはマルチモーダルなので、抽象的な球体のスケッチを理解し、美しい3Dアニメーションをコーディングして、私の既存のアプリに適用できます。
これには約2分かかるので、時間の都合上、このキーノートの直前に同じプロンプトで実行した別のタブにジャンプしましょう。これがGeminiが生成したものです。すごい!
私たちは粗いスケッチから直接コードに移行し、複数のファイルを更新しました。実際、37秒間考え、その間に考えた変更と更新したファイルを見ることができます。これはすべてAI Studioで行いました。プロトタイピングが完了したら、Gemini APIキーと共にコードを簡単にデプロイできます。
これが最終的なアプリをChromeで見たものです。これらのアニメーションを見てください。Three.jsライブラリの高度な知識や複雑な3D数学を理解する必要はありませんでした。手作業でこれを行うには膨大な時間がかかっていたでしょうが、スケッチだけで作成することができました。
マルチモーダル性を活用してこの体験をさらに豊かにすることもできます。2.5 Flashを使って、各写真に質問を追加し、もっと詳しく学べるようにしました。でも、もし話せたらどうでしょう?
それがGeminiのネイティブオーディオの活躍する場面です。「これはセンザンコウです。その鱗はあなたの爪と同じケラチンでできています。」
すごいですね。音声が追加されました。この作品を終える前に、2.5 Proが私たちのために特別にコーディングしたもう一つの楽しいレイアウトをお見せします。
このデモの基本コードは、Google AI Studioで誰でも構築できるように公開しています。ぜひ試してみてください。これはGemini 2.5が私たちの構築方法をどのように変えているかの一例であり、ビジョン、音声、コーディングの驚異的な機能をあなた自身のアプリケーションに統合する方法を示しています。
2.5 Proは、お気に入りのIDE上や、Android Studio、Firebase Studio、Gemini Code Assist、そして非同期コーディングエージェントであるJulesなどのGoogle製品で利用できます。
タスクを送信するだけで、Julesがバグの修正や更新などを行います。GitHubと統合され、独自に動作します。Julesは、以前のバージョンのNode.jsの更新など、かつては何時間もかかった大規模コードベースでの複雑なタスクに取り組むことができます。数分でステップを計画し、ファイルを変更するなどが可能です。
本日、Julesがパブリックベータになったことを発表できることを嬉しく思います。誰でもjules.google.comでサインアップできるようになりました。
2.5 Gemini Diffusionモデルの紹介(Tulsee Doshi)
Tulsee Doshi:Demisが言ったように、私たちは常にモデルを改善するための新しいアプローチを革新しており、それには効率性とパフォーマンスの向上も含まれます。拡散技術を先駆的に開発することで、画像と動画の生成に革命をもたらしました。拡散モデルは、ノイズをステップバイステップで洗練していくことで出力を生成する方法を学習します。
今日、拡散の力をテキストに取り入れた最新の研究モデルを紹介します。これにより、数学やコードのコンテキストを含む編集などのタスクに特に優れています。左から右へ生成するだけでなく、解決策を非常に迅速に反復し、生成プロセス中にエラーを修正できるからです。
Gemini Diffusionは、この並列生成を活用して極めて低いレイテンシを実現する最先端の実験的テキスト拡散モデルです。例えば、今日リリースするGemini Diffusionのバージョンは、これまでの最速モデルである2.0 Flash-Liteよりも5倍速く生成しながら、そのコーディングパフォーマンスに匹敵します。
この数学の例を見てみましょう。準備はいいですか?実行!もし瞬きをしたら、見逃してしまったでしょう。
今回は少し速度を落として、モデルが答え39に到達するプロセスを見てみましょう。モデルが解を見つけるために並列的に考え、数式を組み立てていく様子が見えるのは非常に興味深いですね。
このモデルは現在、小規模なグループでテストされています。より高速な2.5 Flash-Liteの導入など、すべてのGeminiモデルでレイテンシを下げるための異なるアプローチに取り組みを続けていきます。
では、Geminiの未来について詳しく話すために、Demisにマイクを戻します。
2.6 Deep Think機能の発表(Demis Hassabis)
Demis Hassabis:ありがとう、Tulsee。私たちはGemini 2.5における思考能力の最前線を探求することに取り組んできました。AlphaGoでの経験から、これらのモデルに考える時間をより多く与えると応答が向上することを知っています。
今日、2.5 Proをさらに強化する新しいモードを導入します。それを「Deep Think(ディープシンク)」と呼んでいます。このモードはモデルのパフォーマンスを限界まで引き上げ、画期的な結果を提供します。
Deep Thinkは、並列技術を含む思考と推論に関する最新の最先端研究を活用しています。これまでのところ、信じられないほどのパフォーマンスを目の当たりにしています。現在、最も難しい数学ベンチマークの一つであるUSAMO 2025で印象的なスコアを獲得しています。また、競争レベルのコーディングのための難しいベンチマークであるLiveCodeBenchでリードしています。そして、Geminiは最初からネイティブにマルチモーダルであるため、これを測定する主要なベンチマークであるMMMUでも卓越していることは驚くことではありません。
2.5 Pro Deep Thinkでフロンティアを定義しているため、さらにフロンティアセーフティ評価を実施し、安全性の専門家からさらに意見を得るために少し時間をかけています。その一環として、広く利用可能にする前に、フィードバックを得るためにGemini APIを通じて信頼できるテスターに提供する予定です。2.5 Pro Deep Thinkの計画については、後ほどJoshがさらに詳しく説明します。
2.7 世界モデルと未来のビジョン(Demis Hassabis)
Demis Hassabis:過去10年間、私たちは現代のAI時代の基盤の多くを築いてきました。今日すべての大規模言語モデルの基盤となっているトランスフォーマーアーキテクチャの先駆的な開発から、AlphaGoやAlphaZeroのようなエージェントシステムまで多岐にわたります。人工知能(AGI)に必要な次の大きなブレークスルーを発明するために、基礎研究の幅と深さをさらに強化し続けています。
Geminiはすでに最高のマルチモーダル基盤モデルですが、私たちが「世界モデル」と呼ぶものに拡張するために懸命に取り組んでいます。これは、脳がするように、世界の側面をシミュレーションすることで計画を立て、新しい経験を想像できるモデルです。
これは、「Theme Park」のようなシミュレーションゲーム向けAIを開発していた初期の頃から、私が常に情熱を持っていたことです。私たちは「Go」や「StarCraft」のような複雑なゲームをマスターするエージェントのトレーニングから、最近では、単一の画像プロンプトから対話可能な3Dシミュレーション環境を生成できるGenie 2モデルまで、この方向に長い間取り組んできました。
これらの能力は、Geminiが世界の知識と推論を使って自然界の物事を表現する方法や、重力、光、材料がどのように振る舞うかなどの直感的な物理学について深い理解を持つ最先端ビデオモデルであるVeoにすでに現れています。
Veoがフレーム間で精度と一貫性をどれほど維持できるかは本当に信じられないほどです。ライフラフトで作られた人物のような、少し創造的なプロンプトでも何をすべきかを理解しています。
物理的環境の理解はロボティクスにとっても非常に重要です。AIシステムは実世界で効果的に動作するために世界モデルを必要とするでしょう。私たちは、ロボットが物をつかんだり、指示に従ったり、新しいタスクにその場で適応したりするなど、役立つことを教える特殊化されたモデル、Gemini Roboticsを微調整しました。今日ここにいる皆さんは、AI Sandboxでロボットを試すことができます。
Geminiを完全な世界モデルにすることは、日常生活で役立ち、あなたがいるコンテキストを理解し、あらゆるデバイスで計画を立てて行動できる新しいタイプのAIを実現するための重要なステップです。これが最終的にGeminiアプリのビジョンであり、それをパーソナル、積極的、かつパワフルなユニバーサルAIアシスタントに変えることです。これはAGIへの道のりにおける重要なマイルストーンの一つです。
これは、昨年Project Astraで最初に探求したビデオ理解、画面共有、記憶などの機能から始まります。過去1年間で、より多くの人々が今日体験できるように、これらの機能をGemini Liveに統合してきました。
もちろん、フロンティアでの新しいイノベーションを絶え間なく改善し探求し続けています。例えば、ネイティブオーディオによって音声出力をより自然にアップグレードし、記憶を向上させ、コンピュータ制御を追加しました。
ユニバーサルAIアシスタントは私たちの日常的なタスクを実行し、面倒な管理業務を処理し、新しい魅力的な推奨事項を提示することで、私たちをより生産的にし、生活を豊かにします。これらの新しい機能についてのフィードバックを信頼できるテスターから現在収集しており、Gemini Live、検索内の新しい体験、開発者向けのLive API、そしてAndroid XRグラスのような新しいフォームファクターにそれらを提供するために取り組んでいます。これについては、今日の後半でさらに詳しく説明します。
私のキャリア全体は、その核心において、AIを使って知識を進歩させ、科学的発見を加速することでした。Google DeepMindでは、長い間、ほぼすべての科学分野にAIを適用してきました。過去1年だけでも、数学から生命科学まで、幅広い分野で大きなブレークスルーを達成しました。銀メダルレベルで数学オリンピアドの問題を解くことができるAlphaProof、研究者と協力して新しい仮説の開発とテストを支援するCoscientist、そして新しい科学的知識を発見し、AI訓練自体を加速するAlphaEvolveを最近リリースしました。
生命科学では、医師の診断を支援する研究システムであるAMIE、生命のすべての分子の構造と相互作用を予測できるAlphaFold 3、そしてAIで創薬プロセスに革命をもたらし、いずれは多くの世界的な疾病の解決に役立つAlphaFoldの研究を基盤とするIsomorphic Labsを構築しました。
わずか数年で、AlphaFoldはすでに科学コミュニティに大きな影響を与えています。世界中の250万人以上の研究者が重要な研究で使用する生物学と医学研究の標準ツールになりました。
AGIに向けて進歩を続けるにつれ、安全かつ責任を持って行われれば、科学的発見を加速し、これまでに発明された最も有益な技術になる可能性があると常に信じてきました。
少し振り返ってみると、ほんの数年前には、今日見ている最先端技術が魔法のようなものに思えたことは驚くべきことです。これらの技術が検索やGeminiなどの製品に新しい体験を提供し、また日常生活で人々を助けるために連携することを見るのは素晴らしいことです。
例えば、最近Airaと提携しました。これは視覚障害者コミュニティが世界をナビゲートするのを支援する会社で、ビデオを通じて人間の視覚通訳者と接続しています。Astra技術を使用して、より多くの人々がこのタイプの支援にアクセスできるようにプロトタイプを構築しました。安全性と信頼性のためにAiraの通訳者が積極的に監督する中、ユーザーからの継続的なフィードバックを得ています。
これと私たちのすべての画期的な取り組みにより、より個人的で、積極的で、強力なAIを構築し、私たちの生活を豊かにし、科学的進歩のペースを加速させ、発見と驚きの新しい黄金時代を導いています。
3 Search(検索)
3.1 AI Overviewsの成長と利用状況(Sundar Pichai)
Sundar Pichai:AIがどのように私たちの永遠のミッションである「世界の情報を整理し、誰もがアクセスして使えるようにする」ことを前進させているのかを見るのは素晴らしいことです。Googleの検索ほどこのミッションを体現している製品はありません。検索は何十年も前から私たちがAIに投資してきた理由であり、人間の好奇心のスケールでその恩恵を届けることができる方法です。Geminiモデルは、Google検索をより知的で、エージェント的で、そしてパーソナライズされたものにするのに役立っています。
進歩の優れた例の一つが、AI Overviewsです。昨年のI/Oでのローンチ以来、200以上の国と地域で毎月15億人以上のユーザーにスケールアップしています。人々がAI Overviewsを使用するにつれて、より良い結果に満足し、より頻繁に検索するようになっています。アメリカやインドのような最大の市場では、AI Overviewsが表示されるタイプのクエリが10%以上成長しています。
特に興奮するのは、この成長が時間とともに増加することです。これは過去10年間で検索において最も成功したローンチの一つです。
AI OverviewsはまたGoogle Lensでのビジュアル検索の成長の最も強力な原動力の一つでもあります。Lensは前年比で65%成長し、すでに今年だけで1000億件以上のビジュアル検索が行われています。
つまり、人々はより多くのクエリを尋ね、また、より複雑なクエリも尋ねています。最新のGeminiモデルにより、AI Overviewsは検索に期待される品質と精度を持ち、業界で最速となっています。
エンドツーエンドのAI検索体験を求める人のために、まったく新しいAIモードを導入しています。これは検索の完全な再考です。より高度な推論により、このような長くて複雑なクエリをAIモードに尋ねることができます。実際、ユーザーは従来の検索の2〜3倍の長さのクエリを尋ねています。さらに、フォローアップの質問でさらに掘り下げることもできます。
これらすべてが今日から検索内の新しいタブとして利用可能です。私はこれを多用しており、検索の使い方が完全に変わりました。そして、本日からAIモードが米国の全ユーザーに提供されることを発表できることを嬉しく思います。
AIモードは、フロンティア機能を検索に最初に導入する場所です。そして今週から、私たちの最も知的なモデルシリーズであるGemini 2.5が検索に導入されます。さらに詳しく説明するために、Lizをお招きします。
3.2 新しいAIモードの導入(Liz Reid)
Liz Reid:ありがとう、Sundar。わずか1年で、人々が検索を使用する方法に大きな変化が起きています。長年にわたり、人々はこのような質問をGoogleに尋ねてきました。そして今、このようなより長い質問、より難しい質問も多数尋ねるようになっています。Sundarが言ったように、そういった質問が大幅に増えています。
彼らはAI駆動の検索ができることを体験しており、私たちのGeminiモデルの高度な機能とウェブと世界の情報に対する検索の比類のない理解を組み合わせています。今日、あなたはどんな質問でも尋ねることができ、より知的で、エージェント的で、パーソナライズされた検索があなたの最も難しい質問に取り組み、タスクを完了するのを助けることをお見せします。
これはGoogle検索の未来であり、情報を超えて知能へと進化した検索です。これはすでにAI Overviewsで実現し始めています。そして、AIモードはこれを次のレベルに引き上げます。
AIモードはGemini 2.5を中核とした変革された検索であり、どんな質問にも対応できる最も強力なAI検索です。そして、Sundarが発表したように、本日からAIモードを米国の全ユーザーに提供開始することに興奮しています。
検索バーから直接、または検索の新しいタブとしてAIモードを見つけることができます。AIモードには私たちの最高のAI機能と能力がすべて搭載されていますが、それ以上のものです。将来の姿を垣間見ることができます。
時間の経過とともに、AIモードの最先端機能や能力の多くを直接コア検索体験に統合していきます。それは今日から始まり、AIモードを駆動するのと同じモデルでAI Overviewsを強化します。そのため、最も難しい質問を直接検索ボックスに持ち込むことができます。
今日はAIモードのツアーをお見せし、それがどのように機能し、どのように改善されているかを紹介します。パーソナルコンテキスト、より深いリサーチ、複雑な分析と視覚化、ライブマルチモダリティ、そして新しいショッピング方法などです。AIモードができることはたくさんあるので、一つずつ見ていきましょう。
まず、AIモードでは、頭に浮かんだことは何でも尋ねることができます。ご覧のように、検索が作業を開始します。レスポンスを生成し、すべてをまとめて提示します。これには、あなたが他の方法では発見できなかったかもしれないコンテンツやクリエイターへのリンク、そして評価などの有用な情報を含む商人やビジネスへのリンクが含まれています。検索はAIを使用して、テキスト、画像、リンク、さらにこのマップなど、UIを動的に調整し、あなたの質問に合わせたものにします。そして、会話形式でフォローアップすることができます。
AIモードは単に情報を提供するだけでなく、検索に全く新しいレベルの知能をもたらしています。これを可能にしているのは、私たちが「クエリファンアウト技術」と呼ぶものです。これについて詳しく説明しましょう。
3.3 クエリファンアウト技術の説明(Liz Reid)
Liz Reid:AIモードがどのように機能するのかを舞台裏からご説明しましょう。根底にあるのは「クエリファンアウト技術」というものです。このシステムの仕組みは非常に革新的です。
検索は、質問が高度な推論を必要とする場合に認識します。そこでカスタムバージョンのGeminiを呼び出し、質問をさまざまなサブトピックに分解します。そして、あなたの代わりに複数のクエリを同時に発行します。完全なウェブ全体を検索し、従来の検索よりもはるかに深く掘り下げます。
また、ナレッジグラフ、ショッピンググラフ、そしてこの例ではローカルデータなど、リアルタイム情報のすべてのデータセットを活用します。これには5億人以上の貢献者からなるMapsコミュニティからの洞察も含まれています。
検索はレスポンスをまとめ、情報品質の高い基準を満たしているかチェックします。もし不足している部分があれば、それを埋めるためにさらに多くの検索を実行します。
つまり、AIモードでは、たった一回の検索でこれらすべてを得ることができます。しかも高速です。
これがAIモードに次に導入されるものを見てみましょう。まずはラボから始まります。近日中に、AIモードはあなたの過去の検索に基づいてパーソナライズされた提案を行い、レスポンスをさらに役立つものにすることができるようになります。
また、Gmailから始まる他のGoogleアプリに接続することもできるようになります。これを「パーソナルコンテキスト」と呼んでいます。AIモードがあなたのものを活用して役立てている場合、それがわかるようになります。
これにより、最近のレストラン予約や検索に基づいて、あなたが屋外席を好むことを理解できます。そしてあなたがギャラリーのニュースレターを購読していることから、町にいる間にチェックできるクールなアート展示を提案します。
それだけではありません。あなたのフライトとホテルの確認がインボックスにあるため、実際にナッシュビルに滞在する期間に合わせたイベントのアイデアが提供されます。多くは宿泊場所の近くにあります。
パーソナルコンテキストがAIモードでどのように検索を本当にあなたのものにし、あなただけのためにカスタマイズされた推奨事項を提供するかがわかります。これは常にあなたの管理下にあり、いつでも接続または切断を選択できます。
パーソナルコンテキストは今夏AIモードに導入される予定です。
3.4 パーソナルコンテキストを活用した検索体験(Liz Reid)
Liz Reid:AIモードに次に導入されるものを見てみましょう。近日中に、AIモードはあなたの過去の検索に基づいてパーソナライズされた提案を行い、レスポンスをさらに役立つものにすることができるようになります。
また、Gmailから始まる他のGoogleアプリに接続することもできるようになります。これを「パーソナルコンテキスト」と呼んでいます。AIモードがあなたのものを活用して役立てている場合、それがわかるようになります。
例えば、「ナッシュビルに行くとき何をすべき?」という質問をした場合を想像してみてください。これにより、最近のレストラン予約や検索に基づいて、あなたが屋外席を好むことを理解できます。そしてあなたがギャラリーのニュースレターを購読していることから、町にいる間にチェックできるクールなアート展示を提案します。
それだけではありません。あなたのフライトとホテルの確認がインボックスにあるため、実際にナッシュビルに滞在する期間に合わせたイベントのアイデアが提供されます。多くは宿泊場所の近くにあります。
パーソナルコンテキストがAIモードでどのように検索を本当にあなたのものにし、あなただけのためにカスタマイズされた推奨事項を提供するかがわかります。これは常にあなたの管理下にあり、いつでも接続または切断を選択できます。
パーソナルコンテキストは今夏AIモードに導入される予定です。
次に、さらに徹底的なレスポンスが必要な質問のために、AIモードに深いリサーチ機能を導入します。
3.5 Deep Search機能の紹介(Liz Reid)
Liz Reid:次に、さらに徹底的なレスポンスが必要な質問のために、AIモードに深いリサーチ機能を導入します。今日でも検索にトピックを深く掘り下げるために来ていただいていますが、これはそれをはるかに深いレベルに引き上げるものです。あまりにも深いので、これを「Deep Search(ディープサーチ)」と呼んでいます。
Deep Searchは、先ほど説明したのと同じクエリファンアウト技術を使用しますが、何倍にも拡大します。あなたの代わりに数十、場合によっては数百もの検索を発行することができます。それはそれらの異なる情報の断片すべてにわたって推論し、わずか数分で専門家レベルの完全に参照されたレポートを作成します。
ウェブ全体へのリンクが含まれているため、簡単に探索し行動を起こすことができます。これはAIモード全体の構築方法の核心部分であり、検索におけるAIの考え方です。
なぜなら、AIがウェブが今まで見たことのない最も強力な発見エンジンになると私たちは信じているからです。人々がウェブが提供するさらに多くのものを発見し、信じられないほど超関連性の高いコンテンツを見つけるのを助けます。
検索がどのようにより知的になっているかを見始めていますね。もっとお見せすることがあります。次はRajanに渡して、AIモードが彼の情熱の一つであるスポーツのために複雑なデータを分析するのをどのように助けるかをご紹介します。
3.6 スポーツデータの複雑な分析(Rajan Patel)
Rajan Patel:ありがとう、Liz。私は野球の大ファンなのですが、最近「トーピード・バット」についての話題が多く出ています。野球に詳しくない方のために説明すると、これはバットの重心をスイートスポットに集中させた新しいデザインのバットです。ご覧のように、これが本当にゲームに影響を与えているかどうかを調査してきました。
そこで、数字が何を示しているのか知りたいと思い、「現在トーピード・バットを使用している注目選手の今シーズンと前シーズンの打率と出塁率を表示して」と質問してみました。
考えてみてください。この質問にはたくさんの要素があります。検索は誰が注目選手なのか、その中で誰がトーピード・バットを使用しているのか、そして彼らの成績を理解する必要があります。
その結果、この読みやすい表を含む有益な回答が得られました。最新の打撃まで継続的に更新されるスポーツデータを使用しているため、これが最新かつ正確であることがわかります。
検索はさらに、シーズンがまだ始まったばかりであることなど、重要なコンテキストも提供してくれます。フォローアップして「これらの選手は今シーズン何本のホームランを打っているか?」と尋ねることもでき、すぐにこのグラフが表示されます。
これはLizが言及したAIモードが各レスポンスに適したUIを動的に生成することに戻ります。検索はこの情報を提示する最良の方法がグラフであると判断し、それを作成しました。まるで自分専用のスポーツアナリストが検索にいるようです。
複雑な分析とデータの視覚化は、スポーツや金融の質問に対して今夏導入される予定です。
3.7 Project Marinerのエージェント機能と検索の統合(Rajan Patel)
Rajan Patel:野球の話をしていたら、もっとゲームに近づきたくなりました。次の試合に近い席で観戦したいのですが、完璧なチケットを見つけるのは面倒な作業です。そこで、Project Marinerのエージェント機能をAIモードに導入することを発表できることを嬉しく思います。
AIモードがどのようにより知的でパーソナライズされるようになってきたかをすでに見てきましたが、ここから検索がよりエージェント的になっていく様子が見えてきます。検索はあなたの管理下にありながらも、作業の負担を軽減することができます。
例えば、「今週土曜日のレッズの試合のローワーレベルで手頃な価格のチケットを2枚見つけて」と言ってみましょう。検索はクエリファンアウトを開始し、複数のサイトをチェックして何百もの潜在的なチケットオプションを分析します。私が依頼したすべての条件で入力フォームを埋めるという面倒な作業を行います。
そして、結果全体を推論して、リアルタイムの価格と在庫を分析し、すべてをまとめます。そこで、タスク完了です。十分な情報に基づいた決定ができるように、役立つコンテキストとともに素晴らしいチケットオプションが表示されます。
これらの席は良い眺めを持ち、手頃な価格であることがわかります。検索は多くのステップをスキップすることを手伝い、チェックアウトを完了するために直接リンクしてくれます。これでチケットは確保されました。
このようなタスク支援は近日中に導入され、イベントチケット、レストラン予約、ローカルサービスの予約などから始まります。
3.8 Search Liveのマルチモーダル機能(Rajan Patel)
Rajan Patel:次に、マルチモダリティについて話しましょう。私たちは、それが実際に「もの」になる前から、マルチモーダル検索の道を切り開いてきました。2017年に、このステージでGoogle Lensを紹介しました。それ以来、見ているものを検索する方法をさらに簡単にしてきました。Google Lensで写真を撮るか、単に検索を囲むだけで、AIオーバービューを即座に得ることができます。
Sundarが言及したように、ビジュアル検索は非常に人気です。今日、Lensは毎月15億人以上のユーザーを持っていることをお知らせできることを嬉しく思います。
今、私たちはProject Astraのライブ機能をAIモードに導入することで、マルチモダリティにおける次の大きな飛躍を遂げています。
自分が何を意味しているのかを話しながら実際に見せるほうがはるかに簡単な質問について考えてみてください。DIYの家の修理、難しい学校の宿題、または新しいスキルを学ぶなどです。これを「Search Live(サーチライブ)」と呼んでいます。カメラを使用して、検索はあなたが見ているものを見て、リアルタイムでやり取りしながら役立つ情報を提供することができます。それは検索とビデオ通話をするようなものです。
私には3人の子供がいて、彼らは毎分100万の質問をします。夏が近づいているので、チームと私はSearch Liveを究極のテストに使ってみることにしました。つまり、私たちと子供たちが何か新しいことに挑戦するのを手伝うのです。
先週末、家族と一緒に自宅で録画しました。見てみましょう。
[ビデオでは、様々な家族がSearch Liveを使って科学実験、植物の栽培、自転車のタイヤの空気入れ、イチゴの選び方など、様々なアクティビティをリアルタイムで支援してもらう様子が示されています。子供たちが「エレファントトゥースペースト」という科学実験をする際に、Search Liveが手順を教えたり、改善方法を提案したりする場面や、イチゴの選び方を教えてもらう場面、そして最後には服についたイチゴの染みの落とし方まで教えてもらう様子が映されています。]
3.9 ショッピング体験の強化(Vidhya Srinivasan)
Vidhya Srinivasan:AIモードでは、Googleでのショッピングを支援するために新しいレベルの知能を提供しています。先ほど聞いたように、AIモードはウェブからの情報と私たちのリアルタイムデータを取り込みます。
この場合、それはGoogle Imagesのビジュアルインスピレーションと、世界で最も包括的な製品と小売業者のセットであるショッピンググラフからの情報を意味します。ショッピンググラフには、常に更新される500億以上の製品リストがあります。これらがどのように組み合わさるかをお見せしましょう。
私はリビングルームに新しいラグを探しています。「ライトグレーのソファがあり、部屋を明るくするラグを探しています」と言ってみましょう。まず必要なのはビジュアルなインスピレーションです。
検索は私のためにパーソナライズされた、閲覧可能な画像のモザイクと購入可能な製品を動的に生成します。お気に入りのブランドのラグといくつかのモダンなオプションが表示されています。私がよくそのスタイルのものを検索するからです。
これらは素敵ですが、ほとんどは私の家では一日ももたないことがわかっています。そこで「活発な子供が4人いて、友達を呼ぶことが多いです」と追加します。
検索はこれがたくさんの汚れを意味することを理解し、耐久性のある素材で作られた、パイルが低く洗えるラグを推奨し、購入できる製品をいくつか提案してくれます。でも私はラグについてあまり知りません。幸い、検索は考慮すべきことをいくつか指摘してくれます。このような役立つフォローアップにより、数日かかる調査が数分に短縮されます。
AIモードのこの新しい体験が、あなたのすべてのショッピングニーズにどれほど役立つか想像できるでしょう。
夏用に新しいドレスがほしいと思っています。検索はいくつか素晴らしいオプションを示してくれましたが、ここでオンラインショッピングの古典的なジレンマに直面しています。これらのスタイルが自分にどう見えるのかまったくわかりません。
そこで、服を仮想的に試着できる新しい「トライオン(試着)」機能を導入します。これにより、スタイルがどのように見えるかを仮想的に確認できるので、感覚をつかむことができます。ライブデモをお見せしましょう。
たくさんのドレスを見てきましたが、このブルーのドレスが本当に気に入りました。試着するためにこのボタンをクリックします。写真をアップロードするように求められ、カメラロールに移動します。たくさんの写真がありますが、全身で私の姿がはっきり見える写真を選びます。そして処理が始まります。
処理中に、舞台裏で何が起こっているかをお見せします。スケールで機能する試着体験を作成するには、人体とその上の服装の深い理解が必要です。これを実現するために、ファッション専用にトレーニングされたカスタム画像生成モデルを構築しました。
処理が完了しました!これは生きているデモが機能するときの良さですね。
このテクノロジーがどのように機能するかについてもう少し説明します。高度な3D形状理解を導入しており、これにより形状と深さをより正確に認識できるようになり、人体をより良く視覚化するのに役立ちます。
私たちの試着体験はあなたの写真で機能します。あなたのように見えない事前に撮影された画像やモデルではありません。そして、あなたが興味を持っている服に関しては、AIモデルはこの素材がどのように折り畳まれ、伸び、人々の上にどのようにドレープするかを示すことができます。
このテクノロジーは業界でスケールにおいて最先端のものです。数十億のアパレル製品が幅広い人々にどのように見えるかを視覚化することができます。ここで見ていただけるように、このドレスが私にどのように見えるかを本当に感じることができます。
これでドレスに決めました。検索は私が望む価格でそれを見つけ、新しいエージェントチェックアウト機能で私のために購入することもできます。
ドレスに戻りましょう。価格を追跡するためにこのボタンをクリックします。サイズを選び、目標価格を設定する必要があります。約50ドルに設定しましょう。追跡が始まりました。検索はドレスが利用可能なウェブサイトを継続的にチェックし、価格が下がったら知らせてくれます。
ここでライブデモモードから切り替え、I/Oの魔法をかけましょう。価格が下がったと仮定しましょう。その場合、このような通知が表示されます。
購入したい場合、チェックアウトエージェントが正しいサイズと色をカートに追加します。すべての支払いと配送情報を確認するか、エージェントに単にあなたのために購入させるかを選択できます。
ワンタップで、検索はGoogle Payを使用して安全に購入します。もちろん、これはすべてあなたの指示の下で行われ、インスピレーションから購入まで、ショッピングの最高の体験をAIの最高の体験と組み合わせたものが検索にあります。
新しいビジュアルショッピングとエージェントチェックアウト機能は今後数ヶ月間にロールアウトされ、今日からラボでルックを試着し始めることができます。
4 Gemini
4.1 パーソナル、積極的、強力なAIアシスタントとしてのGemini紹介(Josh Woodward)
Josh Woodward:長年にわたり、人々は単に応答するだけでなく理解する、待つだけでなく予測するAIアシスタントを構築することを追求してきました。あなたに力を与える真のユニバーサルアシスタントです。
そして今日、私たちはその未来に向けて新たな一歩を踏み出します。Geminiアプリを使ってそこに到達しようとしています。私たちの目標は、Geminiを最もパーソナルで、積極的で、強力なAIアシスタントにすることです。そしてそれはパーソナルであることから始まります。
AIアシスタントが本当にあなたのもの、本当にあなただけのものだとしたらどうでしょうか?あなたの好み、あなたのプロジェクト、あなたの世界を学び、あなたは常に運転席にいるアシスタント。そして、あなたの許可があれば、関連するGoogle情報をそれと共有し、それをあなたの延長にすることができます。これを「パーソナルコンテキスト」と呼びます。
私たちはすでに検索履歴をGeminiと接続できるようにしており、それによって過去にレシピを検索したことを理解し、このようなレスポンスを作成できるようになっています。間もなく、Geminiにさらに多くのパーソナルコンテキストをGoogle全体から追加できるようになり、それがユニークに役立つものになります。
これをオンにするか選択でき、常に体験をコントロールできます。情報を表示および管理したり、異なるGoogleアプリを接続および切断したりできます。このレベルのパーソナライゼーションにより、より積極的なAIアシスタントを手に入れることができ、これは多くのことを変えます。
今日、ほとんどのAIは反応的です。あなたが尋ね、それが答えます。しかし、あなたが尋ねる前でさえ、何が来るかを見て、準備するのを助けることができたらどうでしょうか?
あなたが学生だとイメージしてください。大きな物理学の試験が迫っています。慌てる代わりに、Geminiはそれをカレンダーで1週間前に見て、単に思い出させるだけでなく、あなたの資料、教授からのノート、写真、手書きのノートから作成されたパーソナライズされたクイズを提供します。それは単に役立つだけでなく、魔法のように感じるでしょう。
そして、その先のステップを想像してください。Geminiがあなたの興味に基づいてカスタム説明ビデオを作成し、トピックをより良く理解できるようにします。この場合、Geminiは私がサイクリングに興味があることを知っているので、熱力学の概念を私が理解できる類推を使って説明します。
これがGeminiの向かう先です。そしてそれはすべて、強力な機能と基盤となるモデルによって可能になります。先月、最新の2.5 Proモデルをgeminiアプリにリリースしました。それは単なるアップグレードではなく、大きな飛躍でした。人々はアプリで驚くべきことをしています。
彼らは単にコードを書くだけでなく、数分で完全な機能を備えたウェブサイトや全体のゲームを発明しています。彼らは物事を思考から実現しています。そして、初めてソフトウェアを書いたり、Veoモデルでビデオを作成したり、画像を生成して編集したりするのは楽しいことです。これは誰もが持つ新しいスーパーパワーです。
これら3つのP—パーソナル、積極的、そして強力—これらはAIアシスタントの最前線です。そして2.5 Proのおかげで、すべての3つにおいて大きな進歩を遂げています。では、これらすべてがGeminiアプリでどのように実現されるかについてもっと話しましょう。
今日、5つのことを発表します。まず、Gemini Liveについて話しましょう。
4.2 Gemini Liveの機能拡張(Josh Woodward)
Josh Woodward:人々は会話がどれほどインタラクティブで自然かに驚いています。45以上の言語、150以上の国で機能します。とても直感的で魅力的で、会話はアプリでのテキスト会話の5倍長くなっています。個人的な経験から言えば、朝の通勤中に物事について話し合うのに最適です。
Sundarが言及したように、Gemini Liveにはカメラと画面共有機能が含まれるようになりました。どちらも信じられないほど素晴らしいものです。これらすべてが本日からAndroidとiOS上のGeminiアプリで無料で利用可能になります。
そして今後数週間で、Calendar、Maps、Keep、Tasksなどのお気に入りのアプリにGemini Liveを接続できるようになります。つまり、すぐにカメラを向けてカレンダーに招待を追加するように依頼することができ、それが完了します。
あるいは、ショッピングリストのためにルームメイトの筆跡を解読する必要がある場合、Gemini Liveはそれらの落書きをGoogle Keepの整理されたリストに変換できます。
Gemini Liveのロードマップには、エキサイティングなものがたくさんあります。それらはすべてProject Astraでプロトタイプ化されており、先ほど見ていただきました。これらのアイデアが成熟するにつれて、Gemini Liveに統合して全員に提供していきます。
GeminiとAndroidは密接に連携しているため、これらの体験の多くはAndroidエコシステム全体で優れて機能します。さらなる情報にご期待ください。
リアルタイムのインタラクションは素晴らしいですが、時には深く掘り下げて複雑なことを解明する必要があります。ここでDeep Researchの出番です。
4.3 Deep ResearchとCanvasの更新(Josh Woodward)
Josh Woodward:リアルタイムのインタラクションは素晴らしいですが、時には深く掘り下げて複雑なことを解明する必要があります。ここでDeep Research(ディープリサーチ)の出番です。
本日より、Deep Researchではリサーチエージェントを導入するためにあなた自身のファイルをアップロードできるようになります。これは最も要望の多かった機能の一つです。そして近日中に、Google DriveとGmail全体で研究できるようになり、そこから情報を簡単に取り込むこともできるようになります。
例えば、宇宙を移動する彗星の科学についての、この信じられないほど詳細なレポートがあるとします。この素晴らしさをすべて消化しやすい形に凝縮し、魅力的で共有可能なものにするにはどうすればよいでしょうか?ここでCanvas(キャンバス)が役立ちます。
Canvasは共創のためのGeminiのインタラクティブなスペースです。Canvasでは、ワンタップでそのレポートを動的なウェブページ、インフォグラフィック、役立つクイズ、さらには45言語でカスタムポッドキャストなど、さまざまな新しいものに変換できるようになりました。
しかし、さらに進めたい場合は、望みどおりの体験を得るために、必要なだけやり取りしながら、Canvasでさまざまな素晴らしいものをコーディングすることができます。私たちのGooglerの一人が、作りたいものを説明し、Geminiと協力して完璧にするだけで作成したこのインタラクティブな彗星シミュレーションをご覧ください。
このようなアプリを共有できるようになり、他の人も簡単に参加して表示したり、変更したり、リミックスしたりできます。これは何でも変換する力であり、Geminiを使用する全く新しい方法です。
Geminiを今日使用できるもう一つの新しい方法もあります。Chrome内のGeminiを紹介します。これはデスクトップでウェブを閲覧する際に利用できるAIアシスタントになります。
素晴らしいのは、これを使用すると、自動的に表示しているページのコンテキストを理解することです。そのため、質問があれば答えることができます。
特に、このキャンプ用品のウェブサイトのような長いページでレビューを比較するのに最適だと思っています。Chrome内のGeminiは今週からアメリカのGeminiサブスクライバーに提供開始する予定です。
4.4 ChromeブラウザへのGemini統合(Josh Woodward)
Josh Woodward:Geminiを今日使用できるもう一つの新しい方法もあります。Chrome内のGeminiを紹介します。これはデスクトップでウェブを閲覧する際に利用できるAIアシスタントになります。
素晴らしいのは、これを使用すると、自動的に表示しているページのコンテキストを理解することです。そのため、質問があれば答えることができます。
特に、このキャンプ用品のウェブサイトのような長いページでレビューを比較するのに最適だと思っています。ページ内の情報を理解し、製品や評価について質問すると、複数のレビューやスペック情報から要約や比較を提供してくれます。
例えば、「どのテントが最も設置が簡単?」「ハイキングに最適な寝袋は?」といった質問に、ページのコンテキストを考慮して回答してくれます。これにより、長い製品説明やレビューを読み込む時間を節約でき、意思決定をサポートしてくれます。
Chrome内のGeminiは今週からアメリカのGeminiサブスクライバーに提供開始する予定です。
さて、いくつかのクイズを解いたり、Gemini Liveと話したり、彗星について学んだり、キャンプ場について調べたりしましたが、今度は何かを作成する時間です。
4.5 画像生成モデルImagen 4の導入(Josh Woodward)
Josh Woodward:本日から、最新かつ最も高性能な画像生成モデルをGeminiアプリに導入します。それはImagen 4と呼ばれ、大きな飛躍です。
画像はより豊かになり、より微妙な色合いときめ細かい詳細を持っています。異なるショットの影、写真に現れる水滴などが表現できます。これらのモデルの周りで多くの時間を過ごしてきましたが、このモデルと進化が良いものから素晴らしいものへ、そして見事なものへと進んだと言えます。
Imagen 4はテキストとタイポグラフィにおいても格段に優れています。以前は、見た目は良いけれどもテキストの追加が常にうまくいくとは限らないものを作成していたかもしれません。
これをご覧ください。音楽フェスティバルのポスターを作成したいとします。Chromeの恐竜を大きな見出しにしましょう。Imagen 4はテキストとスペルを正確にするだけでなく、恐竜の骨をフォントに使用したり、間隔、フォントサイズ、このような素晴らしいポスターに見えるようなレイアウトを考えるなど、創造的な選択をしています。
つまり、画像の品質は高く、速度は速く、テキストは良くなっています。これらすべてにより、ポスター、パーティの招待状、その他何でも作ることができます。そして、Geminiのネイティブ画像生成により、これらの画像をアプリ内で簡単に編集することもできます。
また、Imagen 4の超高速バージョンも作成しました。皆さんがそれを手に入れるのを待ちきれません。実際、これは以前のモデルよりも10倍速いので、多くのアイデアをすばやく繰り返すことができます。
最後にもう一つお見せしたいものがあります。画像は信じられないほど素晴らしいですが、時には動きと音が全体の物語を伝えるために必要です。
4.6 ビデオ生成モデルVeo 3の発表(Josh Woodward)
Josh Woodward:昨年12月、Veo 2がリリースされ、業界のビデオ生成の定義を変えました。そして、Demisの昨日の「じゅうじゅう焼ける玉ねぎ」の投稿を見た人なら、私たちが何か新しいものを準備していたことがわかるでしょう。
今日、私たちの最新の最先端モデルであるVeo 3を発表できることを嬉しく思います。そして、本日からこのステージで紹介されている他の多くのものと同様に、すぐに利用可能になります。
視覚的な品質はさらに向上し、物理学の理解も強化されていますが、これが大きな飛躍です。Veo 3はネイティブオーディオ生成機能を備えています。つまり、Veo 3は効果音、背景音、そして会話を生成できるということです。今、あなたはプロンプトを与えるだけで、キャラクターが話すことができます。
森の中の賢い老フクロウと緊張した若いアナグマを見てみましょう。聞いてみてください。
[ビデオクリップ:フクロウとアナグマのキャラクターが森の中で会話している。アナグマが「彼らは今日ボールを置いていきました。私がジャンプできる高さよりも高くはねました」と言い、フクロウが「おお、それはどんな魔法なのだろう?」と応答している]
かなりクールですよね?Veoは森の音だけでなく、会話も追加しました。オーディオとビデオの生成を組み合わせた新しい創作の時代に入りつつあり、それは信じられないほどリアリスティックです。品質があまりにも良いので、このような男と一緒にボートに乗っているような感覚になります。
[ビデオクリップ:海の上のボートに乗った男性が「この海、それは力、野生の、手なずけられていない力だ。そして彼女は一つ一つの壊れる光であなたの櫂を命令する」と詩的に語っている]
写真のようなリアルさ、感情、彼の口の動き、そして背景の海—Veoが強力な創造的ツールとして進化し続ける速さは信じられないほどです。
私たちはVeoで何が可能かを想像し、これを正しく行うために映画業界と密接に協力してきました。それについては数分後にさらに詳しく聞くことになります。
これがGeminiの周りで起こっていることです。本日から、Gemini Liveの機能がAndroidとiOS全体で無料で展開されます。Deep ResearchとCanvasは今までで最大のアップデートを受けています。多段階のアクションのための新しいエージェントモードが登場します。これについては先ほど聞きました。ウェブナビゲーションを支援するChrome内のGeminiを導入しています。そして、新しいImagen 4とVeo 3モデルを使用して、素晴らしい画像とサウンド付きビデオを作成できます。
これらすべてがGeminiアプリに統合され、最もパーソナルで、積極的で、強力なAIアシスタントを提供するために取り組んでいます。そして今、これらの生成モデルがクリエイティブな表現をどのように解放しているかについて、さらに詳しく説明するために、Jasonにマイクを渡します。
5 Generative Media(生成メディア)
5.1 生成メディアの紹介(Jason Baldridge)
Jason Baldridge:ありがとう、Josh。あなたがクリエイターであれ、ミュージシャンであれ、映画製作者であれ、生成メディアは創造性の境界を拡大しています。最初から芸術コミュニティと密接に協力することで、彼らの創造的プロセスを強化する技術を構築し続けています。
例えば、私たちはミュージシャンと協力して音楽AI Sandboxを開発しました。これは、プロフェッショナルが私たちの生成音楽モデルLyriaの可能性を彼らの作品で探求するためのツールです。グラミー賞を受賞した伝説的な歌手兼作曲家、Shankar Mahadevanが音楽AI SandboxとLyriaを活用する様子を見てみましょう。
[ビデオクリップでは、Shankar Mahadevanが音楽AI Sandboxを使用して曲を作り上げる様子が示されています。彼は「Sandboxを使うのは素晴らしい。私たちは要求を入力し、それがベッドを提供してくれました。そのベッドを使って、この曲を作り上げました」と説明しています。ビデオには彼がボーカライズしている場面と、「ミュージシャンにとって、それはとても刺激的なツールです。あなたがドアを開けると、そこに別の部屋があることがわかります。そして、もう一つのドアを開けると、そこにもう一つ部屋があります。AIがそれを可能にしているのです」と語っている場面が含まれています]
素晴らしいですね。最近、高品質の音楽とプロフェッショナルグレードのオーディオを生成できるLyria 2をリリースしました。音楽はメロディアスで、ソロや合唱団のボーカルがあります。聞いていただいたように、表現力豊かで豊かな音楽を作り出します。
[音楽クリップが再生されている]
Lyria 2は今日、企業、YouTubeクリエイター、ミュージシャン向けに利用可能です。
この協力へのフォーカスは、私たちが構築するものだけでなく、どのように構築するかにも及んでいます。現在、AI生成画像を検出することは、個人や組織にとって容易ではありません。技術が向上し、音楽、オーディオ、画像、ビデオがよりリアルになるにつれて、これはますます真実になるでしょう。
そこで、私たちはこの分野での革新を続けています。2年前、SynthIDを先駆的に開発しました。これは生成メディアに目に見えないウォーターマークを埋め込むものです。現在までに100億以上のコンテンツにウォーターマークが付けられています。
また、より多くのコンテンツにSynthIDでウォーターマークが付けられ、より多くの組織がそれを検出できるように、パートナーシップを拡大しています。最後に、ウォーターマークの検出もより簡単にしています。
新しいSynthIDディテクターは、画像、オーディオトラック、テキスト、ビデオがSynthIDを含んでいるかどうかを識別できます。それが全体にあるか、一部だけにあるかに関わらずです。今日からこれを初期テスターに提供開始しています。
私たちの協力努力は、Veoを映画製作ツールとして探求するのにも役立ちました。最近、ビジョナリーディレクターのDarren Aronofskyと彼の新しいストーリーテリングベンチャーであるPrimordial Soupと提携し、ストーリーテラーのニーズを満たすためにVeoの機能を形作りました。イノベーションの運転席に芸術家を置くのです。
一緒に、世界最高のビデオ生成モデルを一流の映画製作者の手に委ね、より創造的で感情的なストーリーテリングのためのツールとして技術の境界を押し広げています。
パートナーシップによる3つの短編映画の最初のものは、監督Eliza McNittの「Ancestra」です。一部をご覧ください。
[ビデオクリップでは、Eliza McNittが「Ancestra」の制作過程について語っています。彼女は「映画は常に人々を互いの物語とつなげる深く人間的な行為であり、私たちを自分の経験から引き離して別の旅に連れて行く能力を持っています。それは決して変わりません」と説明しています。この映画は「宇宙の歴史全体を横断する物語ですが、実際には母親と、彼女の子供が心に穴を持って生まれたときに何が起こるかについてのものです」と彼女は述べています。「感情的なパフォーマンスを撮影しましたが、その後、別の方法では捉えられないビデオを生成しました」とも言及しています]
素晴らしい作品ですね。Elizaは生のアクションパフォーマンスとVeoによって生成されたビデオを組み合わせました。顕微鏡的な世界、宇宙的な出来事、そして新生児としての彼女自身などです。このアプローチにより、完全に新しいストーリーテリングの可能性が開かれ、Elizaは深く個人的な物語に映画的なスケールと感情をもたらすことができました。
このパートナーシップはまた、Veoの機能をElizaのようなストーリーテラーのニーズに合わせて形作るのにも役立ちました。映画製作者向けに新しい機能を構築しました。ビデオを作成する際、与えられた材料(キャラクター、シーン、スタイルなど)を使用し、それらを一貫して保持します。
あるいは、Veoに指示を出し、具体的なカメラの指示を与え、特定の経路に沿って撮影させることもできます。これらの機能は、映画製作者がVeoで自分のアイデアを流暢に表現するのに役立ちます。
さらに一歩進んでみました。詳しくお話しするために、Joshをステージに呼び戻しましょう。
5.2 Lyria 2音楽生成AIの紹介(Jason Baldridge)
Jason Baldridge:例えば、私たちはミュージシャンと協力して音楽AI Sandboxを開発しました。これは、プロフェッショナルが私たちの生成音楽モデルLyriaの可能性を彼らの作品で探求するためのツールです。グラミー賞を受賞した伝説的な歌手兼作曲家、Shankar Mahadevanが音楽AI SandboxとLyriaを活用する様子を見てみましょう。
[ビデオクリップでは、Shankar Mahadevanが音楽AI Sandboxを使用して曲を作り上げる様子が示されています。彼は「私はShankar Mahadevanです。音楽作曲家、歌手、プロデューサー、そして幸せな人間です」と自己紹介し、続けて「Sandboxを使うのは素晴らしい。私たちは要求を入力し、それがベッドを提供してくれました。そのベッドを使って、この曲を作り上げました」と説明しています。彼がボーカライズしている場面や、「ミュージシャンにとって、それはとても刺激的なツールです。あなたがドアを開けると、そこに別の部屋があることがわかります。そして、もう一つのドアを開けると、そこにもう一つ部屋があります。AIがそれを可能にしているのです」と語っている場面が含まれています]
素晴らしいですね。最近、高品質の音楽とプロフェッショナルグレードのオーディオを生成できるLyria 2をリリースしました。音楽はメロディアスで、ソロや合唱団のボーカルがあります。聞いていただいたように、表現力豊かで豊かな音楽を作り出します。
[音楽クリップが再生され、Lyria 2によって生成された表現力豊かな音楽が流れています]
Lyria 2は今日、企業、YouTubeクリエイター、ミュージシャン向けに利用可能です。
5.3 SynthIDによるAI生成コンテンツのウォーターマーク技術(Jason Baldridge)
Jason Baldridge:この協力へのフォーカスは、私たちが構築するものだけでなく、どのように構築するかにも及んでいます。現在、AI生成画像を検出することは、個人や組織にとって容易ではありません。技術が向上し、音楽、オーディオ、画像、ビデオがよりリアルになるにつれて、これはますます真実になるでしょう。
そこで、私たちはこの分野での革新を続けています。2年前、SynthIDを先駆的に開発しました。これは生成メディアに目に見えないウォーターマークを埋め込むものです。現在までに100億以上のコンテンツにウォーターマークが付けられています。
また、より多くのコンテンツにSynthIDでウォーターマークが付けられ、より多くの組織がそれを検出できるように、パートナーシップを拡大しています。最後に、ウォーターマークの検出もより簡単にしています。
新しいSynthIDディテクターは、画像、オーディオトラック、テキスト、ビデオがSynthIDを含んでいるかどうかを識別できます。それが全体にあるか、一部だけにあるかに関わらずです。今日からこれを初期テスターに提供開始しています。
SynthIDは、AIで生成されたコンテンツに見えないデジタル署名を埋め込むことで、透明性と責任を確保します。これにより、生成AI技術の責任ある利用が促進され、偽情報の拡散や権利侵害などのリスクを軽減できます。また、クリエイターやメディア組織がAI生成コンテンツを容易に識別できるようになり、デジタルメディアの信頼性を高めることができます。
5.4 映画製作とVeoの活用事例(Jason Baldridge)
Jason Baldridge:私たちの協力努力は、Veoを映画製作ツールとして探求するのにも役立ちました。最近、ビジョナリーディレクターのDarren Aronofskyと彼の新しいストーリーテリングベンチャーであるPrimordial Soupと提携し、ストーリーテラーのニーズを満たすためにVeoの機能を形作りました。イノベーションの運転席に芸術家を置くのです。
一緒に、世界最高のビデオ生成モデルを一流の映画製作者の手に委ね、より創造的で感情的なストーリーテリングのためのツールとして技術の境界を押し広げています。
パートナーシップによる3つの短編映画の最初のものは、監督Eliza McNittの「Ancestra」です。一部をご覧ください。
[ビデオクリップでは、Eliza McNittが「Ancestra」の制作過程について語っています。彼女は「映画は常に人々を互いの物語とつなげる深く人間的な行為であり、私たちを自分の経験から引き離して別の旅に連れて行く能力を持っています。それは決して変わりません」と説明しています。この映画は「宇宙の歴史全体を横断する物語ですが、実際には母親と、彼女の子供が心に穴を持って生まれたときに何が起こるかについてのものです」と彼女は述べています。
彼女は「感情的なパフォーマンスを撮影しましたが、その後、別の方法では捉えられないビデオを生成しました」と説明し、「母親が赤ちゃんの指を握っているシーンを作りたい」と表現しています。Darren Aronofskyは「これらのモデルの強みと限界を見て、それらをストーリーテリングツールに形作ろうとすることは非常に興味深いことでした」と述べています。
映画の一部では、緊急のC-セクションや、「あなたの前に来たすべての生き物から、あなたが始まることができるように死んだすべての星から」という感動的なナレーションが含まれています。]
素晴らしい作品ですね。Elizaは生のアクションパフォーマンスとVeoによって生成されたビデオを組み合わせました。顕微鏡的な世界、宇宙的な出来事、そして新生児としての彼女自身などです。このアプローチにより、完全に新しいストーリーテリングの可能性が開かれ、Elizaは深く個人的な物語に映画的なスケールと感情をもたらすことができました。
このパートナーシップはまた、Veoの機能をElizaのようなストーリーテラーのニーズに合わせて形作るのにも役立ちました。映画製作者向けに新しい機能を構築しました。ビデオを作成する際、与えられた材料(キャラクター、シーン、スタイルなど)を使用し、それらを一貫して保持します。
あるいは、Veoに指示を出し、具体的なカメラの指示を与え、特定の経路に沿って撮影させることもできます。これらの機能は、映画製作者がVeoで自分のアイデアを流暢に表現するのに役立ちます。
さらに一歩進んでみました。詳しくお話しするために、Joshをステージに呼び戻しましょう。
5.5 Flow(映像制作ツール)の発表(Josh Woodward)
Josh Woodward:ありがとう、Jason。クリエイティブコミュニティとの協力に基づいて、クリエイティブのための新しいAI映画製作ツールを構築してきました。Veo、Imagen、Geminiの最高のものを組み合わせたツールで、クリエイティブによってクリエイティブのために構築されたものです。
これは、クリエイティブゾーンに没頭して時間がゆっくり流れるあの魔法のような感覚にインスパイアされています。私たちはこれを「Flow(フロー)」と呼び、本日ローンチします。
どのように機能するかをお見せしましょう。私が取り組んでいるプロジェクトに入ってみましょう。私たちの主人公である祖父が、羽のある友人の助けを借りて飛行車を作っています。これらは私の材料です - 老人と彼の車です。ツールにあなた自身の画像を簡単にアップロードできますし、あるいはImagen(これは直接組み込まれています)を使用してその場で生成することもできます。説明するだけでカスタムゴールドのギアシフトを作成できます。
次に、これらのクリップをすべて組み立て始めることができます。単一のプロンプトで、非常に正確なカメラコントロールを含め、望むものを説明できます。Flowがすべてを配置します。シーンビルダーで反復し続けることもできます。
ここからが本当にエキサイティングになります。シーンの次のショットをキャプチャしたい場合は、プラスアイコンをクリックして次のショットを作成するだけです。次に何が起こってほしいかを説明できます。例えば、バックシートに10フィートの鶏を追加するなど、そしてFlowが残りを行います。キャラクターの一貫性、シーンの一貫性、それはただ機能します。
もし何かがあまり正しくなければ、問題ありません。他のビデオツールと同様に、戻って、うまく機能していない場合はトリミングすることができます。しかしFlowは反対方向にも機能します。クリップを拡張することもできます。そのため、目指していた完璧なエンディングを手に入れることができます。
必要なすべてのクリップを手に入れたら、ファイルをダウンロードし、お気に入りの編集ソフトウェアに取り込み、Lyriaからの音楽を追加できます。そして今、老人はついに彼の飛行車を手に入れました。
[ビデオでは、老人が飛行車に乗って飛び立つ様子が映し出されています]
かなり素晴らしいですね。Flowを形作るのを手伝ってくれたAI映画製作者たちから、それを使用する感覚と、彼らがそれをさらに良くしている方法について、ほんの少し言葉を聞いてみましょう。
[ビデオでは、映画製作者たちがFlowでの創作体験について語っています。「正しい道にいるかわからないけれど、それを見つけようとしている」「もう試していない、ただ行動している」「すべてのピースが所定の位置に落ち始める」「頭の中ではかなり明確に見えている」「可能性のフラッシュが見える、ほとんど次元を旅しているかのように」「物語に何通りもの終わり方を持たせることができる」「作品はレンガを一つ一つ積み上げるように構築されるのではなく、自発的な庭のように咲く」「強制しているのではなく、ただ見つけているだけ」など、クリエイティブプロセスについての洞察が共有されています]
これらの映画製作者が信じられないビジョンを実現し、構築し、創造するという感覚について話すのを聞くのは素晴らしいことです。それこそが、今日あなたの手に渡したいと思っているものです。
そこで、今日のAIサブスクリプションプランをアップグレードすることを嬉しく思います。Google AI Proとまったく新しいGoogle AI Ultraがあります。
Pro Planでは、無料版と比較して高いレート制限と特別な機能を備えた、AI製品の完全なスイートを利用できます。これには、以前はGemini Advancedとして知られていたGeminiアプリのPro版が含まれます。
そして、Ultraプランがあります。これは先駆者、パイオニア、Google AIの最先端を望む人々のためのものです。このプランは最高のレート制限と、Google全体の新機能や製品への最も早いアクセスを提供します。今日からアメリカで利用可能で、間もなく世界中に展開される予定です。
このUltraプランはGoogle AIのVIPパスと考えることができます。したがって、Ultraサブスクライバーであれば、巨大なレート制限と、準備ができたらGeminiアプリでの2.5 Pro Deep Thinkモードへのアクセスが得られます。
今日からVeo 3を搭載したFlowへのアクセスも得られます。また、YouTube Premiumと大量のストレージも付いてきます。これらの新しいGoogle AIプランで、あなたが何を構築し、創造し、発見するのかを見るのが待ちきれません。
5.6 Google AI ProとGoogle AI Ultraサブスクリプションの紹介(Josh Woodward)
Josh Woodward:これらの映画製作者が信じられないビジョンを実現し、構築し、創造するという感覚について話すのを聞くのは素晴らしいことです。それこそが、今日あなたの手に渡したいと思っているものです。
そこで、今日のAIサブスクリプションプランをアップグレードすることを嬉しく思います。Google AI Proとまったく新しいGoogle AI Ultraがあります。
Pro Planでは、無料版と比較して高いレート制限と特別な機能を備えた、AI製品の完全なスイートを利用できます。これには、以前はGemini Advancedとして知られていたGeminiアプリのPro版が含まれます。
そして、Ultraプランがあります。これは先駆者、パイオニア、Google AIの最先端を望む人々のためのものです。このプランは最高のレート制限と、Google全体の新機能や製品への最も早いアクセスを提供します。今日からアメリカで利用可能で、間もなく世界中に展開される予定です。
このUltraプランはGoogle AIのVIPパスと考えることができます。したがって、Ultraサブスクライバーであれば、巨大なレート制限と、準備ができたらGeminiアプリでの2.5 Pro Deep Thinkモードへのアクセスが得られます。
今日からVeo 3を搭載したFlowへのアクセスも得られます。また、YouTube Premiumと大量のストレージも付いてきます。これらの新しいGoogle AIプランで、あなたが何を構築し、創造し、発見するのかを見るのが待ちきれません。
そして今、AIが物理的な世界とどのように相互作用するかについての展望を提供するために、Shahramをお招きします。
6 Android XR
6.1 Android XRプラットフォームの説明(Shahram Izadi)
Shahram Izadi:皆さん、こんにちは!現在、Androidでは多くのエキサイティングなことが起きています。未来が最初に見られるプラットフォームなのです。先週のAndroidショーで、大胆な新デザインとAndroid 16およびWear OS 6への主要なアップデートを発表しました。
もちろん、AndroidはAIを体験するための最高の場所です。今日ご覧になった多くのGeminiのブレークスルーがまもなくAndroidに登場します。すでに電源ボタンからGeminiに即座にアクセスでき、コンテキストを理解して支援する準備ができています。
しかし、Androidはあなたの電話以上のものを動かしています。それはデバイスの完全なエコシステムです。今後数ヶ月で、Geminiをあなたの腕時計、車のダッシュボード、さらにはテレビにも提供する予定です。つまり、どこにいても、あなたの生活をより簡単にするのに役立つAIアシスタントがあります。
しかし、AIアシスタントを新しい方法で体験できるような新興フォームファクターについてはどうでしょうか?それこそが私たちがAndroid XRを構築している理由です。
これはGemini時代に構築された最初のAndroidプラットフォームであり、ヘッドセットからグラスまで、その間のすべてを含む、さまざまなユースケース向けのデバイスの広範なスペクトラムをサポートしています。
XRには一つのサイズがすべてに当てはまるわけではないと信じており、一日を通じて異なるデバイスを使用することになるでしょう。例えば、映画を見たり、ゲームをプレイしたり、仕事をしたりするには、イマーシブなヘッドセットが欲しいでしょう。
しかし、外出中には、電話を取り出さなくても時宜を得た情報を提供できる軽量なグラスが欲しいでしょう。
私たちはSamsungと一つのチームとしてAndroid XRを構築し、Qualcommと共にSnapdragon向けに最適化しました。昨年Android XR開発者プレビューをリリースして以来、何百もの開発者がプラットフォーム向けに構築しています。
また、お気に入りのGoogleアプリすべてをXR向けに再考しています。そして、結局のところAndroidですから、モバイルとタブレットのアプリも機能します。
今日は、Geminiがヘッドセットとグラスの両方の体験方法をどのように変革するかを共有したいと思います。これらのデバイスでは、AIアシスタントがより豊かな方法であなたのコンテキストと意図を理解し、一日中あなたを支援します。
まずは、ヘッドセット上のGeminiから始めましょう。これがSamsungのProject Moohan、最初のAndroid XRデバイスです。
6.2 Samsung Project Moohanの紹介(Shahram Izadi)
Shahram Izadi:これがSamsungのProject Moohan、最初のAndroid XRデバイスです。
Moohanは、傍らにGeminiがいるアプリを探索するための無限のスクリーンを提供します。XRのGoogle Mapsでは、Geminiに頼むだけで世界中のどこにでもテレポートできます。
見ているものについてAIアシスタントと会話し、探索しているものについてのビデオやウェブサイトを表示させることができます。
多くの人がお気に入りのチームを観るために最前列に座ることを夢見ています。MLBアプリで、まるでスタジアムにいるかのようにプレーを観戦しながら、Geminiと選手やゲームの統計について会話することを想像してみてください。
SamsungのProject Moohanは今年後半に購入可能になります。皆さん自身で試すのを楽しみにしています。
6.3 Android XRグラスの紹介(Shahram Izadi)
Shahram Izadi:それでは、グラスに注目を移しましょう。ご存知のように、私たちは10年以上にわたってグラスを構築してきました。そして、決して止めることはありませんでした。
Android XRを搭載したグラスは軽量で終日着用できるように設計されていますが、テクノロジーが詰め込まれています。カメラとマイクはGeminiに世界を見て聞く能力を与えます。スピーカーはAIを聞いたり、音楽を再生したり、通話を受けたりすることができます。そしてオプションのレンズ内ディスプレイは、必要なときだけプライベートに役立つ情報を表示します。
これらのグラスは電話と連携し、手を自由にしながらアプリにアクセスできるようにします。これらすべてにより、グラスはAIの自然なフォームファクターとなり、Geminiのパワーをあなたがいる場所に直接もたらします。つまり、クラーク・ケントとは異なり、グラスをかけると超能力を手に入れることができます。
では、Android XRグラスの初期デモを見てみましょうか?彼らがどのように機能するか、現在考えられる最も混雑した環境で見てみましょう。I/Oの舞台裏で、私たちの自慢のスーパーウーマン、Nishthaがこれらのグラスがどのように実際に機能するかを見せてくれます。
今すぐ彼女にテキストを送り、始めましょう。
6.4 Android XRグラスのデモンストレーション(Nishtha Bhatia、Dieter Bohn)
Shahram Izadi:[ビデオ通話が始まり、Nishthaが舞台裏からAndroid XRグラスを通じて見ている映像が画面に映し出されます]
Nishtha Bhatia:[ビデオ映像から] 皆さん、今あなたは私のAndroid XRグラスのレンズを通して見ているものとまさに同じものを見ているはずです。こちらのおいしいコーヒーや、今届いたShahramからのテキストなどです。彼が何を言っているか見てみましょう。
よし、確かにショータイムです。Geminiを起動して始めましょう。Shahramに始めると伝えるテキストを送信し、通知をサイレントにしてください。
Gemini:了解しました、彼にメッセージを送信し、すべての通知をミュートしました。
Nishtha Bhatia:完璧です。
[別の人物が画面に入ってきます]
Dieter Bohn:あ、やあ、Nishtha!
Nishtha Bhatia:やあ、Dieter。
Dieter Bohn:グラスのライトが点いているのが見えるので、今ライブ中だと言っても大丈夫ですよね?
Nishtha Bhatia:はい、正式にI/Oチームと繋がっています。
Dieter Bohn:皆さん、こんにちは。このアングルからI/Oを見るのは本当に素晴らしいですね。Nishtha、舞台裏でお手伝いしたら自分用のAndroid XRグラスをもらえると約束してくれましたよね。どうですか?
Nishtha Bhatia:もちろんです。この後コーヒーを飲みに行きましょう。そのときグラスを持ってきます。
Dieter Bohn:素晴らしい。では後でお会いしましょう。頑張ってください。
Nishtha Bhatia:ありがとう。皆さんも見てわかる通り、舞台裏ではたくさんのことが起きています。あれは、プロバスケットボール選手のGiannisが私たちのグラスをかけているのでしょうか?
Giannis:最高だね。両手が自由になるから、ダブルハイファイブができるよ。
Nishtha Bhatia:いいですね。これらのグラスができることをもっとお見せしましょう。一日中このフォトウォールについて気になっていました。このバンドは何で、この場所とどう関係しているのでしょうか?
[Nishthaがフォトウォールを見ると、Geminiがそれについての情報を提供します]
Gemini:[音声が途切れた後] ...Shoreline Amphitheatreで、バンドにとってはしばしばホームカミングショーと見なされています。
Nishtha Bhatia:すごい!ここでの彼らのパフォーマンスの写真を見せてもらえますか?
Gemini:もちろん、こちらです。彼らの曲を再生しますか?
Nishtha Bhatia:ぜひお願いします。ステージに向かいながら聴けます。
Gemini:わかりました。こちらはCounting Crowsの「Under the Aurora」です。
[ビデオ映像終了]
Shahram Izadi:では、これらのグラスを見てみましょう。こちらがNishthaです。
[Nishthaがステージに登場]
Nishtha Bhatia:皆さん、こんにちは!
Shahram Izadi:スター満載の舞台裏の様子をありがとう。ところで、Dieterとのコーヒーを今予約しますか?
Nishtha Bhatia:はい。舞台裏のクルーが実際に素晴らしいコーヒーをくれたので、面白いことを試してみましょう。Gemini、先ほど私が持っていたコーヒーカップに書かれていたコーヒーショップの名前は何でしたか?
Gemini:うーん、それはブルームスギビングだったかもしれません。見た限りでは、Castro Streetにあるカラフルなコーヒーショップのようです。
Nishtha Bhatia:素晴らしい記憶力ですね。そのカフェの写真を見せてもらえますか?雰囲気を確認したいです。
Gemini:もちろん。Mapsからのこれらの写真は役に立ちますか?
Dieter Bohn:あ、そこは知っています。コーヒーショップであると同時に花屋でもありますが、ダウンタウンにあります。
Nishtha Bhatia:わかりました。Gemini、ここに歩いていくにはどうしたらいいか教えてください。
Gemini:今、その経路を調べています。約1時間かかります。
Nishtha Bhatia:いいですね。歩数を稼げますね。このヘッドアップ方向表示と完全な3Dマップがあれば、とても簡単に行けるはずです。
Dieterにそのカフェに今日の午後3時にコーヒーを飲みに行く招待状を送ってください。
Gemini:その招待状を今送信します。コーヒーをお楽しみください。
6.5 リアルタイム翻訳デモ(Shahram Izadi、Nishtha Bhatia)
Shahram Izadi:グラスのためのこれは大きな瞬間です。記録しましょう。
Nishtha Bhatia:はい。皆さん、クイック写真の準備をしてください。そして、私たちのスターを呼びましょう。
Shahram Izadi:こちらがDieterです。Dieter、私たちに加わってください。
Nishtha Bhatia:よし、Gemini、私のために写真を撮って。
[グループで写真撮影]
Nishtha Bhatia:よし、Gemini、私のために写真を撮って、お気に入りに追加してください。
Shahram Izadi:素晴らしい写真ですね。完全に感動しています。最後にもう一つ。Sundarは先ほどライブチャット翻訳で可能なことを示しました。グラスでそれがどのようなものか見てみましょう。
これは非常にリスキーなデモですが、挑戦してみましょう。NishthaとIは互いに母国語で話します。Nishthaはヒンディー語を話し、私はかなり下手にペルシャ語を話します。そして、ここでは両方のグラスからのフィードが見えるでしょう。
皆さんが付いてこられるように、英語の翻訳をリアルタイムで表示します。よろしいですか?やってみましょう。指を交差させて。
[Shahramがペルシャ語で話し始めます] 「こんにちは、Nishtha。今日はどうですか?」
[Nishthaがヒンディー語で返答します] 「私は元気です、Shahram。このAndroid XRグラスは本当に素晴らしいですね。」
[Shahramが再びペルシャ語で話します] 「はい、本当に素晴らしいです。皆さんに示すことができて嬉しいです。」
[リアルタイムで英語の翻訳が画面に表示されています]
Shahram Izadi:ほら、リスキーなデモだと言いましたよね。
[観客から拍手]
Shahram Izadi:ありがとう。
Nishtha Bhatia:ありがとうございます。
6.6 Gentle MonsterとWarby Parkerとのパートナーシップ発表(Shahram Izadi)
Shahram Izadi:Android XRグラスの素晴らしいツアーをありがとう、Nishtha。可能性に非常に興奮しています。あなたの傍らに信じられないほど役立つAIアシスタントがいる、これらのAndroid XRデバイスで。
しかし、それだけではありません。Samsungとのパートナーシップを次のレベルに引き上げ、Android XRをヘッドセットを超えてグラスにまで拡張しています。
エコシステムが私たちと共に素晴らしいグラスを構築できるように、ソフトウェアとリファレンスハードウェアプラットフォームを作成しています。私たちのグラスプロトタイプはすでに信頼できるテスターによって使用されています。そして、今年後半からグラス向けの開発を始めることができるようになります。
これらは終日着用したいと思えるスタイリッシュなグラスである必要があることを知っています。そのため、本日、Gentle MonsterとWarby ParkerがAndroid XRを搭載したグラスを構築する最初のアイウェアパートナーになることを発表できることを嬉しく思います。
私たちは、あなたの個人的な好みに合ったグラスを着用できるようにしたいと考えています。これは始まりに過ぎません。皆さんが自分自身でAndroid XRを試すのを楽しみにしています。そして、今後数ヶ月でさらに多くの情報を共有する予定です。
本当にありがとうございました!
7 閉会セクション
7.1 社会的影響を持つAIプロジェクトの紹介:FireSat、災害支援(Sundar Pichai)
Sundar Pichai:あのXRグラスは驚異的です—研究から現実へと、文字通り私たちの目の前で実現しています。
ショーの終わりに近づいています。今日は、Eloスコア、ベンチマーク、最先端のパフォーマンスについて多く聞きました。しかし、皆さんが待ち望んでいた指標が一つあるのを知っています。私たちのAIカウンターです。
最後のリーダーボードを見てみましょう。新しいエントリーがあるようです。Geminiが95でリードを取っています。非常にエキサイティングですね。
もっと真面目な話をすると、ここに今日私たちが発表したすべてがあります。新しいローンチや製品の拡張から、今後の予定まで。AIによる機会は本当に大きなものです。そして、この波の開発者、技術ビルダーが、その恩恵ができるだけ多くの人々に届くことを確実にするのは、彼らの責任となるでしょう。
私に刺激を与えるいくつかの例を紹介したいと思います。最初のものは、カリフォルニアや世界中の多くの場所に住んでいる人々にとって重要な課題です。私たちの多くは山火事の影響を受けた人を知っています。それらは突然始まり、数分のうちに制御不能になることがあります。速度と精度が大きな違いを生むことがあります。
素晴らしいパートナーのグループと共に、FireSatと呼ばれるものを構築しています。これはマルチスペクトル衛星画像とAIを使用して、ほぼリアルタイムの洞察を提供することを目指す衛星のコンステレーションです。この解像度を見てください。
それは270平方フィート、約一台分の車庫ほどの大きさの小さな火災でも検出できます。最初の衛星は現在軌道上にあります。完全に稼働すると、画像は今日の12時間ごとから20分ごとに更新されるようになり、頻度が大幅に向上します。
速度は他の種類の緊急事態でも重要です。ハリケーン・ヘレーンの間、Wing—WalmartとRed Crossとのパートナーシップで—ドローン配送で救援活動を支援しました。
AIによってサポートされ、ノースカロライナのYMCAシェルターにリアルタイムのニーズに基づいて食料や医薬品などの重要なアイテムを配達することができました。これが他のコミュニティの災害救援にどのように役立つか想像できますし、私たちはそれを拡大するために積極的に取り組んでいます。
これらは、AIが今まさに社会を助けている方法の例です。今日の研究が数年以内に現実になることを考えると、特にインスピレーションを受けます。次世代の役立つロボットを構築するにせよ、世界で最も致命的な病気の治療法を見つけるにせよ、エラー修正された量子コンピュータを進歩させるにせよ、あるいはあなたを行きたい場所にどこでも安全に連れて行ける完全自律型の車を提供するにせよ、これらすべては、数十年ではなく、数年以内に非常に可能です。素晴らしいことです。
7.2 将来のAI技術展望(Sundar Pichai)
Sundar Pichai:これらは、AIが今まさに社会を助けている方法の例です。今日の研究が数年以内に現実になることを考えると、特にインスピレーションを受けます。次世代の役立つロボットを構築するにせよ、世界で最も致命的な病気の治療法を見つけるにせよ、エラー修正された量子コンピュータを進歩させるにせよ、あるいはあなたを行きたい場所にどこでも安全に連れて行ける完全自律型の車を提供するにせよ、これらすべては、数十年ではなく、数年以内に非常に可能です。素晴らしいことです。
生活を改善するこの機会は、私が当然のことと受け止めているものではありません。そして最近の経験がそれを私にはっきりと思い起こさせました。サンフランシスコで両親と一緒にいました。他の多くの観光客と同様に、彼らが最初にしたかったことはWaymoに乗ることでした。私は以前にWaymoに乗ったことがありました。しかし、80代の父が助手席に座り、完全に驚いている様子を見て、進歩を全く新しい視点で見ることができました。
それは、テクノロジーの力がいかに素晴らしく、すべての人にインスピレーションを与え、私たちを前進させることができるかを思い出させてくれました。そして、次にどのような素晴らしいものを一緒に構築するのか楽しみにしています。ありがとうございました。
7.3 締めくくり(Sundar Pichai)
Sundar Pichai:生活を改善するこの機会は、私が当然のことと受け止めているものではありません。そして最近の経験がそれを私にはっきりと思い起こさせました。サンフランシスコで両親と一緒にいました。他の多くの観光客と同様に、彼らが最初にしたかったことはWaymoに乗ることでした。私は以前にWaymoに乗ったことがありました。しかし、80代の父が助手席に座り、完全に驚いている様子を見て、進歩を全く新しい視点で見ることができました。
それは、テクノロジーの力がいかに素晴らしく、すべての人にインスピレーションを与え、私たちを前進させることができるかを思い出させてくれました。そして、次にどのような素晴らしいものを一緒に構築するのか楽しみにしています。ありがとうございました。
8 レポートのまとめ
Google I/O '25 Keynoteでは、GoogleのAI技術の最新進展と今後の展望が包括的に紹介されました。主なハイライトは以下の通りです。
まず、Sundar Pichaiが開会の挨拶で示した通り、Googleは前回のI/O以降、モデルの性能を大幅に向上させ、Gemini 2.5 ProはLMArenaのすべてのカテゴリでトップに立っています。Eloスコアは最初のGemini Proから300ポイント以上向上し、月間処理トークン数は1年で50倍の480兆に達しました。これを支えるのが第7世代TPU「Ironwood」で、前世代の10倍のパフォーマンスを提供しています。
Demis HassabisとTulsee Doshiによって紹介されたGemini 2.5シリーズでは、最先端の基盤モデルGemini 2.5 Proとより効率的なGemini 2.5 Flashが発表されました。新機能には、複数話者のテキスト読み上げ、セキュリティ強化、思考要約機能、さらに並列生成で超低遅延を実現するGemini Diffusionモデルが含まれます。また、AlphaGo開発の経験を活かした「Deep Think」モードにより、数学やコーディング能力が大幅に向上しました。
検索では、AI Overviewsが月間15億ユーザーに拡大し、「AIモード」という完全に再設計された検索体験が導入されました。「クエリファンアウト技術」により、複雑な質問に対して複数の検索を同時に実行し、包括的な回答を提供します。パーソナルコンテキスト機能でユーザー固有の情報を活用し、Deep Search機能でより深い調査を可能にします。さらに、リアルタイムでカメラの映像に情報を提供する「Search Live」や、AIを活用したショッピング体験も強化されています。
Geminiアプリは、より個人的で積極的かつ強力なAIアシスタントへと進化しています。カメラと画面共有機能を追加したGemini Live、ファイルアップロード機能を備えたDeep Research、ChromeブラウザへのGemini統合、新しい画像生成モデルImagen 4、そして音声生成機能を追加したビデオ生成モデルVeo 3が発表されました。
生成メディアの分野では、Lyria 2音楽生成AI、SynthIDウォーターマーク技術、映画製作にVeoを活用した事例が紹介されました。特に注目すべきは、Veo、Imagen、Geminiを組み合わせた新しいAI映像制作ツール「Flow」です。これらの機能は新たに導入されるGoogle AI ProとGoogle AI Ultraサブスクリプションで利用可能になります。
Android XRプラットフォームでは、SamsungのProject Moohanをはじめとするヘッドセットと、カメラ、マイク、スピーカーを搭載した軽量グラスが紹介されました。これらのデバイスはGeminiと統合され、リアルタイム翻訳やナビゲーションなどの機能を提供します。また、Gentle MonsterとWarby ParkerがAndroid XRグラスの最初のアイウェアパートナーになることも発表されました。
最後に、Sundar Pichaiは社会的影響を持つAIプロジェクトとして、火災検知システム「FireSat」やドローン配送による災害支援活動を紹介しました。また、ロボット開発、疾病治療、量子コンピューティング、自律運転車など、今後数年以内に実現可能な技術革新の可能性についても触れました。
このKeynoteは、AIが単なる情報提供から知能へと進化し、創造的表現を解放し、物理的な世界とシームレスに統合されていく未来を示しています。Googleはこれらの技術を通じて、より多くの人々にAIの恩恵をもたらすことを目指しています。