※本記事は、Vincent Vanhoucke氏による講演「Foundation models for autonomous driving」の内容を基に作成されています。本講演は2025年7月8日から11日にかけてスイス・ジュネーブで開催されたAI for Good Global Summitのフロンティアステージで行われたセッションの録画を基にしており、動画はhttps://www.youtube.com/watch?v=w53P2_LozEI でご覧いただけます。
登壇者のVincent Vanhoucke氏はWaymoのDistinguished Engineerであり、スケーラブルな自動運転システムの開発における中心的な役割を担っています。本講演では、人間中心の安全性が求められるアプリケーションにAIをいかに活用するかという観点から、Waymo Driverを支えるコアとなる基盤AI技術が紹介されました。
AI for Goodは、革新的なAIアプリケーションの発掘、スキルと標準の構築、そしてグローバルな課題解決に向けたパートナーシップの推進を目的とした取り組みです。国際電気通信連合(ITU)が主催し、50以上の国連パートナーとの連携のもと、スイス政府との共同開催により運営されています。
本記事では講演の内容を要約しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈についてはオリジナルの動画をご視聴いただくことをお勧めいたします。
1. Waymoの概要・ミッション・サービス展開状況
1.1 「世界で最も信頼されるドライバー」というビジョンと信頼の定義
Vans: 私はWaymoのエンジニアをしています。Waymoは自動運転サービスのプロバイダーであり、私たちが掲げるミッションは「世界で最も信頼されるドライバーになること」です。この「信頼される」という言葉は、単なるキャッチフレーズではなく、私たちのすべての取り組みを支える根幹となる概念です。信頼とは安全性だけを意味するものではありません。一貫性があること、予測可能であること、そして私たちがサービスを提供するコミュニティとの間に良好な関係を築いていくこと、これらすべてが「信頼」を構成しています。そのハードルは非常に高く、私たちはそのハードルを真剣に守りながら、できる限り多くのコミュニティにこの技術を届けようとしています。
1.2 商用サービスの稼働都市・利用方法・今後の展開計画(日本含む)
Vans: 現在、私たちはすでに実際のサービスとして自動運転を展開しています。サンフランシスコ、フェニックス、ロサンゼルス、アトランタ、オースティンの5都市で、車内にドライバーのいない完全自律走行の乗車サービスを運営しています。サンフランシスコ、フェニックス、ロサンゼルスでは、私たちのアプリをダウンロードしていただければ、まるでライドシェアのアプリと同じ感覚でご利用いただけます。アトランタとオースティンでは、Uberのアプリを通じてサービスを提供しており、配車された車が私たちの自動運転車である場合があります。もはや「条件付き」や「実験的」といった但し書きは一切なく、本物のお客様に対して完全な自動運転サービスを提供しているという事実を、私たちは非常に誇りに思っています。そして現場から日々学び続けることで、技術をさらに磨いています。
1.3 週250,000件・約320万kmという走行実績の意味
Vans: 今後の展開についても積極的に進めています。来年にはマイアミとワシントンD.C.への展開を予定しており、さらにその先には多くの都市で調査・実験・テストを進めています。日本もその候補地の一つであり、数年以内に日本での走行が実現できる状況を目指しています。現在のサービス規模としては、週あたり約25万件の有料乗車を提供しており、走行距離に換算すると週あたり約320万キロメートルに相当します。これは、一人の人間が生涯にわたって運転する総距離を上回るほどの距離を、私たちは毎週走り続けているということです。
2. 自動運転の安全性実績と社会的インパクト
2.1 歩行者・自転車・バイクとの事故率および保険請求削減の定量的成果
Vans: 私たちのこれまでの安全性の実績は、本当に誇るべきものだと感じています。最初の5000万マイル(約8000万キロメートル)の走行データをもとに分析した結果、同じエリアで走行する人間ドライバーと比較して、歩行者との負傷事故を92%削減、自転車乗車者との負傷事故を82%削減、そしてオートバイ乗車者との負傷事故も82%削減できていることが示されました。これは私たちがサービスを提供しているコミュニティとの信頼関係を築く上で、非常に重要な根拠となっています。さらに、第三者機関による評価では、物的損害に関する保険請求の頻度を88%削減、身体傷害に関する保険請求を92%削減できることも示されています。
Vans: これらの数字が持つ意味を、少し別の角度から考えてみてください。もしあなたが都市計画担当者や行政で交通安全を担う立場の人間だったとしたら、自分のコミュニティでこれほどの安全改善をもたらす施策を見つけられるでしょうか。これだけの効果をもたらす手段は、他にはほとんど存在しないと言っても過言ではありません。命を救うことだけでは十分でないとしても、経済的なコスト削減の観点からも、私たちの技術は同様に優れた成果を示しています。
2.2 「毎週、人生最大の驚き」という現場感覚が安全思想を形成する
Vans: ここで少し思考実験をしてみましょう。あなたがこれまでの運転人生の中で、最も驚いた出来事は何でしたか。おそらくそれは一度か二度しか経験していない、非常にまれな出来事だったはずです。しかし私たちのフリートでは、そのような「人生最大の驚き」に相当するような出来事が、毎週どこかで起きているのです。この現実こそが、私たちが自動運転の安全性についてどのように考えるかを根本から規定しています。稀にしか起きないから考えなくていい、という発想は私たちには許されません。どんなに例外的に見えるシナリオであっても、フリート全体で見れば毎日のように発生しうる問題として、常に真剣に向き合い続けることが求められています。この姿勢こそが、私たちの安全思想の核心にあるものです。
3. 自動運転が解くべきコア課題と日常的な複雑シナリオ
3.1 自己位置推定・環境認識・行動予測・制御という4つのタスク
Vans: 自動運転という問題は、概念的に整理すると実はとてもシンプルです。LiDAR、カメラ、レーダーといったセンサーから環境情報を取得し、あとはいつ加速し、いつ減速し、いつ左に曲がり、いつ右に曲がるかを決めるだけです。自由度はたったの2つ、史上最もシンプルなロボットとも言えます。しかし実際には、その2つの自由度をどのように制御するかを正確に決定することは、非常に複雑な問題です。
Vans: 自動運転を実現するためには、大きく4つのコアタスクを解く必要があります。第一に、自車がどこにいるかを特定する自己位置推定です。第二に、車の周囲に何があるかを把握する環境認識です。第三に、シーン内の他のエージェント——他の車や歩行者など——が次にどのような行動をとるかを予測することです。そして第四に、それらの予測を踏まえて自車がどのように走行すべきかを決定する行動計画と制御です。これら4つのステップのすべてが、安全な自動走行を実現するために欠かせない要素であり、どれか一つが欠けても自動運転は成立しません。
3.2 警察官の手信号・事故現場・大型トラック・群衆・夜間故障信号機など実例
Vans: では実際に私たちのフリートが日々どのようなシナリオに直面しているか、具体的な事例をいくつかご紹介します。まず、交差点で警察官が手信号で交通整理をしているケースです。通常の信号機とは異なる人間の動作を正確に読み取り、その指示に従って適切に行動しなければなりません。交通コーンが設置された工事区間での非常に密度の高い交通の流れの中での合流も、日常的に発生する難しい状況の一つです。
Vans: 次に、事故現場や緊急対応シーンです。道路上に車両が停止し、緊急車両や救急隊員が周囲に展開しているような状況を正確に認識し、安全に回避しながら走行を継続する必要があります。私が特に印象的だと感じている事例は、大型トラックが狭い路地に進入してくるケースです。このような状況では、トラックに道を譲るために自車を右側に寄せ、トラックが通過するのを待ってから前進するという、能動的かつ複雑な判断と操作が求められます。こうした高度な状況認識と対応こそが、真の自律走行を実現するために不可欠なものです。
Vans: サンフランシスコでのコンサート終了直後の状況も、非常に難しいシナリオの一つです。大勢の歩行者が道路にあふれている中で、私たちは歩行者の安全を最優先にしながらも、同時に前進してその混雑エリアを抜け出すことも求められます。人が密集している状況に長く留まること自体がリスクにもなりうるため、安全性と進行のバランスを慎重に判断する必要があります。また、夜間走行中に信号機が故障しているケースでは、信号機が正常に機能していないことを認識しつつも、そこに信号機が存在するという事実を踏まえて停車するという判断が求められます。実際にその場面では、別の車両が故障した信号機を無視して交差点に突入してきました。さらに、割り込み車両への対応も毎日のように発生する状況です。これらはすべて、ごく日常的な出来事として私たちのフリート全体で繰り返し起きており、ロングテールの問題——つまり頻度は低くても無視できないシナリオの集合——にどう対処するかが、自動運転の安全性を左右する核心的な問いとなっています。
4. センサースイートと超人的知覚能力
4.1 カメラ・LiDAR・レーダー融合による冗長性と全天候対応
Vans: 私たちのセンサースイートは、カメラ、LiDAR、レーダーという複数のモダリティを組み合わせることで、人間のドライバーをはるかに超える知覚能力を実現しています。車両の周囲を取り囲むカメラが視覚的な環境情報を取得し、車両上部に搭載されたLiDARがレーザー光を用いて周囲の三次元的な空間構造を高精度に把握します。そしてレーダーが速度や距離の計測を補完します。これらのセンサーをすべて融合することで、周囲の環境に対して非常に詳細な認識を得ることができます。さらに重要なのは、複数の異なるモダリティを組み合わせることによって、各センサーが互いの弱点を補い合う冗長性が生まれるという点です。一つのセンサーが苦手とする状況でも、別のセンサーが確実に情報を補うことができるため、システム全体としての信頼性が大きく向上します。
4.2 砂嵐・バス陰の歩行者検出など実証事例
Vans: この冗長性がいかに重要かを示す具体的な事例として、テキサス州オースティンでの砂嵐の場面があります。走行中に突然、視界がほぼゼロになるほどの砂嵐に遭遇しました。人間のドライバーであれば、この状況での安全な運転は極めて困難です。しかし私たちのLiDARは、砂嵐の中でも前方に車両が存在することを明確に捉えていました。さらに注目すべきは、その場面でLiDARが歩行者の存在も検出していたことです。カメラによる視覚情報がほぼ機能しない状況においても、LiDARがその歩行者を捉え、もしかしたら道路を横断しようとしているかもしれないという予測を立て、より慎重な走行判断を下すことができました。
Vans: もう一つ印象的な事例がサンフランシスコでのものです。大型バスが停車しており、その陰に歩行者が隠れているという状況でした。人間のドライバーであれば、バスの陰に隠れた歩行者は視界に入らず、その存在に気づけないまま前進してしまうリスクがあります。しかし私たちのシステムは、バスの車体の下の隙間を通じて歩行者の存在を検知し、その歩行者が車道に出てくる前の段階で認識することができました。これはまさに、豊富なセンサー群を組み合わせることによって初めて実現できる、人間の知覚能力を超えた安全性の一例です。センサーの多様性と融合こそが、あらゆる条件下での安全走行を支える根幹であることを、これらの事例は明確に示しています。
5. 生成AIの知見を自動運転に転用する
5.1 「運転はビジュアル会話」というアナロジーとスケーリング則の適用
Vans: ChatGPTやGeminiに代表される大規模言語モデルは、もともと会話AIを実現することを目的として発展してきました。対話システムやチャットボットの文脈で生まれた技術です。しかし私はここで、運転というものを別の視点から捉え直してみたいと思います。運転とは、ある種の「会話」ではないでしょうか。もちろん言葉による会話ではありません。自分の車と周囲の環境、そして道路上の他のエージェントとの間で交わされる、視覚的な会話です。自車が前進すれば、他の車両は停止して優先権を譲るか、あるいはそのまま前進して自車が減速を余儀なくされるかのどちらかです。このように、シーン内の各エージェントの行動に対して逐次的に推論し、反応していくプロセスは、まさにビジュアルな会話のやりとりそのものです。
Vans: この視点に立つと、生成AIの分野で発展してきた技術をそのまま自動運転に応用できることが見えてきます。ビジュアル会話をモデル化し、他のエージェントの行動を予測し、それに対して適切に反応するという構造は、LLMが自然言語の会話を処理する仕組みと本質的に同じだからです。そして生成AIの世界で得られた最も重要な知見の一つが、スケーリング則です。データ量、計算量、モデルサイズの三者の関係を理解することで、モデルの性能をスケーリングカーブから非常に高い精度で予測できるというものです。私たちは自動運転の文脈においても、まったく同じスケーリング則が成立することを確認しています。これは、自動運転モデルの改善もまた、データと計算資源を適切にスケールさせることで予測可能かつ着実に進歩させられることを意味しており、非常に重要な知見です。
5.2 人間模倣の限界とRLHFによる安全優先行動の習得
Vans: 生成AIの発展の中でもう一つ重要な教訓があります。それは、人間のデータをそのまま模倣するだけでは、優れたモデルは作れないという気づきです。人間のテキストデータだけで学習したモデルは、人間を模倣することはできても、人間を超える能力を持つことはできませんし、私たちが本当に求める目標や制約を内部化させることもできません。自動運転においても同じことが言えます。人間ドライバーの運転を模倣するだけでは、人間並みの運転しか実現できず、安全性の目標を正しく設定できないリスクがあります。人間らしさは、LLMにとっても自動運転にとっても、良い評価基準にはなりえないのです。
Vans: そこで私たちはLLMの分野で発展してきたRLHF、すなわち人間のフィードバックを用いた強化学習の手法を自動運転に転用しています。LLMの世界では、モデルが生成した出力に対して人間がアノテーションを付け、人間の好みや優先順位を学習させることで、モデルが本当に最適化すべき価値関数を構築します。私たちは同じアプローチを運転に適用しています。専門家がモデルの運転行動を評価・ランク付けし、その好みをもとに価値関数を構築することで、安全性を最優先とした行動を確実にモデルに習得させることができます。具体的なシミュレーション事例を見てみましょう。ポストトレーニング前のモデルは、歩行者の非常に近くを通過してしまうような軌跡を予測することがありました。しかし安全の優先順位を学習させたモデルは、歩行者に対して適切に譲る行動をとるようになりました。ブレーキングについても同様です。ポストトレーニング前のモデルは制動が遅すぎる場面がありましたが、安全原則を学習させた後は、はるかに早いタイミングで減速を開始するようになりました。このように、RLHFによるポストトレーニングは、自動運転モデルの安全性を根本から向上させる上で非常に強力な手段となっています。
6. 視覚言語モデルによる意味理解と統合モデルの構成
6.1 駐車標識・事故現場の文脈理解など意味理解がもたらす新能力
Vans: 大規模な基盤モデルがもたらす新たな能力として、言語理解と視覚理解を統合した意味的な推論があります。少し笑えるような話をしますと、サンフランシスコで駐車するために必要なAIというものがあります。サンフランシスコの駐車規制標識は非常に複雑で、複数の条件が重なり合っており、人間でも読み解くのに苦労します。視覚言語モデルはまさにこのような、視覚情報と言語的な意味を同時に解釈する作業を得意としています。標識に書かれたテキストの意味を理解しながら、それが現在の状況においてどのような意味を持つかを正確に推論できるのです。
Vans: しかしより本質的な場面は、事故現場や緊急対応シーンのような複雑な状況です。もし道路の真ん中に車が止まっているという視覚情報だけを見れば、それは単に避けるべき障害物にすぎません。しかしシーン全体の意味的な文脈を理解すると、話はまったく変わってきます。その車が横転していること、周囲に緊急車両が展開していること、警告灯が点滅していること、救急隊員が作業していること——これらすべてを統合して理解することで、初めてその状況が事故現場であると認識でき、単なる障害物回避とはまったく異なる対応が求められることがわかります。このような深い意味理解こそが、自動運転に新たな能力をもたらすものであり、先ほど述べたロングテールのケースに対処するために実質的に不可欠なものです。視覚だけで判断するシステムには原理的に解けない問題を、意味的な文脈理解によって解決できるようになるのです。
6.2 Geminiベース統合モデルの設計と犬・落下物回避のシミュレーション実例
Vans: こうした考え方に基づいて、私たちはGoogle DeepMindのGemini LLMを基盤とした統合モデルを構築しました。このモデルは、車両に搭載されたすべてのカメラからの映像入力、テキスト形式のコンテキスト情報、そして高レベルの経路情報や走行指示を統合的に受け取ります。そしてポストトレーニングを経ることで、これらの入力から具体的な走行軌跡を出力することができます。車両の感覚センサーからの豊富な情報に、言語的な意味理解の能力を加えることで、環境をより深く推論することが可能になります。
Vans: シミュレーション上での具体的な動作事例をご紹介します。一つ目は、道路上に犬がいるケースです。このモデルは犬の存在を認識し、衝突を避けるために速度を落とす判断を下します。二つ目は、道路上に落下物がある場面です。モデルはその障害物を正確に認識し、適切に迂回する経路を選択します。これらは一見シンプルな例に見えるかもしれませんが、こうした意味的な理解に基づく判断の積み重ねが、車両全体の安全姿勢を着実に向上させていきます。視覚言語モデルが持つ意味理解の能力を自動運転に組み込むことは、まだ始まったばかりですが、その可能性は非常に大きいと私たちは確信しています。
7. 自動運転AIが直面する固有の難しさと今後の展望
7.1 物理環境の複雑さ・リアルタイム車載処理・高い要求水準という三重の挑戦
Vans: ここまで、生成AIの知見を自動運転に転用することの有効性についてお話ししてきました。しかし自動運転が他のAI応用と根本的に異なる点、つまり自動運転固有の難しさについても正直にお伝えしなければなりません。LLMをはじめとするほとんどのマルチモーダルモデルは、仮想的な環境の中で動作しています。テキスト、画像、音声といったデジタルな情報を扱う世界です。しかし自動運転が相手にしなければならないのは、物理的な現実世界です。物理環境は、仮想環境とは本質的に異なる複雑さと不確実性を持っており、その難しさはカテゴリーとして異なると言っても過言ではありません。刻々と変化する道路状況、予測不可能な他のエージェントの行動、天候や照明条件の変化、そして先ほどご紹介したような無数のロングテールシナリオ——これらすべてに対して、システムは確実に正しく対応しなければなりません。
Vans: 加えて、自動運転には極めて厳しいリアルタイム処理の制約があります。どれほど高度な推論能力を持つモデルであっても、それが車両に搭載されたコンピュータ上でリアルタイムに動作しなければ意味がありません。クラウド上の大規模なサーバーで時間をかけて処理するという選択肢は基本的になく、車載のハードウェアという限られた計算資源の中で、走行に必要なすべての推論を瞬時に完結させる必要があります。これはモデルの設計から実装に至るまで、あらゆる段階において非常に厳しいエンジニアリング上の制約として私たちにのしかかってきます。
Vans: そして三つ目の挑戦が、安全性とコンピテンシーの両面における極めて高い要求水準です。LLMが時折誤った回答を返しても、それは不便ではありますが致命的な結果にはなりません。しかし自動運転においては、判断の誤りが直接的に人命に関わる結果をもたらしかねません。安全性においても、運転の技能においても、要求される水準は他のAI応用とは比較にならないほど高く、その水準を一貫して維持し続けることが求められます。この三つの挑戦——物理環境の複雑さ、リアルタイム車載処理の制約、そして極めて高い要求水準——が重なり合うことが、自動運転AIをユニークかつエキサイティングな領域にしていると同時に、まだ解決すべき課題が多く残っていることも意味しています。私たちはこれらの挑戦に真摯に向き合いながら、AIを自動運転の世界に着実に実装するための技術を日々開発し続けています。この未来をより確かなものにするために、まだ多くの仕事が残されています。
