2025-07-04 Stanford CS25 V5: Transformerで動画生成を解決する―MetaのMovie Genが切り拓くスケーリングの新時代

出展元

https://www.youtube.com/watch?v=YGHF8_tf--g&list=PLoROMvodv4rPZxxeUFvQHCkZJsaEBdDZj

キーワード

Transformer動画生成Flow Matchingスケーリング則

初回調査日

Dec 10, 2025 1:30 PM

※本記事は、Andrew Brown氏によるStanford CS25「Transformers for Video Generation」の講演内容を基に作成されています。講演の詳細情報は https://web.stanford.edu/class/cs25/ およびYouTube動画 https://www.youtube.com/watch?v=YGHF8_tf--g でご覧いただけます。

登壇者について: Andrew Brown氏は、MetaのGenAIチームに所属する研究科学者で、メディア生成を専門としています。過去数年間、彼のチームはEmu-VideoやMovie Genを含む、動画生成モデルの最前線を押し進める研究論文の発表に注力してきました。Meta入社以前は、オックスフォード大学のVisual Geometry Group(VGG)にてAndrew Zisserman教授の指導の下、博士号を取得しました。

本記事では、講演の内容を詳細に記録しておりますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講演動画をご視聴いただくことをお勧めいたします。また、Stanford CS25の全プレイリストは https://www.youtube.com/playlist?list=... からアクセス可能です。

1. イントロダクションと動画生成の進化

1.1 講演者の紹介とMetaのGenAIチームの概要

Stephen：本日はAndrewをお迎えして、このセミナーを華々しく締めくくることができて大変嬉しく思います。Andrewは、MetaのGenAIチームで研究科学者として活躍しており、メディア生成に焦点を当てています。過去数年間、彼のチームは動画生成モデルの最前線を押し進める研究論文を発表してきました。その中には、Emu VideoやMovie Genといった重要な成果が含まれています。Metaで働く前は、AndrewはオックスフォードのVisual Geometry Group（VGG）でAndrew Zisserman教授の指導の下、博士号を取得しました。それでは、Andrewに講演をお願いします。

Andrew Brown：ご紹介ありがとうございます。イントロダクションで述べられた通り、私はAndrew Brownと申します。MetaのGenAIで研究者をしています。皆さんの中にはGenAIについてご存知ない方もいらっしゃるかもしれませんが、GenAIはMetaの生成モデルをリリースする研究組織です。テキストのLLMであるLlamaや、私たちのメディア生成モデルなどを手がけています。私は博士号を取得して以来、約2年半この組織にいます。

Stephenが述べたように、この期間中、私たちは最前線を押し進める動画生成モデルを数多くリリースしてきました。本日お招きいただき、大変光栄です。ありがとうございます。今日の講演のテーマは「Transformers for Video Generation（動画生成のためのTransformer）」です。このセミナーの講演者リストを見たところ、既にNLPやメディア生成に関する講演が多数行われていますね。今日お話しする内容が、皆さんが既に聞かれたものとは新しいものであることを願っています。

1.2 現代のテキストから動画生成モデルの驚異的な能力

Andrew Brown：テキストから動画を生成するモデルについてお話しします。皆さんはインターネット上でこのような動画を見たことがあるかもしれません。テキストプロンプトを与えると、現代のテキストから動画生成モデルは、信じられないほど高品質な動画を作成できるようになっています。複雑な動き、幻想的なシーン、非常に高い品質。これらは驚くべきものです。

私が特に気に入っている別の例を見せましょう。これは白いシーツをかぶったゴーストです。これらは本当に素晴らしい。そして、単に超高品質というだけでなく、これらのモデルは物理法則について何らかの概念を学習しているように見えます。この例で私が気に入っているのは、よく見ると、鏡の中にゴーストの反射が映っているのが分かることです。つまり、これらのモデルは明らかに非常に高度なことを学習しているのです。先ほど申し上げたように、よく注意して見ると、鏡の中にゴーストの反射が見えます。これらは本当に驚くべきものです。

そして、これだけではありません。これらのテキストから動画生成モデルは、編集のような他の素晴らしい機能にも使用できます。例えば、これらのモデルに左上のような入力動画を与え、「ランナーを膨らませた恐竜に変える」とか「サボテンの砂漠に変える」といった編集プロンプトを指定できます。これらは本当に素晴らしい。

さて、皆さんの中で、メディア生成分野、あるいは機械学習分野にどれくらいの期間注目してきた方がいらっしゃるか分かりませんが、もし過去1年から1年半しか注目してこなかったのであれば、これが当たり前だと思っているでしょう。実際の動画と完全に区別がつかない生成動画を見ることに慣れてしまっているのです。

しかし、これは信じられないほど最近の発展なのです。右側には、最初のスライドで見せたのと同じ動画があります。これは2024年10月にリリースされたモデルからのものです。そして左側には、2022年9月の当時素晴らしい最先端のアプローチがあります。これは私のチームがリリースした別のモデルです。当時、これがいかに驚くべきものだったか、いくら強調してもし切れません。

そして、このギャップは2年間です。このセミナーに来た講演者の誰もが、機械学習のサブフィールドで素晴らしい進歩があったと言ったと思います。そして、確かにあらゆる場所で進歩がありました。しかし、動画生成ほど明確に進歩が見える分野はありません。では、これはどのようにして起こったのでしょうか。これが今日の講演の主題となります。

1.3 2022年から2024年までの2年間における劇的な品質向上

Andrew Brown：このような動画を生成するモデルをどのように訓練するのか、これについてお話ししていきます。前のスライドで見せた動画は全て、私たちが2024年10月にリリースしたMovie Genという論文からのものです。これが論文の要旨の一部です。どのようにしてこれを実現したかについて、少しネタバレをすると、そして私がこの講演に招待された理由のネタバレでもあるのですが、私たちはTransformerを使ってこれを実現しました。

以前の講演でもこの小さな図が含まれていたのを見ましたので、私も入れなければなりませんでした。今日の結論は2つあります。まず第一に、このような動画を生成するTransformerを訓練する方法について、あらゆる詳細をお話しします。私たちは全ての詳細を公開しています。全てを段階的に説明していきます。Transformerのようないくつかの概念は馴染みのあるものでしょう。いくつかは新しいものです。全てを説明していきます。

第二の要点は、このプロジェクトを通じて学んだこの結論です。これは繰り返し述べていきますが、シンプルなTransformerのデータ、計算量、モデルパラメータをスケールすることが、動画生成でも機能するということです。私たちは、これがあらゆる種類の機械学習分野で機能するのを見てきました。動画生成でも同様に機能することが分かったのです。

1.4 講演の主要メッセージ：Transformerのスケーリングによる成功

Andrew Brown：少し個人的な背景についてお話しします。これまでこのセミナーに登壇された講演者の多くはNLP分野の方だと思います。TransformerがNLPから生まれたことを考えると、これは理にかなっています。私はコンピュータビジョンの研究者で、ここ数年はビジュアル生成に取り組んできました。そして、今ほど人気のある分野ではない時期もありました。

どのようにしてこの分野に入ったかというと、私は博士課程の2年目に、オックスフォードの工学部のこの講堂に座っていました。そこでMITのAntonio Torralba教授による講演が行われていました。彼はGAN Dissectionという研究を発表していました。皆さんの中にはGANsについて聞いたことがある方もいらっしゃるでしょう。当時の最先端の画像生成アプローチは、これらの敵対的生成ネットワーク（Generative Adversarial Networks）でした。

2019年には、ぼやけた顔、ぼやけたキッチン、ぼやけた寝室を生成することができました。そして、それは当時としては驚くべきものでした。この論文では、GAN内の特定のニューロンを活性化または非活性化することができ、そうすることで特定の概念を出現させたり消失させたりできることを示していました。

これらが当時生成していた画像の種類です。これはぼやけたキッチンのようなものです。これは最先端に近いものでした。ご覧のとおり、視覚的な概念はかなり混乱しています。あまり意味をなしていません。しかし、当時これがいかに優れていたか、いくら強調してもし切れません。

皆さんの多くはDALL-EやStable Diffusionなどを見たことがあると思います。しかし、常にこれほど良かったわけではありません。この論文のポイント、少なくともこの例でのポイントは、特定のニューロンを活性化してキッチンに窓を出現させることができることを示していたことです。窓があったらキッチンがどう見えるか想像できるでしょう。そして結果はこのようになりました。左側にはかなり不安定な窓があります。

そして私の心は完全に打ちのめされました。皆さんも同じように感じていると思いますが、これは驚くべきことでした。彼らがここで示したのは、モデルが物理的にもっともらしい場所に窓を配置することを学習していただけではありません。重要なのは、モデルが物理学の概念を学習していたことも示していたことです。モデルは、部屋の左側に窓を配置すると、そこから光が入ってきて、大理石のカウンタートップに反射が生じることを学習していました。そしてそれがここに見えます。そしてモデルは、ただ画像を見ることでこれを学習したのです。

これは若い博士課程の学生だった私に、非常に深い影響を与えました。そして私はそれ以来、ビジュアル生成の分野にいます。

2. ビジュアル生成研究の個人的背景と動画生成の歴史

2.1 GANs時代からの道のり（2019年のGAN Dissectionの衝撃）

Andrew Brown：講演の本体は5つのパートに分かれています。モデルの概要、アーキテクチャ、データと訓練レシピ、結果とアプリケーション、そして今後の展望について少し議論します。

まず、Movie Genと動画生成に関する歴史的文脈を少し含めました。皆さんの中には動画生成分野にかなり新しい方もいらっしゃるかもしれません。この分野自体が本質的に新しいものです。このスナップショットは、2024年から約3年前の2022年頃までを示しています。これは機械学習研究における1世紀のようなものです。ここに全ての研究を含めているわけではありません。非常に関連性が高く重要な研究がいくつかあります。いくつかのポイントを示すために、スナップショットを含めただけです。

動画生成には2つのマイルストーンとなる出来事がありました。最初は2022年で、人々が拡散モデリングを使い始めた時です。これはコミュニティ全体が拡散を使い始めた時期です。それは当時、視覚的品質における大きな進歩でした。そして2つ目は2024年です。

これが今日の講演のポイントです。2024年以前は、人々はかなり小規模な特殊化されたアーキテクチャを使用していました。小規模と言うのは、最近では小規模と大規模の定義があちこちで変わっているからです。しかし、これらはコンピュータビジョン用の特殊化されたアーキテクチャで、CNNやU-Netなどのようなものでした。

そして2024年頃、動画生成はこのアーキテクチャ統一のセットアップに参入しました。全ての機械学習分野で、人々が特殊化されたアーキテクチャを捨てて、このシンプルなTransformerのセットアップに移行するのを見てきました。その理由は、これらの異なる分野全てが、Transformerに移行することで効率性とスケーラビリティの恩恵を受けているからです。

そして2024年に、動画生成コミュニティも同じことを始めました。そこでMovie Genが登場します。これが今日お話しする内容です。

2.2 物理法則学習に関する初期の発見と影響

Andrew Brown：先ほどGAN Dissectionの講演についてお話ししましたが、この経験が私のキャリアに与えた影響について、もう少し詳しく説明させてください。2019年、博士課程の2年目だった私が目にしたものは、単なる技術的な進歩以上のものでした。

Antonio Torralba教授が示したGAN Dissectionの例では、GANの特定のニューロンを活性化することで、キッチンに窓を出現させることができました。結果として現れた画像は、左側にかなり不安定な窓が表示されているものでした。画質そのものは今日の基準からすれば粗いものでしたが、そこで起きていたことは革命的でした。

この研究が示した最も重要な点は2つありました。第一に、モデルが物理的にもっともらしい場所に窓を配置することを学習していたということです。つまり、モデルは窓がキッチンのどこに配置されるべきかという空間的な理解を持っていました。しかし、さらに重要だったのは第二の点です。モデルが物理学の概念そのものを学習していたのです。

具体的には、モデルは部屋の左側に窓を配置すると、そこから光が入ってくるということを理解していました。そして、その光が大理石のカウンタートップに当たると反射が生じることも学習していました。実際の生成画像を見ると、その反射がはっきりと確認できます。そして最も驚くべきことは、モデルがこれら全てをただ画像を見ることだけで学習したということです。明示的に物理法則を教え込まれたわけではなく、大量の画像データから自然にこれらの関係性を抽出したのです。

この発見は、若い博士課程の学生だった私に非常に深い影響を与えました。モデルが単にパターンマッチングをしているのではなく、世界の仕組みについての何らかの理解を獲得できるという可能性を見せてくれたのです。それ以来、私はビジュアル生成の分野に身を置き続けています。

2.3 動画生成分野の歴史的マイルストーン（拡散モデリングとTransformerの導入）

Andrew Brown：動画生成分野の歴史を振り返ると、2つの決定的なマイルストーンが存在します。この分野は本質的に非常に新しく、私が示すスナップショットは2022年から2024年までの約3年間をカバーしています。機械学習研究の世界では、これは1世紀にも相当する長さです。ここに全ての重要な研究を含めているわけではありませんが、いくつかのポイントを示すために代表的なものを選んでいます。

最初のマイルストーンは2022年に訪れました。これは人々が拡散モデリング（Diffusion Modeling）を使い始めた時期です。コミュニティ全体が拡散モデルに移行し始めたこの転換点は、視覚的品質において大きな飛躍をもたらしました。拡散モデルの導入により、生成される動画の質が顕著に向上したのです。

そして第二のマイルストーンが2024年に到来しました。これこそが、まさに今日の講演の核心となる部分です。2024年以前、研究者たちはかなり小規模な、コンピュータビジョン専用に設計された特殊化されたアーキテクチャを使用していました。ここで「小規模」と言うのは、最近では小規模と大規模の定義自体があちこちで急速に変化しているためです。これらの特殊化されたアーキテクチャには、畳み込みニューラルネットワーク（CNN）やU-Netといったものが含まれていました。

ところが2024年頃、動画生成分野は「アーキテクチャ統一」の流れに参入しました。これは機械学習の全ての分野で観察されてきた現象です。研究者たちが、それぞれの分野に特化した専用アーキテクチャを捨て去り、シンプルなTransformerのセットアップに移行するという動きです。この移行の理由は明確です。これらの異なる分野全てが、Transformerに移行することで効率性とスケーラビリティという大きな恩恵を享受しているのです。

Transformerの利点は、その汎用性と並列化のしやすさにあります。特殊化されたアーキテクチャは確かに特定のタスクに対して最適化されていますが、スケールアップする際の困難さや、新しい発見を他の分野に転用する難しさといった制約がありました。一方、Transformerは既にNLPや他の分野で大規模にスケールすることが実証されており、そのインフラストラクチャや知見を流用できるという大きなアドバンテージがあります。

2024年、動画生成コミュニティもついにこの流れに乗りました。そして、そこにMovie Genが登場したのです。これが今日私がお話しする内容の中心となります。

2.4 Movie Genプロジェクトの全体像と30億パラメータモデル

Andrew Brown：詳細に入る前に、Movie Genとは何かについて簡単な概要を説明します。Movie Genは、異なるアスペクト比と同期された音声を持つ高品質な1080p HD動画を生成する基盤モデルのキャストでした。今日は、テキストから動画を生成するモデルについてのみお話しします。訓練した他のモデルの楽しい例については、後ほどいくつかお見せします。

そして、繰り返し述べてきたように、この論文の要点は、Flow Matchingで訓練されたシンプルなTransformerのデータ、訓練計算量、モデルパラメータをスケールすることが、最先端の結果をもたらしたということを示したことです。Flow Matchingについては後ほど詳しく説明します。また、その過程でいくつかの革新と簡素化も提示しました。

Movie Gen Videoというモデルは、テキストから画像生成とテキストから動画生成を同時に行うための30億パラメータの基盤モデルでした。このモデルは、約1億本の動画と10億枚の画像のオーダーで訓練されました。これは膨大なスケールのデータセットです。

ここで重要なのは、Movie Genが単一のタスクに特化したモデルではなく、画像と動画の両方の生成を統一的に扱える基盤モデルとして設計されたことです。30億パラメータというスケールは、当時としては非常に大規模なものでしたが、後ほど説明するように、これでもまだスケールアップの余地は大きく残されています。

訓練データの規模も注目に値します。1億本の動画と10億枚の画像という数字は、単に量が多いだけでなく、質の高いデータを集めるために非常に複雑なフィルタリングパイプラインを必要としました。この点については、データと訓練レシピのセクションで詳しく説明します。

そしてもう一度強調したいのは、この論文の核心的なメッセージです。シンプルなTransformerアーキテクチャに対して、データ、計算量、モデルパラメータをスケールするという、ある意味で非常に直感的なアプローチが、動画生成という複雑なタスクにおいても機能することを実証したのです。これは、NLPやその他の分野で見られてきたスケーリング則が、動画生成にも適用できるという重要な発見でした。

3. アーキテクチャ（1）：データ表現と圧縮

3.1 テキストとメディアデータの本質的な違い

Andrew Brown：それでは、アーキテクチャについて説明していきます。今日カバーしたい主要な点が3つあります。第一に、表現（representation）です。私たちは何の表現を学習しているのか。第二に、使用する学習目的関数です。そして第三に、それを学習するためにどのようなモデルアーキテクチャを使用するのか。もし私がここでうまく説明できれば、皆さん全員が動画生成について知るべきことの全てを理解できるはずです。

皆さんの多くはNLPのバックグラウンドを持ち、テキストの自己回帰モデルに馴染みがあると想像しています。私は、これら全てをテキストとの関係で、そして大規模言語モデルとどう異なるかという観点から文脈化しようと思います。

まず表現についてです。表現とは何を意味するのでしょうか。つまり、モデルのためにデータをどのように表現するのかということです。私たちはここで生成モデリングを行っています。Pofxを学習しているのです。ここでの問題は、xが何であるべきかということです。xは何らかの形で動画から導出されることは分かっていますが、正確にどのようにそれを行うかという未解決の問題があります。

私たちが最終的に行ったことを動機づけるために、テキストとメディアの違いについて少しお話しします。テキストデータを見てみましょう。例えば、このデータサンプル、「猫の画像」という文です。このデータサンプルが作成されたとき、人間は自分が考えていることを、非常によく設計された、意味的に豊かな言語に圧縮することに膨大な思考を注ぎ込んでいます。それは非常に圧縮されています。各単語は膨大な量の情報を詰め込んでいます。そして、それは本質的に離散的でもあります。

実際には、大規模言語モデルを訓練する際、人々はこれにかなり近い表現を使用できます。Transformerに入力する前にシンプルなトークナイザーを使用することもあります。

メディアデータはこれと信じられないほど異なります。関連するデータサンプル、実際の猫の画像を見てみましょう。ここでは実際には圧縮はほとんど発生していません。この画像は、カメラによってキャプチャされた連続的な生のデータに過ぎません。おそらく、この画像に人間の努力が投入されたのは、カメラを配置して猫を画面の中央にフレーミングしたことくらいですが、それ以外は何もありません。その結果、膨大な冗長性があります。

ここで冗長性とは何を意味するかというと、もし猫が何であるかを知っていて、そして中央のピクセルが猫の白い毛であることを知っているとしましょう。猫が何であるかを知っていれば、その隣のピクセルもおそらく白い毛であることが分かります。そしてその隣のピクセルも同様です。そして、もしそれが動画であれば、1フレーム先の同じピクセルも白い猫の毛であることが分かります。膨大な量の冗長性があるのです。

これは、おそらくこの生のデータを、言語により近いものに変換できるのではないかという問いを投げかけます。テキストは人間によって高度に圧縮され、意味的に豊かで離散的な形式ですが、メディアデータは連続的で、冗長性が高く、意味的な構造化が行われていません。この根本的な違いが、メディア生成において特別な表現学習アプローチを必要とする理由なのです。

3.2 ピクセル直接モデリングの計算制約と問題点

Andrew Brown：前のスライドで述べたことを全て忘れたとしても、一つの非常にシンプルなアプローチがあります。それは、ピクセルを直接モデリングするというものです。

例えば、画像や動画を取り、それをピクセルの長いシーケンスに展開し、それに対して次トークン予測を訓練するとしましょう。ある意味で、これはいくつかの先行研究が行ったことです。Imagen VideoやImageGPTのような手法は、パッチングと組み合わせてこのアプローチを採用していました。これは概念的には非常にシンプルな手法ですが、計算的には非常に制約があります。

ピクセルを直接モデリングすることの問題は、ピクセル数が画像や動画の解像度に対して二次関数的にスケールするということです。これは画像にとっては悪いことですが、時間次元を持つ動画にとってはさらに悪いことです。実際には、これらのモデルは64×64ピクセルのような非常に低解像度の画像や動画しかモデリングできないことを意味します。これは理想的ではありません。

そして、実際に大きなHD動画を生成したい場合、これらの手法は膨大なアップサンプリング段階のカスケードを採用する必要がありました。超解像モデル、フレーム補間モデルなどを使ってデータのサイズを増やすのです。これは本当に理想的ではありません。

具体的な数字で説明すると、もし私たちが後ほど説明する最大サイズの動画、つまり768×768ピクセル、16秒、16FPSの動画をピクセル直接モデリングしようとした場合を考えてみましょう。この動画を取り、全てを展開し、1ピクセルを1トークンとして扱い、全体を平坦化すると、1億5000万トークンになります。現在、非常に長いコンテキスト訓練手法を持つ言語モデルでさえ、これは完全に実行不可能です。

このピクセル直接モデリングのアプローチは、小規模なデモンストレーションや概念実証としては機能するかもしれませんが、実用的な高解像度動画生成にスケールすることは不可能です。解像度が上がれば上がるほど、必要なトークン数は爆発的に増加し、すぐに現在の計算能力の限界を超えてしまいます。

さらに、複数のアップサンプリング段階を使用するカスケードアプローチには、それぞれの段階でエラーが累積する可能性があるという問題もあります。最初の低解像度生成で何か問題があれば、それが後続の全ての段階に伝播してしまう可能性があります。したがって、より効率的で実用的なアプローチが必要だったのです。

3.3 Temporal Autoencoder (TAE)による時空間圧縮

Andrew Brown：そこで、先行研究が行っていること、そして私たちが採用したアプローチは、VAE（Variational Autoencoder）やVQ-VAE（Vector Quantized VAE）を使ってオフラインで訓練された圧縮された潜在表現を学習することです。これは、ソーシャルメディアで見たことがあるテキストから画像を生成するモデルや、テキストから動画を生成するモデルが、長い間行ってきたことです。

このアプローチの利点は2つあります。もしデータの圧縮版をモデリングしているのであれば、ネイティブにより大きなデータをモデリングできます。64×64まで解像度を下げる必要はありません。もっと大きなものをネイティブにモデリングできるのです。

もう一つの利点は、このオフラインで訓練されたVAEやVQ-VAEが、言語モデルから計算負荷の一部を取り除くことができるということです。例えば、これらのオートエンコーダーは、画像や動画の中で2つの別々の草の葉がどのように異なるかのモデリングを処理できます。そして、その負担を下流の言語モデルから取り除くことができるのです。

それが私たちが行ったことです。アーキテクチャの観点から、私たちは動画の時空間圧縮のためにTemporal Autoencoder（時間的オートエンコーダー）と呼ばれるものを訓練しました。これは基本的には変分オートエンコーダーです。

これはどのように機能するのでしょうか。動画を取り、TAEエンコーダーに通します。VAEはエンコーダーとデコーダーから構成されています。エンコーダーの後、表現は圧縮され、中央のボトルネックで潜在表現が得られます。そして、これが下流で使用する表現となります。

これらをどのように訓練するかは非常にシンプルです。以前に見たことがある方もいるかもしれません。動画を取り、エンコーダーに通します。ボトルネックの潜在表現に到達します。次に、それをピクセル空間にデコードし直します。そして、出力と入力の間に、L1損失、敵対的損失などの一連の損失を設けます。

つまり、中央のこの表現が、私たちがモデリングしようとしているものです。P of xを学習すると言うとき、私たちはこの潜在空間の分布を学習しているのです。これが意味するのは、この空間で生成モデルを訓練すると、それはこの空間で生成を行うということです。RGB空間で生成するわけではありません。したがって、動画を生成した後、それをRGB空間にデコードし直す必要があります。

私たちが訓練したTAEは、各次元で8倍の圧縮を行いました。高さ、幅、時間のそれぞれで8倍です。これは当時としてはかなり高い圧縮率でした。もはや最高の圧縮率ではありません。これは約6か月前に公開されたものです。そして6か月は、機械学習研究においては10年のようなものです。しかし、当時はこれは非常に高い圧縮でした。そして先ほど述べたように、これは私たちが非常に高解像度の動画をネイティブにモデリングできることを意味します。

3.4 8倍圧縮による劇的な効率化（1.5億トークンから7.3万トークンへ)

Andrew Brown：例として、この研究でモデリングする最大の動画は、768×768ピクセル、16秒、16FPSです。もしピクセルを直接モデリングしようとして、このサイズの動画を取り、全てを展開し、1ピクセルを1トークンとして扱い、全体を平坦化したとすると、1億5000万トークンになります。言語モデルで非常に長いコンテキスト訓練手法を使っても、現時点ではこれは完全に実行不可能です。

しかし、このTemporal Autoencoder（TAE）を使用すると、同じ動画がわずか73,000トークンに圧縮されます。これは突然、今日の並列化アプローチ、今日のインフラストラクチャを使用して、完全に計算的に実行可能になります。

この劇的な圧縮率の改善を具体的に見てみましょう。1億5000万トークンから73,000トークンへの削減は、約2,000倍以上の圧縮を意味します。これは単なる数値の改善ではなく、実用的な動画生成を可能にするか不可能にするかの決定的な違いなのです。

もし誰かがこの計算をオフラインで行っていて、数字が合わないと思っている方がいるかもしれませんが、パッチ化のレイヤーもあります。しかし、基本的な圧縮の原理は変わりません。TAEによって、各次元（高さ、幅、時間）で8倍ずつ圧縮することで、扱うべきトークン数を現実的な範囲に収めることができたのです。

この圧縮により、私たちは現代のGPUインフラストラクチャで実際に訓練できる規模のシーケンス長を達成しました。73,000トークンというのは、現在の大規模言語モデルの訓練で扱われているコンテキスト長と比較しても、管理可能な範囲内です。これにより、複数のアップサンプリング段階を必要とせず、高解像度の動画を直接生成できるようになりました。

TAEによる圧縮は、動画生成を実用的なものにするための鍵となる技術的ブレークスルーでした。これなしには、Movie Genのような大規模な動画生成モデルの訓練は不可能だったでしょう。

3.5 因果性に関する設計選択

Andrew Brown：それでは、表現に関するセクションはこれで終わりです。この時点で何か質問はありますか？

質問者：（聞き取り不可）

Andrew Brown：素晴らしい指摘です。多くの動画用オートエンコーダーは因果性を使用しています。因果性を使用することのいくつかの良い結果の一つは、画像をエンコードする際に、後続のフレームから完全に独立してエンコードできることなどです。しかし、いいえ、このTAEは因果的ではありません。

この設計選択について少し補足すると、因果的なオートエンコーダーを使用する場合、各フレームは過去のフレームのみに依存し、未来のフレームを見ることができません。これは、リアルタイムのストリーミングアプリケーションや、フレームごとに逐次的に処理する必要がある場合に利点があります。画像を個別に、他のフレームとは独立してエンコードできるため、並列処理が容易になる側面もあります。

しかし、私たちのTAEは非因果的です。つまり、エンコード時に動画全体のコンテキストを見ることができます。特定のフレームをエンコードする際に、そのフレームの前後両方の情報を利用できるのです。この選択により、より効果的な圧縮と、時間的な一貫性のより良い保持が可能になります。動画全体の情報を活用できることで、時間的な冗長性をより効率的に除去し、より質の高い潜在表現を得ることができるのです。

この非因果的なアプローチは、バッチ処理の文脈では特に有効です。私たちは動画全体を一度に処理するため、将来のフレームを見ることができないという制約を課す必要がありません。これにより、圧縮効率と再構成品質の両方を最大化することができました。

4. アーキテクチャ（2）：Flow Matchingによる学習

4.1 拡散モデリングからFlow Matchingへの移行理由

Andrew Brown：次に、どの生成モデリングの学習目的関数を使用するかについてお話しします。これまでの講演のほとんどで、テキストのための自己回帰と次トークン予測について聞いてきたと思います。メディア生成では、ここ数年それを行っていません。

ほとんどのメディア生成において、事実上のアプローチは拡散モデリングを使用することでした。私たちはFlow Matchingと呼ばれるものを使用します。Flow Matchingとは何でしょうか。Flow Matchingは、ある意味で拡散のよりシンプルな一般化です。

皆さんの中で拡散モデリングやFlow Matchingに関する講演を見たり、何か読んだりしたことがある方は、以前にこのような図を見たことがあると確信しています。Flow MatchingとDiffusionの間で何が似ているかについて簡単に説明し、その後、訓練ステップがどのようなものかを説明します。

拡散とFlow Matchingの両方は、非常に似たセットアップを持っています。未知のデータ分布があると仮定します。この図では画像の分布です。この場合、猫の画像のようなものです。これが学習しようとしている分布です。これが私たちが学習し、そこからサンプリングしたい分布です。また、右側に既知のデータ分布があると仮定します。そして私たちはこれを通常、ガウスノイズとしてモデリングします。

両方とも、この固定された順方向プロセスがあると仮定します。これが意味するのは、反復的にノイズを加えることで、未知のデータ分布と既知のデータ分布の間を変換する方法があるということです。両方とも、ノイズを加え続けると、基本的にこの既知のデータ分布に到達すると仮定します。

そして両方とも、逆プロセスを行うためにニューラルネットワークを訓練します。つまり、これらの画像の一つを取り、反復的にノイズを除去するようにニューラルネットワークを訓練するのです。そして推論時には、このニューラルネットワークを反復的に使用して、純粋なノイズであるサンプルから、学習したばかりのこのデータ分布からのサンプルに戻ることができます。そして、これが画像や動画をサンプリングする方法なのです。

拡散とFlow Matchingは多くの点で非常に似ています。Flow Matchingは、ある意味でよりシンプルな一般化です。2023年にMetaの同僚たちから出た、かなり最近の論文で示されたことですが、より堅牢な訓練と、サンプリングがより簡単で速い、より効率的な確率経路をもたらすことが示されています。

重要なことに、拡散よりも優れた動作をすることが示されています。ここで膨大な詳細には立ち入りませんが、訓練ステップがどのように見えるかを説明します。

4.2 Flow Matchingの基本概念と訓練プロセス

Andrew Brown：それでは、Flow Matchingの訓練プロセスについて詳しく見ていきましょう。ここには多くの方程式がありますが、かなり簡単に理解できるように段階を追って説明します。これは3ステップのプロセスです。

まず、訓練データサンプルX1を取ります。これは前のスライドの猫の画像です。これはデータセットからの単なる画像です。次に、時間ステップをサンプリングします。これは0と1の間の浮動小数点数です。そして、既知のデータ分布からサンプリングします。これは単に正規ガウス分布からサンプルを取ることを意味します。

次に、訓練サンプルXtを構築します。これは何でしょうか。これは単なる中間的な画像、ややノイズの入った猫の画像です。Xtを構築する方法はたくさんあります。私たちはFlow Matchingの論文から「シンプルな線形補間」と呼ばれるものを使用します。そして方程式がここに示されています。これが、上でサンプリングした3つのものから、この中間的な訓練サンプルに至る方法です。

そして、Flow Matchingでは、速度（velocity）を予測するようにモデルを訓練します。これは、訓練サンプルをデータサンプルの方向に戻す値です。実際には、これは非常にシンプルです。これが速度を計算する方法で、単に上の方程式を微分するだけです。これが私たちのground truthを得る方法です。

そして右側に、実際の学習目的関数があります。これはモデル予測とground truthの速度との間の平均二乗誤差です。ここで、モデル予測はuによってパラメータ化されています。これは訓練サンプルを入力として取ります。そして2つのものに条件付けられています。テキストプロンプトに条件付けられています、それがPです。覚えておいてください、私たちはテキストから動画への生成を行っています。したがって、テキストプロンプトに生成を条件付ける必要があります。これをどのように行うかについては後ほど説明します。また、時間ステップにも条件付けられています。そしてθはモデルパラメータです。

これで皆さんはFlow Matchingの方法を知ったことになります。実際には、この訓練プロセスは非常に直感的です。データサンプルとノイズの間のランダムな点を取り、モデルにそこからデータ分布の方向を指し示す方法を学習させるのです。時間ステップtが異なれば、データとノイズの異なる混合比率になり、モデルは全ての中間状態をどのようにナビゲートするかを学習します。

テキスト条件付けPの存在は、同じノイズから始めても、異なるテキストプロンプトが異なる出力に導くことを可能にします。これが、「猫が走っている」と「犬が座っている」という2つの異なるプロンプトから、全く異なる動画を生成できる理由です。

4.3 3ステップの訓練手順の詳細

Andrew Brown：Flow Matchingの訓練手順をもう少し詳しく見ていきましょう。先ほど述べたように、これは3ステップのプロセスです。各ステップを丁寧に説明します。

ステップ1では、訓練データサンプルX1を取ります。これは前のスライドで見た猫の画像です。データセットから取ってきた実際の画像です。これが私たちの目標とするデータ分布からのサンプルです。

同時に、時間ステップtをサンプリングします。これは0と1の間の浮動小数点数です。この時間ステップは、ノイズとデータの混合比率を決定します。t=0に近ければデータにより近く、t=1に近ければノイズにより近くなります。

そして、既知のデータ分布X0からサンプリングします。これは単に正規ガウス分布N(0,1)からサンプルを取ることを意味します。これは完全なランダムノイズです。

ステップ2では、これら3つの要素から訓練サンプルXtを構築します。Xtは中間的な画像、つまりある程度ノイズが入った猫の画像です。Xtを構築する方法はいくつかありますが、私たちはFlow Matchingの論文からシンプルな線形補間を使用します。

具体的な方程式は、Xt = t × X1 + (1-t) × X0 です。この方程式を見れば分かるように、tが0のときはX0（純粋なノイズ）になり、tが1のときはX1（実際のデータ）になります。そしてtが0と1の間の値のときは、データとノイズの線形補間になります。これが、上でサンプリングした3つの要素から中間的な訓練サンプルを得る方法です。

ステップ3では、モデルに速度を予測させます。Flow Matchingでは、速度（velocity）を予測するようにモデルを訓練します。この速度は、訓練サンプルをデータサンプルの方向に戻す値です。実際には、これは非常にシンプルです。

速度の計算方法は、先ほどのXtの方程式を時間tで微分するだけです。これにより、ground truthの速度ut = X1 - X0 が得られます。これが私たちの目標値です。

そして、実際の学習目的関数は右側に示されています。これはモデル予測とground truthの速度との間の平均二乗誤差（MSE）です。数式で表すと、Loss = ||uθ(Xt, P, t) - (X1 - X0)||² となります。

ここで、uθはモデルの予測であり、θはモデルパラメータです。モデルは訓練サンプルXtを入力として取ります。そして2つのものに条件付けられています。1つ目はテキストプロンプトP、2つ目は時間ステップtです。

テキストプロンプトに条件付ける理由は、私たちがテキストから動画への生成を行っているからです。生成をテキストプロンプトに条件付ける必要があります。どのようにこれを行うかについては後ほど詳しく説明します。時間ステップに条件付ける理由は、モデルがノイズとデータの混合比率を知る必要があるからです。t=0.1のときとt=0.9のときでは、予測すべき速度が異なります。

これら3つのステップを繰り返すことで、モデルはあらゆる時間ステップtにおいて、あらゆるノイズレベルの入力から、データ分布の方向を指し示す方法を学習していきます。

4.4 推論時のODEソルバーと250ステップのノイズ除去

Andrew Brown：推論もかなりシンプルです。まず、この既知のデータ分布、つまりガウスノイズからサンプリングすることから始めます。そして、一連の時間ステップを与えられた常微分方程式（ODE：Ordinary Differential Equation）ソルバーを使用して、データ分布に戻ります。

非常にシンプルに説明すると、ノイズをサンプリングします。そして時間ステップのストリームをサンプリングします。各時間ステップで、速度に対するモデルの予測を計算します。そしてソルバーを使用して、サンプルを未知のデータ分布の方向に移動させます。そしてそのプロセスの最後に、サンプルが得られます。

低レベルの詳細として、私たちはかなりシンプルなソルバーを使用しています。選択できるオプションはたくさんあります。

ここで質問がありました。

質問者：2つ質問があります。1つ目は、方程式の中にシグマというセグメンテーションがあることに気づきました。これは、ノイズからクリーンなデータまで完全には行かないということを意味しているのでしょうか。これは、同じクエリに対して毎回ノイズ除去プロセスを通じて多様性を得られるようにするためのセグメンテーションなのでしょうか？

Andrew Brown：実際にはpdataまで完全に行きます。これは単に一定に保つハイパーパラメータです。正確にこのハイパーパラメータが何のためにあるのか、今すぐには思い出せません。この後でお話ししましょう。

質問者：もう1つの質問は、通常どれくらいのノイズ除去ステップが必要なのでしょうか？

Andrew Brown：非常に良い指摘です。推論時には、一連の時間ステップをサンプリングします。通常、このようなフローベースのモデルでは、サンプリング数が多ければ多いほど、これらの確率経路をより良く近似できます。実際には、私たちは250ステップを使用しています。確か250だったと思います。

Flow Matchingの利点の1つは、理論的には確率経路がより直線的であることです。したがって、この経路を近似するために必要な関数評価が少なくて済むはずです。これが利点の1つです。

質問者：その250というのは、訓練中に事前に決められたTAEの数があるわけではないのですか？

Andrew Brown：そうです、訓練中は連続的です。しかし推論時には、離散的なものをいくつかサンプリングするだけです。

この250ステップという数字は重要です。各ステップでモデルは前方推論を実行する必要があるため、ステップ数は直接的に推論時間に影響します。しかし、ステップ数を減らしすぎると生成品質が低下する可能性があります。250ステップは、品質と速度のバランスを取った結果です。

Flow Matchingのもう1つの重要な利点は、拡散モデルと比較して、同じ品質を達成するためにより少ないステップで済むことが多いという点です。これは、Flow Matchingの確率経路が理論的により直線的で効率的だからです。拡散モデルでは、より曲がりくねった経路をたどる必要があり、その結果、より多くのステップが必要になることがよくあります。

ソルバーの選択についても少し補足しておきます。私たちはかなりシンプルなソルバーを使用していますが、より高度なODEソルバーを使用することで、さらに少ないステップで同等の品質を達成できる可能性があります。これは活発な研究領域です。

4.5 確率経路の効率性に関する利点

Andrew Brown：Flow Matchingの重要な利点について、もう少し詳しく説明させてください。2023年にMetaの同僚たちから出た論文で示されたことですが、Flow Matchingはより堅牢な訓練をもたらし、より効率的な確率経路を生成することが示されています。この確率経路は、サンプリングがより簡単で高速です。

確率経路の効率性とは何を意味するのでしょうか。拡散モデルでは、ノイズからデータへの変換経路が比較的複雑で曲がりくねったものになる傾向があります。これは、各ステップでモデルが複雑な調整を行う必要があることを意味します。一方、Flow Matchingの確率経路は理論的により直線的です。

この直線性には実用的な利点があります。より少ない関数評価で経路を正確に近似できるということです。先ほど述べたように、私たちは推論時に250ステップを使用していますが、Flow Matchingを使用することで、拡散モデルと比較して同等またはより良い品質を、潜在的により少ないステップで達成できる可能性があります。

さらに重要なことに、Flow Matchingは拡散よりも優れた動作をすることが示されています。これは単なる理論的な利点ではなく、実際の実験結果に基づいた観察です。訓練の安定性、収束速度、そして最終的な生成品質において、Flow Matchingは優位性を示しています。

Flow Matchingのもう1つの利点は、その概念的なシンプルさです。拡散モデルには多くの複雑な要素がありますが、Flow Matchingはある意味でそれらを一般化し、よりシンプルな定式化を提供します。このシンプルさは、理解しやすさだけでなく、実装のしやすさや、ハイパーパラメータのチューニングのしやすさにもつながります。

訓練の堅牢性という点でも、Flow Matchingには利点があります。訓練中により安定した勾配が得られ、収束までの時間が短縮される傾向があります。大規模なモデルを訓練する際、これは計算コストの観点から非常に重要な要素となります。

これらの理由から、私たちはMovie GenでFlow Matchingを採用しました。そして結果として、これは非常に良い選択だったと言えます。Flow Matchingは、高品質な動画生成を実現するための重要な技術的基盤の1つとなりました。

5. アーキテクチャ（3）：Llama 3ベースのTransformer設計

5.1 Llama 3アーキテクチャ採用の戦略的理由

Andrew Brown：最後に、どのモデルアーキテクチャを使用するかについてお話しします。既に述べたように、私たちはTransformerを使用しています。このプロジェクトの大きな目標は、既に7回ほど述べましたが、Transformerによるデータ、モデルパラメータ、計算量のスケーリングから恩恵を受けることでした。しかし、どのTransformerを使用するかという問題があります。

私の研究組織では、Llamaと呼ばれるものを訓練しています。LlamaはMetaがオープンソース化している大規模言語モデルです。私たちはLlama 3モデルを採用しました。だから、このスライドにL3を貼り付けたのです。Llama 3は、かなり古典的な密結合の、完全に接続された、デコーダーのみの言語モデルです。

Movie Genで私たちが行ったことは、動画を取り、先ほど説明したTAEでエンコードし、トークンを平坦化します。これで入力シーケンスが得られます。そして、それをLlamaに投入するだけです。非常に、非常にシンプルです。

ここでLlamaと言うとき、事前学習されたLlamaを意味しているわけではありません。テキスト用に訓練されたものを意味しているわけでもありません。ここで意味しているのはアーキテクチャです。つまり、ランダムに初期化されたアーキテクチャです。しかし、これは依然として非常に重要です。

大規模言語モデルを大規模に訓練することは、信じられないほど困難です。アーキテクチャについて何かを変更するたびに、異なるハイパーパラメータが必要になり、スケールの仕方も異なります。これは信じられないほど厄介です。

したがって、私たちの研究組織内で、このアーキテクチャをどのようにスケールするかを既に知っているという事実、そしてこれらを大規模に訓練するためのインフラストラクチャが既に設定されているという事実は、大きな違いを生みます。そのため、私たちにとって最もシンプルなことは、Llamaアーキテクチャを採用することでした。

ここで質問がありました。

質問者：初期化された、あるいは事前学習されたLlamaを使用することを試みたことはありますか？

Andrew Brown：このプロジェクトではそれを行いませんでしたが、確かにそれは試してみる価値のある非常にクールなことだと思います。それが機能する理由は完全には明確ではありません。明らかに、これらは非常に異なるモダリティであり、異なる学習目的関数です。しかし多くの点で、これらのモダリティ間には多くの共有された構造があり、それが恩恵をもたらすかもしれません。

Llamaアーキテクチャを採用する戦略的理由をまとめると、第一に、既に大規模に訓練する方法を知っているということです。これは些細なことではありません。数十億パラメータのモデルを訓練する際、アーキテクチャの選択が訓練の安定性、収束速度、最終的な性能に大きく影響します。

第二に、インフラストラクチャが既に存在しているということです。Llamaを訓練するための分散訓練システム、最適化パイプライン、モニタリングツールなど、全てが既に整っています。新しいアーキテクチャを採用する場合、これら全てを一から構築し直す必要があります。

第三に、知識の共有です。チーム内にLlamaの訓練経験を持つ人々が多数おり、問題が発生したときに迅速に対処できます。これは研究開発のスピードを大幅に向上させます。

5.2 テキスト条件付けのためのクロスアテンション層の追加

Andrew Brown：前のスライドは非常に意図的に過度に簡略化されていました。Llama 3にいくつかの変更を加える必要があります。重要なことに、Llama 3は自己回帰的なテキスト生成のためのモデルです。そして私たちはFlow Matchingを使用したテキストから動画への生成を行っています。したがって、3つの変更を加える必要があります。

アーキテクチャをほとんど変更していないという点を強調するために、これら全てを詳細に説明していきます。

最初に行う必要があることは、テキスト条件付けを組み込むことです。前のスライドで見たように、入力シーケンスは動画トークンだけで構成されています。私たちはテキストから動画への生成を行っているので、何らかの方法でテキスト条件付けを組み込む必要があります。そして、これをクロスアテンション層を使用して行います。

非常にシンプルに、テキスト条件付けで構成されたシーケンスを構築し、Transformerブロックにクロスアテンション層を追加します。これらは自己アテンション層とフィードフォワードネットワークの間に入ります。これはメディア生成モデルにテキスト条件付けを追加する非常に一般的な方法です。

クロスアテンション層の仕組みを少し詳しく説明すると、通常のセルフアテンション層では、動画トークンのシーケンスが自分自身にアテンションを向けます。つまり、各動画トークンが他の全ての動画トークンを見ることができます。一方、クロスアテンション層では、動画トークンがテキストトークンのシーケンスにアテンションを向けます。

具体的には、動画トークンがクエリ（Query）となり、テキストトークンがキー（Key）とバリュー（Value）となります。これにより、各動画トークンが生成プロンプトのどの部分に注目すべきかを学習できるようになります。例えば、「猫が走っている」というプロンプトがあった場合、動画の特定のフレームや領域が「猫」や「走っている」という単語により強くアテンションを向けることができます。

この方法の利点は、テキスト情報と動画情報を明確に分離できることです。動画の内部表現とテキストの内部表現が混ざり合うことなく、クロスアテンションを通じて必要な情報を選択的に取得できます。これにより、モデルは各モダリティの特性を保ちながら、効果的に情報を統合できるのです。

クロスアテンション層をTransformerブロックのどこに配置するかも重要な設計選択です。私たちは自己アテンション層とフィードフォワードネットワークの間に配置しました。これは、まず動画トークン同士で情報を交換し、次にテキスト情報を取り込み、最後にフィードフォワードネットワークで処理するという自然な流れを作ります。

5.3 3つのテキストエンコーダー（UL2、MetaCLIP、T5）の組み合わせ

Andrew Brown：テキスト表現をどうすべきかという問題もあります。このシーケンスをどのように構築すべきでしょうか。非常にシンプルな方法の1つは、プロンプト、つまりキャプションをトークン化して、それを入力するというものです。

しかし、それを行うと、テキスト表現をゼロから学習するという負担をモデルに大きく課すことになります。そこで代わりに、事前学習されたテキスト表現を使用します。実際には3つ使用します。これらは互いに補完的です。

最初の2つは、非常に意味レベルの表現を持っています。UL2は大規模なエンコーダー・デコーダーモデルです。MetaCLIPは私たちの内部CLIPモデルです。そして3つ目は、T5によるより文字レベルのテキスト表現を持っています。

私たちは、これら3つ全てを使用してテキストプロンプトをエンコードし、それらを全てモデルの次元に投影し、連結します。そして、それが私たちのテキストシーケンスを与えます。

この3つのテキストエンコーダーを組み合わせるアプローチについて、もう少し詳しく説明しましょう。各エンコーダーは異なる強みを持っています。

UL2は大規模なエンコーダー・デコーダーモデルで、テキストの高レベルな意味理解に優れています。これは文章の全体的な意味や文脈を捉えるのに役立ちます。

MetaCLIPは私たちの内部CLIP（Contrastive Language-Image Pre-training）モデルです。CLIPは画像とテキストの関連性を学習するように訓練されているため、視覚的概念とテキスト記述の間の橋渡しをする表現を提供します。これは特にメディア生成において重要です。なぜなら、テキストプロンプトを視覚的な出力に変換する必要があるからです。

T5は、より文字レベルまたは細粒度のテキスト表現を提供します。これは具体的な単語や表現の詳細を保持するのに役立ちます。例えば、特定の色や数字、固有名詞などの情報を正確に捉えることができます。

これら3つの表現を連結することで、意味レベルから文字レベルまで、また視覚的な対応関係まで、多層的なテキスト理解を実現しています。各エンコーダーの出力は、まずモデルの次元に投影されます。つまり、それぞれ異なる次元を持っているかもしれませんが、全て同じ次元空間に変換されます。そして、これらを連結することで、最終的なテキストシーケンスが得られます。

このアプローチにより、モデルは様々な粒度と視点からテキスト情報を理解することができ、より正確で詳細な動画生成が可能になります。

5.4 Adaptive Layer Normによる時間ステップ条件付け

Andrew Brown：2つ目に行う必要があることは、学習目的関数から思い出していただきたいのですが、時間ステップにも条件付ける必要があるということです。

ここで行うことは、Adaptive Layer Normブロックでこれを行います。既にクロスアテンションブロックを追加しました。また、このAdaptive Layer Normブロックも追加します。

これは条件付けを追加するやり方としてはかなり奇妙に見えるかもしれません。これはDiffusion Transformerの論文で普及したものです。これは拡散とTransformerを使用した最初の論文でした。明らかに名前からも分かります。少しランダムに見えるかもしれません。基本的には計算的に非常に安価で、非常にうまく機能するのです。

Adaptive Layer Normについてもう少し詳しく説明しましょう。標準的なLayer Normalizationでは、固定されたスケールとバイアスのパラメータを使用して正規化を行います。しかし、Adaptive Layer Normでは、これらのスケールとバイアスのパラメータが時間ステップtに依存して動的に変化します。

具体的には、時間ステップtがまず小さなニューラルネットワーク（通常はMLPまたは線形層）を通過し、そこからスケールとバイアスのパラメータが生成されます。これらのパラメータが、各Layer Normalizationブロックで使用されます。

この方法が「奇妙」に見えるかもしれない理由は、時間情報をアテンション機構や他のより直接的な方法ではなく、正規化層を通じて注入しているからです。しかし、実際には、この方法には大きな利点があります。

第一に、計算的に非常に安価です。追加の計算コストはほとんどかかりません。時間ステップから生成されるパラメータの数は比較的少なく、それらを使用してLayer Normを調整するだけです。

第二に、これは驚くほどうまく機能します。Diffusion Transformerの論文で示されたように、この方法は時間情報をモデル全体に効果的に伝播させることができます。各Transformerブロックで、時間ステップに応じて特徴の正規化方法が調整されるため、モデルは現在どの時間ステップにいるのかを常に認識することができます。

この設計選択は、実用性と効果のバランスを取った良い例です。理論的には他にも多くの方法がありますが、Adaptive Layer Normはシンプルで実装が容易でありながら、非常に効果的に機能することが実証されています。そのため、私たちもこの方法を採用しました。

5.5 完全双方向アテンションへの変更と完全なアーキテクチャ図

Andrew Brown：3つ目、これで最後です。私たちは完全双方向アテンション（full bidirectional attention）を使用します。Llamaは次トークン予測のための自己回帰的なテキストモデルで、因果マスキング（causal masking）を使用しています。Flow Matchingの目的関数では、そのような制約はありません。全ての動画トークンが他の全ての動画トークンを見ることができるようにしたいのです。

因果マスキングについては気にする必要がないので、それを取り除きます。非常に低レベルな詳細ですが、このため、私たちはグループ化クエリアテンション（grouped query attention）の代わりにマルチヘッドアテンション（multi-head attention）を使用しています。

しかし、それだけです。それ以外は、Llamaアーキテクチャです。

因果マスキングと双方向アテンションの違いについて少し説明しましょう。自己回帰的な言語モデルでは、各トークンは自分自身より前のトークンしか見ることができません。これは次トークン予測というタスクの性質上、当然のことです。未来のトークンを見てしまったら、予測する意味がなくなってしまいます。

しかし、Flow Matchingでは状況が全く異なります。私たちは全体の動画を一度に生成しています。ノイズ除去のプロセスにおいて、各位置のトークンは動画全体のコンテキストから情報を得ることができた方が有利です。例えば、動画の中央のフレームを生成する際、その前後両方のフレームからの情報が役立ちます。

完全双方向アテンションを使用することで、各トークンは入力シーケンス内の全ての他のトークンを見ることができます。これにより、時間的な一貫性や空間的な一貫性をより良く保つことができます。

グループ化クエリアテンションからマルチヘッドアテンションへの変更については、これは技術的な詳細ですが、双方向アテンションとの互換性を保つために必要でした。マルチヘッドアテンションは、より標準的なTransformerの構成要素であり、全てのトークンが全てのトークンを見ることができるという設定においてより自然に機能します。

それでは、完全なアーキテクチャ図を見ていきましょう。以前これを出すことを非常に警戒していました。かなり複雑だからです。しかし、この時点では全て理解できるはずだと思います。

左から右へ、訓練中は訓練動画の1つを取ります。TAEでエンコードして、圧縮された潜在表現を得ます。小さなパッチ化（patchify）を通過します。これは単に追加の圧縮を行うだけです。そしてそれを平坦化し、それが入力シーケンスを得る方法です。訓練中は、このガウスノイズと組み合わせることで訓練サンプルを構築します。

推論中は、このシーケンス全体がガウスノイズから始まります。シーケンスはこれらのLlama Transformerブロックを通過します。条件付けを追加し、そして出力シーケンスを得ます。訓練中は、損失を計算してバックプロパゲーションします。

推論中は、この反復的なノイズ除去プロセスを実行し、最終的にRGB空間にデコードして戻します。

アーキテクチャについて何か質問はありますか？

質問者：入力についての質問です。ガウスノイズから始めて、一連のノイズ除去ステップがあるということですが、テキストプロンプトはどこに入るのですか？なぜランダムな動画が生成されないのですか？

Andrew Brown：推論時、特定のテキストプロンプトに対して、この条件付けを常にモデルに追加します。入力シーケンスはガウスノイズだけです。しかし、それはテキスト情報が入ってくる場所ではありません。テキスト情報はこれらのクロスアテンション層を通じて入ってきます。したがって、入力シーケンスがノイズだけであっても、モデルはこのクリーンなテキスト情報を依然として見ています。テキストをノイズ化したり、そのようなことは何もしません。

理解できましたか？これで完全なアーキテクチャの説明は終わりです。

6. データパイプラインと訓練レシピ

6.1 データの重要性：大規模言語モデル訓練における最重要要素

Andrew Brown：質問者が2つ質問があります。1つ目は、方程式の中にシグマというセグメンテーションがあることに気づきました。クリーンなデータまで完全にノイズ除去しないということでしょうか。これは、同じクエリに対して毎回ノイズ除去プロセスを通じて多様性を得られるようにするためのセグメンテーションなのでしょうか？

既にこの質問には答えましたので、次に進みましょう。

それでは、私たちは今、スケールすることに自信を持っているアーキテクチャを手に入れました。Flow Matchingという、機能するはずだと考えている学習目的関数も手に入れました。これでかなり完成です。全ての話ではありませんが、かなりの部分を占めています。

最後の技術的詳細は、データと訓練レシピについてです。

データについてですが、多くの点で、これは今日の講演全体の中で最も重要なスライドだと思います。データは大規模言語モデルの訓練において非常に重要です。ところで、大規模言語モデルと言うとき、私は単にあらゆるモダリティに対する大規模なTransformerについて話しているだけです。人々はそこで異なる定義を使用しています。

しかし、これらのモデルは信じられないほどデータに飢えています。インターネット規模のデータを必要とし、そしてデータがクリーンである必要があります。スケーリング則はデータがクリーンであることに依存しています。そうでなければ、スケーリング則は成立しません。そしてモデルの出力品質もデータがクリーンであることに依存しています。

この結果として、これらの大企業の研究グループは、データに膨大なリソースを費やしています。これはあまり語られないことだと思いますが、彼らはGPUの観点でも、また実際の研究者の観点でも、膨大なリソースを費やしています。多くの場合、これらの研究チームでは、データチームがモデリングチームを大幅に上回る数になっています。これは私の小さな博士課程を経た後、非常に新鮮な経験でした。

では、なぜこうなのでしょうか。私たちは生成モデルを訓練していることを思い出してください。訓練データの分布を学習し、その訓練データに従って尤もらしい動画をサンプリングしているのです。

したがって、最初の2つのスライドで見せたような動画をサンプリングしたいのであれば、訓練データの全てがそのように見える必要があります。ここでは主に事前訓練について話しています。明らかに、事後訓練フェーズもあり、そこではより高品質になるように動画を調整することもできます。しかし、事前訓練データは依然として素晴らしく見える必要があるのです。

これは大きな課題です。私たちは約1億本の動画のオーダーでモデルを訓練します。この数字にどうやって到達するのでしょうか。このプロジェクトのために持っていた訓練予算を予測できます。そして、できるだけ多くの動画が欲しいのです。エポックはあまり回しません。したがって、課題は、十分な品質を持つこれだけ多くの動画をどのようにして得るかということでした。

6.2 1億本の動画データ収集と複雑なフィルタリングパイプライン

Andrew Brown：Movie Genの時点で、私たちは信じられないほど詳細で複雑なパイプラインを、手作りのフィルターとモデルベースのフィルターを組み合わせて構築しました。そこに投入された膨大な作業量のため、その一部だけをお話しします。

まず、何らかのコーパスからの大規模な動画プールから始めます。それらは異なる長さで、概念のロングテールを持っているかもしれません。私たちは、これらに対して一連の視覚的フィルタリングを行いました。小さすぎる動画を除去し、シーンチェンジを除去し、悪い美的品質のものを除去しました。

また、悪いモーションを持つ多くの動画を除去しました。実際のところ、あらゆる大規模コーパス内の多くの動画は、非常に遅いモーション、不安定なモーション、モーションエフェクトを持っています。これら全てを除去しました。

次に、コンテンツフィルタリングステップを実施しました。これはまず重複除去ですが、ここで本当に重要なのはリサンプリングです。大規模言語モデルは、概念の観点から非常に不均衡なデータセットで訓練された場合、うまく機能しません。つまり、非常にロングテールを持つデータです。概念分布がおおよそ均一である場合に最もうまく機能します。そして、ランダムな動画セットを取るだけでは、その均一性は発生しません。

そこで私たちは、この非常に複雑な視覚的概念抽出、クラスタリングを行います。特定のクラスターの重みを上げ、特定のクラスターの重みを下げます。これら全てが動画のセットを提供します。

また、テキストから動画への生成を行っているため、キャプションも必要です。そして、これらをLlama 3を使用して自動的に生成します。

このフィルタリングパイプラインの複雑さは、非常に重要です。各ステップは特定の品質問題に対処するように設計されています。

視覚的フィルタリングでは、まず技術的な品質をチェックします。解像度が低すぎる動画、圧縮アーティファクトが多すぎる動画、ブレた動画などを除去します。シーンチェンジの除去も重要です。なぜなら、1つの動画ファイルの中に複数の異なるシーンが含まれていると、モデルが時間的な一貫性を学習することが困難になるからです。

モーションフィルタリングは特に重要でした。実際のところ、インターネット上の多くの動画は、生成モデルを訓練するには理想的ではありません。ほとんど動きのない動画、カメラが激しく揺れている動画、人工的なモーションエフェクトが適用されている動画などがあります。これらを自動的に検出して除去するために、モデルベースのフィルターを開発しました。

コンテンツフィルタリング、特にリサンプリングは、データパイプラインの中でも最も洗練された部分の1つです。自然な動画コーパスには、非常に偏った概念分布があります。例えば、「人が話している」動画は非常に多いかもしれませんが、「象が水浴びをしている」動画は非常に少ないかもしれません。

この不均衡をそのままにしておくと、モデルは一般的な概念については過学習し、稀な概念については十分に学習しません。そこで、視覚的概念抽出を行い、各動画が表現している概念を特定します。次に、これらの概念をクラスタリングし、各クラスターからどれだけの動画をサンプリングするかを調整します。一般的すぎる概念のクラスターからはダウンサンプリングし、稀な概念のクラスターからはアップサンプリングします。

これにより、最終的な訓練データセットは、概念空間において比較的均一な分布を持つようになります。これは、モデルが多様な概念を均等に学習するために不可欠です。

6.3 視覚的品質、モーション品質、コンテンツフィルタリングの詳細

Andrew Brown：フィルタリングパイプラインの各段階について、もう少し詳しく説明させてください。このパイプラインは、膨大な作業量を必要としました。

視覚的フィルタリングでは、いくつかの異なる側面をチェックしました。まず、小さすぎる動画を除去しました。解像度が低すぎる動画は、高解像度の動画生成を学習するには適していません。次に、シーンチェンジを含む動画を除去しました。1つの動画クリップの中で突然シーンが切り替わると、時間的な連続性を学習することが困難になります。そして、悪い美的品質を持つ動画を除去しました。これには、露出が適切でない動画、色が不自然な動画、全体的に視覚的に魅力のない動画などが含まれます。

モーション品質のフィルタリングは、特に重要な発見でした。実際のところ、あらゆる大規模コーパス内の多くの動画は、生成モデルを訓練するには理想的でないモーション特性を持っています。

まず、非常に遅いモーションを持つ動画があります。これは静止画像とほとんど変わらないような動画です。このような動画は、ダイナミックなモーションを学習するには役立ちません。

次に、不安定な（janky）モーションを持つ動画があります。これは、カメラワークが非常に不安定であったり、手ブレが激しかったり、意図しない動きが含まれている動画です。このような動画から学習すると、生成される動画も不安定になる可能性があります。

さらに、人工的なモーションエフェクトが適用されている動画もあります。デジタルズーム、ワープエフェクト、トランジションエフェクトなどです。これらは編集によって追加されたものであり、物理的に自然なモーションではありません。

これら全ての悪いモーションを持つ動画を除去しました。このためには、モーションの品質を評価するための専用のモデルを開発する必要がありました。これらのモデルは、オプティカルフローや時間的一貫性などの指標を使用して、各動画のモーション品質をスコア付けします。

コンテンツフィルタリングのステップでは、まず重複除去を行いました。インターネット上には、同じ動画または非常に似た動画が複数存在することがよくあります。これらの重複を除去することで、訓練の効率を高めることができます。

しかし、本当に重要なのはリサンプリングです。ここで重要な洞察があります。大規模言語モデルは、概念の観点から非常に不均衡なデータセットで訓練された場合、うまく機能しません。非常にロングテールを持つ分布では、一般的な概念については過剰に表現され、稀な概念については不十分にしか表現されません。

モデルは、概念分布がおおよそ均一である場合に最もうまく機能します。しかし、ランダムな動画セットを取るだけでは、その均一性は自然には発生しません。インターネット上の動画は、非常に偏った分布を持っています。

そこで私たちは、非常に複雑な視覚的概念抽出とクラスタリングを実施しました。まず、各動画が表現している視覚的概念を自動的に抽出します。次に、これらの概念をクラスタリングします。そして、特定のクラスターの重みを上げ（アップサンプリング）、特定のクラスターの重みを下げ（ダウンサンプリング）ます。

例えば、「人が話している」という概念は非常に一般的なので、このクラスターからはダウンサンプリングします。一方、「野生動物が自然の中で活動している」という概念は比較的稀なので、このクラスターからはアップサンプリングします。

このプロセスを通じて、最終的な訓練データセットは、概念空間において比較的バランスの取れた分布を持つようになります。これにより、モデルは一般的な概念だけでなく、稀な概念についても適切に学習できるようになるのです。

6.4 概念分布の均一化の必要性とリサンプリング戦略

Andrew Brown：概念分布の均一化について、もう少し深く掘り下げて説明させてください。これは、データパイプラインの中でも最も重要な部分の1つです。

大規模言語モデル、そして私が「大規模言語モデル」と言うときは、あらゆるモダリティの大規模Transformerを指していますが、これらは概念の観点から非常に不均衡なデータセットで訓練された場合、うまく機能しません。ロングテール分布を持つデータセットの問題は深刻です。

モデルは、概念分布がおおよそ、おおよそ均一である場合に最もうまく機能します。「おおよそ」と2回言ったのは、完全に均一である必要はないが、極端に偏っていてはいけないということです。そして、その均一性は、ランダムな動画セットを取るだけでは発生しません。

自然なインターネット動画コーパスは、本質的に非常に偏った分布を持っています。いくつかのタイプのコンテンツは圧倒的に多く、他のタイプは非常に稀です。例えば、人々が室内で話している動画、製品レビュー、ニュースクリップなどは非常に多いかもしれません。一方、特定の野生動物の行動、珍しい気象現象、特定の文化的イベントなどの動画は非常に少ないかもしれません。

この問題に対処するために、私たちは非常に複雑な視覚的概念抽出とクラスタリングのシステムを開発しました。このプロセスは複数の段階から成ります。

まず、各動画について視覚的概念を抽出します。これは、動画に何が映っているか、どのような活動が行われているか、どのような環境か、などを自動的に識別するプロセスです。このために、事前訓練された視覚理解モデルを使用します。

次に、これらの概念をクラスタリングします。似たような概念を持つ動画をグループ化します。例えば、「都市での歩行」、「公園での歩行」、「ビーチでの歩行」は全て「歩行」という大きなクラスターに属するかもしれません。

そして、ここが重要なのですが、各クラスターの重みを調整します。過剰に表現されているクラスターからはダウンサンプリングし、不十分にしか表現されていないクラスターからはアップサンプリングします。

この重み付けは単純な均等化ではありません。完全に均一にすることが目標ではなく、あまりにも極端な偏りを修正することが目標です。一般的な概念は依然として比較的多く表現されますが、元のコーパスほど極端ではありません。稀な概念は、モデルがそれらを適切に学習できる程度には表現されるようになります。

このリサンプリング戦略により、最終的な訓練データセットは、概念空間において比較的バランスの取れた分布を持つようになります。これは、モデルが多様な概念を生成できるようにするために不可欠です。もし訓練データが極端に偏っていれば、モデルは一般的な概念ばかりを生成し、稀な概念については質の低い出力しか生成できなくなってしまいます。

このプロセス全体、つまり概念抽出、クラスタリング、重み付け、リサンプリングは、非常に計算集約的で、専門知識を必要とします。しかし、高品質な生成モデルを訓練するためには、この投資は絶対に必要なのです。

6.5 Llama 3による自動キャプション生成

Andrew Brown：データパイプラインのもう1つの重要な要素は、キャプション生成です。これら全ての動画のセットが得られた後、私たちはキャプションも必要です。なぜなら、テキストから動画への生成を行っているからです。そして、これらをLlama 3を使用して自動的に生成します。

これがデータに関する全てです。このキャプション生成については、質疑応答セッションでより詳しく議論されましたので、そこでの内容も含めて説明します。

質問者から、動画データのクリーニングと処理に多くの作業があったが、実際のテキスト、例えばLlama 3で生成されたキャプションが高品質で完全であることをどのように確認するのか、という質問がありました。

Andrew Brown：良い質問です。私たちは、このLlama 3キャプショナーを訓練することに多くの作業を投入しました。基本的にこれは動画条件付きLlamaモデルです。これは、私たちが望むような良い見た目のキャプションを生成するために、独自の大規模訓練を経ています。しかし、確かにそこには改善の余地が多くあります。

これらのキャプションは、人間が書いたキャプションほど良くはありません。そこには多くのアーキテクチャ上の理由があります。これらの動画条件付き言語モデルの多くは、動画全体を見ることができません。もしそれが16秒の動画で、16FPSであれば、多くの場合、モデルが条件付けされるには動画が遠すぎるのです。

多くの場合、これらのオープンソースモデル、Llamaだけでなく、Gemmaなどでも、フレームをサブサンプリングする必要があります。そして、言語モデルが動画の多くを見ることをブロックしてしまうのです。これはいくつかの問題、いくつかの見逃しにつながります。

そこで私たちは、キャプションモデルを訓練し、事後訓練し、それに対して多くの評価を行うことで最善を尽くします。しかし、それは確実に改善できるものです。そして、テキストから画像へのコミュニティから、本当にクールな結果がたくさん出ています。キャプションを改善すると、画像品質が良くなることを示しています。なぜそうなるのかは完全には明確ではありませんが、それは繰り返し起こっています。

また別の質問者から、テキストまたはプロンプトエンコーダーがどれほどの役割や重要性を果たすかについて質問がありました。画像生成の研究で、テキストエンコーダーを置き換えることを示したものがあったと思います。CLIPからT5に置き換えることが性能向上に本当に役立ったという研究です。いくつかの異なるテキストエンコーダーを試しましたか？

Andrew Brown：この特定のシリーズのテキストエンコーディングは、私たちのチームでは前例がありました。私たちは、このシリーズのテキストエンコーディングを使用した最近の最先端のテキストから画像への論文から動機を得ました。

しかし、ここで行っていることはかなり奇妙であることを指摘する価値があります。ここで最高のテキスト表現が欲しいと思うのは直感的でしょう。これらのテキスト表現は全て、最先端とは程遠いものです。LlamaでもGPTでもありません。

デコーダーのみのテキスト表現は、少なくともこのセットアップでは、何らかの理由であまりうまく機能しないことを示すいくつかの研究と経験的発見がありました。その理由のいくつかは、メディア空間とより整合したテキスト表現が必要だという仮説が立てられています。そのため、多くの人がCLIPに条件付けしているのを見るでしょう。これは私たちが行っていることです。ここで行うべきクールな作業がたくさんあります。しかし、このプロジェクトでは私たちはアブレーションを行いませんでした。

このキャプション生成とテキストエンコーディングの議論から分かることは、テキストから動画への生成において、テキスト側の処理がいかに重要で複雑かということです。単にテキストをトークン化して入力するだけでは不十分で、適切なテキスト表現を選択し、高品質なキャプションを生成することが、最終的な動画品質に大きく影響するのです。

6.6 マルチステージ訓練レシピ（256pから768pへの段階的解像度向上）

Andrew Brown：それではデータについては以上です。最後に、訓練レシピについてお話しします。

このマルチステージレシピは、収束速度のために最適化されました。まず、256ピクセルのテキストから画像（T2I）ステージから始めます。ここでは、モデルが比較的少ないGPU時間で多くのサンプルを処理できます。

次に、テキストから画像とテキストから動画の生成を共同で行う事前訓練ステージに移行します。ここでは、解像度を256pから768pまで段階的に増加させていきます。

最高解像度である768pでは、シーケンス長が73,000になります。そして、これを約6,000個のGPU、バッチサイズ約1,500で訓練しました。

この時点で、モデルは分岐します。テキストから動画への事後訓練ステージがあります。これは、非常に小さな、非常に高品質の動画セットでのSFT（教師あり微調整）です。そして、これらの異なる機能にも分岐します。これらについては多くは話しませんが、後でいくつか例をお見せします。

何か質問はありますか？

質問者：より幅広いテールを持つ動画のデータセットについてです。そのような課題に特化して対処する事前訓練はできますか？

Andrew Brown：そうですね、確かにできると思います。私が推測するに、質問は事前訓練データにおける特定の概念についてだと思います。非常に大規模なコーパスで訓練している場合、概念のロングテールが信じられないほど長いのです。生成したいと思うかもしれないほぼ全ての概念が、おそらくそのデータセットのどこかに出現しているでしょう。

このマルチステージ訓練アプローチについてもう少し説明しましょう。256ピクセルの画像生成から始める理由は、計算効率にあります。低解像度では、各サンプルの処理が非常に高速です。モデルは、基本的な視覚的概念、構図、テキストと画像の対応関係などを、比較的短時間で学習できます。

その後、共同事前訓練ステージに移行します。ここで重要なのは、画像と動画を同時に訓練するということです。これには理由があります。画像は動画の特殊なケース（1フレームの動画）と見なすことができ、両方を同時に訓練することで、モデルはより汎用的な視覚表現を学習できます。

解像度の段階的増加も重要な戦略です。256p、384p、512p、768pと段階的に上げていきます。いきなり最高解像度で訓練を始めるのではなく、徐々に増やすことで、モデルは各解像度レベルで適切に収束する機会を得ます。低解像度で学習した知識は、高解像度での訓練の良い初期化として機能します。

768pという最高解像度では、シーケンス長が73,000トークンに達します。これは非常に長いシーケンスですが、TAEによる圧縮のおかげで扱える範囲です。この段階では、6,000個のGPU、バッチサイズ約1,500という大規模なインフラストラクチャを使用しました。これは、現代の大規模モデル訓練において標準的な規模です。

事後訓練ステージでは、モデルを分岐させます。テキストから動画への生成については、非常に小さな、しかし非常に高品質の動画セットでSFT（教師あり微調整）を行います。このデータセットは厳選されており、私たちが望む動画の品質とスタイルを正確に反映しています。この段階により、モデルの出力をさらに洗練させ、一貫して高品質な結果を生成できるようにします。

また、編集やパーソナライゼーションなどの他の機能への分岐もあります。これらについては後ほど例をお見せします。

6.7 大規模訓練インフラ（6,000 GPU、バッチサイズ1,500、73Kシーケンス長）

Andrew Brown：訓練インフラの規模について、もう少し詳しくお話しします。最高解像度の768pでの訓練では、シーケンス長が73,000トークンに達します。これは非常に長いシーケンスです。そして、この段階を約6,000個のGPU、バッチサイズ約1,500で訓練しました。

質疑応答セッションで、訓練インフラに関するより詳しい質問がありました。

質問者：一般的な質問です。最初に見せた2つの動画、2022年と2024年の違いについてですが、改善はアルゴリズムだけによるものだったのでしょうか、それともより優れたGPUといったハードウェアの改善もあったのでしょうか、それとも純粋にアルゴリズムの改善だったのでしょうか？

Andrew Brown：全てはスケールに帰結すると思います。かなり多くのことが変化しました。Transformerへの移行というアーキテクチャの変更があり、そしてスケールがあります。そしてそれには多くのことが含まれます。データのスケール、それを実行可能にするための計算量のスケールです。より優れたGPUハードウェアは確かに役立ちます。この2年間でGPUハードウェアに大きな改善があったわけではありません。NVIDIAのハードウェアの1世代か2世代だったかもしれません。

また別の質問者から：データ構造について共有できることがあれば、機密情報であることは理解していますが、訓練にかかった時間や、企業がモデルの単一インスタンスをホストするのにどれくらいの規模が必要か、各リクエストを実行するのにGPUが何個必要かなど、感覚をつかみたいのです。

Andrew Brown：論文には、訓練インフラストラクチャの完全な詳細を含めています。それはそこにあります。推論インフラストラクチャについての詳細は含めていないと思います。論文にはインフラストラクチャに関する多くの詳細があります。そこを見ることをお勧めします。

この大規模訓練インフラについて、いくつかの重要なポイントを強調したいと思います。

まず、6,000個のGPUという規模は、現代の大規模モデル訓練においては標準的な規模ですが、依然として膨大なリソースです。これは単にハードウェアを持っているだけでなく、それらを効率的に調整し、分散訓練を実行するためのソフトウェアインフラストラクチャも必要とします。

バッチサイズ1,500というのも重要な数字です。大規模訓練では、バッチサイズが大きいほど一般的にGPUの利用効率が良くなります。しかし、バッチサイズが大きすぎると、メモリの制約や訓練の安定性の問題が生じる可能性があります。1,500というのは、これらのトレードオフを考慮した最適化された値です。

73,000トークンのシーケンス長は、Transformerにとって非常に長いシーケンスです。これを効率的に処理するには、アテンションメカニズムの最適化、メモリ管理、そして分散処理戦略が必要です。この長いシーケンスを扱えることが、高解像度の動画を直接生成できる理由です。

2022年から2024年の改善について、私が述べたように、これは単一の要因ではなく、複数の要因の組み合わせです。アーキテクチャの改善（Transformerへの移行）、スケールの増大（より多くのデータ、より多くの計算量）、そして多少のハードウェアの改善が組み合わさっています。しかし、ハードウェアの改善は比較的小さな要因でした。この2年間でのGPUの世代交代は1〜2世代程度で、劇的な性能向上ではありません。

最も重要なのは、正しいアーキテクチャ（Transformer）と正しいスケーリング戦略を持っていたことです。Llamaの訓練で既に確立されていたインフラストラクチャと知見を活用できたことも、大きなアドバンテージでした。新しいアーキテクチャのために一から構築する必要がなかったのです。

7. 結果、評価、スケーリング則

7.1 生成動画の質的評価と物理法則・汎化能力の実証

Andrew Brown：それでは、最後に結果とアプリケーションについてです。今お見せした全てをまとめると、そしてそれが全ての技術的詳細です、ところで、私たちはこれら全てを公開しています。このような動画や、講演の最初に見せたものが得られます。

そして、これはこのプロジェクトの要点を非常によくまとめています。ここで本当に強調したいのは、人々がTransformerをスケールし始める前は、この種の動画は全く不可能に近かったということです。そして私たちはここで、この古典的なアーキテクチャ統一の物語を示しました。シンプルなTransformerのデータ、モデルパラメータ、計算量をスケールすることが、オブジェクト、モーション、物理について推論できるモデルに至ったのです。ただ動画を見るだけで。

これらは全く不可能でした。そして、これら全てを解き放ったのはTransformerのスケーリングなのです。

スライドを再生し続ける必要があります。Google Slidesで自動再生する方法が分からなかったので。何人の博士号取得者が自動再生に必要なのでしょうか？

別の例です。これはドーナツフロートに乗ったピンクのサングラスをかけたナマケモノです。ここでのナマケモノのようなドーナツフロート物理学が良いと思います。

このスライドは単なる冗談ではありません。実際に非常に重要な何かを強調しています。生成モデルを訓練する際、重要なことの1つは、事前訓練データにはなかったかもしれない概念にどれだけうまく汎化できるかということです。フロートに乗ったナマケモノが事前訓練データに全くないとは断言できません。しかし、常識的に考えて、おそらくそれほど多くはないでしょう。

したがって、これを生成できるという事実は、その汎化能力の証です。モデルは「ナマケモノ」という概念、「フロート」という概念、「水の上に浮かぶ」という物理を学習し、それらを組み合わせて訓練データには明示的に存在しなかったかもしれないシーンを生成できるのです。

このような汎化能力は、生成モデルの真の理解度を測る重要な指標です。単に訓練データを記憶して再生しているのではなく、基本的な概念や物理法則を学習し、それらを新しい方法で組み合わせることができるのです。

オブジェクト、モーション、物理についての推論という点で、モデルは様々な複雑なシナリオを生成できます。物体がどのように動くべきか、光がどのように反射するか、重力がどのように作用するかなど、これらの基本的な物理法則をただ動画を見ることだけで学習したのです。明示的に物理エンジンや物理シミュレーションを組み込んだわけではなく、データから暗黙的に学習したのです。

これは、最初にお話ししたGAN Dissectionでの窓の反射の学習と同じ原理ですが、はるかに大規模で複雑なレベルで実現されています。

7.2 Movie Gen EditとPersonalizationモデルの追加機能

Andrew Brown：いくつか他の例もお見せします。これらのいくつかは最初に見せました。私たちはMovie Gen Editモデルも訓練しました。先ほど述べたように、左上の元の動画を取り、これらの正確な編集指示を提供できます。これは私にとって本当に魔法のようです。

先ほど述べたように、チームはペアデータを使用してこれを訓練しました。このタスクのためのペアデータ、つまり入力と出力のペアを取得することは信じられないほど困難です。彼らは、このための魅力的な自己教師あり学習アプローチを考案しました。論文を読むことを本当にお勧めします。

質問者：このプロジェクトのデータをどこから入手したのですか？

Andrew Brown：動画は完全にMetaによってライセンスされた動画です。

もう1つ例をお見せします。誰もが自分のペンギンの動画を取って、ビクトリア朝の衣装を着せたいと思っていますよね。これは素晴らしいです。

私たちが訓練したもう1つのモデルは、パーソナライゼーションモデルです。これはMovie Gen Videoですが、追加機能があります。自分自身の画像に条件付けることができるのです。

ここでは、モデルがテキストプロンプトに忠実な動画を生成できますが、同時に条件付け画像に含まれる人物も含まれます。これは本当に楽しいです。

そしてもう1つの面白い例がここにあります。これは私がこのプロジェクトで一緒に働いた同僚です。これは私を笑わせます。

このパーソナライゼーション機能に興味がある方は、ぜひ論文を読んでください。多くの作業がこれに投入されました。

Movie Gen Editについてもう少し詳しく説明すると、これは本当に技術的に挑戦的なタスクです。元の動画を保持しながら、特定の要素だけを変更する必要があります。例えば、ランナーを膨らませた恐竜に変えるとき、背景、カメラの動き、照明などは保持する必要があります。変わるのは主題だけです。

ペアデータの問題は深刻です。通常、特定の編集を施した前後の動画のペアは自然には存在しません。そのため、チームは自己教師あり学習アプローチを開発しました。この詳細は論文に記載されていますが、基本的には、既存の動画から自動的にペアデータを生成する方法を考案したのです。

パーソナライゼーションモデルも同様に技術的に興味深いです。単一の画像から人物のアイデンティティを学習し、それを全く異なるシーン、ポーズ、照明条件で再現する必要があります。これは、個人の外見の本質的な特徴を捉えながら、新しいコンテキストに適応する必要があるということです。

例えば、あなたの顔写真1枚から、あなたが宇宙飛行士として月面を歩いている動画や、中世の騎士として馬に乗っている動画を生成できます。モデルは、あなたの顔の特徴を維持しながら、全く新しい環境とアクションを生成する必要があります。

これらの追加機能は、Movie Genが単なるテキストから動画への生成以上のものであることを示しています。編集、パーソナライゼーション、そして後ほどお見せする音声生成など、包括的なメディア生成プラットフォームとしての可能性を持っているのです。

7.3 Movie Gen Audioモデルによる同期音声生成

Andrew Brown：最後に、私たちはMovie Gen Audioモデルを訓練しました。今日これについて詳しく説明する時間はありませんでしたが、このモデルはテキストと動画、実際の動画または生成された動画のいずれかに条件付けされ、同期された音声を生成します。このようにして、生成された動画に音声を追加できます。

これに取り組んだ研究チームは素晴らしいです。興味がある方は、論文をチェックすることをお勧めします。

それでは、劇場に音声があるかどうか、今から確認してみます。ないですね。

質問者：生成する動画には音声が付いてくるのですか？

Andrew Brown：はい。テキストから動画へのモデル、私がここで見せたものは動画を生成します。しかし、公開と同時に、私たちは発表しました、実際どこだったかな。別のMovie Gen Audioモデルがありました。これは生成された動画に音声を追加します。

質問者（聞き取り不可）

Andrew Brown：動画には2つの別々のモデルがあり、音声は別のレベルの複雑性を持っています。複数のトラックがあります。もしMIDIファイルやMP3で訓練したい場合など。現在の音声生成の進捗状況はどうなっていますか？

Andrew Brown：私たちには、これに取り組んでいる本当に素晴らしい音声研究チームがいます。1つの非常に良いことは、全てを一度に生成することだと思います。動画と音声を同時にです。

2つのモダリティは非常に相関しています。共有情報がたくさんあります。したがって、理論的には、両方のモダリティが一緒に訓練されることで恩恵を受けるはずです。音声は、動画には存在しない動画に関する情報さえエンコードしています。

問題はデータの1つです。高品質な動画データを取得することは非常に困難です。良い音声を持つ高品質な動画データを取得することは、さらに困難です。それが、このプロジェクトでそれを行わなかった理由の一部です。

音声生成の複雑性について、もう少し詳しく説明させてください。動画の音声は、単なる背景音楽ではありません。環境音、対話、効果音、音楽など、複数の層が含まれる可能性があります。そして、これら全てが動画の視覚的内容と正確に同期している必要があります。

例えば、誰かが話している動画であれば、音声は唇の動きと同期している必要があります。物体が衝突する動画であれば、衝突音はその瞬間に正確に発生する必要があります。この時間的な同期は、技術的に非常に挑戦的です。

Movie Gen Audioモデルは、テキストと動画の両方に条件付けられます。テキスト条件付けにより、「穏やかな音楽を追加」や「雷の音を追加」などの指示を与えることができます。動画条件付けにより、モデルは視覚的な内容を理解し、それに適した音声を生成できます。

動画と音声を同時に生成することの利点は明らかですが、データの制約が大きな障壁です。インターネット上の多くの動画には、品質の低い音声、バックグラウンドノイズ、著作権のある音楽などが含まれています。クリーンで高品質な音声を持つ動画のデータセットを構築することは、動画データセット自体を構築するよりもさらに困難なのです。

それでも、Movie Gen Audioは独立したモデルとして非常に優れた結果を達成しました。素晴らしい音声研究チームの努力の成果です。

7.4 人間による定量的評価研究の方法論と他モデルとの比較

Andrew Brown：いくつかの定量的結果についてお話しします。動画生成において公平な比較を行うことは、信じられないほど困難です。自動化されたメトリクスやそのようなものは持っていません。

そこで私たちが行ったのは、非常に広範な人間による評価研究でした。動画生成のあらゆる側面をテストする、互いにある程度直交する一連のメトリクスを考案しました。モーションの品質、動画がテキストプロンプトにどれだけ従っているか、視覚的品質などです。これらのメトリクスは左側に示されています。ここで膨大な詳細には立ち入りませんが、論文で非常に詳細に定義されています。

私たちは、複数の評価者が同じものを評価する際に、人間の評価者の標準偏差が低くなるように、多くの作業を投入しました。

同じ年にリリースされた全ての手法と比較しました。これは2024年です。Runwayのモデル、Luma、当時のSora、KLINGなどです。そして、ここに表示されているのは、純勝率（net win rates）です。

ゼロより上のスコアは、私たちのモデルが好まれたことを意味します。リリース時点で、Movie Genは全ての先行研究を上回りました。これは素晴らしいことです。

ここで結論を出すことは非常に困難です。私たちが引き出せる1つの結論は、リリース時点でMovie Genがこれらより優れていたということです。研究者として、この時点で私たちが好むことは、先行研究の全ての技術レポートを調べて、彼らが何を異なる方法で行ったかを見ることです。そして、Movie Genは何を異なる方法で行ったのか。なぜなら、これらの改善に何が繋がったのかを結論付けたいからです。より多くの計算量だったのか、Flow Matchingだったのか、より良いデータフィルタリングだったのか、そのようなことです。

しかし残念ながら、今日の時代ではそれを行うことは不可能です。研究論文が公開されないからです。しかし、私たちが知っていることは、今お見せした全ての技術的詳細が機能し、それらが本当に、本当にうまく機能するということです。

そして、それらはテキストから動画への生成を改善しようとしている人にとって、良い出発点です。そして、私たちはコミュニティがそうすることを願っています。

この人間評価研究について、もう少し詳しく説明させてください。自動化されたメトリクスが動画生成において機能しないのには理由があります。動画の品質は非常に多面的で主観的です。FID（Fréchet Inception Distance）のような画像品質メトリクスは、静止画像にはある程度機能しますが、モーション、時間的一貫性、物理的妥当性などを捉えることはできません。

私たちが設計したメトリクスは、動画生成の異なる側面を評価するために注意深く選ばれました。モーション品質は、動きが滑らかで自然に見えるかどうかを評価します。テキストアライメントは、生成された動画がプロンプトの指示にどれだけ忠実に従っているかを測定します。視覚的品質は、全体的な美的品質、解像度、アーティファクトの欠如などを評価します。

人間評価の標準偏差を低く保つことは重要でした。もし評価者間で大きなばらつきがあれば、結果の信頼性が低くなります。そのため、評価者への詳細な指示、トレーニングセッション、一貫性チェックなど、多くの作業を投入しました。

2024年にリリースされた他のモデルとの比較は意図的です。技術は非常に速く進歩しているため、異なる時期のモデルを比較することは公平ではありません。同じ年の中で、Runway、Luma、Sora、KLINGなど、当時利用可能だった最良のモデルと比較しました。

純勝率がゼロより上であることは、統計的に有意にMovie Genが好まれたことを意味します。各メトリクスで一貫してプラスのスコアを達成したことは、Movie Genが総合的に優れていたことを示しています。

しかし、私が強調したように、なぜ優れていたのかを正確に特定することは困難です。先行研究が詳細な技術レポートを公開していないため、アーキテクチャの違い、データの違い、訓練手法の違いなどを体系的に比較することができません。これは研究コミュニティにとって残念な状況です。

それでも、私たちが全ての技術的詳細を公開したことは重要です。これにより、他の研究者が私たちのアプローチを理解し、それを基に構築し、さらに改善することができます。

7.5 重要な発見：Llama 3のスケーリング則がビデオ生成でも成立

Andrew Brown：最後の技術的なことですが、スケーリング則についてです。今日の講演全体を通じて、モダリティと学習目的関数を越えたアーキテクチャの統一について話してきました。そして、これはプロジェクトの最後に発見した本当に素晴らしい結果でした。

ここでご覧いただいているのは、スケーリング則のグラフです。大規模言語モデルを訓練する際、GPTやLlamaなどの訓練を開始するとき、特定の訓練予算があります。これは、何ヶ月の期間と、その期間に何個のGPUがあるかということです。

しかし、その訓練計算予算が分かっている場合、未解決の問題は、モデルをどれくらいの大きさにすべきかということです。その計算予算に対して最適なモデルサイズは何でしょうか。それは非常に小さなモデルで、より多く訓練する、つまりより多くのイテレーションを実行することもできます。あるいは、より大きなモデルで、より少なく訓練することもできます。

これらのスケーリング則の曲線は、与えられた計算予算に対して最適なモデルサイズを推定するためのものです。

青い十字だけを見てください。Movie Genのためにこれらのデータポイントをいくつかプロットしました。覚えておいてください、Movie Gen、テキストから動画へのモデル、Llama 3アーキテクチャです。そして、青い十字を見ると、Transformerのスケーリング則でよく見られる素晴らしい相関関係が見られます。

そして次に、Llama 3のスケーリング則を重ねました。これはテキストのみのモデルのスケーリング則です。そして驚くべきことに、このテキストのみのモデルのLlama 3スケーリング則が、動画生成のためのモデルサイズと計算量の合理的な予測子として機能することが分かりました。

そして、これはTransformerのスケーリング則がモダリティに依存しないかもしれないことを示唆しているようです。これは非常に魅力的です。

この発見の重要性について、もう少し詳しく説明させてください。スケーリング則は、大規模モデル訓練において基本的に重要です。なぜなら、訓練予算が限られている場合、その予算をどのように配分すべきかを知る必要があるからです。

従来の考え方では、異なるモダリティには異なるスケーリング則があるはずだと考えられていました。テキストは離散的で高度に構造化されており、画像や動画は連続的で冗長性が高いため、それぞれ異なるスケーリング特性を持つはずだと。

しかし、私たちの結果は、少なくともTransformerアーキテクチャを使用する場合、スケーリング則は驚くほどモダリティに依存しないことを示唆しています。Llama 3のテキストモデルで観察されたスケーリング則が、Movie Genの動画生成モデルの合理的な予測子となるのです。

これは実用的にも理論的にも重要な意味を持ちます。実用的には、テキストモデルで既に確立されているスケーリング則の知見を、動画生成に直接適用できる可能性があることを意味します。これにより、計画とリソース配分がはるかに容易になります。

理論的には、これはTransformerの普遍性を示唆しています。Transformerは単に便利な汎用アーキテクチャであるだけでなく、異なるモダリティに対して根本的に類似したスケーリング特性を持つ可能性があるのです。

もちろん、これは初期的な発見であり、より多くの研究が必要です。しかし、これはアーキテクチャ統一の物語における重要な証拠の1つです。異なるモダリティと学習目的関数を越えて、Transformerのスケーリングは一貫した原理に従うようなのです。

7.6 モダリティ非依存なスケーリング則の示唆

Andrew Brown：このスケーリング則の発見が示唆することについて、もう少し深く考えてみましょう。Llama 3のスケーリング則、つまりテキストのみのモデルのスケーリング則が、動画生成のモデルサイズと計算量の合理的な予測子として機能するという事実は、非常に深い意味を持っています。

これはTransformerのスケーリング則がモダリティに依存しないかもしれないことを示唆しています。これは非常に魅力的です。

この発見を文脈に置いてみましょう。テキストと動画は根本的に異なるデータ形式です。テキストは離散的で、高度に圧縮されており、意味的に豊かです。講演の初めに説明したように、各単語は膨大な情報を詰め込んでいます。一方、動画は連続的で、冗長性が高く、時間的および空間的な次元を持っています。

これらの根本的な違いにもかかわらず、同じアーキテクチャ（Transformer）を使用すると、スケーリング特性が驚くほど似ているように見えるのです。青い十字で示されたMovie Genのデータポイントは、Llama 3のスケーリング曲線に沿って美しく並んでいます。

これが意味することは何でしょうか。第一に、Transformerは真に汎用的なアーキテクチャであるということです。NLPのために特別に設計されたわけではなく、たまたまそこで最初に成功しただけです。その基本的な設計原理、つまりアテンションメカニズムと位置エンコーディングは、様々な種類のデータに対して効果的に機能します。

第二に、これは計算予算の配分に関する実用的な指針を提供します。もし新しいモダリティのための大規模モデルを訓練しようとしている場合、既存のテキストモデルのスケーリング則を出発点として使用できる可能性があります。完全に一から実験する必要はないのです。

第三に、これは機械学習における統一理論の可能性を示唆しています。異なるモダリティが、適切なアーキテクチャの下では、類似したスケーリング法則に従うのであれば、モダリティを越えた何か根本的な原理が存在する可能性があります。

もちろん、これは単一の観察に基づいた初期的な発見です。より多くのデータポイント、より多くのモダリティ、より多くのスケールでの検証が必要です。しかし、これは非常に有望な方向性を示しています。

また、これは私が講演全体を通じて繰り返し述べてきたメッセージを強化します。シンプルなTransformerのデータ、計算量、モデルパラメータをスケールすることは、NLPで機能したのと同様に、動画生成でも機能します。そして、スケーリング則が示すように、それは単に「機能する」だけでなく、予測可能で、体系的で、テキストモデルで学んだ原理を適用できる方法で機能するのです。

この発見は、将来の研究にとって重要な指針となります。新しいモダリティや新しいタスクに取り組む際、完全に新しいアーキテクチャや完全に新しいスケーリング戦略を発明する必要はないかもしれません。Transformerと既存のスケーリング則の知見を適用することから始めることができるのです。

これは、機械学習の分野が成熟していることの表れでもあります。個別のタスクごとに専用のソリューションを開発する段階から、統一的な原理とアーキテクチャが様々なドメインで機能する段階へと移行しているのです。

8. 現在の限界と今後の方向性

8.1 複雑な動きの生成における具体的な失敗例

Andrew Brown：それでは、最後のパートに入ります。何が次に来るのか、です。

Movie Genは動画生成を解決していません。まだ多くの問題があります。モデルは、複雑なプロンプトから複雑な動きを生成することに苦労します。

ここに例があります。「交差点で2台の車が衝突する劇的なシーン」です。この時点ではかなり良く見えています。そして、終わり近くのある時点で、彼らは、何と呼べばいいのか分かりませんが、独立して内破します。ある時点で、銀色の車が2台の車に変わります。これは私たちのモデルからのランダムな生成です。

したがって、テキストから動画への生成は解決されていません。

この失敗例は、現在のモデルの限界を理解する上で非常に示唆的です。プロンプトは明確です。「交差点で2台の車が衝突する劇的なシーン」。これは複雑な動きですが、人間にとっては完全に理解可能な概念です。

動画の最初の部分は実際にかなり良く見えます。2台の車が交差点に向かって動いています。カメラワーク、照明、全体的な構図は説得力があります。しかし、クライマックスの瞬間、つまり衝突が実際に起こるはずの時点で、物理学が完全に崩壊します。

車が「独立して内破する」という表現を使いましたが、これはまさにそのように見えます。2台の車が互いに衝突するのではなく、それぞれが何らかの内部的な力によって崩壊するように見えるのです。これは明らかに物理的に正しくありません。

さらに悪いことに、ある時点で銀色の車が突然2台の車になります。これは一貫性の完全な崩壊です。モデルは、シーン内のオブジェクトの数とアイデンティティを追跡することに失敗しています。

この種の失敗は、モデルがまだ真に物理学を「理解」しているわけではないことを示しています。確かに、モデルは多くの物理的に妥当なシーンを生成できます。重力、反射、基本的な動きなどを捉えることができます。しかし、複雑な相互作用、特に複数のオブジェクトが動的に相互作用する場合、モデルは依然として苦労します。

衝突のような複雑なイベントは、運動量保存、エネルギー伝達、物体の変形など、多くの物理的原理を同時に満たす必要があります。モデルは、これらの制約を全て同時に満たすシーケンスを生成することに苦労しているようです。

また、長距離の時間的一貫性の問題もあります。車が突然2台になることは、モデルが動画全体を通じてオブジェクトのアイデンティティを追跡することに失敗していることを示しています。これは、モデルが各フレームまたは短いフレームのセグメントをある程度独立して生成しており、長期的な一貫性を維持するメカニズムが不十分であることを示唆しています。

これは私たちのモデルからのランダムな生成であることを強調しておきます。つまり、私たちは多くの生成を行い、最良のものを選んだわけではありません。これは、モデルが生成するものの代表的な例です。したがって、テキストから動画への生成は、まだ解決されていない問題なのです。

8.2 今後の3つの主要な研究方向

Andrew Brown：それでは、最後のスライドです。動画生成が次にどこへ向かうのかについてのいくつかのアイデアです。これらは、近いうちに何らかの形で見られると確信しているものです。

次に来るものは何でしょうか。前のスライドで見た問題をどのように解決できるでしょうか。

まず、最初の明白なものは、全てをさらにスケールすることです。これは過去6年ほどの機械学習の物語のようなものです。そして、これは間違いなく機能すると思います。Movie Genは30億パラメータのモデルでした。Llama 3をベースにしていました。最大のLlama 3モデルは405Bでした。全てをさらにスケールすることは、間違いなくはるかに高品質な生成をもたらすと思います。

そこでのいくつかの課題は、データをさらに1桁スケールすることに関するものでしょう。

2番目は推論です。私たちは皆、過去1年か2年の間に言語モデリングにおける推論から得られた素晴らしい恩恵を見てきました。ここで、推論はモデルに一時停止し、考え、思考連鎖を生成し、答えを生成する前に自己修正する能力を与えます。

動画生成モデルも、この種の推論能力から恩恵を受けることは非常に明確だと思います。これは、段階的な変化をもたらす可能性があると思います。

私たち全員が前のスライドの動画を見ていたとき、何かが間違っていることは非常に明白でした。それは私たちにとって非常に明らかに見えました。何らかの動画生成モデルに自己修正の能力、つまり生成した動画にエラーがあることを認識し、それを修正する能力を持たせることが、それほど理解不能には思えません。

ここには多くの本当に興味深い研究課題があります。メディア生成のための推論トレースを生成するとはどういう意味でしょうか。R1やR3などによって生成されるこれらの思考連鎖を見たことがあるかもしれません。メディア生成にとってそれはどのように見えるのか、私は疑問に思います。

もう1つの問題は、どのように検証するかです。これらの最新の最先端の推論アプローチは、全てRLで訓練されています。RLには、出力の正しさを検証するための検証モデルが必要です。動画生成にとって、それが何を意味するかは未解決の研究課題です。動画の正しさをどのように検証するのでしょうか。

最後に、ネイティブ生成があります。最近の大規模言語モデルは、ネイティブにマルチモーダルです。テキストを生成できます。画像理解ができます。動画理解ができます。中には画像生成ができるものもあります。

したがって、動画生成もこのネイティブな組み合わせに投入されることで恩恵を受けるかどうかは興味深い問題です。もしそうであれば、そのようなものをどのように訓練するかについて興味深い問いがあります。

Flow Matchingが動画生成に最も適しているように見えることをお話ししました。複数の学習目的関数を持つ方法はありますか。学習目的関数を統一する必要がありますか。そのようなことです。

これらの3つの方向性について、もう少し詳しく見ていきましょう。各アプローチには、独自の課題と可能性があります。そして、これらは相互に排他的ではありません。実際、これらの組み合わせが最も有望な道かもしれません。

8.3 さらなるスケーリングの可能性（30Bから405Bへ）

Andrew Brown：最初の方向性、全てをさらにスケールすることについて、もう少し詳しく説明させてください。これは過去6年ほど、機械学習の物語の中心となってきました。そして、これは間違いなく機能すると思います。

Movie Genは30億パラメータのモデルでした。これは当時としては大規模でしたが、Llama 3をベースにしていたことを思い出してください。最大のLlama 3モデルは405億パラメータでした。つまり、私たちが訓練したモデルよりも10倍以上大きいのです。

全てをさらにスケールすること、つまりモデルパラメータ、訓練データ、計算量を増やすことは、間違いなくはるかに高品質な生成をもたらすと思います。私たちは既にスケーリング則を見てきました。そして、それらのスケーリング則は、まだ飽和の兆候を示していません。曲線はまだ上向きに続いています。

より大きなモデルは、より複雑なパターンを学習でき、より長期的な依存関係を捉えることができ、より微妙な詳細を生成できます。30億パラメータから405億パラメータに移行することは、単に13倍以上のパラメータを持つということではありません。モデルの表現能力が根本的に増大することを意味します。

しかし、そこにはいくつかの課題があります。最も大きな課題の1つは、データをさらに1桁スケールすることに関するものです。

私たちは既に約1億本の動画で訓練しました。10億本の動画に到達したい場合、同じ品質基準を維持しながら、どこからそれだけの動画を取得するのでしょうか。インターネット上の高品質動画の供給は無限ではありません。

データのスケーリングには、いくつかの可能なアプローチがあります。第一に、より洗練されたデータフィルタリングパイプラインを開発することです。現在のパイプラインは高い精度を重視していますが、その過程で多くの有用なデータを失っています。より賢いフィルタリング手法、おそらく完全に言語モデルベースのアプローチにより、より多くの高品質データを保持できる可能性があります。

第二に、合成データの使用です。モデル自体が生成した動画、または他の生成モデルが作成した動画で訓練することです。これには課題がありますが、言語モデルの事後訓練では既に一般的な手法です。

第三に、新しいデータソースの探索です。現在使用していないライセンス済みの動画コーパスが存在する可能性があります。

計算量のスケーリングも課題です。Movie Genを訓練するために、私たちは既に6,000個のGPUを使用しました。10倍大きなモデルを訓練するには、より多くのGPU、より長い訓練時間、またはその両方が必要になります。これは、分散訓練の効率性、GPUメモリの管理、そして訓練の安定性に関する新しい課題をもたらします。

しかし、これらの課題にもかかわらず、私はこの方向性が成功すると確信しています。なぜなら、私たちは既にそれが機能することを見てきたからです。言語モデルでは、より大きなモデル、より多くのデータ、より多くの計算量が、一貫してより良い結果をもたらしてきました。Movie Genのスケーリング則は、同じことが動画生成にも当てはまることを示唆しています。

405億パラメータは終点ではありません。Llamaチームは既にさらに大きなモデルに取り組んでいる可能性があります。動画生成も同じ軌道をたどることができます。そして、スケールが増大するにつれて、前のスライドで見たような失敗、つまり車の衝突シーンでの物理的不整合などが、徐々に減少していくと期待できます。

8.4 推論能力の統合：自己修正と思考連鎖の可能性

Andrew Brown：2番目の方向性は推論です。私たちは皆、過去1年か2年の間に言語モデリングにおける推論から得られた素晴らしい恩恵を見てきました。ここで、推論はモデルに一時停止し、考え、思考連鎖を生成し、答えを生成する前に自己修正する能力を与えます。

動画生成モデルも、この種の推論能力から恩恵を受けることは非常に明確だと思います。私は、これが段階的な変化をもたらす可能性があると思います。

これがどのように機能するか想像してみてください。モデルが動画を生成します。しかし、最終的な出力をすぐに返すのではなく、モデルは自分が生成したものを「見て」評価します。「2台の車が衝突しているはずだが、実際には独立して内破しているように見える。これは物理的に正しくない。やり直そう」と認識できる可能性があります。

言語モデルでは、これは既に機能しています。R1、O1、R3などのモデルは、問題を解き、自分の解答をチェックし、誤りを見つけて修正することができます。同じ原理が動画生成に適用できない理由はありません。

ここには多くの本当に興味深い研究課題があります。

まず、メディア生成のための推論トレースを生成するとはどういう意味でしょうか。言語モデルでは、推論トレースはテキストです。「まず、問題を分解します。ステップ1は...」というような形です。R1やR3などによって生成されるこれらの思考連鎖を見たことがあるかもしれません。

メディア生成にとってそれはどのように見えるのか、私は疑問に思います。それもテキストである可能性があります。「このシーンでは2台の車が衝突するはずです。衝突の物理学は運動量保存に従う必要があります。銀色の車は左から来ているので...」というような形です。

あるいは、それは視覚的な推論トレースである可能性があります。中間的な視覚表現、スケッチ、シーン構成の計画などです。モデルは、最終的な高解像度動画を生成する前に、まず粗いレイアウトを生成するかもしれません。

もう1つの問題は、どのように検証するかです。これは非常に重要な問題です。これらの最新の最先端の推論アプローチは、全て強化学習（RL）で訓練されています。RLには、出力の正しさを検証するための検証モデルが必要です。

言語モデルでは、これは比較的簡単です。数学の問題であれば、答えが正しいかどうかを自動的にチェックできます。コーディングの問題であれば、コードを実行してテストケースを通過するかどうかを確認できます。

動画生成にとって、それが何を意味するかは未解決の研究課題です。動画の正しさをどのように検証するのでしょうか。

いくつかの可能なアプローチがあります。第一に、物理シミュレーターを使用することです。生成された動画が物理法則に違反していないかをチェックします。しかし、これは計算的に高価で、全ての種類のシーンに適用できるわけではありません。

第二に、識別モデルを訓練することです。実際の動画と生成された動画を区別できるだけでなく、生成された動画の特定の誤りを指摘できるモデルです。「この動画では、オブジェクトの数が時間とともに変化している」などです。

第三に、人間のフィードバックを使用することです。しかし、これはスケールしません。自動化された検証メカニズムが必要です。

これは難しい問題ですが、解決不可能ではないと思います。そして、もし解決できれば、動画生成の品質における段階的な変化をもたらす可能性があります。モデルが単に一度生成してそれで終わりではなく、反復的に改善し、自己修正し、高品質の出力が得られるまで洗練させることができるようになるのです。

言語モデルにおける推論の成功を考えると、これは動画生成における次の大きなブレークスルーになる可能性があると私は信じています。

8.5 ネイティブマルチモーダル生成への展望

Andrew Brown：最後に、3番目の方向性、ネイティブ生成があります。

最近の大規模言語モデルは、ネイティブにマルチモーダルです。テキストを生成できます。画像理解ができます。動画理解ができます。中には画像生成ができるものもあります。

私はFlow Matchingが動画生成に最も適しているように見えることをお話ししました。複数の学習目的関数を持つ方法はありますか。学習目的関数を統一する必要がありますか。そのようなことです。

このネイティブマルチモーダル生成の概念について、もう少し詳しく説明させてください。現在、私たちは別々のモデルを持っています。テキスト理解のためのモデル、画像理解のためのモデル、動画生成のためのモデル、音声生成のためのモデルなどです。これらは互いに通信できますが、本質的には別々のシステムです。

ネイティブマルチモーダルモデルは異なります。単一の統一モデルが、複数のモダリティを直接扱うことができます。入力としてテキスト、画像、動画を受け取り、出力としてテキスト、画像、動画を生成できます。全てが単一のモデル内で行われます。

この統合には多くの潜在的な利点があります。第一に、異なるモダリティ間で知識と表現を共有できます。テキスト理解で学習したことが、画像生成を改善する可能性があります。動画理解で学習したことが、テキスト生成を豊かにする可能性があります。

第二に、よりシームレスなマルチモーダルタスクが可能になります。例えば、「この画像を説明してください、そして説明に基づいて類似の動画を生成してください」といったタスクが、外部の調整なしで単一のモデル内で実行できます。

第三に、訓練とデプロイメントがシンプルになる可能性があります。複数の専用モデルを別々に訓練し維持する代わりに、単一の統一モデルを持つことができます。

しかし、そこには大きな技術的課題があります。最も大きな問題は、異なるモダリティが異なる学習目的関数で最もうまく機能するように見えることです。

私が講演全体を通じて強調してきたように、Flow Matchingは動画生成に非常に適しているように見えます。それは拡散よりも優れており、より効率的な確率経路を提供します。

一方、テキスト生成では、次トークン予測という自己回帰的アプローチが支配的です。これは非常に異なる学習目的関数です。

では、どのようにこれらを統一するのでしょうか。いくつかの可能なアプローチがあります。

第一に、複数の学習目的関数を持つことです。モデルの異なる部分が異なる目的関数で訓練されます。テキスト生成ヘッドは次トークン予測で訓練され、動画生成ヘッドはFlow Matchingで訓練されるといった具合です。これは可能ですが、訓練が複雑になり、異なる目的関数間のバランスを取る必要があります。

第二に、学習目的関数を統一することです。全てのモダリティに対して機能する単一の学習目的関数を見つけます。これは非常に野心的ですが、もし達成できれば、真に統一されたモデルへの道が開かれます。

最近、この方向での興味深い研究があります。例えば、離散トークンと連続表現の両方を扱える学習目的関数や、自己回帰と拡散の両方の利点を組み合わせようとするハイブリッドアプローチなどです。

第三に、全てをFlow Matchingまたは類似のフレームワークに統一することです。テキスト生成もFlow Matchingで行えるでしょうか。これは従来の考え方からの大きな転換ですが、探求する価値があるかもしれません。

もう1つの課題は、異なるモダリティ間のスケールの違いです。テキストトークンは数百から数千のシーケンス長かもしれませんが、動画は数万トークンになる可能性があります。単一のモデルがこれらの異なるスケールを効率的に扱う方法は、未解決の問題です。

それでも、私はこの方向性に大きな可能性があると信じています。言語モデルが画像理解、動画理解、そして今では一部のケースで画像生成を統合しているのを見てきました。動画生成がこの統合の次のステップになることは、非論理的ではありません。

そして、もしそれが達成されれば、真に汎用的な生成モデル、つまりあらゆる形式の入力を受け取り、あらゆる形式の出力を生成できるモデルに一歩近づくことになります。これは機械学習における長年の目標であり、私たちは徐々にそれに近づいているのです。

9. 質疑応答セッション

9.1 アーキテクチャと訓練に関する質問（事前学習モデル、ノイズ除去ステップ、改善要因）

Andrew Brown：それでは、最後に、Movie Genに取り組んだ巨大なチームについてお話しします。これらは素晴らしい研究者たちです。私はこのプロジェクトで本当に楽しい時間を過ごしました。多くのことを学びました。ここには多くの良い友人がいます。彼ら全員に賛辞を送ります。

このスライドで終わりにしますが、今から質問を受け付けることができます。

（拍手）

質問者：特にロボット工学が非常に関わっているという点で質問があります。そして、この種のアーキテクチャの多くはU-Netベースで、そのような構造を持っています。驚くべきことに、ロボット工学のための行動拡散では、ConvNetアーキテクチャがTransformerアーキテクチャを上回るのです。彼らは、空間的および時間的ドメインにおいて平滑化についての帰納的バイアスを持っているため、より一貫性があるという主張をしています。それに対して何と答えますか？

Andrew Brown：その特定の論文は読んでいませんが、馴染みのある論点のように聞こえます。アーキテクチャ統一に関する理論全体は、CNNのような特殊化されたアーキテクチャがあり、それらが視覚データに関する帰納的バイアスを保持しているということです。例えば、畳み込みマスクを使用した局所的な相互作用を優先するといったことです。

そして一般的な考え方は、小規模で訓練する場合、これらの帰納的バイアスを持つことが役立つということです。しかし、大規模で訓練していて十分なデータがある場合、Transformerを使用して、より制約の少ない設定で、これら全てを自分で学習できるということです。

私たちは、ここでTransformerをスケールすることが、いくつかの理由で、これらの特殊化されたアーキテクチャをスケールするよりもうまく機能することを発見しました。CNNがスケールできないと言っているわけではありません。Transformerをスケールする方が簡単であるように思えます。どの方向にスケールするかを知ることがより直接的です。インフラストラクチャは既に全て存在しています。しかし、これは非常に大きな議論です。私は断定的には言いません。

質問者：このモデリングアプローチは、3D生成、ビデオゲームなどに使用できますか？

Andrew Brown：アーキテクチャに戻ると、これは完全にモダリティ非依存です。これは動画と画像のためのものです。ここで重要なことは、モダリティをトークンのシーケンスに変換したということです。この時点以降、アーキテクチャ内で起こっていることは全てモダリティ非依存です。

したがって、実際には、どんな新しい種類のデータでも、それをトークンのシーケンスに変換する方法さえあれば、全く同じアプローチを使用できます。その種のデータをエンコードすることはより困難かもしれません。しかし、何らかの方法で一連のトークンにエンコードできる限り、全く同じアプローチを使用できます。

質問者（オンライン）：16秒が現在効果的に生成できる最長の動画のようですが、例えば実際の映画の長さの生成に到達できないようにしている主な障害や要因は何ですか？

Andrew Brown：主な問題は計算上のものです。まあ、これには非常に多くの異なる答えがあります。Movie Genのセットアップから考えると、問題はシーケンス長です。私たちが持っていた圧縮レベルを考えると、73Kが実行可能に訓練できるほぼ最長のシーケンス長でした。32秒の動画で訓練したい場合、それは2倍になります。

これを回避する方法は複数あります。はるかに多くの圧縮を持つエンコーダーを訓練すれば、その長さの動画に到達できます。学習目的関数についても別の問題があります。ここでは、全てを一度に生成しています。時間軸に沿って動画を反復的に生成する多くの論文があります。チャンクを生成し、次に前のチャンクに条件付けられた新しいチャンクを生成します。次トークン予測のようなものです。

したがって、必ずしも... これを回避する多くの方法があり、反復的なプロセスを使用して無限の長さの動画を生成する多くの興味深い論文があります。

9.2 CNNの帰納的バイアスとTransformerの比較議論

Andrew Brown：CNNの帰納的バイアスとTransformerの議論について、先ほどの質問にもう少し詳しく答えさせてください。

質問者が指摘したロボット工学における拡散ポリシーの論文では、ConvNetアーキテクチャがTransformerアーキテクチャを上回るという結果が示されています。彼らは、CNNが空間的および時間的ドメインにおいて平滑化についての帰納的バイアスを持っているため、より一貫性があるという主張をしています。

私はその特定の論文は読んでいませんが、確かに馴染みのある論点のように聞こえます。これは機械学習コミュニティにおける継続的な議論です。

アーキテクチャ統一に関する理論全体を説明させてください。CNNのような特殊化されたアーキテクチャがあります。これらは視覚データに関する帰納的バイアスを保持しています。例えば、畳み込みマスクを使用することで、局所的な相互作用を優先します。隣接するピクセルは関連している可能性が高いという仮定があります。これは視覚データにとって非常に合理的な仮定です。

さらに、CNNは平行移動不変性を持っています。画像内のどこに特徴があっても、同じフィルターがそれを検出できます。これも視覚データにとって有用な性質です。

そして一般的な考え方は、小規模で訓練する場合、これらの帰納的バイアスを持つことが役立つということです。データが限られている場合、これらの事前知識により、モデルはより効率的に学習できます。正しい方向に導かれるのです。

しかし、大規模で訓練していて十分なデータがある場合、Transformerを使用して、より制約の少ない設定で、これら全てを自分で学習できるということです。Transformerには組み込まれた空間的な帰納的バイアスはありませんが、十分なデータがあれば、どの位置がどの位置と関連しているかを学習できます。

私たちは、ここでTransformerをスケールすることが、いくつかの理由で、これらの特殊化されたアーキテクチャをスケールするよりもうまく機能することを発見しました。

重要なのは、CNNがスケールできないと言っているわけではないということです。理論的には、CNNも大規模にスケールできるはずです。しかし実際には、Transformerをスケールする方が簡単であるように思えます。

第一に、どの方向にスケールするかを知ることがより直接的です。Transformerのスケーリング則は非常によく研究されています。NLPからの膨大な経験があります。一方、大規模な視覚タスクのためのCNNのスケーリングについては、それほど確立された知識がありません。

第二に、インフラストラクチャは既に全て存在しています。Llamaの訓練のために構築された分散訓練システム、最適化ツール、デバッグツールなどです。新しいアーキテクチャを採用する場合、これらのツールの多くを再構築する必要があります。

第三に、Transformerはより柔軟です。同じアーキテクチャがテキスト、画像、動画、音声などに対して機能します。CNNは主に視覚データに特化しています。

しかし、これは非常に大きな議論です。私は断定的には言いません。特定のタスク、特定のデータ規模、特定の制約の下では、CNNや他の特殊化されたアーキテクチャが依然として優位である可能性があります。

ロボット工学の例は興味深いです。なぜなら、そこでは物理的な制約が非常に重要だからです。ロボットの動作は滑らかで連続的である必要があり、急激な変化は望ましくありません。CNNの平滑化バイアスは、この特定のドメインにとって本当に有益かもしれません。

しかし、動画生成のような私たちのタスクでは、大規模なデータと計算量、そしてTransformerのスケーリングに関する確立された知識が、Transformerを魅力的な選択肢にしました。そして結果が示すように、それは非常にうまく機能しました。

この議論は今後も続くと思います。そして、それは健全なことです。異なるアプローチを探求し、それぞれの強みと弱みを理解することで、分野全体が前進します。

9.3 応用可能性（3D生成、長尺動画、ゲーム開発）

Andrew Brown：3D生成やビデオゲームへの応用可能性について質問がありました。これは非常に良い質問です。

アーキテクチャに戻ると、これは完全にモダリティ非依存です。今お見せしたものは動画と画像のためのものです。ここで重要なことは、モダリティをトークンのシーケンスに変換したということです。この時点以降、アーキテクチャ内で起こっていることは全てモダリティ非依存です。

したがって、実際には、どんな新しい種類のデータでも、それをトークンのシーケンスに変換する方法さえあれば、全く同じアプローチを使用できます。3D生成、ゲーム資産、あるいは他のどんな形式のメディアであっても、原理は同じです。

その種のデータをエンコードすることはより困難かもしれません。3Dデータには特有の課題があります。それをどのように表現するか、メッシュ、ボクセル、ポイントクラウド、NeRF、3D Gaussianなど、多くの異なる表現があります。しかし、何らかの方法で一連のトークンにエンコードできる限り、全く同じアプローチを使用できます。

例えば、3Dシーンをトークンのシーケンスとして表現できる何らかのオートエンコーダーを訓練できれば、その後はMovie Genで使用したのと全く同じTransformerアーキテクチャ、全く同じFlow Matchingの学習目的関数を使用できます。ただテキストから3Dへの生成になるだけです。

ビデオゲームについても同様です。ゲーム環境、キャラクター、アニメーションなどを何らかの方法でトークン化できれば、同じ原理が適用できます。

長尺動画に関する質問もありました。オンラインからの質問で、16秒が現在効果的に生成できる最長の動画のようだが、例えば実際の映画の長さの生成に到達できないようにしている主な障害や要因は何か、というものでした。

主な問題は計算上のものです。これには非常に多くの異なる答えがあります。Movie Genのセットアップから考えると、問題はシーケンス長です。私たちが持っていた圧縮レベルを考えると、73,000トークンが実行可能に訓練できるほぼ最長のシーケンス長でした。32秒の動画で訓練したい場合、それは2倍になります。64秒なら4倍です。

これを回避する方法は複数あります。第一に、はるかに多くの圧縮を持つエンコーダーを訓練することです。現在8倍の圧縮を各次元で持っていますが、もし16倍や32倍の圧縮を達成できれば、同じシーケンス長でより長い動画を扱えます。もちろん、これには再構成品質とのトレードオフがあります。圧縮率が高すぎると、重要な詳細が失われる可能性があります。

第二のアプローチは、学習目的関数を変更することです。現在、私たちは全てを一度に生成しています。動画全体が単一の前方パスで生成されます。しかし、時間軸に沿って動画を反復的に生成する多くの論文があります。

これらのアプローチでは、まず最初のチャンクを生成します。例えば最初の4秒です。次に、その最初のチャンクに条件付けられた次のチャンクを生成します。次の4秒です。そして、これを繰り返し続けます。これは次トークン予測に似ていますが、トークンレベルではなくチャンクレベルです。

このアプローチの利点は、各ステップで扱うシーケンス長が管理可能であることです。理論的には無限の長さの動画を生成できます。課題は時間的一貫性を維持することです。チャンク間で滑らかな遷移を確保し、長期的な一貫性を保つ必要があります。

したがって、必ずしも根本的な限界があるわけではありません。これを回避する多くの方法があり、反復的なプロセスを使用して無限の長さの動画を生成する多くの興味深い論文があります。それは主にエンジニアリングと設計選択の問題です。

ゲーム開発への応用については、特に興味深い可能性があります。ゲームでは、長時間のインタラクティブなコンテンツが必要です。プレイヤーの行動に応じてリアルタイムで生成できるシステムがあれば、革命的です。「森を通って歩く」というプレイヤーの行動から、その環境を動的に生成するなどです。

これには多くの技術的課題がありますが、基本的な原理は同じです。データをトークンとして表現し、Transformerで処理し、望ましい出力を生成します。Movie Genで開発した技術は、これらの応用のための基盤となる可能性があります。

9.4 データとテキスト処理に関する質問（キャプション品質、エンコーダー選択、詳細プロンプト）

Andrew Brown：データとテキスト処理に関する質問がいくつかありました。これらは既に講演中に部分的に触れましたが、ここでまとめて詳しく説明します。

まず、動画データのクリーニングと処理に多くの作業があったが、実際のテキスト、例えばLlama 3で生成されたキャプションが高品質で完全であることをどのように確認するのか、という質問がありました。

良い質問です。私たちは、このLlama 3キャプショナーを訓練することに多くの作業を投入しました。基本的にこれは動画条件付きLlamaモデルです。これは、私たちが望むような良い見た目のキャプションを生成するために、独自の大規模訓練を経ています。それ自体が大きなプロジェクトでした。しかし、確かにそこには改善の余地が多くあります。

これらのキャプションは、人間が書いたキャプションほど良くはありません。そこには多くのアーキテクチャ上の理由があります。これらの動画条件付き言語モデルの多くは、動画全体を見ることができません。もしそれが16秒の動画で、16FPSであれば、それは256フレームです。多くの場合、モデルが条件付けされるには動画が遠すぎる、つまりフレーム数が多すぎるのです。

多くの場合、これらのオープンソースモデル、Llamaだけでなく、Gemmaなどでも、フレームをサブサンプリングする必要があります。例えば、256フレームのうち、32フレームだけをサンプリングしてモデルに入力します。そして、これは言語モデルが動画の多くを見ることをブロックしてしまうのです。モデルは動画の一部しか見ていないため、詳細を見逃したり、重要なイベントを見落としたりする可能性があります。これはいくつかの問題、いくつかの見逃しにつながります。

そこで私たちは、キャプションモデルを訓練し、事後訓練し、それに対して多くの評価を行うことで最善を尽くします。人間の評価者を使用して、生成されたキャプションが動画の内容を正確に反映しているかどうかをチェックします。しかし、それは確実に改善できるものです。

そして、テキストから画像へのコミュニティから、本当にクールな結果がたくさん出ています。キャプションを改善すると、画像品質が良くなることを示しています。なぜそうなるのかは完全には明確ではありませんが、それは繰り返し起こっています。より良いキャプションは、モデルがテキストと視覚の対応関係をより正確に学習するのに役立つようです。

次に、テキストまたはプロンプトエンコーダーがどれほどの役割や重要性を果たすかについての質問がありました。画像生成の研究で、テキストエンコーダーを置き換えることを示したものがあったと思います。CLIPからT5に置き換えることが性能向上に本当に役立ったという研究です。いくつかの異なるテキストエンコーダーを試しましたか？

この特定のシリーズのテキストエンコーディング、つまりUL2、MetaCLIP、T5の組み合わせは、私たちのチームでは前例がありました。私たちは、このシリーズのテキストエンコーディングを使用した最近の最先端のテキストから画像への論文から動機を得ました。

しかし、ここで行っていることはかなり奇妙であることを指摘する価値があります。直感的には、ここで最高のテキスト表現が欲しいと思うでしょう。これらのテキスト表現は全て、最先端とは程遠いものです。LlamaでもGPTでもありません。最新の最も強力な言語モデルではないのです。

デコーダーのみのテキスト表現は、少なくともこのセットアップでは、何らかの理由であまりうまく機能しないことを示すいくつかの研究と経験的発見がありました。その理由のいくつかは、メディア空間とより整合したテキスト表現が必要だという仮説が立てられています。

CLIPは画像とテキストの対比学習で訓練されているため、視覚的概念とテキスト記述の間に自然な橋渡しがあります。そのため、多くの人がCLIPに条件付けしているのを見るでしょう。これは私たちが行っていることです。

ここで行うべきクールな作業がたくさんあります。より強力なテキストエンコーダー、より良いマルチモーダルアライメント、テキストと視覚の統合の改善などです。しかし、このプロジェクトでは私たちはアブレーションを行いませんでした。時間とリソースの制約があり、既に機能することが分かっているアプローチに固執しました。

詳細なプロンプトへの対応についても質問がありました。非常に詳細なプロンプトでどれだけうまく機能するか、例えば「この人物が特定の色を着ていて、後でこういうことが起こり、その後こういうことが起こる」といった非常に詳細な台本のようなものです。単に「ペンギンの動画」というようなものではなく。

私たちは、モデルがこれらの連続的なアクションを実行できることを確実に観察しましたが、常に完全に正確というわけではありません。その一部は、事前訓練データのキャプションにおける問題かもしれません。これら全てのことが起こっていることを正確にキャプションしているでしょうか。

しかし、それはモデルが苦労する場所の1つです。3つまたは4つのことが順番に起こることを詳細に指定した場合です。最初のアクションはうまく生成できるかもしれませんが、2番目、3番目になると、精度が低下する傾向があります。これは、長期的な時間的依存関係と複雑な因果関係を理解する能力の限界を示しています。

9.5 物理的事前知識、透かし技術、データ真正性の課題

Andrew Brown：物理的事前知識をハードコーディングすることについて質問がありました。物理学や現実世界の常識に関連する事前知識を何らかの形でハードコードして、生成される動画のリアリズムと正確性を改善できないか、という質問です。これは、車が分裂したあの動画に関連していると思います。

ある意味で、これは私たちがここで試みていたことの対極です。全ての帰納的バイアスを取り除き、ただスケーリング、計算量、データを行うというものでした。しかし、それらを試してみることは興味深いことだと思います。

なぜなら、もし物理法則をより良く学習しようとしているのであれば、大規模プールからのランダムな動画だけが、そこで使用する最良のものではないかもしれないからです。他のクールな研究が発表されていて、ビデオゲームデータで完全に訓練されたものなどがあります。

物理的事前知識をエンコードすることはクールかもしれません。なぜなら、私たちが確実に知っている自然界についての特定のことがあるからです。コンピュータビジョンの原理などです。

しかし、私たちはここでそれを行いませんでした。私たちのアプローチは、できるだけシンプルで汎用的なアーキテクチャを使用し、データと計算量のスケーリングに任せるというものでした。

質問者：それらをどのようにエンコードする可能性があるか分かりますか？

Andrew Brown：ええ、それは超未解決の問題です。超未解決の問題です。

物理法則をどのようにニューラルネットワークに組み込むかは、本当に難しい問題です。物理シミュレーターと統合する方法、損失関数に物理的制約を追加する方法、あるいはアーキテクチャ自体に物理的構造を組み込む方法など、いくつかのアイデアはありますが、これは活発な研究領域です。

次に、透かし技術とディープフェイク対策についての質問がありました。動画生成モデルの悪意ある使用に関する質問です。ディープフェイクや悪意のある使用に対処するための透かしのような取り組みはありますか？

確かに透かしに関する多くの研究があります。いくつかのグループから出ています。DeepMindがそれについていくつかの興味深い論文を発表しています。NASAにもこれに取り組んでいるチームがあります。非常に重要な作業が行われています。

透かし技術は、生成されたコンテンツに検出可能だが知覚不可能なマーカーを埋め込むことを目指しています。これにより、後で動画が生成されたものかどうかを識別できます。これは、誤情報の拡散を防ぎ、生成コンテンツの責任ある使用を確保するために重要です。

データの真正性についても関連する質問がありました。訓練データの全ての動画が実際のものであることをどのように確認するか、もしいくつかが偽物だったらどうするか、という質問です。最近の言語モデルの研究に関連していますが、訓練データがますます合成的に生成されるようになると、何か問題が生じるでしょうか？

確かに、データセット汚染というこのアイデアは問題です。いくつかの興味深い答えがあると思います。

まず第一に、私たちの事前訓練データで、それが低品質であれば、私たちはそれで訓練したくありません。そして、うまくいけば、それを見つけて除去します。しかし、生成されたデータで訓練することは常に悪いことではありません。

ほとんどの現代的な事後訓練アプローチは、言語モデルのために生成されたデータで訓練することに基づいています。モデル自身からの生成で訓練します。したがって、生成されたデータで訓練することは常に悪いわけではありません。

事前訓練データに本当に悪い生成動画がある場合、私たちはそれらを除去したいです。しかし、それは常に悪いわけではありません。

生成されたコンテンツの品質が十分に高ければ、それは訓練データとして有用である可能性があります。問題は、低品質または不正確な生成コンテンツが大量に含まれている場合です。これは「モデル崩壊」と呼ばれる問題につながる可能性があり、生成モデルが生成モデルの出力で訓練されると、品質が徐々に低下していく現象です。

しかし、適切なフィルタリングと品質管理があれば、生成されたデータと実際のデータを組み合わせることは、訓練戦略として実行可能である可能性があります。これは、データの入手可能性が制約となる場合に特に重要です。

9.6 学術研究者の貢献可能性と音声生成の現状

Andrew Brown：計算量に関するより一般的な質問がありました。数千のGPUにアクセスできない学術研究者が、動画生成にどのように貢献できるかという質問です。

明らかに、産業ラボの外でこのレベルの事前訓練を行うことは非常に困難です。しかし、この論文全体を通じて、私たちは学術界から来た多くの革新を使用してきました。

例えば、Flow Matchingに関する研究の多くは大学で行われました。私たちがインスピレーションを得た主要な論文はMetaから出ましたが、この種の研究は小規模で行うことができ、そして私たち全員がそれから学ぶことができます。

事前訓練は確かに困難です。事前訓練は困難です。しかし、学習目的関数のようなものは、小規模でも研究できると思います。そして事後訓練スキーム、これについては学術界から多くの素晴らしい研究が出ています。

学術研究者ができることはたくさんあります。新しい学習目的関数の開発、より効率的なアーキテクチャの設計、より良い評価メトリクスの提案、事後訓練手法の改善などです。これらは全て、大規模な計算リソースがなくても行える研究です。

さらに、小規模なモデルやデータセットでの実験も価値があります。そこで発見された原理は、大規模にスケールする際にも適用できることがよくあります。実際、多くの重要なブレークスルーは、まず小規模な実験で実証され、その後大規模に適用されました。

訓練インフラに関する質問もありました。データ構造について共有できることがあれば、機密情報であることは理解していますが、訓練にかかった時間や、企業がモデルの単一インスタンスをホストするのにどれくらいの規模が必要か、各リクエストを実行するのにGPUが何個必要かなど、感覚をつかみたいという質問です。

論文には、訓練インフラストラクチャの完全な詳細を含めています。それはそこにあります。推論インフラストラクチャについての詳細は含めていないと思います。論文にはインフラストラクチャに関する多くの詳細があります。そこを見ることをお勧めします。

私たちは、可能な限り透明性を保ち、コミュニティが私たちの研究から学び、それを基に構築できるようにしたいと考えています。

最後に、音声生成に関する質問がいくつかありました。生成する動画には音声が付いてくるのかという質問がありました。

テキストから動画へのモデル、私がここで見せたものは動画を生成します。しかし、公開と同時に、私たちは別のMovie Gen Audioモデルについても発表しました。これは生成された動画に音声を追加します。

質問者から、動画には2つの別々のモデルがあり、音声は別のレベルの複雑性を持っているという指摘がありました。複数のトラックがあります。もしMIDIファイルやMP3で訓練したい場合など、現在の音声生成の進捗状況はどうなっているかという質問です。

私たちには、これに取り組んでいる本当に素晴らしい音声研究チームがいます。1つの非常に良いことは、全てを一度に生成することだと思います。動画と音声を同時にです。

2つのモダリティは非常に相関しています。共有情報がたくさんあります。したがって、理論的には、両方のモダリティが一緒に訓練されることで恩恵を受けるはずです。音声は、動画には存在しない動画に関する情報さえエンコードしています。例えば、画面外で起こっている何かの音などです。

問題はデータの1つです。高品質な動画データを取得することは非常に困難です。良い音声を持つ高品質な動画データを取得することは、さらに困難です。クリーンな音声、適切なバランス、著作権の問題がない音声を持つ動画を見つけることは、大きな課題です。それが、このプロジェクトでそれを行わなかった理由の一部です。

しかし、将来的には、動画と音声を共同で生成することは非常に有望な方向性です。視覚と聴覚の情報が相互に補強し合い、より一貫性のある、よりリアルな結果を生み出す可能性があります。音声研究チームが行っている作業は素晴らしく、この分野での進展を楽しみにしています。

Andrew Brown：それでは、本当にありがとうございました。素晴らしい質問をたくさんいただきました。今日ここに来て、Movie Genについてお話しできたことを光栄に思います。

Stanford CS25: V5 I Transformers for Video Generation, Andrew Brown of Meta

June 3, 2025 Andrew Brown, Meta The progress in video generation models over the past just 2 to 3 years has been astounding. With a particular focus on Meta’s Movie Gen model, in this talk we will explore how we are now able to train generative models to output high quality realistic videos, and the key role that transformers have played. Speaker: Andrew is a Research Scientist in Meta’s GenAI team, focusing on media generation. Over the past few years, his team has focussed on publishing research papers that push the frontiers of video generative models, including Emu-Video and Movie Gen. Prior to working at Meta, Andrew completed his PhD at Oxford’s Visual Geometry Group (VGG) under the supervision of Professor Andrew Zisserman. More about the course can be found here: https://web.stanford.edu/class/cs25/ View the entire CS25 Transformers United playlist: https://www.youtube.com/playlist?list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM

www.youtube.com

Stanford CS25: V5 I Transformers for Video Generation, Andrew Brown of Meta