2023-09-20 NLP with Deep Learning :Lecture 16 - マルチモーダル深層学習の世界：テキストと画像の融合から未来へ

出展元

https://www.youtube.com/watch?v=5vfIT5LOkR0

キーワード

マルチモーダル融合視覚言語モデルCLIP/BLIP-2組成的理解

初回調査日

Apr 14, 2025 12:14 PM

※本記事は、Stanford CS224N NLP with Deep Learning | 2023 | Lecture 16 - Multimodal Deep Learning, Douwe Kielaの講義内容を基に作成されています。講義の詳細情報はhttps://www.youtube.com/watch?v=5vfIT5LOkR0 でご覧いただけます。本記事では、講義の内容を要約・構造化しております。なお、本記事の内容は原講義の内容を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講義映像をご視聴いただくことをお勧めいたします。

スタンフォード大学の人工知能専門・大学院プログラムについての詳細は https://stanford.io/ai をご覧ください。このコースについての詳細は https://online.stanford.edu/courses/c... 、コースのスケジュールとシラバスは http://web.stanford.edu/class/cs224n/ でご確認いただけます。

登壇者：

Douwe Kiela：スタンフォード大学シンボリックシステムズのAdjunct Professor。個人サイト：https://douwekiela.github.io/
Christopher Manning：Thomas M. Siebel Machine Learning教授、言語学・コンピュータサイエンス教授、Stanford Artificial Intelligence Laboratory (SAIL)ディレクター。

Stanford Onlineはスタンフォード大学全体の学校や部門が提供する学術的・専門的教育のためのポータルであり、スタンフォード工学部を通じて世界中の教育にアクセスできます。スタンフォード工学グローバル＆オンライン教育センター(CGOE)が運営・管理しています。

1. イントロダクション

1.1. マルチモダリティの定義と重要性

マルチモダリティという概念は本質的にやや曖昧に定義されています。辞書的な定義では「複数のモードやモダリティを持つあるいは含む」とされています。研究分野によって「モード」の意味合いは異なり、統計分布のモードという非常に厳密な意味で使われる場合もあれば、より一般的な「情報の種類」という意味で使われることもあります。後者の場合、モダリティとは画像や音声、テキスト、さらには嗅覚といった情報の種類を指します。本講義では主にNLPコースという性質上、テキストを中心に据え、もう一つのモダリティとして主に画像に焦点を当てて話を進めていきます。

マルチモダリティが重要である理由はいくつか挙げられます。一つ目は、人間が世界を理解する方法が本質的にマルチモーダルだからです。私たちは視覚だけや聴覚だけを使って世界を認識しているわけではなく、様々なモダリティからの情報を統合して世界を理解し、お互いを理解しています。この人間の認知過程により忠実なモデルを構築するためには、マルチモダリティの考慮が不可欠です。

二つ目の理由は、より実用的なもので、インターネット自体がマルチモーダルだからです。FacebookやSNSなどを見ると、純粋にテキストだけ、あるいは画像だけということはほとんどなく、通常は複数のモダリティの組み合わせが見られます。実世界のアプリケーションではマルチモーダルな処理が必須なのです。

最後に、現在の大規模言語モデルの開発において直面している課題として、テキストデータが不足してきているという問題があります。スケーリングを継続する興味深い方法の一つとして、他のモダリティを活用することが考えられます。例えば、言語モデルが世界中の猫の動画をすべて見ることができれば、「猫」という概念をより深く理解できるようになるでしょう。これは人間の理解の仕方に近づけるという目標とも一致します。

現在、マルチモダリティは新しい基盤モデル開発の最前線となっています。テキストだけでなく視覚情報も統合することで、より豊かな世界理解を持つモデルの構築が進められているのです。

1.2. マルチモーダル応用の概要

複数のモダリティを組み合わせることで、インターネット上の多くのユースケースに対応した様々な興味深いアプリケーションが可能になります。異なるデータソースからの情報を活用することで、いくつかの明確なタスクが浮かび上がってきます。

まず基本的なタスクとして検索（リトリーバル）が挙げられます。テキストを入力として適切な画像を見つけたり、逆に画像を入力として関連するテキストを探し出したりするなど、モダリティ間のマッチングが可能になります。これは画像と文章の類似性を評価することで実現できます。

同様の仕組みを生成的な設定で応用すると、画像キャプション生成が可能になります。これは与えられた画像に対して適切な説明文を自動生成するタスクです。反対に、テキストから画像を生成する画像合成も重要なアプリケーションです。Stable Diffusionなどのテキスト-画像生成モデルは、このアプローチの代表例であり、現在多くの人が利用しています。

また、視覚的質問応答（Visual Question Answering, VQA）では、画像とテキストの質問を入力として、新しいテキストを生成して回答するタスクが設定されています。さらに、マルチモーダル分類では、画像とテキストを組み合わせて、例えばヘイトスピーチかどうかなどのラベルを予測します。

より一般的には、複数のモダリティを組み合わせることで情報の理解を豊かにし、より優れた理解や生成が必要なダウンストリームアプリケーションに活用できます。このような複数のモダリティを活用したアプローチは現在非常に注目されており、多くの研究が進められています。研究分野の多くの人々は長年「マルチモーダルが次の大きなブレイクスルー」と予測してきましたが、現在はその予測が現実のものとなりつつあります。

1.3. 講義の構成

この講義では、マルチモーダル深層学習について体系的に学んでいきます。まず最初に初期のモデルについて説明し、マルチモーダル研究の原点と基礎的なアプローチを理解します。次に特定の要素についてより詳細に掘り下げていきます。特に特徴抽出と融合という、マルチモーダルシステムの中核となる構成要素に焦点を当てます。

その後、特定のタイプの融合手法である対照的（コントラスティブ）モデル、または後期融合（Late Fusion）について詳しく見ていきます。続いて、マルチモーダル基盤モデルの歴史的な発展を振り返り、BERTからより高度なアーキテクチャへの進化を理解します。

評価についても議論し、マルチモーダルモデルの性能を適切に測定する方法と、この分野で直面している課題について考察します。また、テキストと画像以外のモダリティについても簡単に触れ、音声や動画、3Dデータ、さらには嗅覚のような他の知覚モダリティへの拡張可能性を探ります。

最後に、将来の方向性についての予測を立て、研究アイデアやこの分野で考慮すべき重要なポイントについて提案します。この講義を通じて、マルチモーダル深層学習の現状と将来の可能性について包括的な理解を得ることを目指します。

2. 初期のマルチモーダルモデル

2.1. 視覚と言語のアライメント

深層学習革命以前にもマルチモーダル研究は存在していましたが、画像とテキストの分野における深層学習の発展という観点から見ると、先駆的研究の良い出発点として、例えばWasabiやDeVise、そしてRichard Socher（よく知られている研究者）の初期の研究が挙げられます。これらの研究は多くの基本的なアイデアを開拓しました。

これらの初期モデルの基本的な考え方は、一方に視覚モデル、もう一方に言語モデル（おそらくこのコースの最初の講義で学んだ単語埋め込みモデル）を持ち、これらを同じマルチモーダル空間で整列させる方法を見つけるというものです。これを実現するために、類似度メトリクス（スコア関数や、サポートベクターマシン文献の観点からはカーネル関数）を用いて、埋め込み空間内でこれらの2点をどのように整列させるかを、マージン損失またはマックスマージン損失を通じて学習します。

これによって、類似したものを埋め込み空間内で近づけ、そうでないものを遠ざけることができます。このマルチモーダル埋め込み空間内でこれを行うことで、興味深いクロスモーダル転移が可能になります。例えば、「自動車」や「馬」などの単語埋め込みを取り、埋め込み空間内でその単語に近い画像を見つけることができます。これによって検索問題が解決できるのです。

これは初期の応用例としては非常に優れており、後に説明する多くの手法でも、このアプローチが繰り返し再登場し、より洗練されたモデルで再発明されていきますが、基本的には同じ考え方に基づいています。

2.2. マルチモーダル単語埋め込み

クロスモーダル転送で画像とテキストを関連付けることもできますが、それらを組み合わせることで、マルチモーダル単語埋め込みを作成することも可能です。これにより、人間が単語の意味をどのように理解しているかをより正確に表現できるようになります。人間が「月」や「猫」などの単語について考えるとき、Wikipediaでその定義（「猫は小型の肉食哺乳類で、人々がペットとして飼うことが多い」など）を読むこともできますが、単に猫の写真を見るだけでも猫とは何かを理解できます。実際、多くの人にとって、猫の概念の意味は、テキスト定義よりも猫の画像の方がずっと近いと言えるでしょう。

この考え方を取り入れた初期の研究として、Ronieらの「Bag of Visual Words」というエレガントなアプローチを用いたマルチモーダル分散意味論があります。このアプローチは驚くほど単純です。例えば、背景に月の画像がある場合、SIFTなどのアルゴリズムを使用して興味深いキーポイントを見つけます。これは基本的に、ピクセル間の差が大きい場所を探します。これらの各キーポイントについて、特徴記述子（実装によって通常32次元程度の比較的小さなベクトル）を取得します。

これらの特徴記述子はk-meansでクラスタリングし、各ポイントの出現頻度をカウントします。例えば、月の画像には赤い点が3つあるため、「赤い点1」のカウントは3になります。これにより、おそらく最初の講義で学んだオリジナルの「Bag of Words」モデルと非常に似た「Visual Words」の概念が得られます。これはテキストに対するものの視覚的な等価物です。

このようにして、視覚情報とテキスト情報を融合（連結またはSVDの適用）することで、人間の意味をより適切に表現する単語埋め込みが得られます。これは当時使用されていたデータセットに反映されていた人間の理解をより正確に捉えています。

その後、私自身を含む何人かの研究者がこれらのアイデアを取り上げ、深層学習を本格的に適用しました。初期のバージョンではConvolutional Neural Networks（CNN）を使用し、そのCNNからの特徴を転送して、最初の講義で見た単語埋め込みと連結しました。これによりマルチモーダル単語ベクトルが得られます。あるいは、少し工夫して、Skip-gramモデルを画像特徴に対する予測にも適用することもできます。つまり、「かわいい小さな猫がマットの上に座った」というコンテキストで「猫」という単語を見たとき、その単語から猫の画像も予測するようにモデルを訓練するのです。

これらは非常に単純なアイデアですが、実際にはこれによって単語表現がはるかに豊かになることがわかりました。これは興味深い結果でした。

2.3. Bag of Visual Wordsアプローチ

Bag of Visual Wordsは驚くほど単純でありながら、優れたアプローチです。このアプローチについて知っている人は少ないようですが、そのエレガントな単純さが魅力です。例えば、背景に月が写った画像を使用する場合、SIFTなどのアルゴリズムを用いて重要なキーポイントを特定します。これは基本的に、あるピクセルとその隣接ピクセルとの差が大きい場所、つまりコントラストの高い部分を探します。

こうして特定された各キーポイントに対して、特徴記述子が生成されます。これらは実装によって異なりますが、通常32次元程度の比較的小さなベクトルです。これらの特徴記述子に対してk-meansクラスタリングを適用し、各画像内でどのクラスタ（視覚的単語）がどれだけ出現するかをカウントします。例えば、月の画像の中に赤い点が3つあれば、「赤い点1」というビジュアルワードのカウントは3になります。

このプロセスによって得られるのは、テキストの「Bag of Words」モデルの視覚的な等価物です。初回の講義で説明されたかもしれませんが、Bag of Wordsはテキスト内の単語の出現頻度をカウントする手法です。Bag of Visual Wordsはその画像バージョンと考えることができます。

このアプローチを使用することで、テキスト情報と視覚情報を融合（連結やSVDなどの手法によって）すると、人間の意味理解をより正確に反映した単語埋め込みが得られます。当時の研究で用いられていたデータセットに照らして評価すると、このようなマルチモーダル表現は単なるテキストベースの表現よりも人間の概念理解に近いことが示されています。

2.4. 文表現と画像の関連付け

単語は非常に限定的であるため、真に重要なのは単語ではなく文章です。そこで研究者たちは、文章表現とその組成的理解を画像とどのように関連付けるかについて検討し始めました。

損失関数は単語と画像を関連付ける場合と非常に似ていますが、ここでは単語エンコーダーの代わりに文エンコーダーを使用します。このアプローチに関するいくつかの重要な初期論文が、Andre KarpatyとRichard Socherから発表されました。基本的なアイデアは、単語埋め込みの代わりに、これらの論文ではLSTMや他の種類のリカレントニューラルネットワーク、あるいはRecursive Neural Networkを使用して、特徴を整列させるというものです。

私自身の研究（講演者による）も重要性は少ないものの興味深いものでした。なぜなら、「接地された文表現」（grounded sentence representation）が、NLPタスクのための文エンコーダーとして単独で使用した場合でも非常に効果的であることを示したからです。つまり、文から画像を予測する能力を学習するだけで、その文の表現が非常に優れたものになるのです。これにより、物事がどのように見えるかを想像する能力が得られ、その結果、例えば感情分析やその他のタスクに転用できる優れた意味表現が生成されます。

そして当然、文エンコーダーができれば、デコーダーも必要になります。sequence-to-sequenceアーキテクチャ（このコースでも学んだはず）が登場したとき、機械翻訳のソース言語用テキストエンコーダーの代わりに、CNNを差し替えることができるようになりました。その結果、キャプション生成が可能になったのです。当時の論文には、LSTMの仕組みを説明する精巧な図が含まれていました。現在ではこうした技術を学ぶ機会は少ないかもしれませんが、実際にはまだ学ばれているようですね。素晴らしいことです。いつか再び注目される可能性もあります。トランスフォーマーもいずれなくなるかもしれません、様子を見ましょう。

機械翻訳の分野では非常に早い段階で、ソース言語と目標言語の間の単語アライメントが可能であることが判明していました。実は画像でも同じことができます。生成されるシーケンス内の単語と画像内の要素を関連付けたい場合、同じアプローチを適用できます。このアプローチはもちろん「アテンション」と呼ばれています。このコースでもアテンションについて多く学んだはずです。これはこうしたシステムの重要な構成要素の一つであり、非常に興味深い処理が可能になります。例えば、停止標識に対して「stop」という単語を生成する際、モデルが実際に停止標識を見ていることが確認できるのです。このようにモデル内で素晴らしいアライメントが起こっています。

2.5. キャプション生成モデル

文エンコーダーを持つことができれば、当然デコーダーも持つことができます。sequence-to-sequenceアーキテクチャが登場した際（おそらくこのコースでも学習済みでしょう）、機械翻訳のソース言語用テキストエンコーダーの代わりに、CNNを接続することが可能になりました。これにより、キャプション生成の実現が可能になったのです。

当時の研究論文では、LSTMの仕組みを説明する精巧な図表が含まれていました。現在ではそういった内容を学ぶ機会は減っているかもしれませんが、実際にはまだ教えられているようですね。これは素晴らしいことです。いつかLSTMは再び注目される可能性もあります。トランスフォーマーもいつかは廃れるかもしれません、様子を見ていきましょう。

キャプション生成モデルの基本構造は、入力として画像を受け取るCNNエンコーダーと、その視覚的特徴から自然言語の説明文を生成するLSTMデコーダーから成ります。これにより、与えられた画像の内容を自然言語で記述することが可能になります。この構造は機械翻訳のシーケンス・ツー・シーケンスモデルと本質的に同じですが、ソース言語エンコーダーの代わりに視覚エンコーダーを使用している点が異なります。

このアプローチにより、コンピュータービジョンと自然言語処理の橋渡しが実現し、視覚情報を人間が理解しやすい形式で表現できるようになりました。キャプション生成モデルは、視覚障害者のアクセシビリティ向上や、大量の画像データの理解と整理など、様々な実用的アプリケーションにつながる重要な進歩でした。

2.6. 注意機構の導入

機械翻訳の分野では、非常に早い段階でソース言語と目標言語の間で単語アライメントが可能であることがわかっていました。このような単語アライメントは、画像とテキストの間でも同様に適用できることが判明しました。つまり、生成されるシーケンス内の単語と画像内の特定の部分を関連付けたい場合、同じアプローチを使用することができるのです。

このアプローチは「アテンション」（注意機構）と呼ばれています。このコースでも注意機構については多く学習したはずです。注意機構は、これらのマルチモーダルシステムの基本的な構成要素の一つとなり、非常に興味深い処理を可能にしました。

例えば、モデルが「stop」という単語を生成する際に、実際に画像内の停止標識を「見ている」ことを確認できます。つまり、モデル内で単語と画像の特定部分との間に素晴らしいアライメントが生じているのです。モデルが文を生成する各ステップで、画像のどの部分に注目しているかを可視化することができ、これにより、モデルが適切な視覚情報に基づいて単語を生成していることを確認できます。

注意機構の導入により、単純なend-to-endのエンコーダー・デコーダーモデルを超えて、より細かい粒度でのモダリティ間の関連付けが可能になりました。これは、より正確で説明可能なキャプション生成につながるだけでなく、人間の視覚的注意のメカニズムをある程度模倣することにもなりました。

この視覚的接地付け（visual grounding）は、マルチモーダルモデルの理解と生成能力を大きく向上させ、後のより高度なアーキテクチャの重要な基盤となりました。

2.7. 生成的敵対ネットワーク(GANs)の活用

初期のマルチモーダルモデルとして最後に取り上げるべき重要なモデルがGANs（Generative Adversarial Networks、生成的敵対ネットワーク）です。GANsについて知っている人はかなり多いようですね（Bag of Visual Wordsよりも明らかに多い）。これは理にかなっています。

GANsの基本的なアイデアは、生成器（generator）と識別器（discriminator）という2つのコンポーネントを持つことです。生成器は、識別器が本物と偽物の画像を区別できないような画像を生成することを目指します。この生成プロセスをテキストによって条件付けることで、テキストプロンプトに基づいて画像を生成することが可能になります。

これは、Stable Diffusionの初期バージョンが行っていたことと同様のアプローチであり、現在のテキスト-画像生成モデルへの自然な発展の道筋を示しています。テキスト条件付きGANsでは、テキスト入力を処理して潜在表現を生成し、それを生成器ネットワークの入力として使用します。生成器はこの条件付き情報に基づいて画像を生成し、識別器はその画像が本物らしいかどうか、また与えられたテキスト記述と一致しているかどうかを判断します。

このようなアプローチにより、「空を飛ぶ鳥」や「赤いドレスを着た女性」といった記述から相応しい画像を生成することが可能になりました。これらの初期のテキスト条件付きGANsは、現在のStable DiffusionやDALL-Eなどのより洗練されたテキスト-画像生成モデルの重要な先駆けとなりました。

これらの初期モデルは、マルチモーダル深層学習の基礎を築き、その後のより高度なアーキテクチャの発展に道を開きました。単純なアライメントモデルから始まり、キャプション生成、そしてテキストから画像生成へと進化していく中で、マルチモーダル表現学習の可能性が徐々に明らかになっていったのです。

3. マルチモーダルの課題と特徴抽出

3.1. モダリティの支配問題

これまでのマルチモーダルモデルについて理解したところで、ここでもう少し深く掘り下げていきましょう。特に特徴と融合に焦点を当てていきます。これらはマルチモーダルシステムの中核となる構成要素です。

しかし、その前に少し立ち止まって考えてみましょう。もしマルチモーダルが優れていて、そこまで難しくないように見えるなら、なぜ私たちは皆マルチモーダルな研究をしていないのでしょうか？なぜ特定のモダリティに焦点を当ててしまうのでしょうか？

この疑問に答えるためにいくつかの問題点を認識する必要があります。まず、モダリティが他のモダリティを支配してしまうことがあります。特にテキストは多くのユースケースにおいて、視覚や音声よりもはるかに支配的な役割を果たします。これは、モデルがテキスト信号だけを捉えて画像を完全に無視してしまう可能性があることを意味します。

これは実際に、視覚的質問応答(VQA)で恥ずかしながら発生してしまった問題です。後ほど詳しく説明しますが、視覚的質問応答は実際に画像を見なくても実行できてしまったのです。つまり、モデルは画像情報を利用せず、純粋にテキスト情報だけで質問に「答える」ことを学習してしまいました。

これはマルチモーダル学習の根本的な課題の一つです。一方のモダリティ（通常はより構造化されたテキスト）がより強い予測信号を持っていると、モデルはよりノイズの多い、あるいは処理が難しいモダリティ（視覚情報など）を無視する傾向があります。これは、真のマルチモーダル理解ではなく、単一モダリティへの依存を生み出してしまいます。

この問題に対処するためには、モデルアーキテクチャの慎重な設計や、両方のモダリティからの情報を確実に利用するよう強制するような訓練手法が必要になります。後ほど説明する評価方法の中で、特にこの問題に対応するために設計されたものもあります。

3.2. ノイズと完全なカバレッジの課題

マルチモーダルシステムを構築する際の2つ目の課題は、追加のモダリティが大量のノイズを加える可能性があることです。これにより、機械学習問題がより困難になります。異なるモダリティからの情報を統合するとき、各モダリティが持つノイズや不確実性が組み合わさり、モデルの学習をより複雑にします。

また、常に完全なカバレッジが得られるとは限らないという問題もあります。例えば、Facebookの投稿を見ると、テキストだけのこともあれば、画像だけのこともあり、両方含まれることもあります。しかし、常に両方のモダリティが存在するという保証はありません。このような不完全なデータセットでどのように対処するかは重要な課題です。

多くの場合、実装が複雑すぎるという理由で、マルチモーダルアプローチへの準備ができていませんでした。また、一般的に、すべての情報を組み合わせるためのモデル設計の方法も非常に複雑です。

これらの課題は、マルチモーダルシステムを構築する際に考慮すべき重要な要素であり、適切なモデル設計と訓練手法が必要になります。モダリティ間のギャップを埋め、不完全なデータに対処し、各モダリティから最大限の情報を抽出するための戦略が必要とされるのです。

3.3. テキスト特徴量化の手法

テキストの特徴量化については、特にトランスフォーマーの時代となった現在では、もう十分に理解されていると思います。LSTMの時代以前から、テキストは常にバッチサイズ×シーケンス長×埋め込みサイズの3次元テンソルとして表現されてきました。このような3Dテンソルがテキスト情報をニューラルネットワークに送り込む標準的な方法です。

テキスト処理では、各単語またはトークンが固定サイズの埋め込みベクトルに変換され、それらがシーケンスとして扱われます。このアプローチは比較的単純で一貫しており、様々なテキスト処理モデルに適用できます。BERTやGPTなどのトランスフォーマーベースのモデルでも、基本的な入力表現は同様の3Dテンソル構造を維持しています。

テキストデータの場合、各トークンは常に一貫した方法で処理され、シーケンス内の位置情報は位置エンコーディングを通じて保持されます。この構造化された特徴表現により、テキストについては比較的標準化された特徴量化アプローチが確立されていると言えます。

このようにテキスト特徴量化の手法は確立されているため、マルチモーダルモデルを構築する際のチャレンジは主に、他のモダリティ（特に画像）をどのように特徴量化し、テキスト特徴とどのように結合するかという点にあります。

3.4. 画像特徴量化の手法

画像に関しては、特徴量化がより複雑になります。単にパッチを見るだけでも、畳み込み（コンボリューション）を使用すると、画像全体をスライドして移動し、その後集約することになります。これは画像処理においてある種の特徴抽出方法です。

しかし、多くの場合、このような均一な処理ではなく、画像内の「もの」に実際に注目したい場合があります。これが「領域特徴（Region Features）」と呼ばれるもので、画像処理の第一段階として物体検出器を使用します。そして、検出された特定のサブ画像（例えば、スケートボードのような物体）に対してCNNバックボーンを適用し、それぞれ独自のベクトル表現を生成します。

密な特徴（Dense Features）という観点では、現在ではVision Transformerも使用されています。これにより、画像処理における特徴抽出の方法がさらに多様化しています。

画像特徴量化は、テキスト特徴量化と比較してより複雑で、様々なアプローチが存在します。画像全体を均一に処理する方法もあれば、物体検出を用いて画像内の「もの」に焦点を当てる方法もあります。どのアプローチが最適かは、具体的なタスクや利用可能なリソースによって異なります。

重要なのは、マルチモーダルモデルを構築する際に、画像特徴をどのように抽出し、テキスト特徴とどのように統合するかを慎重に検討することです。これが、マルチモーダルシステムの性能を大きく左右する要因となります。

3.5. 領域特徴(Region Features)

領域特徴（Region Features）について、もう少し詳しく見ていきましょう。YOLOのような優れた物体検出モデルが多数あります。現在はYOLO V7が最新版だと思いますが、新しいバージョンがほぼ1〜2年ごとに登場しています。

これらの物体検出モデルの基本的なアイデアは、画像内の物体に対するバウンディングボックス（境界ボックス）を取得することです。実際には、単なるバウンディングボックスではなく、セグメンテーションとバウンディングボックスの組み合わせが一般的に使用されます。これらのボックスにはラベルが付けられています。例えば、「バックパッカー」などのラベルが付いているわけです。

こうした前処理ステップを画像に適用することで、その画像に実際に含まれているものについて、より豊かな表現を得ることができます。これを後のシステムに入力として使用できるようになります。

このようなバウンディングボックス内の情報、あるいは画像全体の情報をエンコードする方法としては、標準的なCNN（畳み込みニューラルネットワーク）が使用されます。これは2014年頃、この手法が発見され始めた当時は非常に驚くべきことでした。既製のCNN特徴を使用して、それまでのコンピュータビジョンのパイプライン全体を置き換えることができるようになったのです。

それまでは、研究者たちが数十年かけて非常に高度で洗練された手法を開発していましたが、それらはすべて廃棄され、CNNに置き換えられました。CNNはそれらの処理をすべて無料で行ってくれるようになったのです。

この手法の素晴らしい点は、異なるタスク間で非常に簡単に転移学習ができることです。非常に汎用的なCNNを持ち、それをパリの建物や花など、非常に専門的なタスクに適用することができるのです。

3.6. 畳み込みニューラルネットワーク

画像特徴抽出のための標準的な手法として、畳み込みニューラルネットワーク(CNN)が広く使用されています。CNNを使った特徴抽出は、今では当たり前に感じるかもしれませんが、2014年にこのアプローチが普及し始めた当時は、非常に革新的なものでした。

それまでコンピュータビジョンの分野では、研究者たちが数十年かけて非常に高度で洗練された画像処理パイプラインを開発していました。しかし、CNNの登場によって、それらの複雑な手法はすべて廃棄され、シンプルなCNNに置き換えられたのです。CNNは、これまで複雑な処理を必要としていた様々なタスクを、単一のアーキテクチャで効率的に処理できるようになりました。

CNNの大きな利点の一つは、転移学習が非常に容易なことです。一度汎用的なCNNを訓練すれば、それをパリの建物の検出や花の分類など、非常に専門的なタスクに簡単に適用することができます。CNNのレイヤーは下位層で基本的な形状や模様を捉え、上位層でより抽象的で複雑な特徴を捉えるため、様々なタスクに再利用可能な特徴表現を提供します。

このようなCNNの登場によって、画像特徴抽出は大きく前進し、多くのコンピュータビジョンタスクのパフォーマンスが飛躍的に向上しました。マルチモーダルシステムにおいても、CNNは画像情報を抽出するための基盤的な役割を果たしています。CNN特徴と言語特徴を組み合わせることで、視覚情報と言語情報を統合した豊かな表現学習が可能になりました。

3.7. Vision Transformers

トランスフォーマーの時代では、現在では画像のエンコードにもVision Transformers(ViT)を使用するようになっています。講義の中で初めてトランスフォーマーについて触れることになりますが、順調に進んでいると言えるでしょう。

Vision Transformersでは、画像を平坦化したパッチに分割し、おそらくこのコースで学んだBERTのような標準的なトランスフォーマーアーキテクチャを適用します。そして最終的に分類を行います。これはトランスフォーマーの標準的な使用法ですが、入力となるのは単語やトークンではなく、画像のパッチとなります。

Vision Transformersの主な特徴は、CNNのように畳み込みフィルタで画像をスキャンするのではなく、画像を固定サイズのパッチに分割し、それらを線形埋め込みに変換した後、位置埋め込みを追加してトランスフォーマーエンコーダーに供給する点です。この方法では、画像全体の文脈を同時に考慮できるため、CNNよりも長距離依存関係をより効果的に捉えることができます。

このアプローチにより、Vision Transformersは多くの画像認識タスクで最先端の性能を達成し、特に大規模なデータセットで事前訓練された場合に効果的です。また、ViTはマルチモーダルモデルにおいて、テキスト処理にも使用されるトランスフォーマーアーキテクチャとの統一的な枠組みを提供するという利点もあります。

現代のマルチモーダル深層学習システムでは、Vision Transformersは画像特徴抽出の標準的な手法の一つとなり、テキストと画像の両方をトランスフォーマーベースのアーキテクチャで処理することで、より深い統合と理解が可能になっています。

4. 多様な融合手法

4.1. マルチモーダル融合の基本

これで様々な特徴抽出方法が理解できたので、次はこれらの特徴をどのように組み合わせるかを考えていきましょう。例えば、2つのベクトルuとvがあるとします。これらを組み合わせる方法は簡単に思えるかもしれませんが、実際には非常に多くの方法が存在します。

すべての組み合わせ方法を詳細に説明することはあまり有益ではないと思いますが、いくつかの基本的なアプローチを紹介します。まず、非常に単純な方法としては、クロスモーダルな関係を扱う場合に使われる内積や類似度があります。これは同じベクトル空間に異なるモダリティを埋め込む際に使用されます。

さらに高度な方法として、その上に様々な投影を行ったり、線形的な組み合わせを行うこともできます。また、成分ごとに要素を掛け合わせる乗算的な方法や、異なる特徴間でゲーティングを行う方法もあります。注意機構を使用することもできますし、さらに高度な双線形（bilinear）方法や非常に高度なコンパクト双線形（compact bilinear）手法も存在します。

実際、2つのベクトルを組み合わせる方法に関しては膨大な文献があります。このような様々な組み合わせ方法は「マルチモーダル融合」と呼ばれ、マルチモーダルに関する研究の多くは本質的にこの問題、つまり「最適な融合方法は何か」という問いに集中しています。それ以外の部分はあまり変わらないのです。

マルチモーダル融合は、異なるモダリティから得られる情報をどのように統合して豊かな表現を得るかという、マルチモーダル深層学習の中核的な課題です。単純な連結から複雑な注意機構まで、様々な方法が研究され、特定のタスクや条件に適した融合手法を見つけることが、効果的なマルチモーダルシステム構築の鍵となっています。

4.2. Early Fusion vs. Middle Fusion vs. Late Fusion

マルチモーダル融合について議論する際、異なるレベルでの融合を区別することが有用です。融合のタイミングによって、Early Fusion（早期融合）、Middle Fusion（中期融合）、Late Fusion（後期融合）という3つの主要なアプローチに分類できます。

Early Fusionは、処理の非常に早い段階で融合を行うアプローチです。基本的に、異なるモダリティからの特徴を確保し、最初から注意機構を用いてすべての特徴に注目します。現代的な注意機構の観点から言えば、処理の最初からすべての特徴間の相互作用を許可するということです。

Middle Fusionでは、まず各モダリティを別々に処理し、その後で組み合わせます。これは、各モダリティの特徴を個別に抽出した後、それらを統合するアプローチです。このアプローチでは、各モダリティの特殊性を保持しながらも、後の段階で情報の相互作用を可能にします。

Late Fusionは、モダリティを完全に別々に扱い、最終的にスコアやロジットを組み合わせるだけのアプローチです。このアプローチでは、異なるモダリティからの情報間の相互作用はほとんどありません。各モダリティのモデルが独立して予測を行い、それらの予測を最終的に統合するというシンプルな方法です。

これらのアプローチは、それぞれ長所と短所があります。Early Fusionはモダリティ間の深い相互作用を可能にしますが、計算コストが高く、一方のモダリティが他方を支配する可能性があります。Late Fusionは計算効率が良く実装が簡単ですが、モダリティ間の複雑な関係を捉えることができません。Middle Fusionはこれらの中間的なアプローチで、バランスを取ろうとするものです。

実際のアプリケーションでは、タスクの性質や利用可能なリソースに応じて、最適な融合レベルを選択する必要があります。ここで「Middle Fusion」という用語は講演者の造語であり、一般的には「Early」と「Late」の間の様々なアプローチを指すものです。

4.3. FiLMモジュレーション手法

マルチモーダル融合では非常に興味深い手法も開発されています。その一例として、FiLM（Feature-wise Linear Modulation）と呼ばれるアプローチがあります。これは講演者が特に気に入っている論文で紹介されている手法です。

FiLMでは、特徴マップに対して特殊な変調を行います。具体的には、ResNetの各層の特徴マップに対して、乗算係数（ガンマ）と加算バイアス（ベータ）による変調を適用します。これらのガンマとベータの値は、追求している目標のエンコーディングによって条件付けられます。

例えば、「黄色いものよりも立方体の方が多いか？」という質問に答えるタスクを考えましょう。この質問のベクトル表現を作成し、それを使用してResNetの各ブロックを層ごとに変調します。これにより、一方のネットワークが他方のネットワークを変調する、非常に興味深い融合方法が実現します。

このようなアプローチでは、2つのモダリティが互いに影響を与え合い、できるだけ多くの情報を学習できるようにします。FiLMは特に条件付き視覚的推論タスクで効果的であり、質問に基づいて視覚的処理を動的に調整する能力を提供します。

FiLMのような変調手法は、単純な特徴連結や要素ごとの演算を超えて、より柔軟で強力なマルチモーダル融合を可能にします。一方のモダリティ（この場合はテキスト）を使用して、他方のモダリティ（視覚）の処理方法を根本的に変更できるのです。これにより、タスクに応じて視覚処理をカスタマイズし、より正確な予測が可能になります。

5. コントラスティブモデル(Late Fusion)

5.1. CLIPモデルとその革新性

それでは後期融合（Late Fusion）、現在ではコントラスティブモデルと呼ばれるものについて詳しく見ていきましょう。基本的な考え方は、2つのモダリティを完全に独立して処理し、最後に類似度スコアによって組み合わせるというものです。

この手法の最も有名な例が、OpenAIのCLIP（Contrastive Language-Image Pre-training）モデルです。CLIPについて聞いたことがある人は多いようですね。CLIPもまた、これまで見てきた初期アプローチとまったく同じコントラスティブ損失を使用しています。バッチ内でネガティブサンプリングを行い、適切なペアの類似度を高め、不適切なペアの類似度を下げる学習を行います。

具体的には、バッチ内の最初のテキストと最初の画像が正しく関連付けられていると仮定します。モデルの目標は、この正しいペアのランキングを、他のすべての代替案よりも高くすることです。同様に、特定の画像に対して、正しいテキスト記述のランキングを他のすべての選択肢よりも高くします。

このアーキテクチャ自体は特に新しいものではありませんが、CLIPを非常に革新的にした要素がいくつかあります。まず、テキストエンコーダーも画像エンコーダーもトランスフォーマーベースであることです。テキストエンコーダーは通常のトランスフォーマーで、画像エンコーダーはViT（Vision Transformer）を使用しています。

さらに重要なのは、非常に大量のウェブデータで訓練されたことです。Alex Radfordは高品質なデータセット作成の天才と言われており、CLIPのために3億の画像-テキストペアからなるデータセットを作成しました。これに従来より大きなモデルで訓練することで、驚くべきモデルが生まれました。

CLIPは、インターネット上で見られるようなキャプションを活用しています。ウェブ上の画像キャプションは単に「犬」や「猫」ではなく、「猫が何かをしている写真」といったより豊かな記述になっています。これにより、「〜の写真」というプロンプトを使用したゼロショットラベル予測が可能になります。このようなプロンプティングは大規模言語モデルでもよく知られていますが、視覚言語モデルでも同様のアプローチが使用でき、ゼロショット汎化能力を持っています。

CLIPは非常に優れた論文として推奨される価値があり、徹底した分析と明確な説明が含まれています。興味のある方は、詳細な読解をお勧めします。発表当初、ImageNetでのパフォーマンスはResNetを上回るものではありませんでしたが、CLIPの真の強みは他のデータセット、特にImageNetの敵対的なバージョンへの優れた汎化能力でした。CLIPはこれらの敵対的データセットに対して非常に堅牢であり、全体的により優れた画像エンコーダーであることが証明されました。

5.2. コントラスティブ学習の仕組み

コントラスティブ学習はCLIPなどのマルチモーダルモデルの核心となる学習パラダイムです。これは、意味的に関連する画像とテキストのペアを同じ埋め込み空間内で互いに近づけ、関連のないペアを遠ざけるように訓練するアプローチです。

CLIPのコントラスティブ学習は、バッチ内でのネガティブサンプリングを使用します。具体的には、ミニバッチ内の各画像とテキストのペアを考え、「正解」のペア（例：最初のテキストと最初の画像）が正しく関連付けられていることを前提とします。モデルの目標は、この正しいペアのランキングを、バッチ内の他のすべての可能な組み合わせよりも高くすることです。

数学的には、バッチ内の各テキスト表現に対して、対応する画像表現との類似度を最大化し、他のすべての画像表現との類似度を最小化します。同様に、各画像表現についても、対応するテキスト表現との類似度を最大化し、他のすべてのテキスト表現との類似度を最小化します。

これは通常、以下のような損失関数で実現されます：

各ペアについて、正規化された画像埋め込みとテキスト埋め込みの内積（コサイン類似度）を計算
ソフトマックス関数を適用して、正しいペアに高い確率が割り当てられるようにする
交差エントロピー損失を使用して、モデルが正しいペアを識別する確率を最大化

このアプローチの美しさは、明示的なラベル付けなしで、テキストと画像の意味的関係を学習できる点にあります。正しいペアが一緒に発生するという事実だけを利用して、モデルは両方のモダリティにわたる豊かな意味表現を開発できます。

バッチサイズが大きいほど、より多くのネガティブサンプルが提供されるため、一般的にコントラスティブ学習の効果が高まります。CLIPでは、数千のペアを含む大きなバッチサイズを使用しています。これにより、モデルはより多様な対比例を学習でき、汎化能力が向上します。

コントラスティブ学習は計算効率が良く、大規模データセットでの訓練に適していることから、マルチモーダル表現学習の強力なパラダイムとして確立されています。

5.3. ゼロショット学習への応用

CLIPの最も印象的な能力の一つは、ゼロショット学習への応用です。インターネット上のテキストに移行することで、単に「犬」や「猫」といった単語ではなく、「何かをしている猫の写真」といったウェブ上で見られるようなキャプションを使用しています。これにより、「〜の写真」というプロンプトを使ったゼロショット予測が可能になります。

具体的なゼロショット学習のプロセスは次のようになります。例えば画像分類タスクでは、CLIPは事前に定義されたテンプレート（「これは〜の写真です」など）を使用して、考えられるすべてのクラスラベルに対するテキストプロンプトを生成します。そして、与えられた画像とこれらのテキストプロンプトの埋め込みとの類似度を計算し、最も類似度の高いクラスを予測します。

これは大規模言語モデルのプロンプティングと非常に似ており、視覚言語モデルでも同様のアプローチが使用できます。重要なのは、CLIPがこのようなゼロショット推論を可能にするように特別に訓練されているという点です。インターネットから収集された3億の画像-テキストペアで訓練されたCLIPは、明示的にラベル付けされていない新しいタスクやカテゴリに対しても、驚くべき汎化能力を示します。

例えば、CLIPは「笑っている人の写真」「都市の写真」「犬を散歩させている人の写真」といったプロンプトを使用して、関連する画像を識別できます。これは、特定のクラスラベルに制限されない、より柔軟な視覚認識を可能にします。

CLIP論文では、このゼロショット学習能力を様々なデータセットで評価しており、特に標準的なImageNetから大きく外れたようなドメインやデータセット（例：スケッチ画像や複雑な構図）においても、既存の監視学習モデルを上回るパフォーマンスを示しています。

このゼロショット能力は、新しいデータセットやタスクごとに専用のモデルを訓練する必要性を減らし、より汎用的な視覚理解システムへの道を開きました。これは、実世界のアプリケーションにおいて非常に価値があります。

5.4. ALIGNモデルとデータスケーリング

CLIPの成功の直後、Googleからほぼ同じアイデアを用いたALIGNというモデルが発表されました。このモデルはCLIPと非常に似ていますが、最も顕著な違いはデータ量です。研究分野では新しい創造性に欠けていることがしばしばあり、同じアイデアに対してより多くのデータとより多くの計算リソースを投入することで、しばしば良い結果が得られます。ALIGNの場合もまさにそうでした。

CLIPの3億画像-テキストペアに対して、ALIGNは18億のペアを使用しました。予想通り、より多くのデータを使うことでより良いモデルが得られたのです。これは驚くべきことではありませんが、それでも非常に重要な研究結果です。

このアプローチから生まれた興味深い取り組みとして、LAION（Large-scale Artificial Intelligence Open Network）というオープンソースの団体があります。彼らは非常に高品質なデータセットを作成するためのコレクティブを立ち上げました。最初のLAIONデータセットは約4億のサンプルを含んでいましたが、現在は多言語に対応した、より大きなバージョンが存在し、50億のサンプルを持っています。

Stable Diffusionはこの英語サブセットで訓練されており、これが非常に優れたパフォーマンスを示している理由の一つです。単に膨大な量のデータを見ることで、システムは大幅に改善されるのです。したがって、もし十分な計算リソースがあり、独自のアイデアを試してみたい場合、このデータセットは最高の選択肢の一つになるでしょう。

このデータスケーリングの効果は、マルチモーダル学習においても言語モデルと同様の傾向を示しています。特に対照的なモデルでは、大規模で多様なデータセットから学習することで、より優れた汎化能力と堅牢性が得られます。これは単に「より多くのデータでより良い結果」という直感的な考えを超え、モデルのスケーリング法則についての重要な洞察を提供しています。

5.5. LIONデータセットの重要性

マルチモーダル深層学習の発展において、高品質な大規模データセットの存在は極めて重要です。そうした中でLION（Large-scale Artificial Intelligence Open Network）データセットは特筆すべき重要性を持っています。

LIONはオープンソースのコレクティブによって作成された画像-テキストペアの大規模データセットです。当初のLIONデータセットは約4億のサンプルを含んでいましたが、その後の発展により多言語に対応した、さらに大きなバージョンが開発されました。現在のLIONデータセットは約50億の画像-テキストペアを含んでおり、マルチモーダル学習のための最大級のオープンソースデータセットとなっています。

このデータセットの重要性は複数の側面から考えられます。まず、Stable Diffusionのような最先端のテキスト-画像生成モデルはLIONデータセットの英語サブセットで訓練されています。このような大規模で多様なデータを学習することが、これらのモデルの優れたパフォーマンスの背景にある重要な要因です。

また、LIONデータセットの公開性も重要な特徴です。OpenAIのCLIPやGoogleのALIGNで使用されたデータセットとは異なり、LIONデータセットは研究コミュニティに広く公開されています。これにより、多くの研究者や開発者が大規模なマルチモーダルモデルの訓練と実験を行うことができるようになりました。

十分な計算リソースを持つ研究者や開発者にとって、LIONデータセットは独自のアイデアを試すための最適な選択肢の一つとなっています。データ量の増加によるパフォーマンスの向上は、ほぼ確実に期待できるためです。

LIONデータセットの存在は、マルチモーダル研究の民主化にも貢献しています。以前は巨大な計算リソースとデータ収集能力を持つ大企業のみが可能だった大規模モデルの訓練が、より広いコミュニティにアクセス可能になったのです。これにより、分野の多様性と革新性が促進されています。

6. BERTベースのマルチモーダルモデル

6.1. VisualBERTアーキテクチャ

後期融合（Late Fusion）から中期融合（Middle Fusion）や早期融合（Early Fusion）に移っていきましょう。これらは実際にはマルチモーダル研究の中核であり、この分野に関心がある方や産業界でこのような技術を使用する可能性のある方は特によく理解しておくべき内容です。

これらのアイデアは基本的に積み重なっており、スライドも科学者がどのように次のステップを考案してきたかのイメージを提供するように順序立てています。アーキテクチャはだんだんと少しずつ高度になっていくのがわかりますが、基本的には多くの場合、より多くのデータとより多くの計算リソースが成功の要因となっています。

BERTがどのように機能するかについては、皆さんすでに理解しているはずです。BERTは今や非常に標準的なモデルであり、詳細な説明は必要ないでしょう。しかし、BERTモデルがあり、複数の画像がある場合、そのBERTモデルをマルチモーダルなものにする方法について考えてみることが重要です。

これまでに説明した特徴と融合プロセスを考慮すると、いくつかの明らかなアプローチがあります。例えば、分類を行う場合、CNNの特徴とBERTの分類トークンを連結して、何らかの分類を行うことができます。

また別のアプローチとして、CNNの特徴をBERTモデルに様々な方法で提供することもできます。領域特徴（Region Features）を使用することもできるでしょう。

BERTが登場した頃、ビジョンと言語処理の研究者たちはまさにこの点について考えていました。中期融合を行うのか、後期融合を行うのか、あるいは早期融合を行うのか、という問題です。Hugging Face Transformersなどのおかげで、多くの論文がほぼ同時期に発表され、基本的にBERTを自分たちのシステムにプラグインする様々なバージョンが提案されました。

最初のアプローチの一つはVisualBERTでした。このモデルでは、画像に対して物体検出を行い、帽子、ラケット、シャツなどの物体を識別します。これらの特徴を取得し、トランスフォーマーモデルにプラグインして、特徴を回復しようとします。これはおそらく最もシンプルな方法です。

このアプローチは「単一ストリームアーキテクチャ」と呼ばれ、元の入力特徴をすべて連結して同じトランスフォーマーに通します。VisualBERTは画像領域特徴とテキストトークンを同じ入力シーケンスとして扱い、BERTの自己注意機構が両方のモダリティにわたって関係を学習できるようにします。

6.2. ViLBERTの二重ストリームアプローチ

VisualBERTのような単一ストリームアーキテクチャとは異なるアプローチとして、ViLBERT（Vision-and-Language BERT）があります。ViLBERTは二重ストリームアーキテクチャを採用しています。つまり、本質的に2つの並列トランスフォーマーを持ちますが、各層でクロスアテンション（または論文では「共同注意」と呼ばれています）を適用します。

この二重ストリームアプローチでは、テキストストリームと視覚ストリームが別々に処理されますが、各トランスフォーマー層の後に両方にまたがる注意マップを作成します。その後、通常のトランスフォーマー層を再度適用するという流れになります。これにより、各モダリティは独自の処理経路を持ちながらも、重要な箇所で情報交換することができます。

このモデルは通常のBERTと同様に訓練できます。テキスト側では通常のマスク言語モデリング（Masked Language Modeling, MLM）を使用し、視覚側でもそれに相当するものを適用します。また、BERTの次文予測（Next Sentence Prediction）タスクも実装しますが、ここでは「この画像はこのテキストと関連していますか？」という問いに置き換えられています。

このようにViLBERTは、テキストと視覚の両方のモダリティに対して専用の処理パスを維持しながら、クロスモーダルな相互作用も可能にする新しいアプローチを示しました。単一ストリームアーキテクチャと比較すると、二重ストリームアプローチはモダリティ固有の特性をより保持しやすい利点がありますが、計算コストは増加します。

6.3. LXMERT

LXMERTは、マルチモーダルBERTベースのモデルの一つです。この論文では、VisualBERTやViLBERTとは異なるクロスモーダル出力エンコーダーを採用しており、位置情報のエンコード方法にもいくつかの異なるアプローチを提案しています。

LXMERTでは、バウンディングボックスを特徴量化する際の位置情報の扱いに注目しています。物体検出で得られるバウンディングボックスの集合は、単にそれらが何であるかだけでなく、画像内のどこに位置しているかという情報も重要です。一つのアプローチとしては、バウンディングボックスの集合を単なる「バッグ」として扱い、画像内での位置を考慮しないという方法があります。別のアプローチとしては、バウンディングボックスの左上と右下の座標を具体的に特徴量化して、その位置情報をネットワークに提供するという方法もあります。

LXMERTは、視覚エンコーダー、言語エンコーダー、クロスモーダルエンコーダーという三つの主要コンポーネントからなるアーキテクチャを採用しています。視覚エンコーダーと言語エンコーダーはそれぞれのモダリティを独立して処理し、クロスモーダルエンコーダーがこれらの表現を統合します。

このモデルはマルチタスク学習を採用しており、マスク言語モデリング、マスク視覚特徴予測、クロスモーダルマッチング、視覚的質問応答などの様々な事前学習タスクを組み合わせています。この多様な事前学習タスクにより、モデルはより豊かな表現を学習することができます。

LXMERTはViLBERTと同様に二重ストリームアプローチを採用していますが、クロスモーダルエンコーダーの設計や事前学習タスクの選択において独自の工夫を取り入れています。これらのモデルは、マルチモーダルBERTモデルの発展過程における重要なステップを示しています。

6.4. MMBTのスーパーバイズド学習

より単純なアプローチとして、「これは私の論文なので少し自慢できる」とDouwe Kielaは述べていますが、MMBTというモデルも開発されました。このモデルでは、画像自体をResNetに通し、最終特徴マップに少し平均プーリングを適用してから、それらの特徴マップをBERTに与えるという非常にシンプルな方法を採用しています。

このアプローチでは、テキストのセグメント埋め込みと視覚のセグメント埋め込みを区別する必要があります。驚くべきことに、このシンプルな方法は非常に効果的です。特別な追加訓練を行う必要もなく、BERTをそのまま使用することができます。

MMBTの訓練プロセスは以下のステップで行われます：

まず、BERTを凍結したまま、BERT空間へ投影する方法を学習します
次に、ResNetの凍結を解除します
最後に、BERTの凍結も解除します

この段階的なアプローチにより、関心のある問題に対して非常に優れたマルチモーダル分類器が得られます。

他の多くの論文では、マルチモーダル事前学習という手法を採用しています。まずBERTモデルとResNetを単一モダリティで事前学習し、次にそれらを結合して中間的なマルチモーダル事前学習ステップを行い、最後に関心のある問題に微調整するというアプローチです。

しかし、MMBTが示したのは、多くの場合、このマルチモーダル事前学習ステップは実際には必要ないということです。MMBTは非常に強力なベースラインとして機能し、マルチモーダルシステムを構築する際のシンプルで効果的なアプローチを提供しています。

このようなスーパーバイズド学習アプローチの利点は、専用のマルチモーダル事前学習なしでも効果的に機能することです。既存の事前学習済みモデルを活用し、特定のタスクに適応させるための効率的な方法を提供します。

6.5. PixelBERTとピクセルレベルのアプローチ

ピクセルレベルでの完全な処理を行うモデルもあります。PixelBERTと呼ばれるこのモデルは、基本的に先に説明したMMBT（Multimodal BiTransformer）と非常に似ていますが、ここではマルチモーダル事前学習ステップを実施しています。彼らはVQA（視覚的質問応答）タスクではこのステップが少し役立つことを示しました。

このようなBERTベースのビジュアルモデルは数多く存在し、研究者たちはあらゆる可能性を試しました。UniDerと呼ばれる別のモデルでは、様々な損失関数を追加しています。これらのモデルについては非常に長時間議論できますが、ここではより興味深いものに焦点を当てていきます。

ビルト（ViLT）と呼ばれるモデルは特に注目に値します。これはCNNの特徴から完全に離れた最初のインスタンスです。つまり、物体検出による領域特徴や、画像の関心部分を特徴量化するバックボーンも使用していません。代わりに、単に画像のパッチを取り、それらを平坦化し、直接トランスフォーマーに入力しています。これは本質的にBERTとViT（Vision Transformer）を1つのモデルに統合したものであり、非常に効果的に機能しました。

これが現在のトレンドとなっています。様々なモデルとその特徴を示す長いリストがありますが、主な違いは以下の点にあります：

使用するテキストエンコーダー（BERTやより高度なRoBERTaなど）
使用する視覚エンコーダー（多くの場合、領域特徴を使用するR-CNNスタイルのもの、あるいは単純なResNetやViT）
融合の種類（単一ストリームか二重ストリームか）
事前学習タスク（マスク言語モデリング、画像-テキストマッチングなど、より高度なものもある）
どのマルチモーダルデータセットで事前学習するか

これらのモデルは似たようなアプローチを取りながらも、細部での違いがあります。実装の詳細やデータセットの選択が、最終的なパフォーマンスに大きな影響を与えることがあります。

6.6. 単一対デュアルストリームモデルの比較

これらの様々なマルチモーダルBERTモデルには多くの違いがあるように見えますが、それらの本質的な違いは何でしょうか？この疑問に答えるために推奨したい論文があります。「Unmasking Multimodal Pretraining」という論文です。もしこの分野に興味があれば、ぜひ読んでみてください。非常に優れた論文です。

この研究では、これらの様々なモデルアーキテクチャを同じデータで全く同じ方法で訓練した場合、実は基本的にすべて同じようなパフォーマンスになることが明らかになりました。これは分野として多くの無駄な努力があったことを示しています。各研究者がそれぞれ「私のモデルの方が優れている」と主張していましたが、実際には単に異なるデータで訓練したためであり、モデル設計自体に本質的な革新はあまりなかったのです。

この発見は少し落胆させるものかもしれませんが、この論文は何が本当に重要かを示してくれる点で非常に価値があります。結局のところ、モデルアーキテクチャの細かな違いよりも、訓練データの量と質、そして訓練方法が最終的な性能に大きな影響を与えるのです。

単一ストリームモデル（VisualBERT、PixelBERTなど）とデュアルストリームモデル（ViLBERT、LXMERTなど）の比較では、両者にそれぞれ利点があります。単一ストリームモデルはシンプルで計算効率が良く、モダリティ間の早期融合を可能にします。一方、デュアルストリームモデルは各モダリティの処理に特化したパスを提供し、より制御された情報交換を可能にしますが、計算コストが高くなります。

結局、どちらのアプローチを選ぶかは、特定の応用や制約に依存します。重要なのは、アーキテクチャの選択よりも、十分な量の高品質データでモデルを訓練し、適切なタスクで評価することです。これがマルチモーダルモデルの性能を最大化する鍵となります。

7. マルチモーダル基盤モデル

7.1. FLAVAモデルとその構造

講演者のDouwe Kielaとそのチームが取り組んだFLAVA（Foundational Language And Vision Alignment）モデルについて説明します。このモデルはこれまで見てきたアイデアを極限まで推し進めたものです。

これまで説明してきたVisualBERTやViLBERTなどのモデルは、マルチモーダルな質問に焦点を当てています。つまり、視覚的質問応答など、常に2つのモダリティを含む問題だけを対象としています。一方、FLAVAが目指したのは、すべてを支配する1つのモデル（「one model to rule them all」）というコンセプトです。これは基盤モデル全般の基本的な前提でもあります。

このモデルはあらゆるモダリティからのデータを消費し、それらのモダリティ間で情報を統合して、その情報を活用して有用なタスクを実行できるようにすることを目指しています。FLAVAはまさにそのような基盤モデルの構築を試みており、視覚と言語の両方に優れた単一の基盤モデルを作ることが目標でした。

FLAVAは複数の異なるデータソースで共同で事前学習されています：

CC-Newsやブックコーパスなど、BERTが訓練されるような一般的なテキストデータ
ImageNetなどの画像データ
公開されている画像-テキストペアからチームが作成したPMD（Publicly available Multimodal Dataset）

PMDデータセットは、公開されている画像-テキストペアのデータセットをすべて組み合わせたもので、約7,000万ペアが含まれています。残念ながらCLIPデータやGoogleのALIGNデータなどは公開されていないため含まれていませんが、LAION以前としてはかなり充実したデータセットでした。

このようなデータすべてを使用することで、マルチモーダル推論、言語理解、視覚認識など、異なる分野で知られている様々な問題を解決することができます。すべて同じモデルを使用するのです。これは特にFacebookのような企業で働く場合、様々な目的に異なるモデルを持つのではなく、あらゆる用途に使える1つのモデルがあれば、作業が非常に楽になります。

FLAVAのアーキテクチャは、一方では画像エンコーダーがあり、画像をパッチとしてエンコードし、「マスク画像モデリング」と呼ばれる処理を行います。これは基本的に画像トークンに対するマスク言語モデリングです。もう一方では言語に対するマスク言語モデリングがあります。そして中央にはマルチモーダル部分があり、すべての情報が結合されます。ここでは「マスクマルチモーダルモデリング」という損失項と、画像-テキストマッチング（BERTの次文予測に相当）、さらにCLIPのようなグローバルコントラスティブ損失も適用されます。

すべてがトランスフォーマーベースのシンプルなアーキテクチャで、情報を組み合わせる非常にエレガントな方法です。このアプローチにより、非常に多くのタスクを効果的に処理できるモデルが実現しました。35の異なるテストにわたって、FLAVAはCLIPなどの他のモデルと比較して優れたパフォーマンスを示しました。これは、分野が今後進むべき方向性を示す良い例だと言えます。

7.2. 単一基盤モデルの重要性と利点

FLAVAのような単一基盤モデルは、マルチモーダル深層学習の分野で非常に重要な進歩を表しています。その重要性と利点はいくつかの点から考えることができます。

まず、FacebookのようなIT企業にとって、異なる目的ごとに別々のモデルを持つよりも、あらゆる用途に使える単一のモデルがあれば、作業が格段に効率化されます。一つのモデルをデプロイして維持するだけで済むため、リソース管理やモデル更新が大幅に簡素化されます。

第二に、単一基盤モデルは様々なタスクで知識を共有することができます。例えば、言語理解タスクで学んだことが視覚認識にも役立ち、その逆も同様です。FLAVAのようなモデルでは、異なるモダリティの情報が互いに強化し合うため、どの単一モダリティの専用モデルよりも豊かな表現を学習することができます。

第三に、単一基盤モデルは柔軟性と汎用性が高いという特徴があります。マルチモーダル推論、言語理解、視覚認識など、様々な問題を同じモデルで解決できます。これは企業にとって実用的なメリットがあるだけでなく、「すべてを支配する1つのモデル」という基盤モデルの根本的な目標にも合致しています。

また、単一基盤モデルは人間の認知能力により近いアプローチであるとも言えます。人間は視覚情報と言語情報を個別に処理するのではなく、複数のモダリティからの情報を統合して理解しています。FLAVAのようなモデルは、このような人間の認知プロセスに近づく一歩となっています。

FLAVAの例では、異なるタイプのデータで訓練することで、35の異なるテストにわたって優れたパフォーマンスを示しました。これは単一モデルでも、適切に設計され訓練されれば、専用のモデルに匹敵する、あるいはそれを上回る性能を達成できることを示しています。

単一基盤モデルの開発は、限られたリソースの効率的な活用、より豊かな表現学習、柔軟な応用能力など、様々な観点からマルチモーダル深層学習の将来に重要な方向性を示しています。

7.3. SimVLMと生成モデルへの移行

現在の研究分野では、生成モデルに関心が高まっています。言語モデルや画像生成モデルなど、判別的・対照的なアプローチから、より豊かな表現を可能にする生成的なアプローチへと移行するトレンドが見られます。

SimVLM（Simple Visual Language Model）は、この方向への重要なステップを示した論文です。このモデルの特徴は、キャプションを生成または完成させるための独立したデコーダーを持っていることです。研究者たちは、キャプションの生成タスクを通じて、より豊かな表現が得られることを示しました。

SimVLMは現在の最先端技術の基礎となり、その後CoCaというモデルが登場しています。これらのモデルは非常に似た構造を持っていますが、重要な違いとして、テキストデコーダーが含まれている点があります。OpenAIのCLIPでも当初は生成モデルを目指していたと考えられますが、うまく機能させることができず、対照的なアプローチに落ち着いたようです。業界全体としては、このような生成的アプローチを正しく実装する方法を見つけるのに時間がかかりました。

生成モデルへの移行は、より豊かで柔軟な表現を可能にします。対照的なモデルでは、画像とテキストの関連性を判断するだけでしたが、生成モデルでは実際に関連するテキストを創造することができます。これにより、モデルはより詳細で文脈に応じた理解を示すことができるようになります。

また、生成モデルはより自然なヒューマン・コンピュータインタラクションを可能にします。ユーザーは画像を提示し、モデルから自然言語による説明や回答を得ることができるからです。このような能力は、アクセシビリティツール、コンテンツ作成支援、教育アプリケーションなど、多くの実用的な応用につながります。

SimVLMのような生成ベースのマルチモーダルモデルの登場は、マルチモーダル深層学習の分野における重要な進歩を示しており、より自然で人間に近い機械理解への道を開いています。

7.4. 言語モデルとの連携(凍結学習)

現在は言語モデルの時代と言えますが、その中で興味深いアプローチが生まれています。それは、言語モデルを凍結（Frozen）したまま、その言語モデルに投影する方法を学習するというものです。

MMBTアーキテクチャで説明したように、BERTモデルを凍結し、BERTトークン空間への投影方法を学習するというアプローチがありましたが、同じことをもっと高度なモデル、例えばT5のようなエンコーダー・デコーダーモデルや生成的な要素を持つモデルに対しても行うことができます。この場合、凍結された言語モデルへの投影を学習し、そのモデルのトークン空間に入力するのです。

Frozen論文では、このアプローチによってfew-shotレーナー（少数例からの学習能力）が得られることが示されています。GPT-3で見られるような、文脈内の例（in-context examples）を与えるだけで、モデルがその場で結合関係を学習するような能力です。例えば「これはアクセント、これはブリケット、では、これは何？」というような問いかけに対して、「これはデクス」と答えることができます。

モデルは文脈内で特徴マッピングの決定方法を学習し、これは多くのマルチモーダル研究の出発点となった「接地問題（grounding problem）」を本質的に解決しています。これは非常に興味深い進歩です。

このアプローチの重要な利点は、大規模な事前訓練済み言語モデルの能力を維持しながら、視覚情報を統合できる点にあります。言語モデル自体を再訓練することなく、視覚情報をどのように言語モデルに「翻訳」するかを学習するだけで、マルチモーダル能力を獲得できます。

また、計算効率の面でも優れています。大規模な言語モデル全体を再訓練する代わりに、比較的小さな投影層だけを訓練すればよいからです。このような効率性は、リソースが限られた環境での応用や、迅速なプロトタイピングに特に有用です。

凍結学習アプローチは、既存の強力な言語モデルの能力を活用しながら、マルチモーダル理解を実現する効率的な方法として、今後も重要な研究方向であり続けるでしょう。

7.5. Flamingoとその高度なアーキテクチャ

現在のマルチモーダルモデルの中で最も注目すべきモデルの一つが、DeepMindが開発したFlamingo（フラミンゴ）です。このモデルはChinchilla言語モデルを基盤としており、最適化された言語モデルに視覚エンコーダーを組み合わせることで、複数の異なる画像をエンコードし、それらに対する推論とテキスト自動補完を行うことができます。

Flamingoの力は、段階的な進化の結果と言えます。単純なトランスフォーマーから始まり、より複雑なアーキテクチャへと発展してきました。いまや、Perceiver Resamplerのような複雑な構成要素を持つモデルが登場しています。このコンポーネントは、複数の画像を特徴化し、それを圧縮する役割を持ちます。画像の数が3枚であっても5枚であっても、常に言語モデルの次の層で処理できるように情報を圧縮する必要があるからです。

Flamingo論文は非常に良く書かれており、読む価値があります。特に印象的なのは、アーキテクチャ図とコードが一緒に提供されており、本当に何をしているのかを理解しやすくなっている点です。Perceiver Resamplingステップの後に、ゲート付きクロスアテンション（Gated Cross-Attention）が適用されます。このクロスアテンションは凍結された言語モデル層の前に行われます。

つまり、凍結されたChinchilla言語モデルを持ち、その言語モデルに入力される情報をモジュレートする方法を学習します。勾配はすべて逆伝播されますが、言語モデル自体は更新されません。目標は、言語モデルが最大限活用できるように信号をどのように設計するか、情報をどのように組み合わせるかを見出すことです。

多くの他のアプローチでは層の後にアテンションを行いますが、Flamingoでは層の前に行うという特徴があります。

Flamingoの能力を示す興味深い例として、10年以上前にAndrej Karpathyが提案した「視覚チューリングテスト」があります。オバマ大統領が体重計の上で足を置き、誰かに自分の体重が実際より重いと思わせているという画像です。これは人間には明らかに面白いシーンですが、AI システムがこれを理解するには、シーンの真の理解が必要です。

Flamingoはこの種のテストに対して、ある程度うまく対応できます。完全に理解しているかどうかは議論の余地がありますが、少なくとも正しい方向に進んでいることは確かです。Flamingoはまだ多くの可動部品を持っていますが、このアプローチはほぼ極限まで推し進めることができ、画像エンコーダーと言語モデル間の単なるマッピングを学習するという方向性を示しています。

7.6. BLIP-2とモデルの簡略化

Flamingoでは多くの可動部品がありましたが、これをさらに極限まで簡素化したアプローチが存在します。BLIP-2と呼ばれるこのモデルでは、ほぼすべてのコンポーネントを凍結し、画像エンコーダーと言語モデル（あるいは画像エンコーダーとエンコーダー・デコーダーアーキテクチャ）の間のマッピングだけを学習します。

BLIP-2では、言語モデルとしてOPT、エンコーダー・デコーダーアーキテクチャとしてFlanT5を使用して実験が行われました。実質的に行っているのは、二つのコンポーネント間の投影だけです。しかし、このシンプルなアプローチでも、キャプション生成そのものに直接的な監視を行わなくても、驚くほど複雑なキャプションを生成するなど、素晴らしい結果が得られました。これは言語モデルの力を示す好例です。

BLIP-2は様々なタスクに対応できます。キャプション生成から推論、視覚的質問応答、位置検出など多岐にわたります。このモデルを使えば、システムと長い会話を行うことも可能です。これはまさに私たちが向かっている未来の方向性です—ChatGPTのような会話型AIが、世界を見ることもできるようになるのです。

興味深い研究として、思考連鎖（Chain of Thought）プロンプティングの視覚言語バージョンがあります。通常の言語モデルでは「一歩ずつ考えましょう」というプロンプトを与えますが、視覚言語モデルでも同様のアプローチが可能です。モデルに「なぜそうなのかの根拠を生成してください」と指示し、質問に対する潜在的な説明を生成させ、その後で質問に答えさせます。

このマルチモーダル思考連鎖プロンプティングを行うと、システムのパフォーマンスが大幅に向上することがわかりました。例えばScience QAというベンチマークでは、このアプローチによって新たな最高性能が達成されました。モデルに情報を分解させることで、より優れた結果が得られるのです。

業界はこのアプローチの可能性を探り始めたばかりです。マルチモーダル思考連鎖プロンプティングは、レイブンマトリックスや複雑なIQテストなど、人間が得意とされる課題に対しても驚くべき結果を示しています。通常これらは頭の良い人間でないと解けない問題ですが、このシステムは見事に解いてしまいます。

このように、マルチモーダル深層学習は非常に急速に進歩しています。シンプルなBERTモデルから始まり、画像を見ることができるレベルから、今や非常に洗練された基盤モデルに進化しているのです。

7.7. チェーン・オブ・ソート推論の応用

言語モデルで効果的な「思考連鎖（Chain of Thought）」プロンプティングは、視覚言語モデルにも応用できることが明らかになっています。この手法では、視覚言語モデルに対して「回答の根拠を生成してください」と指示し、質問に対する潜在的な説明を生成させた後で、実際の質問に答えさせます。

このアプローチを「マルチモーダル思考連鎖プロンプティング」と呼びます。システムが情報を段階的に分解することで、パフォーマンスが大幅に向上することが示されています。例えば、Science QAというベンチマークでは、この手法を用いることで新たな最高性能が達成されました。これは、モデルが推論過程を明示的に表現することで、より深い理解に到達できることを示しています。

この論文では、マルチモーダル思考連鎖プロンプティングがレイブンのマトリックステストや複雑なIQテストなど、人間の知能を測定するために設計された課題に対しても驚くべき結果を示しています。これらのテストは通常、知的能力の高い人間にしか解けないとされていますが、このシステムはそれらを見事に解決することができます。

思考連鎖プロンプティングの特筆すべき点は、モデルの内部構造を変更することなく、単にプロンプトの与え方を工夫するだけでパフォーマンスを向上させられることです。視覚情報と言語情報を統合する際に、段階的な推論を促すことで、モデルはより構造化された形で問題に取り組むことができます。

例えば、複雑な視覚的パターンを含む問題では、モデルは最初にパターンの要素を特定し、次にそれらの関係を分析し、最終的にパターンの規則性を見出して答えを導くといったプロセスを踏むことができます。このような明示的な推論ステップは、モデルが複雑な問題をより確実に解決するのに役立ちます。

マルチモーダル思考連鎖プロンプティングの成功は、視覚言語モデルが単に画像とテキストの関連付けを行うだけでなく、人間のような推論能力を持ちつつあることを示しています。これは、より自然で直感的な人間とAIのインタラクションに向けた重要な一歩と言えるでしょう。

8. 評価方法

8.1. COCOデータセットとその重要性

マルチモーダルシステムの評価は非常に重要なトピックです。大きなモデルを構築することはクールに思えるかもしれませんが、特に限られたGPUリソースしか持たない学術環境では、適切な評価を行うことがより重要と言えるでしょう。では、マルチモーダルモデルの性能をどのように確認すればよいのでしょうか。

この問題に対処するための素晴らしいプロジェクトがありました。ImageNetが深層学習の歴史を変えたように、COCOデータセットもビジョンと言語の分野、そして視覚全般に大きな影響を与えました。COCOは主要なマルチモーダルタスクをカバーする豊富なアノテーションを持つデータセットです。

COCOの画像には、物体のセグメンテーション、バウンディングボックス、物体ラベルなど、様々な詳細なアノテーションが付与されています。このアノテーションは異なるピクセル粒度を持ち、データセットは非常に大規模で、カテゴリも細かく分類されています。さらに、各画像には5つのキャプションが付与されています。

このデータセットは、大規模な視覚言語処理を可能にした最初のデータセットであり、画像とそれに対応するキャプションがあることで、様々なタスクが可能になりました。例えば、画像に対して適切なキャプションを生成する「画像キャプション生成」や、テキストから正しい画像を検索する、あるいは画像からテキストを検索するといったリトリーバル課題などです。

COCOは、マルチモーダル深層学習研究のための標準的なベンチマークとして機能し、様々なモデルを公平に比較するための共通基盤を提供しています。その豊富なアノテーションと複数のキャプションは、マルチモーダルタスクの評価に特に適しています。

このデータセットにより、研究者たちは画像とテキストの関係をよりよく理解し、より優れたマルチモーダルモデルを開発することができるようになりました。COCOはマルチモーダル深層学習の進展に不可欠な役割を果たし、今日でも重要なベンチマークとして機能し続けています。

8.2. 視覚的質問応答(VQA)の課題

マルチモーダル研究の中でも、視覚的質問応答（Visual Question Answering, VQA）は特に多くの研究グループが注目するタスクとなっています。このタスクに対する注目度は、引用数にも反映されています。昨夜3時時点で、VQA関連の論文は画像キャプションデータセットよりもはるかに多くの引用を集めていました。

VQAタスクでは、画像と簡単な質問が与えられ、アノテーターがそれらの質問に回答し、その答えを提供します。機械学習モデルの目標は、これらの質問に正確に答えることです。しかし、このデータセットには興味深い問題点がありました。

最も恥ずかしい裏話として、VQAデータセットの初期バージョンでは、実際には画像がほとんど重要ではないことが判明しました。つまり、質問だけを見て、画像を見ずに回答することができてしまったのです。例えば「ピザは何枚ありますか？」という質問があった場合、特定のケースでは画像が必要ですが、データセット全体では「いくつ」や「いくら」の質問に対する正解はほとんどの場合「2」でした。「いくつ」や「いくら」の質問すべてに「2」と答えるだけで、カウントカテゴリーで約70％の精度が得られてしまったのです。

これは慎重なデータセット設計やベンチマーク評価の重要性を示しています。単にデータの一部を評価用に分けるだけでなく、本当に測定したい能力を評価できるように慎重に設計する必要があります。

この問題に対処するため、Chris Manningらによって開発されたGQAという、より良く設計されたバージョンのデータセットが登場しました。現在では、マルチモーダル評価にはこのGQAデータセットを使用することが推奨されています。

VQAの課題は、マルチモーダル研究全般に見られる問題を明らかにしました。特に、一方のモダリティ（この場合はテキスト）が他方（画像）よりも強い信号を持つ場合、モデルは容易に一方のモダリティに依存してしまいます。マルチモーダルモデルの真の評価には、両方のモダリティからの情報統合が本当に必要なタスクを設計することが重要です。

8.3. GQAデータセット

VQAデータセットの問題点に対処するため、Stanford大学のChris Manningらによって開発されたGQA（Grounded Question Answering）データセットが登場しました。GQAは視覚的質問応答のためのより洗練されたデータセットであり、より信頼性の高い評価を可能にします。

GQAの主な特徴は、より体系的に設計された質問です。VQAの初期バージョンでは、画像を見なくても答えられる質問や、強いバイアスを持つ質問が多く含まれていましたが、GQAではこれらの問題を解決するよう慎重に設計されています。質問は画像の内容に実際に依存するように作られており、テキスト信号だけで答えることができないようになっています。

また、GQAはより詳細なアノテーションを提供し、モデルの推論能力をより正確に評価できるようになっています。各質問には、その答えに至るために必要な推論ステップに関する情報が含まれており、モデルの推論過程を分析するためのツールとなっています。

GQAは単に正解率だけでなく、モデルの一貫性や説明可能性などの側面も評価できるよう設計されています。これにより、マルチモーダルモデルの能力をより多面的に理解することが可能になりました。

このデータセットの登場により、視覚的質問応答の研究は、単に高い精度を達成することから、真に視覚情報とテキスト情報を統合して推論できるモデルの開発へと焦点が移りました。GQAはより厳密で意味のある評価を提供することで、マルチモーダル深層学習の進展に大きく貢献しています。

8.4. CLEVRの合成データセット

マルチモーダルモデルの評価に向けたデータセットには、特定の能力を測定するために特別に設計されたものもあります。特に重要なのは「合成性（compositionality）」—部分から全体を推論し、異なる概念間の関係を理解する能力です。

CLEVRはまさにこのような能力を測定するために設計された非常に巧妙なデータセットです。このデータセットは、言語側と視覚側の両方で合成性を評価することを目的としています。ユーザーは画像内の様々なオブジェクト間の関係を理解する必要があります。

例えば、CLEVRの典型的な質問としては「黄色いものより立方体の方が多いですか？」といったものがあります。このような質問に答えるためには、モデルは画像内のすべてのオブジェクトを識別し、それらの色や形状の属性を理解し、さらにカウントして比較する必要があります。これは単純なパターン認識以上の、真の視覚的推論を要求します。

CLEVRの影響を受けた興味深い研究として、「単語の順序は重要か？」という論文があります。この研究では、一般的な事前学習においては単語の順序がそれほど重要ではないことが示されました。これは驚くべき発見です。NLPを専攻する私たちは言語が非常に重要だと考えていますが、これらのモデルは単語をシャッフルしても言語について推論できてしまうのです。

このような発見は、私たちの研究の素晴らしさを示すというよりも、評価ベンチマークの不十分さを示しています。これこそが改善が必要な点です。CLEVRのような合成データセットは、モデルの本当の理解能力を評価するために不可欠なツールであり、単なるパターン認識を超えた能力を測定するのに役立ちます。

合成データセットの利点は、完全に制御された環境でモデルを評価できることです。実世界のデータには様々なノイズやバイアスが含まれることがありますが、合成データでは評価したい特定の能力に焦点を当てることができます。CLEVRはこのアプローチの代表的な例であり、マルチモーダルモデルの評価における重要なベンチマークとなっています。

8.5. Hateful Memesデータセットの設計と課題

様々なデータセットが存在する中でも、マルチモーダルな理解を本当に必要とするデータセットが必要とされていました。VQAでは視覚的な要素「V」があまり重要ではないという問題が発生していましたが、マルチモダリティに特化したデータセットとして、両方のモダリティを適切に理解しないと正しく分類できないようなものが求められていました。

この課題に対処するために開発されたのがHateful Memesデータセットです。このデータセットはミームが悪意のあるものかどうかを分類するタスクを設定しています。例えば「今日のあなたの匂いが好き」というテキストだけを見ると、友達に送るには少し失礼かもしれません。しかし背景画像を入れ替えると、非常に良い意味になることもあります。同様に「あなたを愛している人がたくさんいるよ」というテキストは、タンブルウィード（転がる草）の画像と組み合わせると非常に悲しいメッセージになりますが、一単語変えるだけで素晴らしい言葉になることもあります。

このように、ミームが悪意のあるものかどうかを正確に分類するためには、マルチモーダルな推論が必須となります。画像とテキストの関係を理解しなければ、正しいラベルにたどり着けないのです。このデータセットは、まさにそのような目的で設計されました。

Hateful Memesデータセットの作成にあたっては、いくつかの興味深い課題がありました。特に大きな問題は著作権に関するものでした。ミームを作成した人が技術的に著作権を持っているため、Facebookで働いていた研究者たちは著作権の問題を避けるために新しいミームを作る必要がありました。そこで彼らは訓練を受けたアノテーターに実際の例を見せ、Getty Imagesから購入できる類似の画像を探してミームを再作成してもらいました。結果的に、データセットを公開するためにGetty Imagesに多額の資金を支払うことになりました。

このデータセットの設計では、「良性の交絡因子（benign confounders）」を作るよう特に注意が払われました。つまり、元のミームとそれに対するモダリティの一つを入れ替えた対照的な例を作成することで、モデルがモダリティ間の関係を真に理解する必要があるようにしました。

このアプローチにより、非常に価値のあるデータセットが作成されました。このデータセットを使った評価では、マルチモーダル事前学習が期待ほど効果的ではないことが明らかになりました。様々な視覚BERTモデル間の性能差は、マルチモーダル事前学習を行っても1ポイント未満の改善しか見られませんでした。これは、私たちがまだ解決すべき課題が多く残されていることを示しています。データセットは完全に解決されているわけではなく、最先端のモデルであっても改善の余地があります。

8.6. Winogroundデータセットと組成的理解

CLIPのような対照的なモデルが実際にどれほど優れているかを評価するために、Winogroundというデータセットが開発されました。CLIPは確かに印象的で、以前のモデルよりもはるかに優れていましたが、人間のような組成的理解ができているのか、それともデータ分布にオーバーフィットしているだけなのかを検証する必要がありました。

このデータセットの設計思想は、単語の順序を変えることで視覚的な意味が大きく変わるようなペアを作成することでした。例えば「植物を囲む電球」と「電球を囲む植物」という文は、全く同じ単語を使っていますが、順序が異なるため、視覚的な表現は大きく異なります。モデルが視覚言語的な組成性を本当に理解していれば、これらの違いを認識できるはずです。しかし、もしデータ分布にオーバーフィットしているだけなら、こうした微妙な違いを捉えることができません。

この研究の着想源となったのは「Order Matters：Pre-training for Little」という論文でした。この研究では、一般的な事前学習においては単語の順序がそれほど重要ではないことが示されました。つまり、単語をシャッフルしてもモデルは言語について推論できてしまうのです。これは私たちが研究者として優れているということではなく、評価ベンチマークが不十分であることを示しています。

Winogroundデータセットには他にも興味深い例があります。「マグカップの中の草」と「草の中のマグカップ」、あるいは「トラック火災」と「消防車」のような例です。これらは全く異なる画像を表しており、人間にとっては区別することは自明ですが、最先端のモデルにとっては難しい課題となります。

驚くべきことに、この論文が発表された時点では、最先端のモデルでもランダムチャンス以下のパフォーマンスしか示せませんでした。つまり、組成的理解という点では、まだまだ改善の余地があるということです。

この論文に対する反応は非常に興味深いものでした。DALL-E 2が登場した際、「草の中のマグカップ」というプロンプトで生成された画像は確かに期待通りのものでした。ただし、「digital art」という言葉を追加する必要があり、これはある種のプロンプトエンジニアリングやテスト時の調整と言えるかもしれません。

しかし、「スプーンよりフォークが少ない」や「フォークよりスプーンが少ない」といったカウントを含む例では、モデルはまだ偏りを示します。インターネット上にはスプーンの画像の方が多いため、モデルはスプーンを好む傾向があるのです。

これらのモデルは訓練データの反映にすぎず、まだ完全ではありません。Stable Diffusionのような最新モデルでも、指の数を正確にカウントするのが難しいなど、改善すべき点は多く残されています。Winogroundデータセットは、マルチモーダルモデルの組成的理解能力を評価するための貴重なツールとなっています。

8.7. 単語順序の重要性

Winogroundデータセットの開発において重要な着想源となったのは、「Order Matters: Pre-training for Little」という論文です。この研究は、一般的な事前学習において単語の順序がどれほど重要なのかという根本的な疑問を提起しました。

驚くべきことに、この研究では多くの場合、一般的な事前学習においては単語の順序がそれほど重要ではないことが示されました。これは非常に重要な発見です。私たちはNLPを専門とし、言語が非常に重要だと考えていますが、これらのモデルはすべての単語をシャッフルしても言語について推論することができてしまうのです。

この発見は、私たち研究者の素晴らしさを示すというよりも、評価ベンチマークの不十分さを示しています。つまり、現在の評価方法では、モデルが本当に言語の構造や順序を理解しているかどうかを適切に測定できていないということです。

この問題は、マルチモーダル理解においてさらに重要になります。「植物を囲む電球」と「電球を囲む植物」のように、同じ単語セットでも順序によって全く異なる視覚的意味を持つケースでは、単語の順序を理解することが不可欠です。しかし、多くのモデルはこの違いを適切に捉えることができません。

この課題に対処するため、Winogroundデータセットでは単語の順序によって意味が大きく変わる例を意図的に含めています。これにより、モデルが単に単語の共起統計に依存しているのか、それとも真に組成的な言語理解を持っているのかを検証することができます。

単語順序の重要性を適切に評価することは、より優れたマルチモーダルモデルの開発につながります。モデルが単語の順序や文の構造を本当に理解できれば、より自然で柔軟なマルチモーダル理解が可能になるでしょう。しかし現状では、多くのモデルがこの点で苦戦しており、改善の余地が大きく残されています。

8.8. モデル評価の現状と課題

マルチモーダルモデルの評価は、まだ多くの課題を抱えています。Hateful Memesデータセットを使った研究から、マルチモーダル事前学習が期待ほど効果的ではないことが明らかになりました。視覚BERTから別の視覚BERTへの変更で得られる改善は、マルチモーダル事前学習を行っても1ポイント未満という微々たるものでした。

これは私たちがまだ多くの課題を解決する必要があることを示しています。このデータセットはまだ完全に解決されておらず、最先端のモデルであっても改善の余地があります。これは研究者にとっては励みになる事実と言えるでしょう。解決すべき問題がまだ多く残されており、新たな突破口を開く機会があるのです。

Hateful Memesデータセットを用いて競技会も開催され、10万ドルの賞金が提供されました。この競技会では多くの優れた研究が生まれ、性能指標は大幅に向上しました。しかし、勝利した解決策はやや期待外れでした。Kaggleのような競技では、最先端のモデルをすべてアンサンブルすれば勝てる可能性が高いものです。この競技会でも同様のことが起こり、根本的なブレークスルーというよりも、既存モデルの組み合わせによる解決策が勝利しました。

Winogroundデータセットの評価結果も同様に課題を示しています。最先端のモデルでもランダムチャンス以下のパフォーマンスしか示せず、組成的理解という点では大きな改善の余地が残されています。DALL-E 2のような最新のモデルでも、プロンプトエンジニアリングなしには完全に正確な結果を生成できず、「スプーンよりフォークが少ない」といったカウントを含む例では偏りを示します。

これらの評価結果は、マルチモーダルモデルがまだ人間レベルの理解から遠い状態にあることを示しています。現在のモデルは訓練データの反映にすぎず、真の意味でのマルチモーダル理解を達成するためには、より優れた評価方法と、それに基づくモデルの改善が必要です。

評価の課題は、単に性能指標を上げることではなく、モデルが本当にマルチモーダルタスクの本質を理解しているかを測定することにあります。表面的な相関関係を学習するのではなく、真の因果関係や組成的理解を獲得したモデルを開発し、適切に評価する方法を見つけることが今後の重要な研究方向となるでしょう。

9. その他のモダリティ

9.1. 音声と言語のマルチモーダル処理

これまで画像とテキストに焦点を当ててきましたが、他にも様々な興味深いモダリティが存在します。インターネット上には膨大な画像があり、研究対象として適しているため画像に注目してきましたが、他のモダリティも重要です。また、脳の観点から見ると視覚は非常に支配的なモダリティですが、他のモダリティも考慮する価値があります。

視覚の次に明らかなモダリティは音声や音響です。視覚の次に来るのは聴覚です。音声と音響に関しても、画像と同様に様々な興味深い研究があり、この分野だけで別の講義ができるほどです。残念ながら時間の制約上詳細には触れられませんが、いくつかの重要な点をご紹介します。

音声信号の特徴抽出には様々な手法があります。例えば、Alex Radfordによって開発されたWhisperモデルは、680,000時間の多言語・マルチタスク音声データで訓練されました。このモデルは非常に洗練されていますが、基本的な構造はシンプルです。ログメルスペクトログラムという音声信号の表現を使用し、それをトランスフォーマーに入力します。

入力はエンコーダー自己注意機構を通過し、デコーダーでクロスアテンションを適用し、シーケンスを生成します。これは基本的なトランスフォーマーモデルであり、入力が単語やトークンではなくログメルスペクトログラムという点だけが異なります。

音声処理に関する他の論文も多数あります。Wave2Vecのようなモデルは波形信号をベクトルに変換したり、様々な方法で離散化したりします。興味深いのは、音声を視覚情報に置き換えることができるという点です。ログメルスペクトログラムは基本的に音声の視覚的表現と考えることができます。

2017年に発表した研究では、実際の音声サンプルを取り、それをスペクトログラム（音声スペクトルの視覚的表現）に変換し、通常のAlexNetのようなCNNに入力することで、優れた音声特徴を得られることを示しました。これにより、バイオリンやギターなどの楽器を区別することができます。

つまり、音声モダリティも画像に還元できる可能性があります。同様に、言語も画像に還元できるのか、あるいは画像を言語に還元できるのかという疑問が生まれます。これは現在研究者たちが考えている重要な問いの一つです。

9.2. Whisperモデルとその構造

OpenAIが開発したWhisperモデルは、音声処理の分野における重要な進展を示しています。このモデルは680,000時間もの多言語・マルチタスク音声データで訓練されており、その規模は非常に印象的です。

Whisperのアーキテクチャは非常に洗練されていますが、基本的な構造はシンプルです。入力音声はログメルスペクトログラムに変換されます。このスペクトログラムは音声信号の周波数成分を時間に対して視覚的に表現したものです。このログメルスペクトログラムに対して、一次元の畳み込み処理が適用されます。

この一次元畳み込みの出力は大きなトランスフォーマーに入力されます。具体的には、エンコーダー部分で自己注意機構が適用され、デコーダー部分でクロスアテンションが使用され、最終的にシーケンスが生成されます。これは基本的に標準的なトランスフォーマーモデルの構造であり、特別なのは入力が単語やトークンではなく、ログメルスペクトログラムであるという点だけです。

音声処理に関しては他にも多くの論文が存在します。例えば、Wave2Vecのようなモデルは、波形信号を直接ベクトルに変換したり、様々な方法で離散化したりする手法を提案しています。

興味深いのは、音声を視覚情報として扱うことができるという点です。2017年に発表された研究では、実際の音声サンプルをスペクトログラムに変換し、通常の畳み込みニューラルネットワーク（AlexNetなど）に入力することで、音声から優れた特徴表現を抽出できることが示されました。このアプローチにより、バイオリンやギターなどの楽器を高い精度で識別することが可能になりました。

Whisperモデルの成功は、従来の音声認識システムが必要としていた複雑な前処理や特殊な構造が必ずしも必要ないことを示しています。単純に大量のデータと適切な表現形式、そして十分に大きなトランスフォーマーモデルを組み合わせることで、高性能な音声処理システムを構築できるのです。このアプローチは、マルチモーダル学習の他の分野にも適用可能な重要な洞察を提供しています。

9.3. ビデオデータの処理

ビデオについても前述の議論が適用されます。多くの場合、ビデオ処理は画像処理よりも複雑に思えるかもしれませんが、多くの場合、フレームをサブサンプリングするだけで画像として処理することができます。つまり、複雑なビデオとして処理する代わりに、単純に画像としてのフレームを扱うことで解決できることが多いのです。

ビデオをマルチモーダル処理する場合、注意マスクなどの同じアイデアを適用することができます。ビデオを見るときに、オブジェクト検出器を使用すると、ビデオを通じてリアルタイムでオブジェクトを追跡することができます。そして、モデル内の注意マスクとそのオブジェクト追跡がどのように整合しているかを確認することができます。

ビデオデータの処理における主な課題の一つは、データの量と次元の高さです。ビデオは本質的に画像シーケンスであり、各フレームには大量の情報が含まれています。すべてのフレームを処理するのは計算コストが高すぎるため、効果的なサブサンプリング戦略が重要になります。特に重要なフレームや変化が大きいフレームを選択することで、情報の損失を最小限に抑えながら計算効率を高めることができます。

また、時間的な情報の処理も重要な側面です。ビデオには時間的な依存関係や動きの情報が含まれており、これらを適切に捉えるためには単に個々のフレームを処理するだけではなく、フレーム間の関係も考慮する必要があります。これには、3D畳み込みやリカレントネットワーク、あるいは時間的な注意機構などの手法が用いられます。

ビデオ処理のシンプルで効果的なアプローチは、キーフレームを選択してそれらを画像として処理し、その上で標準的な視覚言語トランスフォーマーエンコーダーを適用するというものです。この方法は、ビデオの複雑さを大幅に減らしながらも、その本質的な情報を保持することができます。

9.4. Merlotとトリモーダルモデル

ビデオデータ処理の発展として特筆すべきモデルがMerlotです。このモデルは前述したアプローチを採用しており、キーフレームを抽出して標準的な視覚言語トランスフォーマーエンコーダーを適用するという手法を取っています。これにより、ビデオ内の時間的な関係性と視覚情報を効率的に処理することができます。

Merlotの発展型としてMerlot Reserveが登場しましたが、これは少し風変わりな命名と言えるでしょう。このモデルの重要な特徴は、ビデオに音声要素を追加したことです。これにより、このモデルはトリモーダル（三重モダリティ）モデルとなりました。視覚情報、言語情報、そして音声情報の3つのモダリティを同時に処理できるようになったのです。

Merlot Reserveは、基盤モデルの明確なトレンドに向かう一歩として位置づけられます。すべての異なるモダリティを消費し、これらのモダリティ間で情報を統合して処理できる単一のモデルを作成するという方向性です。このような統合アプローチにより、各モダリティが他のモダリティを補完し強化することができます。

トリモーダルモデルの利点は、より豊かで文脈に応じた理解が可能になることです。例えば、ビデオ内の人物の発言（音声）、その際の表情や身振り（視覚）、そして字幕や関連テキスト（言語）を統合することで、より正確な感情分析や意図理解が可能になります。

また、コンテンツの欠落や不完全な情報にも強くなります。例えば、騒がしい環境で音声が明瞭でない場合でも、視覚情報や文脈から内容を推測できる可能性が高まります。

Merlot Reserveのようなトリモーダルモデルは、マルチモーダル基盤モデルの発展における重要なステップであり、より多くのモダリティを統合した真に汎用的な理解システムへの道を開いています。このようなモデルは、映像コンテンツ分析、アクセシビリティツール、マルチメディア検索など、様々な応用が考えられます。

9.5. シミュレーション環境での言語学習

マルチモーダル学習における別の非常に興味深い方向性として、シミュレーション環境を利用した言語学習があります。2017年にDeepMindから発表された論文では、エージェントが迷路内を歩き回り、自然言語の指示に従うというシミュレーション環境が紹介されました。

このアプローチでは、エージェントは「デクス」や「ブリック」などの人工的な言葉の意味を学習し、これらの言葉と環境内の物体や概念との接地（grounding）を形成することができました。これは非常に興味深い研究方向であり、長期的には大きな可能性を秘めています。

なぜなら、これは人間が言語を学習する方法により近いアプローチだからです。人間は世界を歩き回り、環境と相互作用し、様々な知覚的観察を統合し、物体を操作し、自分の視点を変え、それによって世界について知るすべてを学びます。人間の言語はこの世界の理解と密接に結びついています。

シミュレーション環境での言語学習は、単に静的なテキストや画像のペアからの学習よりも、はるかに豊かな言語理解を可能にする可能性があります。エージェントが環境内で行動し、言語指示に従い、結果を観察することで、言語と物理的世界の関係についてより深い理解を得ることができます。

このアプローチでは、言語は単なる記号的表現ではなく、行動や経験と直接結びついた意味を持つものとして学習されます。例えば、「前に進む」という指示の意味は、実際に前に進む行動とその結果を経験することで理解されます。

シミュレーション環境の利点は、制御された条件下で様々な言語学習シナリオを作成できることです。特定の概念や関係性に焦点を当て、エージェントがそれらをどのように学習するかを詳細に分析することができます。

この研究方向は現在あまり活発ではないようですが、将来的には再び注目を集める可能性があります。より豊かで接地された言語理解を実現するための重要なアプローチの一つとして、大きな可能性を秘めています。

9.6. 3D生成モデル

テキスト条件付けや生成の手法は、他のモダリティにも応用できます。特に注目すべきは3Dポイントクラウドの生成です。先に説明した条件付きGANやテキスト-画像生成モデルと同様のアプローチで、テキストプロンプトから3Dオブジェクトを生成することが可能になっています。

例えば、「3Dコーギー」というプロンプトを使用してコーギー犬の3Dモデルを生成するといったことができます。このようなプロンプトは時間の経過とともにさらに複雑になり、建築デザインなどの分野でも応用されつつあります。「家をデザインして」と指示するだけで、AIが家全体をデザインすることも可能になっています。

プロンプトを調整するだけで様々な3Dモデルを生成できるこの技術は、すでに利用可能になっているか、非常に近い将来に実現するでしょう。3D生成モデルは、従来の2D画像生成の自然な拡張と考えることができます。これにより、バーチャルリアリティ、拡張現実、ゲーム開発、製品デザインなど、様々な分野での応用が期待されています。

3D生成において重要なのは、単に外観だけでなく、構造的な一貫性や物理的に実現可能なモデルを生成する能力です。例えば、家の3Dモデルを生成する場合、見た目が良いだけでなく、構造的に安定し、実際に建築可能である必要があります。

この分野は急速に発展しており、テキストから3Dモデルへの直接変換や、2D画像からの3D再構築、さらには複数の2D視点からの3Dモデル生成など、様々なアプローチが研究されています。将来的には、テキスト記述から完全に詳細な3D環境やオブジェクトを生成できるようになり、創造的なデザインプロセスや仮想世界の構築を大幅に簡素化する可能性があります。

9.7. 嗅覚埋め込み(olfactory embeddings)実験

最後に紹介するモダリティは、嗅覚埋め込み(olfactory embeddings)です。olfaction（嗅覚）は、もし知らない方がいれば、「匂いを感じる」という意味です。

講演者のDouwe Kielaの博士論文は、意味論を様々な知覚モダリティに接地付けることについてでした。彼の研究は視覚から始まり、次に音声という明らかな次のモダリティに進みました。バイオリンの意味を学習すると、バイオリンがどのように見えるか、そしてどのような音がするのかを学ぶことができ、それによってより豊かな表現が得られます。

しかし、多くの単語にとって、その意味の原始的な部分は実際に「どのような匂いがするか」です。これは私たちの脳の中で最も古い領域の一つだからです。そこで、すべての知覚モダリティを完成させるために、嗅覚埋め込みを構築する試みが行われました。

これは少し冗談めいた研究でしたが、驚くべきことに実際に機能しました。Sigma-Aldrichの「Fine Flavors and Fragrances」というカタログがあり、そこでは「メロン」や「パイナップル」などの単語を調べると、その匂いや味を生み出すすべての化学物質が列挙されています。これらの物質の出現をカウントし、SVD（特異値分解）などの手法を適用することで、より本格的な埋め込みモデルに近いものを作ることができます。

これにより、匂いの埋め込み、つまり匂いのベクトルが得られ、これらの匂い間の類似性を計算することができます。例えば、リンゴは梨に似た匂いがすることや、チョコレート、ココア、甘さ、コーヒーなどが関連していることがわかります。このように、異なる匂いのクラスターが化学物質に基づいて形成されます。

このように、「化学物質のバッグ」モデルは非常に豊かな表現を与えてくれます。具体的な匂いを持つすべての単語（「民主主義」のような匂いのない抽象的な単語は除外）を調べると、このモデルは当時の言語的ベクトルよりも人間の類似性判断とより相関していることがわかりました。

例えば「リンゴ」のような単語に対して、Skip-gramなどの手法で単語ベクトルを作成することはできますが、化学物質のバッグモデルの方が人間の類似性判断とより相関します。これは非常に興味深い発見です。匂いのような感覚でさえ、人間がどのように言語を理解するかを本当に理解したいなら、基盤モデルに含める価値があるかもしれません。

ただし、研究を始めるなら他のモダリティから取り組むことをお勧めします。嗅覚は興味深いが少し特殊なケースであり、視覚、言語、音声などのより一般的なモダリティから始める方が実用的です。

10. 将来の方向性

10.1. 単一基盤モデルへの収束

マルチモーダル深層学習の分野における将来の方向性として最も顕著なのは、「すべてを支配する一つのモデル」という概念に向かった収束です。FLAVAのような単一基盤モデルについて既に説明しましたが、この傾向は今後も続くでしょう。

将来的には、多くの異なる基盤モデルが開発されますが、それらはかなり似通った特徴を持つようになると予想されます。様々なモデルが異なるアプローチで開発されながらも、最終的には特定の共通アーキテクチャや設計原則に収束していく傾向がすでに見られています。

例えば、ほぼすべてのモデルがトランスフォーマーアーキテクチャを採用しており、その基本構造は類似しています。違いはむしろデータセットの選択や訓練方法、ハイパーパラメータの調整などの部分に現れています。「Unmasking Multimodal Pretraining」の論文が示したように、多くの一見異なるモデルでも、同一の条件で訓練すると非常に似たパフォーマンスを示します。

FLAVAやFlamingoなどのモデルは、単一のアーキテクチャで複数のモダリティを処理する能力を持っており、この方向性を先導しています。これらのモデルは、テキスト、画像、場合によっては音声や3Dデータなど、様々なモダリティに対応できる汎用性を持っています。

単一基盤モデルへの収束は、研究と実用の両面で利点があります。研究面では、モデル間の公平な比較が容易になり、各要素の貢献をより正確に評価できます。実用面では、異なるタスクごとに別々のモデルを維持する代わりに、単一のモデルで多様なアプリケーションをカバーできるようになります。

将来的には、基盤モデルはさらに多くのモダリティを統合し、より柔軟で強力になっていくでしょう。現在のマルチモーダルモデルが主に視覚と言語に焦点を当てているのに対し、将来のモデルは音声、3D、触覚、さらには嗅覚など、より多くの知覚モダリティを包含する可能性があります。

このような単一基盤モデルへの収束は、より人間に近い知覚と理解のシステムの創造に向けた重要なステップであり、マルチモーダル深層学習の将来において中心的な役割を果たすでしょう。

10.2. スケーリング法則の探求

マルチモーダル深層学習における重要な研究方向の一つは、スケーリング法則の探求です。これは異なるモダリティ間の関係性や、どのモダリティをより多く取り入れるべきかという問題に関わります。

John Laguenoはよく「言語は思考の言語の低帯域幅のプロキシである」と述べています。つまり、言語は私たちの頭の中で行われているより豊かで高帯域幅の思考プロセスを近似したものに過ぎないという考えです。彼は恐らく視覚的思考がこの「思考の言語」に近いと考えているようですが、講演者のDouwe Kielaはそこまで確信していません。

重要な点は、モダリティ間のスケーリング法則に明確な違いがあるかどうかはまだ解明されていないということです。言語モデルと視覚モデルのスケーリング特性が異なるのか、それとも同様のパターンに従うのかについては、まだ研究が必要です。

スケーリング法則の理解は、マルチモーダルモデルの効率的な設計に直接関わります。例えば、特定のパフォーマンスレベルを達成するために、テキストデータと画像データをどのような比率で組み合わせるべきか、あるいは各モダリティに対してモデルの容量をどのように配分すべきかといった問題に答えるためには、スケーリング法則の理解が不可欠です。

また、異なるモダリティが互いにどのように影響し合うかを理解することも重要です。例えば、視覚情報が言語理解をどの程度強化するか、あるいは言語情報が視覚認識をどの程度改善するかといった相互作用の度合いを理解することで、より効果的なマルチモーダルモデルを設計できる可能性があります。

これらのスケーリング法則の探求は、今後のマルチモーダル研究における重要な課題の一つであり、データとモデルリソースの最適な配分を決定するための指針となるでしょう。

10.3. 検索拡張生成(RAG)の重要性

マルチモーダル深層学習の将来において、検索拡張生成（Retrieval-Augmented Generation, RAG）は非常に重要な役割を果たすことになるでしょう。講演者はこれについて特に強調しており、この技術は非常に大きなものになると指摘しています。

RAGをまだご存知ない方は、調べてみることをお勧めします。この技術はマルチモーダルモデルの性能を大幅に向上させる可能性を秘めています。RAGの基本的なアイデアは、生成モデルが直接すべての情報を記憶するのではなく、必要に応じて外部知識源から情報を検索して活用するというものです。

マルチモーダルコンテキストでは、テキスト生成の前に関連する画像や他のモダリティのデータを検索することができます。例えば、特定のトピックについて説明する際に、モデルはそのトピックに関連する画像を検索し、それらの視覚情報を利用してより正確で詳細な説明を生成することができます。

また、画像生成の場合でも、テキストプロンプトに基づいて関連する参照画像を検索し、それらを参考にしてより質の高い画像を生成するといったことが可能になります。このアプローチにより、モデルのパラメータに保存できる情報量の制約を超えて、より正確で最新の情報に基づいた生成が可能になります。

検索コンポーネント自体もマルチモーダルになり得ます。テキストだけでなく、画像、音声、その他のモダリティに基づいて検索できるようになるでしょう。これにより、より豊かで文脈に応じた情報検索が可能になります。

RAGはマルチモーダル基盤モデルと組み合わせることで、特に強力なものとなります。モデル自体は一般的な知識と生成能力を持ち、検索システムを通じて特定のドメインや最新の情報にアクセスすることができます。

このように、検索拡張生成はマルチモーダル深層学習の将来において重要な方向性の一つであり、多くの実用的なアプリケーションでの性能向上につながるでしょう。

10.4. より良い評価手法の必要性

マルチモーダル深層学習の分野が急速に発展する中、より良い評価手法の必要性が一層高まっています。現在の評価方法には多くの限界があり、モデルの真の能力を正確に測定できていない場合が多いのです。

Winogroundデータセットの結果が示すように、最先端のモデルでもランダムチャンス以下のパフォーマンスしか示せないケースがあります。これは、現在のモデルが表面的なパターンマッチングはできても、真の組成的理解ができていないことを示唆しています。また、単語の順序をシャッフルしてもモデルが機能してしまうという事実は、評価方法自体に問題があることを示しています。

より良い評価方法の開発は、マルチモーダル研究の進展において非常に重要です。WinogroundやHateful Memesのような評価データセットは良い出発点ですが、さらに多様で厳密な評価方法が必要です。特に、モデルが本当に各モダリティの情報を統合し、それらの間の関係を理解しているかを確認するためのテストが求められています。

また、評価はタスク固有の性能だけでなく、モデルの汎化能力や堅牢性、公平性なども測定すべきです。例えば、モデルが特定のデータ分布に過度に適合していないか、未知のシナリオでも適切に機能するか、特定のグループに対して偏った結果を出していないかなどを評価する必要があります。

自動評価だけでなく、人間による評価も重要です。特に、モデルの出力の質や関連性、有用性などの主観的側面については、人間の判断が不可欠です。ただし、人間による評価は時間と費用がかかるため、より効率的な方法を模索することも重要です。

最終的には、マルチモーダルモデルの真の進歩を測定するためには、単一の指標やデータセットではなく、多面的な評価アプローチが必要です。様々な角度からモデルの能力を測定し、その強みと弱みを包括的に理解することが、この分野の持続的な発展には不可欠です。

より良い評価手法の開発は、基礎研究の観点からも応用の観点からも非常に重要な課題であり、今後のマルチモーダル深層学習研究の中核的な部分となっていくでしょう。

Stanford CS224N NLP with Deep Learning | 2023 | Lecture 16 - Multimodal Deep Learning, Douwe Kiela

For more information about Stanford's Artificial Intelligence professional and graduate programs visit: https://stanford.io/ai To learn more about this course visit: https://online.stanford.edu/courses/c... To follow along with the course schedule and syllabus visit: http://web.stanford.edu/class/cs224n/ Douwe Kiela Adjunct Professor in Symbolic Systems at Stanford University. https://douwekiela.github.io/ Professor Christopher Manning Thomas M. Siebel Professor in Machine Learning, Professor of Linguistics and of Computer Science Director, Stanford Artificial Intelligence Laboratory (SAIL) #naturallanguageprocessing #deeplearning

www.youtube.com

Stanford CS224N NLP with Deep Learning | 2023 | Lecture 16 - Multimodal Deep Learning, Douwe Kiela