※本記事は、Y CombinatorのAnkit Gupta氏によるYouTube動画「トランスフォーマー解説:AIを永遠に変えた発見」の内容を基に作成されています。動画はhttps://www.youtube.com/watch?v=JZLZQVmfGn8 でご覧いただけます。本記事では、動画の内容を要約・再構成しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画をご視聴いただくことをお勧めいたします。また、Y Combinator(@ycombinator)のソーシャルメディアアカウントもご参照ください。
1. イントロダクション
Presenter: 今日話したいのは、ChatGPT、Claude、Gemini、Grokといった最先端のAIシステムのほぼすべてが、同一の根本的なモデルアーキテクチャの上に構築されているという事実です。そのアーキテクチャこそが「トランスフォーマー」です。
では、トランスフォーマーはどこから来たのでしょうか?そして、その開発プロセスはAIにおけるブレークスルーがどのように生まれるかについて、何を教えてくれるのでしょうか?今日はその問いに答えていきます。
トランスフォーマーとは何かを一言で言えば、セルフアテンションを使って入力データ(テキストや画像など)を受け取り、そのデータ間の関係をモデル化し、意味のあるテキスト応答・翻訳・分類といった出力を生成するニューラルネットワークです。
多くの方はご存知かもしれませんが、トランスフォーマーの原型は2017年にGoogleが発表した「Attention is All You Need」という論文で提案されました。今や伝説的な論文です。しかし、この「一夜にして成功した」とも見えるアーキテクチャの裏には、それを可能にした複数のブレークスルーが存在します。その経緯を知っている方は意外と少ないのではないでしょうか。
本動画では、トランスフォーマーに至るまでの3つの重要な発展を順を追って解説します。それが「長短期記憶ネットワーク(LSTM)」「アテンション機構付きSeq2Seqモデル」、そして「トランスフォーマー」です。
2. 長短期記憶ネットワーク(LSTM)の登場と復活
2.1 系列データ理解の課題とRNNの発明:フィードフォワードNNの限界から勾配消失問題まで
Presenter: 初期のAI研究を突き動かしていた核心的な課題のひとつは、ニューラルネットワークに「系列」を理解させることでした。自然言語は本質的に系列的です。ある単語の意味は、その前後に何が来るかによって決まります。そして文全体を理解するには、多くの単語にまたがってコンテキストを保持し続ける必要があります。
当時の主流だったフィードフォワードニューラルネットワークは、各入力を独立して処理するため、コンテキストを理解することができませんでした。あるいは固定長の入力しか扱えないという制約がありました。これは根本的な限界です。
そこで研究者たちが解決策として開発したのが、リカレントニューラルネットワーク(RNN)です。RNNの仕組みをシンプルに説明すると、入力を順番に1つずつ処理しながら、直前のステップの出力を次のステップの追加入力として取り込んでいきます。入力の長さをnとすると、フォワードパスではn回の処理ステップが発生します。そしてバックワードパスにおいて、初期の入力に対する勾配はn回の行列乗算の結果として算出されます。
これが実際の訓練においてどんな問題を引き起こすか。「勾配消失問題」と呼ばれる現象です。系列が長くなればなるほど、初期の入力がネットワークの出力に与える影響は薄れていきます。訓練中に重みを調整するためのシグナルである勾配が、時間をさかのぼって伝播される過程で、ほぼゼロに近い値へと消えていってしまうのです。
2.2 LSTMの提案・停滞・そして2010年代の復活:ゲート機構の導入からGPU時代の実用化まで
Presenter: この勾配消失問題に対する解答として、1990年代にHochreiterとSchmidhuberが提案したのが長短期記憶ネットワーク、すなわちLSTMです。LSTMはRNNの一種であり、「ゲート」と呼ばれる仕組みを導入することで勾配消失問題の解消を試みました。このゲートは、どの情報を保持し、更新し、あるいは忘却するかを学習することができます。これによって、通常のRNNが苦手としていた長距離依存関係の学習が可能になりました。
しかし、LSTMは1990年代においてはスケールして訓練するにはコストがかかりすぎました。当時の計算資源では実用に耐えず、研究の進展は停滞します。
転機が訪れたのは2010年代初頭です。GPUによる高速化、より優れた最適化技術、そして新たな大規模データセットの登場によって、LSTMは再び脚光を浴びることになります。比較的古いアーキテクチャが突如として実用的になり、自然言語処理の分野を席巻し始めたのです。LSTMは音声認識から言語モデリングまで、あらゆる用途に急速に採用されていきました。
この時期、NLPとコンピュータビジョンはある意味で別々の世界として存在していました。RNN、とりわけLSTMは言語タスクで圧倒的な存在感を示し、一方でコンボリューショナルニューラルネットワーク(CNN)はビジョンの分野で勝利を収めていました。しかし両分野を突き動かしていた根本的な問いは同じものでした。「どのように系列をモデル化するか。時間や空間にまたがる構造をモデルにどう捉えさせるか」という問いです。LSTMは大きな前進でしたが、それでもまだ重要な限界を抱えていました。次のセクションでその限界と、それを乗り越えた手法について詳しく見ていきます。
3. Seq2Seqとアテンション機構:固定長ボトルネックの克服
3.1 エンコーダ・デコーダ構造の仕組みと固定長ボトルネック問題の発見
Presenter: LSTMが大きな前進をもたらした一方で、最も根本的な限界として立ちはだかったのが「固定長ボトルネック」と呼ばれる問題です。当時の多くのLSTMシステムがどのように機能していたかを説明しましょう。翻訳のような系列変換タスクでは、まず入力文をエンコーダLSTMに通し、その入力を固定サイズのベクトル1つに圧縮します。次に、デコーダLSTMがそのベクトルを受け取り、目標言語の文を1単語ずつ構築していきます。当時のベンチマークでは印象的な結果を出していましたが、実際のところその単一ベクトルは、長い文や複雑な文の意味を正確に捉えることができませんでした。
さらに、固定サイズのベクトルに語順の概念を適切にエンコードする方法がありませんでした。これは翻訳タスクにおいて非常に重要な問題です。例えば英語では形容詞を名詞の前に置きますが、スペイン語では多くの場合、形容詞を名詞の後に置きます。この限界は実際の性能にも現れました。短い入力では何とか機能しても、系列が長くなるにつれて急速に精度が崩れていったのです。
そしてこれは単なる性能の問題ではなく、より深いアーキテクチャ上の問題を指し示していました。デコーダに入力の静的な要約1つしか与えないことは、根本的な制約です。エンコーダが見たすべての中間的な情報にアクセスできるようにすればいいのではないか。この気づきこそが、次の大きな飛躍を生み出すことになります。
3.2 アテンション機構の導入:アライメント学習による性能向上と実用化(Google翻訳)
Presenter: 2014年、系列変換の新たな標準となる論文が発表されました。アテンション機構を備えたSeq2Seq(シーケンス・ツー・シーケンス)モデルです。基本的なアイデアは引き続き2つのニューラルネットワークを共同で訓練するというものです。入力系列を読み込んでその表現を構築するエンコーダと、出力系列を1ステップずつ生成するデコーダです。両モデルともLSTMであり、重要なのはエンドツーエンドで共同訓練されたという点です。
しかしここに、性能の飛躍を可能にした決定的な洞察がありました。それが「アテンション」です。Seq2Seqが固定長ベクトルを使い続ける一方で、研究者たちは気づきました。デコーダがエンコーダの隠れ状態を振り返って参照できるようにすれば、入力のどの部分と出力のどの部分が対応するかをモデル自身が学習できるようになると。BahdanauとChoとBengioは、このアテンション機構を用いたモデルが機械翻訳などのタスクにおいて、従来のルールベースシステムや既存のSeq2Seqモデルを大幅に上回ることを示しました。これは大きな出来事でした。
翻訳ベンチマークでの評価では、当時最良の統計的手法をも超えるほぼ最先端の性能を達成しました。ニューラルモデルが、長年かけて成熟してきたプロダクション品質のシステムと真っ向から競い合えることを示した瞬間です。そして多くの人々にとって、これはこうしたモデルを実際に使える場面として初めて認識した瞬間でもありました。これは実用に耐えるNLPでした。
その象徴的な例が、Google翻訳です。ちょうどこの頃、Google翻訳はニューラルSeq2Seqアーキテクチャを採用しました。あの時期からGoogle翻訳がようやくまともに使えるようになったと記憶している方も多いのではないでしょうか。「アライメントと翻訳を同時に学習する」というこの洞察は変革的なものでした。そしてそれはNLPにとどまりませんでした。Seq2Seqの原著者の1人であるYoshua Bengioは、同様のアライメントベースのアーキテクチャをコンピュータビジョンにも応用しました。これは、系列モデルが言語を超えて有用である可能性を示した最初のサインでした。
しかしアテンションを加えたとしても、RNNはその逐次的なアーキテクチャという制約から逃れられませんでした。トークンを1つずつ処理するため、時間ステップをまたいだ並列計算が困難であり、処理時間は系列長に対して線形にスケールしていました。これは、広く有用なAIを実現するために必要だとわかっていた大規模データセットでのモデル訓練を、現実的でないほど遅くするものでした。この根本的な制約をどう突破するか。それが次の章の主題です。
4. トランスフォーマーの誕生と普及
4.1 RNNの並列化不可能という根本的制約と2017年「Attention is All You Need」の発表
Presenter: RNNの速度を改善しようとする試みは複数ありました。LSTMの行列をより小さな行列積に分解するファクタライゼーションや、クエリに関連するネットワークの一部だけを条件付きで活性化する手法などです。しかしどれだけ工夫を重ねても、処理時間が系列長に対して線形にスケールするという根本的な制約は残り続けました。トークンを1つずつ順番に処理するという逐次的な構造そのものが問題だったからです。
そこに2017年、Googleの研究チームが「Attention is All You Need」と題した論文を発表し、状況は一変します。彼らが提案した新しい機械翻訳アーキテクチャこそが「トランスフォーマー」です。トランスフォーマーの最も革命的な点は、リカレンス構造を完全に廃止したことです。RNNのように時系列に沿って順番に処理するのではなく、アテンション機構だけに全面的に依存して出力を生成します。
4.2 セルフアテンションによる並列処理の実現と精度・速度の同時改善
Presenter: 技術的な詳細に深く踏み込むことはここでは避けますが、高いレベルで説明すると、トランスフォーマーはSeq2Seqで提案されたエンコーダ・デコーダアーキテクチャを改良した形を採用しています。入力をひとつの固定長ベクトルに圧縮する代わりに、各入力トークンに対して個別の埋め込みを保持し続けます。そしてこれらの埋め込みをセルフアテンションと呼ばれる機構を通じて更新していきます。セルフアテンションとは、系列内の全他トークンの埋め込みに対する学習済みの重み付きドット積に基づいて、各トークンの表現を更新する仕組みです。
このアーキテクチャにおいては、各トークンが他のすべてのトークンに同時にアテンションを向けることができます。つまり系列全体を並列に処理できるということであり、RNNと比較して劇的に高速です。そして驚くべきことに、機械翻訳のベンチマークにおいて精度も大幅に向上しました。速度と精度を同時に改善するという、当時としては予想外の結果でした。
4.3 BERT・GPTへの分岐、スケールアップ、そして汎用AIへの転換点
Presenter: その後の数年間で、研究者たちはトランスフォーマーアーキテクチャのさまざまなバリエーションを試し始めました。元のGoogle論文で記述されたアーキテクチャは、セルフアテンションとクロスアテンションの両方を持つエンコーダとデコーダを備えており、リカレンスのない形でSeq2Seqのオリジナルに近い構造をしていました。
そこから大きく2つの方向への分岐が生まれます。ひとつはエンコーダのみを使ったマスク言語モデリングに特化したBERTと呼ばれるモデル群です。もうひとつは、デコーダのみを自己回帰モデリングに使う試みから生まれたOpenAIのGPTシリーズです。これら両方とも、大本の「Attention is All You Need」のトランスフォーマーモデルのサブセットとして位置づけることができます。
そして急速に明らかになったのは、これらのモデルが膨大なパラメータ数にスケールできるということでした。最終的にはGPT、すなわち生成的事前学習済みトランスフォーマーモデルというモデル形式がスケールアップされ、今日私たちがChatGPTやClaudeといったプロダクトで日常的に使っているLLMへと発展していきます。
しかしつい最近まで、「すべてを支配するひとつのモデル」が生まれるとは誰も確信していませんでした。実際、当時の研究者たちは機械翻訳用に1つ、固有表現認識用にまた別のひとつ、というようにタスクごとに個別のモデルを訓練していました。共通のバックボーンを持ちながらも、最終的なモデル層には微妙な違いがある形です。これらのモデルは精度が高い意味では「賢い」のですが、ほぼ単一タスクのモデルでした。またこの時点では、モデルにプロンプトを与えるという概念自体がほとんど存在していませんでした。チャットインターフェースがなかったため、人々はドメイン固有の入力を通じてモデルと対話していたのです。
転換点となったのは、研究所が自己回帰モデルをはるかに大規模なデータセットで訓練する実験を始めた時でした。そのとき初めて、これらのモデルは汎用的な知性を持つシステムのように見え、感じられるようになったのです。
5. まとめと次回予告
Presenter: ここまでの歴史的な流れを振り返ってみましょう。1990年代のLSTMの提案から、2014年のアテンション付きSeq2Seqモデル、そして2017年のトランスフォーマーの誕生まで、現在のLLMに至るまでの道のりは一夜にして実現したものではありませんでした。勾配消失問題との格闘、固定長ボトルネックの発見と克服、そして逐次処理という根本的制約の打破という、複数の段階的なブレークスルーが積み重なった結果です。そしてGPUの進化や大規模データセットの登場といった外部環境の変化も、これらのアーキテクチャが実用的なものとなるうえで不可欠な役割を果たしました。
この歴史が示すのは、AIにおけるブレークスルーとは孤立した天才的発明ではなく、先人たちの発見の上に着実に積み上げられていくものだということです。今日私たちが当たり前のように使っているChatGPTやClaudeといったシステムも、こうした長い研究の連鎖なしには存在し得なかったのです。今回の内容が、これらのモデルを現在の水準にまで引き上げるために何が必要だったかを理解する助けになれば幸いです。
次回の動画では、トランスフォーマーが現在の性能水準に到達するために必要だったアーキテクチャ上およびエンジニアリング上のイノベーションについて詳しく取り上げる予定です。ご視聴ありがとうございました。
