2025-04-19 Stanford CS25 V5: Transformerの全貌 - 基礎から継続学習の未来まで

出展元

https://youtu.be/JKbtWimlzAE?si=XG3lCIR1CKaGsgQf

キーワード

Transformers事前学習データ戦略ポストトレーニング技術継続学習

初回調査日

Dec 9, 2025 1:05 PM

※本記事は、Stanford University CS25「Transformers United」コースの第5回講義「Overview of Transformers」の内容を基に作成されています。講義の詳細情報は https://web.stanford.edu/class/cs25/ でご覧いただけます。本記事では、講義の内容を要約しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講義動画（https://www.youtube.com/watch?v=JKbtWimlzAE）をご視聴いただくことをお勧めいたします。

本講義の登壇者は以下の通りです：

Stephen Feng氏 - Stanford University CS PhD 3年生。自然言語処理を専門とし、大規模言語モデルの制御可能性と推論能力の向上に関する研究を行う。最近では認知科学・心理学に触発された研究に取り組み、機械学習モデルと人間の学習効率のギャップを埋める研究を推進。Amazon、Nvidiaでの産業界での研究経験も持つ。

Karan Singh氏 - Stanford University 電気工学PhD 2年生。医療画像とコンピュータビジョンを専門とし、fMRIや超音波などを用いた神経科学とコンピュータビジョンの交差領域で研究を行う。Dr. Assant AdelliのもとSCAIラボに所属。

Chelsea Zou氏 - Stanford University Symbolic Systems修士1年生。マルチエージェントフレームワーク、自己改善AIエージェント、モデルの解釈可能性と説明可能性の向上を研究テーマとする。応用数学と神経科学のバックグラウンドを持ち、VCファームでパートタイム勤務。

Jenny Duan氏 - Stanford University Symbolic Systemsと社会学を専攻する学生。技術倫理とポリシーを専門とし、DE Shawでのプロダクト業務やテクノロジー倫理・ポリシー分野での研究経験を持つ。

講義資料は https://docs.google.com/presentation/ で公開されています。CS25コース全体のプレイリストは「Stanford CS25 - Transformers United」でご覧いただけます。

1. イントロダクションとTransformerの基礎

1.1 CS25クラスの背景、講師陣紹介、コースロジスティクス

Stephen： CS25トランスフォーマークラスの第5回イテレーションへようこそ。DaveとI私は、トランスフォーマーや機械学習全般、そしてAIがいかに普及したものになったか、そして今後さらに私たちの生活の大きな部分を占めるようになると予測していたことを見て、かなり前にこのクラスを始めました。その予測は的中しているようです。

大規模言語モデルやAI全般がChatGPTのようなものや、Soraのような画像生成モデル、動画生成モデルなどを通じて世界を席巻している中で、人々がトランスフォーマーについて学び、その仕組みを理解し、特にこの分野で最先端の研究を行っている産業界や学界の第一人者から直接話を聞くことができるクラスがあることは、みなさんの学習にとって非常に有益であり、AI全般やテクノロジー全般でさらに前進するのに役立つと感じました。

このクラスの進め方についてですが、通常、毎週産業界または学界から第一線の研究者を招待して、トランスフォーマーに関する最先端のトピックについて講演していただきます。今学期も、みなさんのためにエキサイティングなスピーカーのラインナップを用意しています。

この最初の講義は私たちが担当し、トランスフォーマーの基礎について説明します。今回は以前の講義とは少し異なる構成にしており、事前学習とデータ戦略に関するセクションと、最近非常に人気のトピックとなっているポストトレーニングに焦点を当てたセクションに分けています。また、トランスフォーマーの応用例や、AIや機械学習モデルの状態をさらに改善するために対処すべき残りの弱点や課題についても簡単に触れます。

それでは、講師の紹介を始めます。私たちは非常に優れた共同講師チームを持っています。私の名前はStephenです。現在、ここでCS PhDの3年生です。以前はカナダのウォータールー大学で学部を修了しました。AmazonやNvidiaなど産業界でも研究を行ってきました。一般的に、私の研究は自然言語処理を中心としています。言語やテキストのための機械学習です。大規模言語モデルの制御可能性や推論モデルを改善できるかといったことを研究しています。

最近では、認知科学や心理学に触発された研究、特に機械学習モデルと人間の学習方法、人間の子供の学習方法、そして私たちの脳がいかに効率的に学習できるかという間のデータギャップや学習効率のギャップを埋める研究に取り組んでいます。マルチモーダルやコンピュータビジョンの研究も行っており、拡散モデルや画像生成などに取り組んでいます。また、楽しみとして、Karanとともにここでピアノクラブを運営しています。4月11日にコンサートが予定されているので、興味がある方はぜひお越しください。

Karan： みなさんこんにちは。私はKaranで、電気工学のPhD 2年生です。カリフォルニア州サンルイスオビスポのCal Polyで学部を修了し、その後ここで研究科学者として働き、現在PhDを取得しています。私は医療画像とコンピュータビジョンの分野に軸足を置いています。現在の研究の多くは、コンピュータビジョンと神経科学の交差点にあり、fMRIや超音波などを扱っています。現在、Dr. Assant AdelliのもとでSCAIラボで働いています。

Chelsea： みなさんこんにちは、Chelseaです。Symbolic Systemsの修士1年生です。私の一般的な研究関心は、マルチエージェントフレームワーク、自己改善AIエージェント、そしてモデルの解釈可能性と説明可能性の向上全般にあります。以前は応用数学と神経科学を学び、コンピュータビジョン、ロボティクス、認知科学などの学際的な研究を数多く行いました。現在はVCファームでパートタイムで働いており、夏にはConversational AIスタートアップで機械学習エンジニアとしてインターンをする予定です。スタンフォードのスタートアップシーンを探索することに非常に興味があるので、気軽に連絡してください。

Jenny： みなさんこんにちは、Jennyです。スタンフォードでSymbolic Systemsと社会学のコタームを専攻している学生です。私のバックグラウンドは主にテクノロジー倫理とポリシーです。この分野について質問があったり話したいことがあれば、ぜひ会話をしましょう。過去にはDE Shawでプロダクト業務を行い、テクノロジー倫理とポリシーの分野で研究も行いました。この夏はニューヨークのAIファッションテックスタートアップであるDaydreamで働く予定です。

Stephen： Divは今日参加できませんでしたが、AGI Inc.という彼の新しいエージェントスタートアップで働いています。現在、ここでのCS PhDを休学中です。彼はロボティクス、AIエージェントなどに情熱を持っています。今学期の後半で、AIエージェントに関するすべてについて講義をする予定です。興味がある方は楽しみにしていてください。以前はNvidiaやGoogleなどで働いており、そもそもこのクラスを始めた人物です。

それでは、コースのロジスティクスについて説明します。まず、新しいウェブサイトができました。cs25.stanford.eduです。すべての更新情報とスピーカーのラインナップは、今後数週間でそこに掲載されます。これは、スタンフォードに所属していない人や、ウェイトリストにいる人、またはクラスに入学できていない人とZoomを共有するためのリンクでもあります。このクラスをネットワークで共有し、誰でもZoomからアクセスできるようにすることをお勧めします。

このコースから得られる主な成果には、トランスフォーマーと多くの大規模言語モデルの基礎となるアーキテクチャのより深い理解が含まれます。ゲストスピーカーは、言語、ビジョン、生物学、ロボティクスなどの応用について話します。全国の第一線の研究者からの新しい研究への露出、次世代モデルを推進する革新的な手法、そして主要な限界、未解決の問題、AIの未来についても学びます。

1.2 Transformerの基本アーキテクチャ（単語埋め込み、セルフアテンション、位置エンコーディング、マルチヘッドアテンション）

Karan： それでは、トランスフォーマーとアテンション機構の仕組みについて、非常に簡単な紹介をします。言語における最初のステップは単語埋め込みです。単語は数値ではありません。そのため、明らかにそのままモデルに渡すことはできません。最初のステップは、それらを高次元空間における密なベクトルに変換することです。

これはさまざまな方法で行われますが、目標は意味的類似性を捉えることです。本質的には、catとdogは、catとcarよりも類似しているということです。後者は文字の観点からはより類似していますが。こうすることで、トランスフォーマーモデルでの視覚化学習や、算術演算が可能になります。例えば、king minus man plus queenは、ある埋め込み空間において約queenになります。この古典的な手法としては、Word2VecやfastTextなどがあり、最近ではさらに多くの手法があります。

しかし、静的埋め込みには限界があります。例えば、bankという単語に、just bank（銀行）でもriverbankでも同じ意味を与えてしまいます。したがって、現在の標準は、文中の単語のコンテキストを考慮する文脈埋め込みを使用することです。セルフアテンションをこれに適用して、与えられたトークンに対して何に注目すべきかを学習できます。

これを行うために、3つの行列を学習します。query、key、valueです。これらが一緒になってアテンション処理を構成します。これについての簡単なアナロジーを説明しましょう。図書館で特定のトピックに関する本を探していると想像してください。これがあなたのqueryです。各本には何らかの要約が関連付けられています。これがkeyです。あなたはqueryとkeyをマッチングして、探している本にアクセスできます。本の中の情報がvalueになります。

アテンションでは、複数の本から情報を得るために、valueに対してソフトマッチを行います。これがアテンション操作を構成します。この視覚化を見ると、これを言語に適用したときに、モデルのさまざまな層にわたって、異なる単語が文中の残りの単語との接続を持っていることがわかります。

次のコンポーネントは位置エンコーディングまたは埋め込みで、これによってシーケンスに順序が追加されます。これらがないと、モデルは線形乗算しかないため、文中の最初の単語や最後の単語がどれであるかを知ることができません。したがって、正弦波などを通じて、あるいは最も単純な形式では、最初の単語をゼロ、2番目を1というように、順序の概念を追加します。

これを超えて、基本的には複数の層とマルチヘッドアテンションを通じてスケーリングするだけです。文のさまざまな部分に注目するためのより多くのヘッド、そしてより多くのパラメータは、シーケンスからより多様な関係を捉えることができることを意味します。これが最終的なトランスフォーマーを構成します。

1.3 Transformerの応用分野と大規模言語モデルの特徴

Karan： 今日のトランスフォーマーは、ほぼすべての分野を席巻しています。GPT-4、O3、DeepSeekのようなLLMから、セグメンテーションなどがますます優れているビジョンモデルまで、音声、生物学、動画にも応用されています。これらの応用の多くは、今学期を通じて見ることになるでしょう。

大規模言語モデルについて言えば、これらは本質的にアテンションとトランスフォーマーアーキテクチャをスケールアップしたバージョンです。基本的には、ウェブから派生した一般的なテキストデータという大量のデータをこれらのモデルに投入すると、次のトークン予測目的を通じて言語をモデル化することを非常によく学習できます。そして、スケールアップするにつれて、創発的能力が現れることが分かっています。

つまり、小規模では特定のタスクを実行できないかもしれませんが、一定のスケールに達すると、そのタスクを実行する能力が急激に向上するのです。しかし、いくつかの欠点もあります。これらのモデルは非常に高い計算コストを持ち、したがって気候や炭素排出量に関する懸念もあります。また、先ほど述べたように、より大きなモデルでは多くの能力やタスクに対して非常によく汎化し、本質的にゼロショット学習でプラグアンドプレイが可能です。

2. 事前学習とデータ戦略

2.1 小規模研究：子供向けデータセットの効果性検証

Stephen： それでは、事前学習についてもう少し詳しく話します。Karanがトランスフォーマーの仕組みを説明しましたが、通常、言語モデル、特に大規模言語モデルでは、それを2つの段階に分けます。事前学習段階では、ニューラルネットワークをゼロから、ランダムに初期化された重みから学習させて、より一般的な能力を与えます。

この大部分はデータそのものです。データは、モデルが学習できるようにする基本的な燃料のようなものです。なぜなら、モデルはそこから学習しているからです。事前学習での目標は、通常、大量のデータで学習して、ある種の一般的なレベルの能力と全体的な知識や知性を獲得することです。これは間違いなく、学習、特に事前学習の最も重要な側面です。LLMは、前のトークンから次のトークンを予測するという統計分布に基づいて学習するからです。これを効果的に学習するには、通常、大量のデータが必要です。

その重要性から、どうすれば最大限に活用できるでしょうか。事前学習のためのスマートなデータ戦略は、間違いなく最近の最も重要なトピックの1つです。私が最近取り組んだ2つの主要なプロジェクトについて簡単に触れます。1つは異なる規模での研究です。1つ目は、言語学習、特に小規模において、どのような要素が小さな子供のようなデータセットを潜在的に効果的にするのかを調べるものです。2つ目は、数十億または数兆のトークンで大規模モデルを学習するためのスマートなデータ戦略を見るもので、これははるかに大規模です。

なぜ人間はこれほど効率的に学習できるのでしょうか。これは、人間の子供が環境と相互作用し言語を学習する方法と、ChatGPTのようなモデル、つまり人間の脳が言語を学習し一般的に学習する方法と、ニューラルネットワークのようなものとの類似点を見ることになります。

潜在的な重要な違いとして、人間は継続的に学習します。私たちは継続的に学習しています。事前学習だけではありません。椅子に座って誰かにインターネット全体を読み聞かせてもらい、そこで学習を止めるわけではありません。これは、より単一パスの事前学習モデルである現在の多くのモデルとは異なります。

さらに、私たちは環境との相互作用に基づいた、より目標志向の学習アプローチを持っています。それが私たちが学習する主な理由ですが、これらのモデルは通常、次のトークン予測や自己回帰を使用して大量のデータで事前学習しているだけです。さらに、私たちは継続的なマルチモーダルまたは多感覚データを通じて学習します。テキストだけではありません。私たちは潜在意識的に、おそらく何百もの感覚にさらされており、それが私たちの学習方法や日常生活へのアプローチ方法を導いています。

さらに、私たちの脳は根本的に異なっていると信じています。私たちは、単純な次のトークン予測ではなく、例えば構成性を通じて、よりstructured化された、または階層的な方法で学習しているのではないかと考えています。このプロジェクトの焦点は、特にデータの違いにあります。人間は、私たちが話す人々との対話や物語の本、特に子供たちが聞く本にさらされていますが、インターネット上の大量のデータとは対照的です。

これは発表された研究です。なぜ小さなモデルと少量のデータでの学習を気にするのでしょうか。これは大規模言語モデルの学習と使用の効率を大幅に向上させます。そして、これは潜在的な新しいユースケースへの扉を開きます。例えば、携帯電話で実行できるモデル、ローカルで実行できるモデルなど、多くの異なるユースケースのためです。

少ないデータで学習された小さなモデルは、より解釈可能で、制御や調整が容易です。安全目的のためであれ、バイアスを減らすためであれ、人々が安全な理由でそれらを使用していることを確認し、適切なガードレールを設置するためです。これはまた、オープンソースの可用性を向上させ、大量の計算資源を持つ企業だけでなく、世界中のより多くの人々がこれらのモデルの研究と使用を可能にします。そして一般的に、これは人間がどのように効果的かつ効率的に学習できるのかという反対方向をより深く理解することさえ可能にするかもしれません。

この研究のタイトルは「子供向けスピーチは言語モデルのための効果的な学習データか？」で、昨年11月にマイアミのEMNLPで発表しました。ここでの仮説は、子供たちは、おそらくLLMとは根本的に異なる学習をしているということです。これが、私たちが最近の多くの大規模言語モデルが必要とする数兆のトークンよりも、桁違いに少ない言語データで学習できる理由です。

いくつかの仮説があります。1つは、人間として受け取るデータがLLMとは根本的に異なっているということです。単にインターネットデータで学習するのではなく、実際に人々と相互作用し、人々と話し、両親や教師が私たちに語る物語を聞いたりします。もう1つは、人間の脳が根本的に異なる学習をしているのかもしれません。つまり、私たちの学習アルゴリズムが大規模言語モデルとは異なるということです。

そして、もう1つは、このデータを受け取る方法や構造かもしれません。私たちが受け取るデータは、ある程度カリキュラム化されています。子供として単純なデータ、単純な言語から始め、その後、より複雑な文法、両親や同僚などからより複雑なスピーチを聞くようになります。数学を学ぶにしても、簡単なことから始めて、より難しい問題に移行します。一方、言語モデルでは、通常、順序やカリキュラムをそれほど気にしません。ここには複数の異なる仮説があります。

これらのいくつかをテストするために、私たちは5つの異なるデータセットで小さなGPT-2とRoBERTaモデルを学習させました。1つはCHILDESで、これは子供との自然な会話データです。これは文字起こしされています。そして、Tiny Dialoguesと呼ばれる合成版を収集しました。これについては後で詳しく説明します。BabyLMは、さまざまなタイプのデータの多様な混合物です。これにはRedditデータ、Wikipediaデータなどが含まれます。つまり、これは典型的な大規模言語モデルの事前学習データに近いものです。そして、Wikipediaやオープンサブタイトル、つまり映画やテレビの文字起こしでもいくつかのテストを行いました。

Tiny Dialoguesを収集しました。これは、子供としての私たちの学習の多くが他の人々との会話を通じて行われるという事実に触発されました。会話は自然に学習につながります。私たちは誰かと話し、彼らはフィードバックを与え、私たちは会話がどのように進んだかを振り返ります。つまり、それは他者と自己の両方の反省です。さらに、会話は知識の学習だけでなく、倫理や道徳のようなものの学習にもつながります。例えば、両親や教師が子供として、何が正しいか間違っているかを教えてくれます。そして、多くの異なるタイプの人々と多くの異なるタイプの会話ができ、多くの多様性と学習につながります。

私たちが行ったことは、GPT-4を使用して、限られた子供のような制限された語彙で、完全に文法的でカリキュラム化された会話データセットを収集したことです。子供の年齢、会話の異なる参加者などによって異なる例を収集しました。ここに、収集したデータセットのいくつかのデータポイントの例があります。年齢が上がるにつれて、発話や会話がより複雑になり、より長くなり、参加者も年齢に応じて適切に異なることがわかります。

また、カリキュラム実験も実施しました。昇順の年齢順、つまりモデルが最初に2歳の会話を見て、次に5歳の会話、10歳というように順序付けした場合と、降順の順序付けを行った場合です。もしかしたら、言語モデルは何らかの形でより複雑な例から最初に学習する方が良いかもしれません。そしてもちろん、すべてのデータ例をランダムにシャッフルする典型的なベースラインもあります。

基本的な能力をターゲットにしたいくつかの基本的な評価指標があります。1つは基本的な文法的および構文的知識で、もう1つは、より意味的な知識を評価するための単語類似性と呼ばれる自由単語連想指標です。

ここで異なるデータセットから見ると、実際に子供のようなデータでの学習は、BabyLMのようなインターネットデータの異質な混合物よりも悪いようです。両方の指標が大幅に低下しています。特にCHILDES、つまり子供とその保護者との間のより自然な会話データセットで顕著です。

そして、カリキュラムに関しては、モデルに例を提供する順序に関係なく、大きな違いは見られません。これは再び驚くべきことです。なぜなら、人間として、私たちは単純なものからより難しいものへと進むからです。収束挙動または損失曲線をより詳しく見ると、学習損失には、カリキュラムに使用するバケットに応じて、このような周期的なパターンがあることがわかります。しかし、本当に気にする必要があるのは検証損失です。つまり、汎化と学習ですが、これは例を供給する順序に関係なく、まったく同じ傾向を持っています。これは再び非常に興味深い発見です。

全体として、BabyLMのような多様なデータソースは、純粋に子供向けスピーチよりも言語モデルにとってより良い学習シグナルを提供するようです。ただし、私たちのTiny Dialoguesデータセットは、自然な会話データセットを明らかに上回っています。おそらく、そのデータセットが非常にノイズが多いのに対し、私たちのものはGPT-4によって合成的に収集され、クリーンだからです。そして、カリキュラム学習を使用したグローバルな発達順序付けは、パフォーマンスに無視できる影響しか与えないようです。

全体として、子供の効率的な言語学習の責任は、単に彼らがさらされるデータだけでなく、子供の学習の他の側面にあるのかもしれないと結論付けることができます。例えば、マルチモーダル情報のような他のタイプの情報から学習すること、あるいは私たちの脳の学習アルゴリズムが根本的に異なり、言語モデリング技術よりもデータ効率が高いということです。

もっと学びたい方のために、私たちのデータセットはHugging FaceとGitHubで公開されており、論文もarXivに掲載されています。

2.2 大規模研究：2段階事前学習による最適化

Stephen： それでは、より大規模なスケールに移りましょう。人間の子供と同様の少量のデータで学習された小さなモデルを調査しました。では、現在の大規模モデル、数十億のパラメータで数兆のトークンで学習されるモデルについてはどうでしょうか。

私は最近の夏のインターンシップ中に、Nvidiaとともに「Maximize Your Data's Potential: Enhancing LLM Accuracy with Two-Phase Pre-training」というタイトルのプロジェクトに取り組みました。これは、大規模事前学習におけるデータ選択と学習戦略を最適化するためのものです。Llamaのような多くの研究は、さまざまな種類のデータ混合の効果を強調していますが、正確な混合やこれらの決定がどのように行われたかについては、実際には明らかにしていません。一方で、データのブレンディングと順序付けがLLMの効果的な事前学習に不可欠であることは分かっています。これについてもっと明らかにできないでしょうか。これが私たちの研究が行うことです。

まず、私たちは2段階事前学習というこの概念を形式化し、体系的に評価します。そして、これが通常LLM学習で行われている継続的学習よりも改善されることを実証的に示します。継続的学習では、すべてのデータを特定のバケットに分けたり、異なるスケジュールに分けたりするのではなく、単に供給します。

また、これら2つの事前学習段階のためのデータブレンディングの細かいグリッド分析も行います。そして、スケールアップする前に、より小さなトークンカウントでブレンドをプロトタイピングするという概念があります。この2段階事前学習アプローチは、事前学習とポストトレーニングがどのように機能するかに少し触発されています。第1段階はより一般的なデータについてです。つまり、これはより広く学習するためです。より多様なデータについてであり、第2段階は、数学などのより高品質でドメイン固有のデータにシフトします。

しかし、品質と多様性のバランスを両方の段階で取ることが重要です。なぜなら、あるデータセットを過度に重み付けすると、過学習につながる可能性があるからです。

まず、2段階学習は実際に役立つのでしょうか。私たちは、すべての第2段階のブレンド、または2段階事前学習実験が、単に単一段階で継続学習するベースラインを上回ることを発見しました。これは、両方の段階のランダムな混合や、第2段階のアップサンプルされたデータ分布と比較した自然なデータ分布よりも、著しく優れています。

また、これがモデルスケールとデータスケールの両方でスケールできることも示しました。トークンカウントとモデルサイズを拡大すると、単一段階と比較して2段階事前学習でパフォーマンスがさらに向上することを示します。これは、スケールアップする前により小さなデータブレンドでプロトタイピングすることの有効性も強調しています。

さらに、第2段階の期間、つまり第2段階の継続期間を調査しました。つまり、少しの間多様なデータで学習してすぐに数学のような高度に特殊化されたデータに切り替えるべきか、それともより長く待つべきかということです。私たちが発見したのは、パフォーマンスは約40%の地点まで向上し、その後は収穫逓減があるということです。おそらく過学習からです。なぜなら、特殊化されたデータは、より特殊化されており、通常、量が少なく、ウェブクロールデータのようなものと比較して多様性が低いからです。したがって、それが多すぎると、有害または収穫逓減につながる可能性があります。

全体として、慎重なデータ選択と管理を伴う、よく構造化された2段階事前学習アプローチは、さまざまな下流タスクにわたってスケーラビリティと堅牢性を維持しながら、LLMパフォーマンスを最適化するために不可欠であることがわかります。興味がある方のために、この論文のプレプリントもarXivに掲載されています。

2.3 データ戦略からの総合的知見

Stephen： 全体として、これら2つのプロジェクトから得られた全体的な要点、そして私が伝えたかったことは、事前学習のためのデータの効果性は、データの量だけではなく、データの品質、データの順序付けと構造、そして正確にどのように使用するかについてであるということです。

最初のプロジェクトでは、小規模学習におけるグローバルな順序の影響は無視できることがわかりました。しかし、より大規模なスケールでは、段階ベースの学習が非常に効果的であることがわかりました。そして一般的に、スマートなデータの決定は、モデルがタスク全体で汎化するために不可欠です。

つまり、要点は、私たちの研究は、効果的な言語モデリングがデータを蓄積することだけではなく、その構造、品質、特性を活用するよりスマートなデータ組織についてであることを強調しています。そして、データ中心のアプローチを継続的に洗練させることによって、LM学習の未来は、よりスマートで、より効率的で、高度に適応可能なモデルを約束します。

それでは、事前学習後の第2段階であるポストトレーニングに移ります。これについてはChelseaが話します。

3. ポストトレーニング技術

3.1 推論手法（Chain of Thought、Tree of Thought、Program of Thought、問題分解）

Chelsea： それでは、事前学習済みモデルができました。では、特定のタスクや異なるドメインにどのように適応させるのでしょうか。主な戦略には、例えば人間のフィードバックを用いた強化学習のようなファインチューニング、プロンプトベースの手法、またはRAGアーキテクチャや検索ベースの手法などがあります。

主要なアプローチの1つは、Chain of Thought推論と呼ばれるものです。みなさんはもう聞いたことがあると思います。これは本質的に、ステップバイステップで考えるためのプロンプティング技術です。中間ステップを示し、ガイダンスを提供します。これは人間の考え方に似ています。

私たちは通常、問題をその後の複数のステップに分解して、問題自体をよりよく理解するのを助けることを想像できます。Chain of Thoughtのもう1つの利点は、モデルの動作への解釈可能な窓を提供することです。これは、単に応答をプロンプトするだけではなく、モデルの重みにより多くの知識が埋め込まれていることを示唆できます。

これがChain of Thoughtの例です。左側では、ワンショットの方法で問題を解決しようとしており、結果として誤った答えに至ります。右側では、一連の推論チェーンを生成し、最終的に正しい答えに到達します。

これは自然にChain of Thoughtの拡張であるTree of Thoughtにつながります。これは別のプロンプティング技術ですが、Chain of Thoughtが行うような単一の推論パスを生成する代わりに、複数の推論軌跡を考慮します。その後、多数決のような自己評価プロセスを使用して最終的な出力を決定します。画像を見ると、Tree of Thoughtは異なる推論パスを生成し、最後に最良のものを選択することがわかります。

もう1つの方法は、Program of Thoughtです。これは基本的に、中間推論ステップとしてコードを生成します。全体として、これが行うことは、ある種の問題解決技術をコードインタープリタにオフロードすることです。言語をプログラムに形式化して、より正確な答えに到達します。

このような問題分解が異なるタスクに役立つことがわかりました。1つの方法はソクラテス的質問法です。これは基本的に、自己質問モジュールを使用して元の問題に関連するサブ問題を提案し、それらを再帰的な方法で解決します。例えば、質問が「何が風船を満たすか」である場合、これは次のサブ質問につながります。「何が風船を浮かせることができるか」。元の問題をその後の問題に分解することで、最終的により良く解決できます。

最後に、もう1つの問題分解手法は計算グラフを通じてです。これは基本的に、構成的タスクを計算グラフとして定式化し、推論を異なるサブプロシージャとノードに分解します。ここでの重要な要点は、トランスフォーマーが推論をサブグラフに還元することで構成的タスクを解決できるということです。そして、これは何らかの体系的な問題解決スキルを開発することなく行われます。

3.2 強化学習とフィードバック機構（RLHF、DPO、RLAIF、GRPO、KTO、パーソナライズ）

Stephen： Chelseaは、Chain of Thoughtとそれを拡張または改善するすべてのものについて触れました。それは主に推論時のプロンプトベースの手法です。次に、強化学習とフィードバック機構について話します。これらは通常、事前学習済みモデルをさらにファインチューニングするようなことに使用されます。

最も人気があるのは、人間フィードバックによる強化学習、つまりRLHFと呼ばれるものです。これは人間のフィードバックから直接報酬モデルを学習します。行うことは、事前学習済みモデルを取り、複数の応答を生成させます。その後、通常は応答のペアを取り、人間にどちらを好むかを評価してもらいます。そして、基本的にPPOのような強化学習最適化アルゴリズムを使用して、これに基づいて報酬モデルを学習できます。

PPOの改善版としてDPO、つまり直接選好最適化があります。これは、別の報酬モデルを持つのと比較して、人間がより高くランク付けする出力をモデルが優先するように、より直接的に学習します。これははるかに効率的です。基本的には、報酬を損失関数自体により密接に結びつけると考えることができます。LLMが好まれる応答を生成する尤度を最大化し、人間が好まなかった応答の尤度を最小化するのを助けることによってです。

RLHFの拡張として、RLAIFというものがあります。これは単純に人間をAIに置き換えるものです。通常、どの応答を好むかについて正確な選好判断を提供できる、かなり優れたLLMを持っています。これは基本的に人間のアノテーターと比較してコストが低くなります。同じことを行います。LLMの選好に基づいて報酬モデルを学習します。

彼らが発見したのは、実際に人間の評価者がRLAIFでチューニングされた出力をRLHFと同等程度だと判断したことです。これは、人間のフィードバックと比較して、よりスケーラブルでコスト効率的なアプローチであることを示しています。しかし、1つの欠点があります。それは、選好を提供するために使用しているLLMの能力または判断の正確性に本当に依存するということです。非常に無能または非常にノイズの多いLLMを使用している場合、それはポストトレーニングを損なうことになります。

次は、最近非常にホットになっているもので、DeepSeekのR1や数学モデルなどの他のモデルで使用されました。これはグループ相対的方策最適化、つまりGRPOと呼ばれます。これはPPO最適化アルゴリズムの変種ですが、単に応答のペアをランク付けするのではなく、実際に応答のグループをさまざまな順序でランク付けします。これはより豊かなフィードバックを提供し、よりきめ細かく、単に出力のペアをランク付けするよりもはるかに効率的です。

これは学習を安定化させるのに役立ちます。これがDeepSeekがはるかにデータと計算効率が高い理由の1つです。また、彼らはLLMの推論、特に数学のようなものでさえ改善することを発見しました。

RLHFなどの他のバリエーションもあります。1つはKahneman-Tversky最適化と呼ばれるもので、正しく発音しているかわかりませんが、KTOです。これは、損失回避のような人間のバイアスを考慮するために、ポストトレーニングで通常使用される標準損失関数を修正します。人間として、私たちは通常、ポジティブな結果を達成することよりも、災害的またはネガティブな結果を最小化することをより気にします。

ほとんどの場合、私たちはよりリスク回避的ですが、これは人によって非常に依存します。彼らはAIに、ネガティブな結果を避けることによって同様の方法で振る舞うことを奨励します。これは基本的に、これを反映するように学習プロセスを調整します。彼らは、これがさまざまなタスクでパフォーマンスを改善できることを示しました。タスクに依存しますが、全体として、特定のタスクでよりヒューマンライクな動作を示します。

これらは、RLHFやこの種の強化学習とフィードバックベースのアルゴリズムのサブセットに過ぎません。終了する前に触れたい1つは、変分的選好学習によるRLHFのパーソナライズ化と呼ばれるものです。著者は、異なる人口統計が異なる選好を持つことを発見しました。典型的なRLHFはすべてを一緒に平均化します。

著者が行うことは、すべてのユーザー選好プロファイル、例えば子供、大人などの異なる人口統計のために潜在変数を導入します。そして、これらの潜在ベクトルまたは要因に条件付けられた報酬モデルを学習します。これは、彼らが多元的アライメントと呼ぶものにつながります。これは、これらの特定の人口統計またはサブグループの報酬精度を向上させるものです。

つまり、単一のモデルがその動作を異なる選好、選好プロファイル、そして異なる人口統計またはグループの人々に適応させることができます。それでは、自己改善について話すために、Chelseaに戻します。

3.3 自己改善AIエージェント（セルフリファインメント、セルフリフレクション、ReAct、LATS）

Chelsea： それでは、自己改善AIエージェントについて少し話しましょう。AIエージェントとは正確には何でしょうか。本質的には、環境を知覚し、決定を下し、特定の目標を達成するために行動を取るシステムです。通常、この目標は人間によって与えられます。例えば、ゲームプレイ、タスク解決、研究支援などです。

AIエージェントにはいくつかの構成要素があります。1つ目は目標指向であることです。2つ目は、独自の決定を下すことができます。3つ目は、反復的に行動できます。4つ目は、通常何らかのメモリコンポーネントと状態追跡コンポーネントがあります。そして最後に、API呼び出しや関数呼び出しのようなツールを使用できるエージェントもあります。そして最後に、独自に学習し適応できます。

自己改善について言えば、基本的にモデルは自分自身の出力を振り返ることができ、これが時間の経過とともに反復的な改善につながります。これは通常、いくつかのステップで構成されます。自分自身の内部状態に対する何らかの反省があります。自分自身の推論プロセスの説明があります。自分自身の出力の品質を評価できます。そして最後に、複数ステップの推論チェーンをシミュレートすることもできます。

1つの技術はリファインメントです。これは、LLMが自分自身の出力を批評し改善する反復的プロンプティング技術です。初期応答を生成し、その後、時間の経過とともにそれを洗練させます。これはフィードバックループを使用して全体的なパフォーマンスを向上させます。

例えば、何らかの答えを生成し、その後、弱点や矛盾について自己評価します。そして最後に、自分自身の自己批評手法に基づいて応答を洗練させます。

別の技術はセルフリフレクションと呼ばれます。これは、モデルが過去の失敗から学習し、過去の失敗に基づいて将来の応答を調整するものです。通常、これには何らかの長期記憶コンポーネントがあります。例えば、モデルはまず自分自身の出力から弱い応答を検出します。その後、自分自身の間違いを振り返り、それに対する改善された答えを生成します。そして、複数の反復にわたって、精度と推論が時間の経過とともに向上するはずです。

別の技術はReActと呼ばれ、これは本質的に推論と、API呼び出しやデータベースからの検索のような外部アクションを組み合わせるものです。これは基本的に、環境と動的に相互作用できるモデルです。複数の行動シーケンスを取ることからフィードバックを得て、それを出力に組み込みます。

例えば、モデルは推論計画を生成し、その後、ウェブ検索や何らかのAPI呼び出しのような外部ツールを呼び出します。そして、このモデルは取得したデータを最終応答に組み込みます。

そして最後に、これはLanguage Agent Tree Search、つまりLATSと呼ばれるフレームワークにつながります。基本的にLATSは、複数の計画経路を組み込むためにReActフレームワークを拡張するものです。これは、Chain of ThoughtとTree of Thoughtの類似と考えることができます。すべてのパスからフィードバックを集めて、将来の検索プロセスを改善します。これは、ある種の言語的な強化学習に触発された技術のようなものです。

これはモンテカルロ木探索を使用して計画軌跡を最適化します。木構造において、すべてのノードは状態を表し、すべてのエッジはエージェントが取ることができる行動を表します。例えば、n個の最良の新しい行動シーケンスを生成し、それらをすべて並列で実行します。その後、何らかのセルフリフレクション技術を使用してそれぞれをスコアリングし、全体として最良の状態から探索を続け、過去のノードの確率を更新します。

4. Transformerの応用：ビジョンと神経科学

4.1 Vision Transformers（パッチ分割、CLIP、視覚言語モデル）

Karan： 次に、言語以外のトランスフォーマーの他のいくつかの応用について話します。Vision Transformersから始めますが、これはビジョンの世界を席巻しました。ここでの論理は、トランスフォーマーはシーケンスを入力として受け取りますよね。しかし、画像はシーケンスではありません。しかし、ViT論文の著者が考え出したのは、画像をパッチに分割することでした。これらは埋め込まれてシーケンスを形成できます。

これを単純なトランスフォーマーに通すことで、非常に良い結果が得られました。例えば、分類では、最後にMLPヘッドを追加するだけです。なぜCNNがこの分野で主流であるのに、トランスフォーマーをこの問題に適用するのかと疑問に思うかもしれません。主な理由は、非常に大規模なデータセット、例えば数千万の例がある場合、トランスフォーマーはより少ない帰納バイアスをもたらすからです。

CNNは局所性を仮定しており、ピクセルがグループ化されていると仮定します。一方、トランスフォーマーでは、画像をシーケンスとして扱うことで、学習させるのに十分なデータがある場合、より良い結果を見ることができます。

これによって影響を受けた一般的なアーキテクチャの1つはCLIPでした。これは画像エンコーダーにViTを使用しています。これはGPT-4oや他の視覚言語モデルのような基礎となっています。本質的には対照学習を通じて機能します。ペアになった画像とテキストペアのデータセットを取り、両方のエンコードされた表現を整列させるようにモデルを学習させます。猫の画像とcatという単語がある場合、それらの埋め込みを整列させることを学習できます。

そして、先ほど述べたように、これらはGPT-4や4oのような視覚言語モデルに適用されています。これらの学習方法は、エンコードされた画像とテキストを連結し、異なる段階で学習できるようにします。これにより、モデルは両方を考慮して応答することを学習します。これらはベンチマークやタスクで非常によく機能しており、例えば、ここに示したようなテスト問題などです。

次に、神経科学における私の研究について少し話します。これはViTを他の種類のデータに適用するものです。私の分野の主流は、機能的磁気共鳴画像法、つまりfMRIです。本質的に、これは脳の各ボクセル部分が特定の時点で使用している酸素の量を捉えます。これは、脳で起こっている活動に対する非常に詳細なプロキシを提供します。これは病気の診断に使用できます。より良い認知理解のために、さまざまな量のデータを捉えることができます。

しかし、これは非常に高次元です。脳には100万程度のボクセル、または10万のボクセルがあるかもしれません。したがって、このデータをトランスフォーマーモデルで使用するための最初のステップは、通常、よく知られた領域にわたって平均化するか、単にボクセルをグループ化することです。これにより、学習できる計算上より扱いやすい数のパーセルが得られます。

この分野の伝統的なツールは、線形のペアワイズ相関マップを使用することでした。これだけで、パーキンソン病のようなものの非常に良い診断を得るのに十分でした。しかし、大量のコンピュータビジョン技術の出現により、これらのタスクにより大きく洗練されたモデルを適用できます。

この分野の大規模な研究の1つのクールな部分は、脳を異なる機能的ネットワークに分割することです。例えば、視覚システム、白昼夢ネットワーク、コントロールなどです。そして、私たちの研究を導くためにこれをどのように使用するかについて説明します。

先ほど述べたように、初期のML モデルは線形相関マップを取るだけで、データについて多くの仮定を立て、回帰や分類タスクのために典型的なニューラルネットワークを適用するか、場合によっては脳のさまざまな部分がどのように相互作用するかをより深く理解しようとするためのグラフベースの分析を行いました。

コンピュータビジョンでは、生データを取って、それをトランスフォーマーモデルに投げるだけで、事前学習目標として非常によく機能します。私たちが行うことは、時間を通じて何らかの数のROIがあるとしましょう。そのデータの一部をマスクアウトし、残りのデータをトランスフォーマーモデルに通し、この部分を予測させることができます。

これを大規模なデータセットとすべてのROIにわたって繰り返します。これは、このタスクに対して非常に良い自己教師あり学習目標を提供します。自己教師ありというのは、本質的に、ここにペアになったラベル付きデータがないことを意味します。私たちは本質的に生データを使用し、それから直接学習できるように目標を設定しているだけです。

このようなモデルを学習させると、モデル内に密な表現があり、患者の属性や病気のリスクを予測するようなさまざまなタスクに下流で適用できます。また、モデルが学習した重みを見て、脳ネットワークの分析を行うこともできます。

簡単に言うと、私たちのアプローチは本質的に、脳全体の活動を取り、小さな領域、例えば視覚システムを分割し、マスクされていない部分をトランスフォーマーモデルに渡し、マスクされた部分を予測することを学習させ、これをグラウンドトゥルースと比較して学習目標を提供することで構成されます。

ここで使用する重要なことの1つはクロスアテンションです。以前、言語について話したことは、現在見ているシーケンスに注目するセルフアテンションでした。クロスアテンションでは、2つの異なるシーケンスがあります。例えば、機械翻訳では、1つは英語で、1つはフランス語です。本質的に、単一のシーケンスだけではなく、2つのシーケンス間でアテンションを適用します。

私たちの最も基本的なアーキテクチャは、単一のクロスアテンションデコーダーを通じてこれを利用します。非常に小さなモデルを持つことで、より良い解釈可能性が得られます。先ほど述べたように、このモデルはマスクされていない脳領域からマスクされた脳領域を予測することを学習するだけです。これを行うと、再びアテンションの重みを分析して、ネットワークのより深い理解を得ることができ、また、これを下流タスクに適用することもできます。

いくつかのモデリング結果がここにあります。異なる患者からの脳活動をプロットしましたが、モデルがグラウンドトゥルースに非常によくマッチしていることがわかります。ここに示した2つのネットワーク、感覚や意思決定に関与する顕著性ネットワークと、白昼夢や特定のタスクを行っていないときに脳の情報を再現することに責任を持つデフォルトモードネットワーク、つまりDMNです。

下部には、このモデルのアテンションの重みがあります。これを他のすべてのネットワークで分割しました。例えば、左側で顕著性ネットワークを予測する場合、モデルから、これがデフォルトモードとコントロールネットワークに大きく依存していることがわかります。これにより、異なる脳ネットワークがどのように接続されているか、または脳内で情報をどのように共有しているかについてのより良い理解が得られます。

しかし、視覚のような他のネットワークでは、これらはより単一的で、非常によく予測できません。または、記憶に関与する皮質下領域も非常によく予測できません。これはすべて素晴らしいことで、脳活動を予測できますが、このモデルで何ができるでしょうか。モデルの1つのコンポーネントをパーキンソン病の予測に対応する学習可能なトークンに置き換えるだけで、このモデルを使用してその疾患を予測できます。

右側を見ると、ラベル付きデータセットでいくつかのファインチューニングを行った後、モデルの埋め込みにいくつかのクラスタリングが見られます。これはこの病気を予測するのに70%近い精度を得ることに対応しており、これは先ほど話した相関ベースの手法や線形仮定を使用するよりもはるかに高いです。

4.2 神経科学への応用（fMRIデータ、自己教師あり学習、脳ネットワーク分析、疾患予測）

Karan： すでに前のセクションで神経科学への応用について詳しく説明しましたので、ここで重要なポイントをまとめます。

私たちの研究では、機能的磁気共鳴画像法、つまりfMRIデータを使用しています。これは脳の各ボクセル部分が特定の時点で使用している酸素の量を捉え、脳で起こっている活動に対する非常に詳細なプロキシを提供します。このデータは病気の診断に使用でき、より良い認知理解のためにさまざまな量のデータを捉えることができます。

データの高次元性に対処するため、私たちは通常、よく知られた領域にわたって平均化するか、単にボクセルをグループ化します。これにより、学習できる計算上より扱いやすい数のパーセルが得られます。伝統的なアプローチは線形のペアワイズ相関マップを使用していましたが、トランスフォーマーモデルを使用することで、より洗練された分析が可能になります。

私たちのアプローチの核心は自己教師あり学習です。時間を通じた脳のROI（関心領域）データの一部をマスクアウトし、残りのデータをトランスフォーマーモデルに通してマスクされた部分を予測させます。これを大規模なデータセットとすべてのROIにわたって繰り返すことで、非常に良い学習目標を提供します。自己教師ありというのは、ペアになったラベル付きデータがなく、生データを使用してそれから直接学習できるように目標を設定しているということです。

脳ネットワーク分析では、クロスアテンション機構を利用しています。私たちの最も基本的なアーキテクチャは、単一のクロスアテンションデコーダーを使用します。小さなモデルを持つことで、より良い解釈可能性が得られます。このモデルはマスクされていない脳領域からマスクされた脳領域を予測することを学習します。

モデリング結果を見ると、異なる患者からの脳活動において、モデルがグラウンドトゥルースに非常によくマッチしていることがわかります。例えば、感覚や意思決定に関与する顕著性ネットワークと、白昼夢や特定のタスクを行っていないときに脳の情報を再現することに責任を持つデフォルトモードネットワークについて、良好な予測結果を得ています。

アテンションの重みを分析することで、脳ネットワーク間の接続についての深い洞察が得られます。例えば、顕著性ネットワークを予測する場合、モデルから、これがデフォルトモードとコントロールネットワークに大きく依存していることがわかります。これにより、異なる脳ネットワークがどのように接続されているか、または脳内で情報をどのように共有しているかについてのより良い理解が得られます。

ただし、視覚のような他のネットワークはより単一的で、非常によく予測できません。また、記憶に関与する皮質下領域も非常によく予測できません。

疾患予測への応用では、モデルの1つのコンポーネントをパーキンソン病の予測に対応する学習可能なトークンに置き換えることで、このモデルを使用してその疾患を予測できます。ラベル付きデータセットでファインチューニングを行った後、モデルの埋め込みにクラスタリングが見られ、この病気を予測するのに70%近い精度を達成しました。これは、先ほど話した相関ベースの手法や線形仮定を使用するよりもはるかに高い精度です。

5. 現在の課題と継続学習の未来

5.1 Transformerの限界（効率性、解釈可能性、スケーリングの収穫逓減）

Stephen： これらのトランスフォーマーモデルといくつかの応用についての背景が理解できたので、未来と次に何が来るかについて話しましょう。全体として、これらのトランスフォーマーモデルは、すべての産業とセクターにわたって、はるかに多くの応用を可能にします。これには、汎用エージェント、より長い動画の理解と生成、金融とビジネスセクターにわたる応用が含まれます。

例えば、医師GPTや弁護士GPT、あるいは任意の分野のGPTのようなドメイン固有の基盤モデル、そして潜在的な現実世界への影響としては、パーソナライズされた教育と個別指導システム、高度な医療診断、環境モニタリングと保護、リアルタイムの多言語コミュニケーション、そしてインタラクティブな環境とゲーミング、例えばノンプレイヤーキャラクターなどがあります。

しかし、何が欠けているのでしょうか。どのような情報が必要で、将来何を開発できるでしょうか。現在、私たちには欠けているものがあります。計算の複雑性を減らすこと、人間の制御可能性を向上させること、人間の脳との調整、異なるドメインにわたる適応学習と汎化、そして最後に、直感的物理学や常識のような多感覚・マルチモーダルな具現化です。

これらは、汎用人工知能を開発するための障壁と考えることができるかもしれません。これらは現在のトランスフォーマーモデルのいくつかの限界です。欠けている他のものには、ニューラルチューリングマシンのような無限で外部的なメモリ、継続的または生涯学習のような無限の自己改善能力が含まれます。

これは、現時点で複製できない人間の学習のもう1つの中心的な要素です。好奇心、欲望、目標を含む完全な自律性、長期的な意思決定、そして感情的知性、社会的理解、そしてもちろん倫理的推論と価値観の調整です。

トランスフォーマー、大規模言語モデル、そして一般的なAIに関する残りの弱点や課題はまだ数多くあります。これらのいくつかについて簡単に触れます。最初は、先ほど述べた効率性です。小型化すること、または携帯電話、スマートウォッチなどで実行できる小さなLLMやモデルを持つことができるようにすることです。

これは最近の大きなトレンドで、日常的な応用や目的のためにLLMを使用することです。そして、繰り返しますが、小さなデバイスでそれらを迅速かつ簡単に実行できるようにしたいのです。現在、DeepSeek、Llama、Mistralのような、より小さくより効率的なオープンソースモデルに関する研究がますます増えています。しかし、それらはまだやや大きく、少し高価です。特にファインチューニングを検討している場合はそうです。

それらはまだすべての人がアクセスできるわけではありません。特により小さなデバイスでは。したがって、将来的には、どのデバイスでもローカルでこれらのモデルをファインチューニングまたは実行する能力を目指したいと考えています。

2つ目は、LLMがスケールアップするにつれて、インターネット全体にわたる数兆のトークンで学習された数兆のパラメータによって、これが理解または解釈が困難な巨大なブラックボックスになるということです。XYZを解決するように求めて、それが答えABCを出したとき、舞台裏で正確に何が起こっているのかを知ることは困難です。なぜそれらの答えを選んだのか、どのようにしてそこに到達したのか、などです。

LLMの解釈可能性に関するより多くの研究は、それらを改善する方法、制御するより簡単な方法、そしてより良い調整についてのより良いアイデアを私たちに与えます。例えば、安全でないまたは非倫理的な特定の出力を生成することを防ぐことができるようにすることです。

最近さらに人気が高まっているこの分野は、メカニスティック解釈可能性と呼ばれるものです。これは、MLモデルの個々のコンポーネントまたは操作が、時には個々のノードレベルまで、つまり非常に細かいレベルで、その全体的な意思決定プロセスにどのように貢献するかを理解しようとするものです。目標は、繰り返しますが、このブラックボックスを開梱して、それらが舞台裏でどのように正確に機能するかについての明確な洞察を得ることです。

次に、単にスケールアップすることで、すでに収穫逓減に近づいている、または見ているように感じます。より多くのデータでより大きなモデルは、万能の解決策ではないようです。万能で凍結された事前学習済みモデルは、すでに収穫逓減につながり始めています。したがって、繰り返しますが、事前学習のパフォーマンス、つまり最初の半分、LLMの学習の最初の半分は、おそらく飽和しています。

したがって、ポストトレーニング手法にもっと焦点が当てられています。私たちが話したすべてのこと、フィードバックとRL機構、Chain of Thoughtのようなプロンプティング手法、自己改善と洗練などです。しかし、これらのポストトレーニング機構はすべて、基礎モデルの全体的なパフォーマンスまたは能力によって根本的に制限されることになります。

したがって、事前学習は根本的にモデルに基礎的な知識と能力を与えるものであると主張できます。したがって、スケーリング限界に達しているからといって、事前学習の調査を停止すべきではありません。さらに、ポストトレーニングが多すぎると、実際に問題につながる可能性があります。これは壊滅的忘却と呼ばれ、モデルが以前に学習したことを忘れてしまいます。

例えば、事前学習中に学習したことです。なぜなら、ポストトレーニング中に新しいドメインや新しいタスクで大量の新しい情報を過負荷にしているからです。では、このスケーリング則の限界をどのように突破するのでしょうか。いくつかの潜在的な調査事項としては、新しいアーキテクチャがあります。Mamba、状態空間機械のようなさまざまなものがあります。そのようなアーキテクチャです。

そして、非トランスフォーマーアーキテクチャに関するより多くの調査を見ることができれば良いでしょう。このクラスがTransformers Unitedであることを考えると、少し皮肉ですが。しかし、私たちは常により多様性と枠にとらわれない思考を奨励します。また、高品質データとスマートなデータの順序付けと構造化戦略について、私が話したすべてのこと、そして全体的に改善された学習手順、改善されたアルゴリズム、損失関数、最適化アルゴリズムなどです。

先進的な能力を小さなモデルにもたらすことができることは、もう1つの目標です。さらに、認知科学と神経科学に触発された研究、KaranとIが最近行ったいくつかのことを含む、より多くの理論的および解釈可能性研究を奨励します。

そして、次のステップは、単に大きいだけでなく、よりスマートでより適応可能なモデルになるでしょう。

5.2 継続学習の重要性とアプローチ

Stephen： 次に、AIと人間の間のギャップを埋める1つの主要な弱点があると思います。それは、継続的または生涯学習です。デプロイ後、事前学習された後も、暗黙的なフィードバックや現実世界の経験などを使用して継続的に改善できるAIシステムです。

本質的に、これは無限で恒久的な根本的自己改善です。RAGや検索、つまりテスト時に検索できる検索データベースに知識を入れることについて話しているのではありません。モデルの脳や重みを継続的に更新することについて話しています。これは私たちに似ています。私たちは毎日学習しています。

私は今、あなたと話すことで学習しています。私は日常生活を送る中で、他の誰かと話すたびに学習します。しかし、これらのモデルは、凍結されたまたは事前学習された後、それは実際には起こりません。彼らが真に学習する、または彼らの脳や重みが更新される唯一の方法は、ファインチューニングを通じてです。そして繰り返しますが、私たちはそれをしませんよね。私たちは3ヶ月ごとに椅子に座って、誰かにインターネットを読み直してもらうようなことはしません。

したがって、繰り返しますが、これはほとんど無駄な作業です。現在、推論中、モデルは実際には学習しておらず、重みを更新していません。ChatGPTがあなたと話しているとき、それは真にその脳や重みを更新しているわけではありません。これは非常に困難な問題ですが、私たちの意見では、おそらくAGIまたは真にヒューマンライクなAIシステムへの鍵の1つである可能性があります。

これに取り組もうとするさまざまな現在の研究があります。より大きなモデルからのトレースに基づいてより小さなサロゲートモデルをファインチューニングするようなものがあります。モデル蒸留のようなもの、改善などに関連する多くのものです。しかし、これは真の継続学習ではありません。

いくつかの質問は、真の生涯学習を潜在的に可能にするメカニズムは何でしょうか。これは勾配更新でしょうか。つまり、実際に脳を更新することです。アーキテクチャの特定のノードをターゲットにするようなものでしょうか。特定のメモリアーキテクチャや、継続的な更新と学習のみに焦点を当てたニューラルネットワークのさまざまな部分を持つようなものでしょうか。あるいは、メタ学習のようなもので、より広い範囲のものを見ることでしょうか。

少し注目を集めている1つの研究ラインは、モデル編集です。これはメカニスティック解釈可能性に関する研究に関連しています。これは、モデル全体を更新する代わりに、新しい事実や新しいデータポイントが与えられたときに、更新すべきモデル内の特定のノードまたはニューロンをターゲットにできるかどうかということです。

Rank-One Model Editing、つまりROMEと呼ばれる1つの研究は、因果介入メカニズムを通じてこれを試みます。どのニューロン活性化が特定の事実予測に最も対応するかを決定し、それらを適切に更新します。

しかし、おそらく推測できるように、これには多くの弱点があります。まず、これは主に知識ベースのことや単純な事実に対して機能します。モデルの実際のスキルや能力を更新したい場合はどうでしょうか。一般的に数学がより得意になってほしい、人間のような高度な類推推論がより得意になってほしい場合です。

そうすると、事実予測に基づくモデル編集のようなものは機能しないようです。2つ目は、これらは一度に1つの事実をターゲットにしています。したがって、関連する事実に基づいて、これらの変更を他のノードに伝播することは容易ではありません。

例えば、誰かの母親について、その人について事実を更新したいとしましょう。そうすると、その人の兄弟についても事実を更新すべきです。なぜなら、彼らは同じ母親を持っているからです。しかし、このようなアプローチは、元の質問の人物についてのみ更新し、親族のいずれについても更新しません。これは一例に過ぎません。

したがって、継続学習において最近派生した他の多くの研究があり、この分野がより多くの研究を見ていることは良いことです。これらのいくつかを非常に簡単に説明します。1つはMEMITと呼ばれるもので、これは先ほど述べたROMEに直接関連していますが、事実的知識の大量編集です。

したがって、一度に単純な事実やメモリの代わりに、先ほど述べたように互いに関連しているかもしれない数千もの事実を同時に修正できます。これは有用です。CHEM、つまりContinue Evolving from Mistakesのようなものがあります。これは実際に基本的な間違いを特定します。Chelseaが話していた自己改善にやや似ていますが、自己改善するためにモデルを段階的に更新します。

Lifelong Mixture of Expertsのようなものがあります。したがって、固定されたMixture of Expertsアーキテクチャを持つ代わりに、時間の経過とともに異なるドメインのために継続的に新しいエキスパートを追加します。一方で、壊滅的忘却を避けるために、もはや有用でないまたは更新する必要がない過去のエキスパートを凍結する可能性があります。これは非常にスマートなアプローチです。

CLOBと呼ばれる別のものがあります。これは、過去の知識をコンパクトなプロンプトメモリに要約することで、モデルの重みを更新することなく、プロンプティングのみを使用して継続的なタスク学習を可能にします。ただし、この研究の批判ではありませんが、繰り返しますが、これは技術的には脳やモデルの根本的な能力を更新しているわけではありません。したがって、これはよりプロンプトのみのアプローチです。

そして、これらの別のものはProgressive Promptsと呼ばれ、これは繰り返しますが、各タスクのためにソフトプロンプトベクトルを変更し、それらを段階的に圧縮して一緒に構成します。LLMが重みの更新や壊滅的忘却なしに継続的に学習できるようにします。しかし、繰り返しますが、私の意見では、真の継続学習は何らかの形でモデルの脳や重みを更新すると思います。

5.3 まとめ

Stephen： それでは、主に私たちの講義は以上です。トランスフォーマーの簡単な概要、それらがどのように機能するか、事前学習、特にそのためにデータがどれほど重要であるか、さまざまなポストトレーニング技術、フィードバック機構、Chain of Thoughtのようなプロンプティング機構、自己改善、神経科学やビジョンへのいくつかの応用などについて説明しました。そして、継続学習の欠如、データ効率性、携帯電話でこれらのモデルを実行できるようにスケールダウンできることなどのような、いくつかの残りの弱点についても触れました。

今回の講義を通じて強調したかった重要なポイントをまとめます。まず、トランスフォーマーアーキテクチャは、言語、ビジョン、神経科学、生物学など、ほぼすべての分野で革命をもたらしており、その基本的なメカニズムである単語埋め込み、セルフアテンション、位置エンコーディング、マルチヘッドアテンションは、現代のAIシステムの基盤となっています。

事前学習においては、データの量だけでなく、その品質、構造、順序付けが極めて重要であることが分かりました。小規模研究では子供向けデータだけでは不十分で多様性が必要であること、大規模研究では2段階事前学習が単一段階よりも優れていること、そして第2段階の期間は約40%が最適であることを示しました。

ポストトレーニング技術は、モデルの能力をさらに引き出すために不可欠です。Chain of ThoughtやTree of Thoughtのような推論手法は、モデルに段階的な思考プロセスを与え、解釈可能性を向上させます。RLHF、DPO、RLAIF、GRPO、KTOなどの強化学習とフィードバック機構は、人間の好みや異なる人口統計の選好に合わせてモデルを調整します。そして、セルフリファインメント、セルフリフレクション、ReAct、LATSなどの自己改善技術は、AIエージェントが独自に学習し適応する能力を示しています。

しかし、依然として重要な課題が残っています。効率性の問題、つまりより小さなデバイスで実行できるモデルの必要性、解釈可能性の向上、特にメカニスティック解釈可能性を通じてブラックボックスを理解すること、そしてスケーリングの収穫逓減に直面している現状です。単に大きくするだけでは限界があり、新しいアーキテクチャ、より賢いデータ戦略、改善されたアルゴリズムが必要です。

そして最も重要な課題の1つは、継続学習または生涯学習です。人間のように、展開後も継続的に学習し、重みを更新できるシステムを開発することが、真にヒューマンライクなAIシステム、あるいはAGIへの鍵となる可能性があります。現在のモデル編集やプロンプトベースのアプローチには限界があり、真の継続学習には、モデルの脳や重みを適切に更新する新しいメカニズムが必要です。

私たちの研究は、効果的な言語モデリングがデータを蓄積することだけではなく、その構造、品質、特性を活用するよりスマートなデータ組織についてであることを強調しています。そして、データ中心のアプローチを継続的に洗練させることによって、LM学習の未来は、よりスマートで、より効率的で、高度に適応可能なモデルを約束します。次のステップは、単に大きいだけでなく、よりスマートでより適応可能なモデルになるでしょう。

Stanford CS25: V5 I Overview of Transformers

April 1, 2025 Brief intro and overview of the history of NLP, Transformers and how they work, and their impact. Discussion about recent trends, breakthroughs, applications, and current challenges/weaknesses. Slides: https://docs.google.com/presentation/d/16tMMBUjPnqw-PvxF8xzu2m1Epdo1fH7nXWlt3mt2q5w/edit?slide=id.gea1aecfd7a_0_0#slide=id.gea1aecfd7a_0_0 Speakers: Steven Feng Karan Singh Jenny Duan Chelsea Zou More about the course can be found here: https://web.stanford.edu/class/cs25/ View the entire CS25 Transformers United playlist: https://www.youtube.com/playlist?list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM

youtu.be

Stanford CS25: V5 I Overview of Transformers