2025-06-03 Stanford CS336 Language Modeling from Scratch: 現代LLMスケーリングの実践手法とμP理論の深層解析

出展元

https://youtu.be/OSYuUqGBQxw?si=snknHsM_Ydj3l9Af

キーワード

スケーリング法則μP（maximal update parameterization）Chinchilla分析WSD学習率スケジューリング

初回調査日

Jun 16, 2025 1:59 PM

※本記事は、Stanford CS336 Language Modeling from Scratchコースの「Lecture 11: Scaling laws 2」の内容を基に作成されています。本講義は、Percy Liang准教授（コンピューターサイエンス准教授、Foundation Models研究センター（CRFM）ディレクター）とTatsunori Hashimoto助教授（コンピューターサイエンス助教授）によって提供されています。

コースの詳細情報については https://stanford-cs336.github.io/spri... でご覧いただけます。スタンフォード大学のオンラインAIプログラムについては https://stanford.io/ai をご参照ください。本記事では、講義の内容を詳細に要約しておりますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講義動画をご視聴いただくことをお勧めいたします。

本講義は、Stanford Onlineを通じて提供されており、Stanford Online（https://online.stanford.edu/ ）では、スタンフォード大学の教員によって開発された幅広い学位プログラム、単位認定教育、専門資格プログラム、および無料公開コンテンツのカタログを提供しています。Stanford Onlineは、Stanford Engineering Center for Global & Online Education（CGOE）によって運営・管理されており、スタンフォード大学全体の教員と協力してグローバルな教育アクセスの拡大に取り組んでいます。

1. 講義の概要と動機

1.1 講義の目的と構成

今日は第2回目、そして最後のスケーリング法則に関する講義です。今日の講義は、これまでよりもケーススタディと詳細に焦点を当てた内容になります。私は2つの別々のテーマを扱う予定です。

最初のテーマでは、モデル構築の一環として慎重なスケーリング法則研究を行った複数の論文を詳しく検討していきます。これらの論文を通じて、現代の言語モデル構築者がスケーリング法則をどのように設計プロセスの一部として活用しているかを皆さんに伝えたいと思います。

前回の講義と今回の講義における動機は、大規模モデルをスケーリングするための最良の実践方法を理解することです。私たちは、適切なハイパーパラメータと良いアーキテクチャ選択を持つ大規模言語モデルを構築したいと考えています。私は既にChinchillaについて説明し、これらの検証の一部としてスケーリング法則を使用することについて話しました。

しかし、皆さんがスケーリング法則に対して正当に懐疑的な疑問を持つべきだと思います。これはlog-logプロット上での曲線フィッティングですが、前回の講義で私が言ったほど本当に良いものなのでしょうか。Chinchillaのスケーリング法則へのアプローチは実際に機能するのでしょうか。皆さんは課題でこれを確認しています。isoflop分析を行えば、それは本当に適切なトークンのトレードオフについて教えてくれるのでしょうか。このようなものを使って本当に最適な学習率を設定できるのでしょうか。そして、うまくスケールするために特定のアーキテクチャやパラメータ化を選択すべきなのでしょうか。

前回の講義で詳細なスケーリング研究について議論した最新の論文は、DeepMindのChinchilla論文でした。その後、ChatGPTが登場しました。そして大規模言語モデル構築の競争環境は本当に変化しました。人々はデータやスケーリング、これらすべてのことについて何も公表しなくなりました。非常に秘密主義的になったのです。

私は以前にフロンティア研究所の何人かの人々と話をして、スケーリングについて何をしているのかと尋ねたことがあります。彼らは「いや、私たちがスケーリングについて何をしているかは一切教えません」と言いました。そのため、実際にスケーリングがどのように行われているかについては、他の情報源に頼らなければなりません。

いくつかの適切に実行された大規模モデルでスケーリングを行ったものがありました。昨年のこの講義では、Cerebras-GPT、DeepSeek LLM、MiniCPMを取り上げました。素敵な補足として、昨年は私がこれらの中国のモデルについて取り上げる理由を強く正当化しなければなりませんでした。しかし今年は、幸いなことに、皆さんは既にDeepSeekについて聞くことに興奮していると思うので、私がこれが聞くべき正しいことだと納得させる必要はありません。

それ以来の年月で、私は登場した多くのモデルを見てきました。実際、新しいスケーリング法則の洞察と論文に関しては、はるかに少なくなっています。昨年の後半に登場したLlama 3からのいくつかの結果、中国のMoEモデルであるHunyuan-Large、そして今年登場した線形時間ハイブリッド注意モデル、または長コンテキストモデルであるMiniMax 01について簡単に言及します。

これら3つのモデルすべてにはいくつかのスケーリング研究がありますが、DeepSeekやMiniCPMほど広範囲なものは実際にはありません。これらは現代のスケーリング法則研究の金字塔だと私は思います。

これが今日話したいことの一つです。皆さんに実際の半製品レベルのモデルでのスケーリングがどのようなものかを理解してもらいたいと思います。

そして今日話したいもう一つの重要な深掘りは、前回言及したμP手法です。これは私たちがこれらのモデルを訓練する際の興味深いアプローチです。モデルを大きくするにつれて、特定のハイパーパラメータを変更する必要があります。このプロットの左側を見ると、モデルを広くする、この場合はMLPのように広くすると、最適学習率が下方にシフトすることがわかります。つまり、これらの大きなモデルにはより小さな学習率が必要になります。

これは非常に大きな問題になる可能性があります。なぜなら、非常に大規模でハイパーパラメータ調整を行う必要があり、それは計算上非常に高価になるからです。それは大きな問題になるでしょう。一方で、モデルを異なる方法でパラメータ化して、最適な学習率がすべてのスケールで永続的に同じままになるようにできれば、それは素晴らしいことです。それは本当に私たちの探索プロセスを簡素化してくれます。

私たちは、ハイパーパラメータと実際の選択すべてが、一般的にスケール間で安定していることを望んでいます。それが理想です。μPは非常に興味深いアプローチのクラスです。そしてそれは問題について考える非常に興味深い方法をいくつか教えてくれます。実際に数学の詳細のいくつかを説明していきます。

1.2 スケーリング法則への懐疑的な視点

しかし、皆さんがスケーリング法則に対して正当に懐疑的な疑問を持つべきだと思います。これはlog-logプロット上での曲線フィッティングですが、前回の講義で私が言ったほど本当に良いものなのでしょうか。

Chinchillaのスケーリング法則へのアプローチは実際に機能するのでしょうか。皆さんは課題でこれを確認している最中です。isoflop分析を行えば、それは本当に適切なトークンのトレードオフについて教えてくれるのでしょうか。このようなものを使って本当に最適な学習率を設定できるのでしょうか。そして、うまくスケールするために特定のアーキテクチャやパラメータ化を選択すべきなのでしょうか。

私は前回の講義で既にChinchillaについて説明し、これらの検証の一部としてスケーリング法則を使用することについて話しました。しかし、これらの疑問に対する答えを見つけることが重要です。なぜなら、我々が本当に求めているのは、適切なハイパーパラメータと良いアーキテクチャ選択を持つ大規模言語モデルを構築するための最良の実践方法だからです。

詳細なスケーリング研究を含む多くの論文を通じて、現代の言語モデル構築者がどのようにスケーリング法則を設計プロセスの一部として活用しているかを皆さんに伝えることで、これらの懐疑的な疑問に対する答えを提供したいと思います。

1.3 現代のLLM構築における秘匿性の問題

いくつかの適切に実行された大規模モデルでスケーリングを行ったものがありました。そこで私たちは、実際にスケーリングがどのように実践されているかについて、これらの他の情報源に依存しなければならない状況にあります。

昨年のこの講義では、Cerebras-GPT、DeepSeek LLM、MiniCPMを取り上げました。素敵な補足として、昨年は私がこれらの中国のモデルについて取り上げる理由を強く正当化しなければなりませんでした。しかし今年は、幸いなことに、皆さんは既にDeepSeekについて聞くことに興奮していると思うので、私がこれが聞くべき正しいことだと納得させる必要はありません。

この変化は、フロンティア研究所の秘密主義的な態度とは対照的に、中国系のモデルが貴重な情報源として浮上していることを示しています。これらのモデルは、現代のスケーリング実践について学ぶための重要な窓となっているのです。

2. ケーススタディ：実際のモデル構築におけるスケーリング法則

2.1 対象モデルの概要

今日の講義の最初の部分、つまりケーススタディの焦点は、3つのモデルに置かれます。私は3つの追加的なより現代的なモデルについて話しましたが、実際にはそれらの詳細ははるかに限定的です。そして皆さんが学ぶ教訓は主にここにある3つの論文から得られると思います。そのため、講義の最初の部分ではここに焦点を当てます。

私はCerebras-GPT、MiniCPM、DeepSeekについて話します。これらのそれぞれは実際に非常に異なるスケーリング戦略の組み合わせを持っており、スケーリングを正しく行う方法について教えてくれる異なることがあります。

Cerebras-GPTは私が話したい最初のモデルとスケーリングです。これは大きなモデルファミリーで、0.1から13億パラメータモデルを訓練し、Chinchillaレシピで訓練されています。つまり、最適なtoken対parameter比率とほぼ同じです。

各モデルは実際に非常に異なるスケーリング戦略の組み合わせを持っており、スケーリングを正しく行う方法について異なる教訓を与えてくれます。これらの3つの論文が、現代のスケーリング法則研究において最も詳細で価値ある洞察を提供する例として機能することになります。

2.2 中国系モデルの重要性の変化

素敵な補足として、昨年は私がこれらの中国のモデルについて取り上げる理由を強く正当化しなければなりませんでした。しかし今年は、幸いなことに、皆さんは既にDeepSeekについて聞くことに興奮していると思うので、私がこれが聞くべき正しいことだと納得させる必要はありません。

この変化は非常に顕著です。2024年から2025年にかけて、中国系のモデルに対する学術界と実務界の受容度が劇的に変化しました。DeepSeekの登場とその後の成功により、これらのモデルが提供する技術的洞察の価値が広く認識されるようになったのです。

以前は西欧の学術界において、中国発のモデルや研究結果に対して一定の懐疑的な見方があり、なぜこれらを取り上げるのかという正当化が必要でした。しかし現在では、DeepSeekをはじめとする中国系モデルの技術的優秀性と革新性が明確に実証されており、むしろこれらのモデルから学ぶことへの期待感が高まっています。

この変化は、グローバルなAI研究環境における多様性の重要性と、優れた技術革新がどの地域から生まれても等しく評価されるべきであることを示しています。特にフロンティア研究所が情報を秘匿化している現状において、中国系モデルが提供する詳細なスケーリング研究は、学術界にとって貴重な情報源となっているのです。

3. Cerebras-GPTのスケーリング戦略

3.1 基本的なアプローチとμP（maximal update parameterization）の採用

Cerebras-GPTは私が話したい最初のモデルとスケーリングです。これは大きなモデルファミリーで、0.1から13億パラメータモデルを訓練し、Chinchillaレシピで訓練されています。つまり、最適なtoken対parameter比率とほぼ同じ数のtoken対parameterカウントです。

彼らには興味深い核心的発見があります。Cerebasの人々は実際にこれらのスケーリングとパラメータ化研究の多くにかなり興味を持っています。そして彼らには本当に興味深い核心的発見があります。それは、私が以前に言及したμPというものをスケールアップし、それがスケーリングをはるかに安定的で対処しやすくすることを発見したということです。

結論を示すために、pile上でのテスト損失があり、ここに青色のCerebras-GPTのスケーリング曲線があります。これは標準パラメータ化です。オレンジ色でμPがあります。これは彼らがmaximal update parameterizationを使用して訓練したモデルでもあります。そして彼らは、PythiaやGPT-Jのようなものよりも、より良くではないにしても、より良くスケールすることを示しています。これは素晴らしいことです。

ここで私が強調したいことは、これがμPの数少ない、もしくは最初の公開検証の一つであるということです。私たちは、LLMスケーリングを行っているすべて、またはほとんどの研究所が、モデルのスケールの関数として、ネットワークのパラメータ化、初期化、そしてレイヤーごとの学習率のようなものに細心の注意を払っていることを知っています。これらはスケーリングをはるかに安定的にするために人々が細心の注意を払うものです。そのため、μPのようなものはこの分野において非常に重要です。

例えば、104の論文はまだ出ておらず、出るかどうかもわかりませんが、彼らはmeta Pと呼ばれる技術について話しており、これもこの変種です。

3.2 μPによる予測可能なスケーリングの実現

彼らが示すのは、標準パラメータ化を使用してモデルを訓練すると、予測されたスケーリングポイント周辺で大きな振動があることを発見するということです。それがこの破線です。例えば、スケールの関数として学習率を調整しなければならないという事実により振動があります。そのため、彼らのスケーリングレシピを使用して、この破線である予測性能を正確に得ることは困難です。

一方、彼らが発見するのは、3つのリスクGPT、申し訳ありません、μPスケーリングがあれば、このオレンジ色の線を得ることができ、これはこのμPバージョンのスケーリング法則フィットにはるかに、はるかに近いということです。

そのため、少なくとも彼らの主張は、この代替パラメータ化を使用することで、はるかに予測可能なスケーリング、はるかに良いハイパーパラメータ調整を得ることができるということです。私たちはこれをより詳しく見ていきます。μPの数学的導出を説明した後、再びこのスライドに戻ります。

標準パラメータ化を使用した場合、彼らは予測されたスケーリング点の周りで大きな振動を持つことを示しています。これは破線で示されています。これらの振動は、例えば、スケールの関数として学習率を調整しなければならないという事実によるものです。そのため、スケーリングレシピを使用して予測性能を正確に得ることは困難です。

しかし、μPスケーリングを使用すると、彼らはオレンジ色の線を得ます。これは、μPバージョンのスケーリング法則フィットにはるかに近いものです。したがって、彼らの主張は、この代替パラメータ化を使用することで、はるかに予測可能なスケーリングと、はるかに良いハイパーパラメータ調整を得ることができるということです。

3.3 積極的なハイパーパラメータ探索手法

もしあなたがこのものを実装することに興味があるなら、Cerebras-GPTの人々、そして一般的に真剣な研究者たちが出している成果物は、μPにとって非常に、非常に役立ちます。なぜなら彼らは付録に大きな表を持っており、それは標準初期化とパラメータ化（SP）と最大アップデートバージョン（μP）の違いを正確に教えてくれるからです。

あなたは見ることができます。私は要約版を提供します。基本的に、すべての非埋め込みパラメータは1 over widthで初期化されます。そして、レイヤーごとの学習率は1 over widthでスケールダウンされます。標準パラメータ化との興味深い違いは、あなたが既に初期化で1 over width スケーリングを行っていても、実際にはレイヤーごとの学習率が異なることです。これについては後で詳しく説明します。

この結果の完全な導出を行うつもりです。しかし、ここでこの素晴らしいクイックリファレンスを見ることができます。また、このものを実装したい場合、これはμPを実装する非常に簡単な方法を提供してくれます。

私たちが他のスケーリング戦略でも見るもう一つの興味深いことは、スケーリングをより安定的にするμPのようなこれらの戦略を、非常に、非常に積極的なスケーリングと組み合わせることです。

そこで彼らが行うのは、実験を4000万パラメータまでスケールダウンすることです。彼らはこのプロキシモデルで広範なハイパーパラメータ探索を行います。そして、ハイパーパラメータをできるだけ安定に保つためにμPを使用して、物事をスケールバックアップします。

これが彼らの小規模ハイパーパラメータ探索で見るものです。これらの点のそれぞれはモデル実行です。そして、これらのそれぞれに関連付けられたハイパーパラメータがあります。そして、彼らはこれらの実行全体で最小値を選択し、本質的に彼らのハイパーパラメータグリッドを与えます。これはハイパーパラメータ選択への非常にクリーンなアプローチです。

このレベルの積極的なスケールダウンが、これらの本当に、本当に大きなモデルを訓練したい場合に本当に望むものかどうかは不明です。しかし、これはMiniCPMやDeepSeekでも見る一つの戦略で、はるかに小さな代理モデルを訓練し、それらを安定的にスケールバックアップする方法を見つけようとすることです。そして、これが全体を通して見るテーマになります。

4. MiniCPMのスケーリング手法

4.1 小規模モデルへの大量計算リソース投入戦略

私が話したいもう一つの論文、またはもう一つの成果物があります。それはMiniCPMです。何らかの理由で、MiniCPMは特に西欧の学術界ではそれほど話題になっていないと思います。しかし、少なくとも私にとって、これは中国の研究グループから出てきた最初のリリースまたは論文の一つで、彼らが本当にクールで詳細なスケーリングやその他の研究を行っていました。それは本当にフロンティアから出てきたもののように感じられました。

彼らが行うことの概観を提供するために、ここでの彼らの目標は比較的小さな言語モデルを訓練することですが、本当に良い小さな言語モデルを訓練するために多くの計算を使用することです。それが彼らの表面上の目標です。そしてそうすることで、彼らは多くの慎重なスケーリング計算を行います。

彼らが訓練された時点で、これは驚くほど良い1.2から2.4Bモデルでした。それはそこにある2Bモデルのほとんどを打ち負かし、多くの現代の7Bモデル、少なくとも2024年基準としての現代にマッチしました。もちろん、今はさらに良い7Bモデルがあります。軍拡競争は激しいです。

しかし、これは少なくとも2024年中頃に利用可能だった計算量と技術を考えると、これが実際にフロンティアにあったという感覚を与えるはずです。そして彼らはこの品質のモデルを得るために何かを正しく行いました。そのため、Cerebras-GPTと同様に、本質的に、彼らはスケーリングを正しく行うための何らかの戦略を持たなければなりません。

4.2 μPを用いたスケーリング安定化

彼らもまた、これらのモデルをサイズではなく、データ量の観点でスケーリングする際にμPを使用してスケーリングを安定化し、単純化します。

一歩下がって考えてみると、本当に大きなモデル実行を行うつもりなら、何をしなければならないでしょうか。ハイパーパラメータを選択しなければなりません。それらのハイパーパラメータが良好にスケールすることを確認し、その後モデルをスケールアップしなければなりません。そのため、Cerebras-GPTの人々と同じことを行うことができます。小さなスケールでハイパーパラメータを選択し、それらが安定していることを期待し、その後すべてをスケールアップしようとすることができます。そしてそれを行う方法はμPのようなものを使用することです。

ここでも全く同じ戦略が使われていることがわかります。埋め込みについては、実際には何もしません。定数でスケールするだけです。MLPのような残差接続があるときはいつでも、レイヤー数の平方根でスケールします。それを1 over ベース幅で初期化します。そして、学習率もモデルの幅によってスケールされます。

基本的に、Cerebras-GPTの場合と同じ戦略または同じスケーリング係数が現れるのを見ることができます。そして彼らは最終的にCerebras-GPTと非常に似たパラメータになります。同じスケール埋め込み、類似の学習率で、2倍程度の差はありますが、一般的に、これらのハイパーパラメータとして似たような場所に行き着きます。

4.3 WSD（Warm-up Stable Decay）学習率スケジューリングの革新

それから、あなたがこれを持っていれば、最適学習率が安定していることに依存しています。そのため、それらをほぼ固定に保つつもりです。そして、アスペクト比は非常に重要なものであることを知っているので、正しいものが何かを把握した後、それを固定します。

そして、9または3000万から5億または10億パラメータモデルまで、全体的なモデルサイズをスケールアップします。そのため、彼らが持っているのは、最小のモデルから最大のパイロット実行モデルまで、およそ5倍またはもう少し多い計算節約です。

MiniCPMの人々が本当にクールまたは素晴らしい革新を持っていました。他の人々も同様のことを行っていますが、特にChinchillaスタイルスケーリングの文脈で、LLM設定でこれを本当に普及させた最初の人だと思います。それは以下のようなものです。

Chinchillaスケーリング法則を適合させたいとしましょう。それを行うときに何をする必要がありますか？トークン数を変え、モデルサイズを変える必要があります。そしてそれを行うときに、モデルサイズを固定し、モデルをより長く、より長く訓練するつもりです。

早期停止してこのモデルのチェックポイントを取得し、それがデータセットサイズの違いまたは変更になるとよいでしょう。初期のチェックポイントはより少ないデータを見るため、これらすべてのデータスケーリング事項を収集するために単一の実行を使用できるとよいでしょう。

残念ながら、ここで示しているのは、異なるデータターゲットに対するコサイン学習率が異なるということです。非常に少量のデータがある場合、非常に急速に上がるコサイン、申し訳ありません、非常に速いクールダウンがあります。ウォームアップは常に同じですが、非常に速いクールダウンです。少し訓練してから、非常に急速に下がります。多くのデータがある場合、最後まで非常にゆっくりと下がります。

そのため、小さなデータ訓練実行と大きなデータ訓練実行の間で学習率が異なります。これは非常に、非常に重要なポイントです。多くの人がこれに引っかかります。コサイン学習率モデルの単一実行を使用して、初期のチェックポイントを取得し、それに基づいてデータスケーリング動作について推論することはできません。これは人々を常に噛みます。

そして、これを避けるために、通常行う必要があるのは、すべての単一のエンドポイントまで最初からモデルを訓練する必要があることです。そのため、すべての単一のターゲットまで訓練する必要があります。そして、これはn二乗回の実行になります。いくつかの実行は小さいですが、基本的に多くの実行を行わなければならず、それぞれが単一の実行を使用してチェックポイントを収集するのではなく、ターゲット終了点を持ちます。これを行わなければならないのは意味がないように感じられます。

そのため、MiniCPMの人々はWSDまたはwarm-up stable decay学習率のこのアイデアを普及させました。そして、左側のこのプロットは、ここで何が起こっているかを本当に示しています。通常、私たちが訓練するのは、ここで黄色で示されているこのコサイン学習率のようなものです。それは上がります。完全な学習率に到達するために、通常は非常に短いウォーム期間があります。

そして、終了点まで続くコサインがあり、おそらく最小学習率に留まります。これはすべて、もちろん、オプションです。ここで終了することもできます。0まで行くこともできます。そのため、コサイン学習率はこのように見えます。そして、ここでの問題は、もちろん、異なるターゲットがある場合、コサインは完全に異なるということです。そのため、ウォームアップ後のすべては再利用できません。

今、この新しいWSD、基本的に台形学習率を見ると、それが持つのは3つのフェーズです。コサインと同じウォームアップフェーズ、平坦な安定フェーズ、そしてモデルを最小学習率まで急速にクールダウンする減衰フェーズがあります。そして、もちろん、これのバリエーションを行うことができます。上がって、下がって、それから最小で安定していることができます。

これらのバリエーションのいずれかを行うことができます。しかし、一般的に、考えるべき最も単純な形式は、ウォームアップ、安定、減衰、終了だと思います。なぜこれが良いのでしょうか？これが良いのは、安定部分を再利用できるからです。そのため、行うことは、Chinchillaをほぼ1回の実行で行いたい場合、ウォームアップを行い、最後まで安定実行を行い、その後クールダウンします。

そして、ああ、私のモデルがより少ないデータを使用していたらどうだったかを把握したい場合、チェックポイントを巻き戻し、その後別のダウンを行います。そして今、最初から訓練を行うことなく、正確なwarm-up stable decay学習率形状を得ました。そのため、これは非常に良いことです。安定部分が本質的に平坦であるという事実により、Chinchillaスタイルスケーリングまたはデータスケーリングを単一の訓練実行で、または主に単一の訓練実行のコストで行うことができます。そして、多くの人が今これを行っています。

4.4 Chinchilla分析の効率的実装

MiniCPMは、これを非常によく機能させました。MiniCPMがこれを普及させたと思います。そして、多くの人がそれ以来これを採用したと思います。そして、多くの、多くの場所でこのWSDスタイルスケジュールを見ることができます。このような曲線を見ることができます。

コサイン学習率スケジュールがある場合、ここの黄色い線のように、あなたの終端損失に向かって本質的に比較的予測可能で滑らかな減衰を見ることができます。

WSDで訓練する場合、それらの上にある暗い線のような、はるかに、はるかに奇妙な学習曲線を見ることができます。そのため、あなたのウォームアップフェーズがあり、これはこの訓練曲線には実際には現れません。それは非常に短いからです。その後、通常に下がる安定フェーズがあります。そして、クールダウン部分である減衰フェーズに到達するとすぐに、あなたの損失は0または最小学習率ポイントに到達するまで本当に急速に落ちます。その時点で、あなたは終端損失を得ました。

したがって、これらの損失はあなたにとって非常に不安に見えるかもしれませんが、これらの急速クールダウン学習曲線で訓練している時には実際にはかなり普通です。

そして、ここで作るべき点は、すべての単一のトークンカウントで、warm-up stable decay曲線、最小点が、コサイン学習率を打ち負かすか、マッチすることを見ることです。しかし、それは常にそうではありません。コサインがより良く機能する場合や、WSDがより良く機能する場合があることがあります。

しかし、一般的に、人々がここで言うことは、2つの学習率はほぼ比較可能であるが、WSDは終了点について心配する必要がないという追加の良い利点があるということだと思います。異なるデータカウントのチェックポイントを得るために繰り返しクールダウンすることができます。

彼らは今必要なツールを持っています。本質的に1つの訓練実行を行うことを可能にするWSB学習率があります。申し訳ありません、その1つの訓練実行により、両方のバリエーションを持つことができます。その1つの訓練実行により、進むにつれてデータを変えることができます。そして、異なるモデルサイズに対して複数の訓練実行があり、それがChinchilla分析を行うために必要なすべてを与えてくれます。

そして彼らは、それらが何かを覚えているなら、方法1と方法3を使用します。方法1は、すべての学習曲線を重ね合わせ、下部エンベロープを取ることです。そして、すべての訓練曲線の下部エンベロープは、おおよそべき法則であるはずです。そして方法3は、基本的にここにある方程式2を共同適合することです。この2変数スケーリング法則を仮定し、それをあなたが持っているすべてのデータと曲線適合スタイルの方法で適合します。

そして、それにより、その適合を通じて最適トークン対データ比を解くことができます。そのため、彼らは両方を行います。彼らはChinchilla方法1について、かなり明確ではあるが完全に線形ではない傾向を見て、本質的に計算からトークン比に行くことを可能にします。そして、彼らの設計決定の多くを正当化するために使用する主要なアプローチは方法3です。

それは曲線適合です。そのため、ここで見る等高線は彼らが適合した曲線です。ここにある点は、Chinchillaパラメータを適合するために行った小規模実行です。

4.5 高い token-to-parameter ratio（192:1）の発見と検証

そして、彼らが行うことを正当化するために、彼らは非常に、非常に高いtoken対parameterの比率を見つけます。それは非常に高いので、これは他の文献のほとんどと非常に密接に一致しない異常値だと感じます。

彼らは、改善されたデータ品質と改善されたモデル効率のために、Llamaスタイルアーキテクチャすべてがより高い比率を持つべきだと論じていますが、彼らのtoken対parameter比率の推定は本当に、本当に高いです。192 tokens per parameterで、これは他の誰かが導出したのを見たことがないと思います。

他の人々がChinchillaの複製を行ったと思います。192 tokens per parameterを本当に行ったり、主張したりした人は誰もいないと思います。それにもかかわらず、Llama 3のような最近のモデルが、データ対モデル比率を大幅に高くしているのを見てきました。また、収穫逓減も実際には見ていません。これらのモデルは、同等のChinchillaスケールされたLlama 2モデルよりもはるかに悪くはありません。

これは、慎重な最適化と慎重な調整により、20倍モデルサイズの経験則をはるかに超えて行くことができるはずであることを示唆しています。そのため、これらの最後の2つのスライドから一つのことを取り上げるなら、MiniCPMが行ったスケーリング法則適合を必ずしも信頼すべきではないかもしれませんが、むしろChinchilla分析は実際には強い制約ではないということです。

20倍モデルサイズは単なる出発点であり、そのtoken対parameter比率を大幅に増加させることを自由に感じるべきです。最終的に、彼らが得る曲線適合は一般的にかなり良く見えます。そのため、これは本質的にデータとモデルサイズスケーリング、コードと英語の困惑度のスケーリング法則曲線です。彼らはなぜこれらを得るのか本当に理解していないいくつかの本当に奇妙な異常値を持っています。

しかし、適合されたスケーリング法則は、比較的小さなモデルでデータ量を増やすにつれて、一般的にかなり良いです。そのため、これは大規模訓練実行スケーリングレシピの一例です。

5. DeepSeekのスケーリングアプローチ

5.1 直接的なスケーリング法則適用手法

私が話したいもう一つの論文はDeepSeekです。これは2024年のオリジナルのDeepSeek LLM論文です。

多くの点で、オリジナルのDeepSeek LLM論文を読むと、これらが非常に真剣な科学者たちであることがわかります。なぜなら、彼らは多くの非常に慎重なスケーリングアブレーションを行い、スケールアップする際に本当に正しく行おうとしているからです。そして、それはスケーリングを正しく行うプレイヤーたちの間で共有される態度です。

彼らは7億と67億パラメータモデルを持っています。当時、Llamaと比較して非常に高い性能でした。Llamaは当時の主要な競合相手でした。当時、Llama 2とMistralが大きなプレイヤーで、DeepSeekが登場し、性能をマッチさせることができました。

DeepSeek v3が登場してOpenAIのGPT 4.0をマッチさせるような派手なインパクトではありませんでした。しかし、初回の試行としては、これはかなり驚くべき結果です。そのため、詳しく調べて、DeepSeekが本質的に0から少なくともオープンソースの当時の最先端技術まで行くことを可能にしたことを理解しようとしましょう。

私は、DeepSeekが他のほとんどのプレイヤーよりも、おそらく唯一の比較可能なものがMiniCPMであるが、彼らが行った多くの実験と、これらのハイパーパラメータの多くを選択するために使用したアプローチについて、非常に、非常にオープンであると思います。

すぐに、DeepSeek v1とMiniCPM、そしてCerebras-GPTとの間に一つの違いを見ることができます。それは、彼らがμPを一切使用しないということです。そして、彼らは最適バッチサイズと最適学習率の両方を直接推定しようとします。

そのため、それを本当に直接的な方法と呼ぶことができ、スケーリング法則への強い信念を必要とします。そのため、彼らが行うのは、2つの比較的小さなモデルを取り、異なるバッチサイズでグリッドを実行し、異なる学習率でグリッドを実行し、このグリッド全体で損失を得ることです。彼らはより大きなスケールで同じことを行います。

そして、最適バッチサイズと学習率を得ることができます。そのため、彼らは「まあ、これはかなり広いベイシンなので、これを台無しにすることをあまり恐れる必要はないかもしれません」と言っています。

5.2 バッチサイズと学習率の体系的最適化

そのため、彼らが行うのは、学習率とバッチサイズの選択が両方とも比較的寛容であることを知っているが、これらのものの桁を正しく取得したいということです。

では、これらのものの桁をどのように正しく取得するのでしょうか。私たちが行うのは、異なる量の非埋め込みflopを持つ多くのモデルを訓練し、私が以前に持っていたパラメータ、バッチサイズと学習率の両方を、本質的にグリッド全体で変更することです。そして、これらを変えることで、これらの異なるスケール全体で最適バッチサイズと最適学習率を持つことになります。申し訳ありません、学習率です。

そのため、基本的に多くの異なるflopスケールでこれらのグリッドを作成し、基本的にそれぞれに星印をマークすることを想像することができます。スケーリング法則講義なので、おそらく驚くことではありませんが、これらのものはスケーリング法則線に従っているようです。少なくともバッチサイズについては、物事はより明確に見えます。そして、ここに線を適合させることができ、訓練する予定の大きなモデルで最適バッチサイズがどのように見えるべきかを外挿することができます。

彼らは学習率でも同じことを行います。そして、彼らはこの線を適合させ、これらが使用する2つの学習率だと言います。点が互いの上にプロットされているからかもしれません。しかし、この線は特に、特に疑わしく見えると思います。つまり、おそらく水平線も適合させることができ、それもOKに見えたでしょう。

この線については、わかりません。スケーリング法則の愛好家としてさえ、学習率を選択するためにこの線に命を賭けるかは完全に確信が持てません。しかし、彼らはそうしました、そしてそれが彼らが学習率を得る方法です。

5.3 WSD学習率の採用とChinchilla分析の再実装

今、彼らは当時のベストプラクティスにも従います。彼らはChinchillaスタイル分析を行います。そして、彼らは再び、本質的に行う反復作業の量を最小化しようとするWSDスタイル学習率を使用します。

彼らは少し奇妙な、または少し標準的でないことを行います。彼らが行うのは、ウォームアップを行い、安定を行い、その後0まで減衰する2セットの減衰ステップを行うことです。つまり、10%プラス10%からなる2つの減衰フェーズのようなものです。そして、彼らはその減衰フェーズの異なる選択を分析します。そして、それはあまりにも重要ではないようです。しかし、一般的に言えば、総計算予算の約20%がそのクールダウンフェーズに費やされることになります。

そして、彼らも再び、それがコサイン学習率にマッチすることを示します。しかし、再び、ここでの利点は、非常に安価にChinchillaスタイル分析を行うことができることです。

学習率に対して、申し訳ありません、学習率適合とは対照的に、Chinchillaスタイル分析は本当に、本当にきれいに適合します。これは広い教訓だと思います。

多くの人々のスケーリング法則を見ると、ハイパーパラメータに関するものは常に少しノイジーで不安定に見えると思います。しかし、すべてのプレイヤーからのisoflops分析は常に非常に、非常に良く見えます。そして、これはChinchilla結果の複製です。異なる計算スケールを見ることができます。異なる二次関数を見ることができます。二次関数の底部を通して線を引きます。

訓練flopの関数として、最適flops per tokenと最適tokenサイズの正確な最適値を得ます。そのため、これはtoken sizeからmodel sizeのトレードオフを分析する非常に直接的な方法を与えてくれます。そして、これにより、彼らはもちろん、すべてを最初から行うことができます。

副次的なコメントとして、彼らが実際にこの多くを再実行していることは本当に良いと思います。彼らは確実にChinchillaをカーゴカルトして、単に20 tokens per parameterを選択することもできたでしょう。しかし、彼らは「いや、実際にスケーリング法則分析を行い、tokenサイズが私たちにとって比較的適切であることを実際に確認しましょう」と言いました。

5.4 予測精度の高いスケーリング法則の構築

そして、彼らは最終的に適合したスケーリング法則を持っています。これは、彼らがスケーリング戦略を固定した後なので、ある意味では当然のことですが、非常に良いことです。彼らは予測可能なスケーリングを行います。彼らは7Bと67Bモデルで何が起こるかを予測しようとします。多くの点で驚くことではありませんが、スケーリング法則に基づいて外挿することができることは非常に良いことです。

これは10の20乗から、10の24乗についてで、実際にスケーリング法則に基づいて予測を的中させています。そのため、実際に訓練する前にモデル能力の予測的測定を得ることができるのは非常に良いことです。

DeepSeekが行うことの一部は以上です。DeepSeek戦略、彼らが行ったこと、その他の部分について、誰か質問はありますか？今日言及した最も新しいことは、おそらくWSDだったと思います。DeepSeekが行うもう一つのことは、μPのようなものを使用するのではなく、最適学習率とバッチサイズに直接スケーリング法則を適合させることです。

はい。彼らはすべてのレイヤーに対してグローバル学習率を持っていますか？

グローバル学習率を持っていますか？はい。そうですね。そのため、そのグローバル学習率を調整しています。

クールです。OK。それでは、フロンティアモデルについて何か知っていますか？

質問は「新しいフロンティアモデルに対して、人々はこの分析を再実行するか」ということでした。正直に言うと、実際にはわかりません。

そして、多くの人がおそらくこの一部を正確に複製していないのではないかと思い始めています、なぜなら新しい論文でますますスケーリングの詳細が少なくなっているからです。例えばDeepSeekからでも、DeepSeek v2とv3では、各論文の新しい部分に多くの重点が置かれているのを見ます。そのため、DeepSeek v2では、MLAとアーキテクチャの改善に多くの重点が置かれています。

DeepSeek v3では、低ビット訓練のようなシステムコンポーネントが強調されているのを見ます。しかし、これらのいずれにも、例えば、追加の新しいスケーリング法則研究は見られません。そのため、そこには多くの新しいものがないと私の推測です。うまく機能することを確認するためにそれを複製しているかもしれませんが、報告すべき新しいことはありません。

そして、私が次の数枚のスライドで取り上げることで、これが捉えられると思います。私は昨年かそこらからのスケーリング法則と論文とモデルについて少し簡単な調査を行いました。しかし、実際には、MiniCPMやDeepSeekの詳細レベルにあるものは何もありません。これらは、2025年においても、我々が持っているスケーリングへの最も詳細なオープン研究だと思います。

6. 最近のモデルのスケーリング研究

6.1 Llama 3：isoflop分析と39:1比率の発見

Llama 3は、私が最後にこのクラスを教えてから過去1年間で、おそらく最大のモデルリリースの一つでした。そして、彼らはいくつかの非常に興味深いスケーリングの部分を持っています。

まず、私が今言った質問について、人々は実際に一度実行した後、これらの分析を複製するのでしょうか。まあ、はい、Llama 3はisoflop スタイルスケーリング、Chinchillaスケーリング法則を再実行します。そして、彼らは計算が正しければ、約39対1の最適比率を見つけます。

そして、これは興味深いと思います。なぜなら、Chinchillaは20対1のパラメータ比率を得たからです。私たちの多くは、研究などでChinchilla比率でモデルを訓練してきたと思います。20という数字は実際にはそれほど安定していないことは非常に明確です。

それを適合させてきた他の人々は、一般的に以前よりもわずかに高い比率を得ています。そして、それはアーキテクチャでの改善されたアルゴリズム効率、データからより良く学習するもの、といったものを指すかもしれません。改善されたデータ品質のような他の何かを意味するかもしれません。これらはすべて動いている部分です。そのため、これらのわずかに異なる比率につながっているものを知ることは困難です。

しかし、結果はかなり明確で、適合は比較的良好で、彼らは40対1の比率を得ます。

Llama 3の人々が行うもう一つの興味深いことは、私の最初のスケーリング講義の初期部分で言及したデータスケーリングの話に近いものです。Llama 3の人々が行う興味深いことの一つは、本質的にNLLS、対数損失のようなものを計算し、それらのNLLSを下流の精度に相関させようとすることです。

そのため、彼らがここで行おうとしている考え方は、実際には対数尤度に対してスケールしたくないということです。それは彼らが本当に気にしていることではありません。彼らが気にしているのは、わからないけれど、MMLU、またはlambada、または彼らが hill climbすることに決めた他のベンチマークでのベンチマーク数値を改善することです。

そして、そうであるならば、彼らが必要とするのは、これらの NLS per character、これらの困惑度または困惑度と同等のものから、それらを精度にマップする変換係数を持つことです。そのため、彼らはLlama 3で、本質的にこれら2つを関連付けようとするいくつかの研究を行い、シグモイドを適合させ、基本的に小さなモデルを適合し、いくつかのLlama 2モデルを適合し、全体にシグモイドを適合させれば、それらの適合に基づいてLlama 3 405Bの性能を正確に予測できることを示しています。

興味深いです。彼らはデータ選択にこれらのアイデアを使用すると言っています。しかし、そこにはあまり詳細がないと思います。そして、これがLlama 3が訓練されている時の中核的な対象だったのか、それとも著者にとって興味深いサイドスケーリングの話だったのかは不明です。

6.2 Hunyuan-Large：MoEモデルでの96:1比率

最近出てきたもう一つの作品で、またもう一つのうまく実行された中国のLLMはHunyuan-1です。うまく発音できていないことを願います。彼らはMoEを訓練しています。そして、MoEを訓練しているので、Chinchillaスタイル分析を再実行したいと考えています。

彼らは適合します。再び、isoform分析を行います。二次関数を適合させます。最小値を把握し、そして異なるtoken対parameterの比率を得ることができます。そのため、彼らは96対1のデータ対アクティブパラメータ比率を得ます。

これらの比率は、MoEを訓練しているため、アーキテクチャについて多くの違いがあるため、明らかに非常に異なることになります。Chinchillaと同じものを実際には期待していません。

そのため、実際にさまざまな論文で、本質的にChinchillaの複製が何度も何度も起こっているのを見ます。なぜなら、これらの人々の多くが、token対parameterサイズ比率をどこまで押し上げることができるかを理解することに非常に興味を持っているからです。私たちは、パラメータよりも多くのデータを持つ、その比率の高い方にいたいと思います。なぜなら、そうすれば人々が実際に私たちのモデルを使用するか、私たちのモデルの提供が安価になるからです。

そのため、これらすべての理由で、人々はChinchillaを複製してきました。多くの点で、これはスケーリングにおいて最も再現性の高い結果の一つだと思います。実際の20対1パラメータ比率は、一貫して再現されるものではありません。しかし、isoflopsを行い、最小値を適合させ、これらの非常に予測可能なflopsから最適パラメータへのトレードオフを得ることができるという事実は、複製において非常にクリーンで一貫しています。

6.3 MiniMax-01：線形注意機構の検証

最後のもので、昨年において正直言って少しよりエキゾチックなスケーリング法則は、かなり最近出てきたMiniMax-01です。MiniMax-01は、他の中国のスタートアップによってリリースされた線形時間または長コンテキスト言語モデルです。

そして、彼らの興味は、まあ、私たちが行うことは、二次的なsoftmax attentionを取り、彼らがlightning attentionと呼ぶものを持つことです。これは線形attention、線形時間の線形attentionレイヤーです。そして、彼らはこのモデルのハイブリッドバージョンを持っています。

そして、彼らは、softmaxから線形、ハイブリッドattentionに行く際に、モデルの性能の観点でどのくらいのコストを支払っているのかを把握したいと考えています。そのため、彼らは次のようなことを行います。彼らは基本的にChinchillaの方法1を複製し、損失曲線の下部エンベロープを見ています。

訓練すると、彼らは進むにつれて、本質的に暗示される最適モデルサイズと暗示される最適トークンカウントを見ています。そして、彼らがこれから導く大まかな結論は、lightningとハイブリッドモデルが、大体softmax attentionと同じように実行されるということです。したがって、これらのアーキテクチャに基づいて長コンテキストモデルを訓練することは問題ないということです。

私たちは、Mambaの論文やMamba-2の論文、またはdelta netの論文、またはこれらの他の線形時間複雑度RNN論文のいずれかを見ると、これらのような多くのプロットを見てきました。そこで彼らは、ああ、フルattentionスケーリングと私の線形attentionスケーリングは、計算の関数として基本的に同じだと言います。

しかし、これは、主要な成果物リリースからほぼスケールでこの同じプロットが生成される稀なケースだと言えるでしょう。

7. スケーリング手法の共通パターンと教訓

7.1 各モデルで採用された共通戦略

すべてをまとめると、私がかなり素早く通り抜けた一連のミニケーススタディだったと知っていますが、少し立ち戻ってそれを要約したいと思います。これらのスケーリングレシピで使用されているいくつかの共通の要素を見てきました。Cerebras、DeepSeek、MiniCPM、そしてそれ以降のいくつかの新しい論文を見てきました。

CerebrasとMiniCPMの両方は、スケール間でハイパーパラメータをより安定させる方法としてμPを使用し、そして、MiniCPMは特に、Chinchillaスタイルスケーリングを行うことができるように彼らが普及させたものである素晴らしいWSDスケジュールを持っています。Cerebasは、Chinchillaを複製することを気にしません。

DeepSeekは少し異なることを行います。彼らは、ほとんどのハイパーパラメータはスケールとともに変化しないと仮定します。しかし、彼らはバッチサイズと学習率について完全なスケーリング分析を行い、その後最適スケーリングを把握する方法としてスケーリング法則を使用します。私は既に、いくつかのスケーリングが他のものよりも少し疑わしく見えることを述べました。しかし、本当に、これは少なくとも桁を正しく取得するための方法です。

彼らはisoflops分析を使用します。彼らは再びChinchillaを複製して、モデルサイジングを把握し、正しい桁にいることを確認します。より最近のリリースのうち、Llama 3とHunyuanはisoflops分析のみを行います。Llama 3は少しもっと行いますが、基本的にそれです。

そして、MiniMaxは、スケーリング法則のレンズを通してアーキテクチャ選択を正当化するという、より興味深いことを行います。しかし、一般的に言えば、Chinchillaのような複製されるいくつかの異なることがあり、学習率とバッチサイズが、人々がモデルをスケールアップする際に本当に深く懸念していることです。

そして、彼らは固定アスペクト比のようなことを行い、総モデルサイズをスケールアップします。そして、それが一般的に人々がスケールアップの多くの動いている部分を処理する方法です。

7.2 Chinchilla分析の継続的な重要性

私は、Chinchilla分析が実際には強い制約ではないということを強調したいと思います。20倍モデルサイズは単なる出発点であり、そのtoken対parameter比率を大幅に増加させることを自由に感じるべきです。

これは、様々な論文で本質的にChinchillaの複製が何度も何度も起こっているのを実際に見るからです。なぜなら、これらの人々の多くが、token対parameterサイズ比率をどこまで押し上げることができるかを理解することに非常に興味を持っているからです。私たちは、パラメータよりも多くのデータを持つ、その比率の高い方にいたいと思います。なぜなら、そうすれば人々が実際に私たちのモデルを使用するか、私たちのモデルの提供が安価になるからです。

例えば、Llama 3は39対1の比率を発見し、Hunyuan-LargeはMoEモデルで96対1の比率を見つけています。これらの比率は、Chinchillaの20対1とは異なりますが、isoflop分析の手法自体は一貫して有効性を示しています。このことは、個別の比率値よりも、isoflop分析による最適化手法の方が重要であることを示しています。

7.3 ハイパーパラメータ安定性の追求

一般的に言えば、Chinchillaのような複製されるいくつかの異なることがあり、学習率とバッチサイズが、人々がモデルをスケールアップする際に本当に深く懸念していることです。そして、彼らは固定アスペクト比のようなことを行い、総モデルサイズをスケールアップします。そして、それが一般的に人々がスケールアップの多くの動いている部分を処理する方法です。

多くの人々のスケーリング法則を見ると、ハイパーパラメータに関するものは常に少しノイジーで不安定に見えると思います。しかし、すべてのプレイヤーからのisoflops分析は常に非常に、非常に良く見えます。これは広い教訓だと思います。

ハイパーパラメータの安定性を追求することは、大規模モデル構築において重要な課題です。CerebrasとMiniCPMの両方がμPを使用してスケール間でハイパーパラメータをより安定させようとしているのに対し、DeepSeekは異なるアプローチを取り、ほとんどのハイパーパラメータはスケールとともに変化しないと仮定しながら、バッチサイズと学習率についてのみ完全なスケーリング分析を行っています。

しかし、いずれの場合でも、小規模実験から大規模展開への予測可能性を向上させることが共通の目標となっています。これは、大規模でのハイパーパラメータ調整が計算上非常に高価になるという実践的な理由に基づいています。そのため、小規模実験で最適化されたハイパーパラメータが大規模でも安定して機能することが、効率的なモデル開発にとって極めて重要なのです。

8. μP（Maximal Update Parameterization）の数学的基礎

8.1 μPの基本概念と目標

μPとは一体何なのでしょうか。私は前回と今回の講義でこれが何であるかについて先走って言及してきましたが、実際にはそれが基づいている核心的な概念的対象を皆さんに説明していなかったと感じます。

一方で、私がこれを行うことが正当化されると思うのは、ほとんどの文献もμPをそれほど明確に説明していないからです。彼らは単に「ええ、初期化を1 over widthでスケールし、レイヤーごとの学習率を1 over widthでスケールするだけです、それがμPです」と言います。しかし、μPの背後にあるアイデアはかなり興味深く、議論する価値があると思います。なぜなら、それらは深層学習全般で繰り返される核心的対象について語っているからです。

μPは以下の比較的単純なアイデアに基づいています。ニューラルネットワークを訓練する際に起こるべきだと考える2つのことがあります。ニューラルネットワークをスケーラライズする際、この場合、幅だけを、ネットワークの幅を大きくするとしましょう。

レイヤーサイズまたは申し訳ありません、深度を固定し、その後進むにつれて幅を大きくします。もしそうするなら、幅を大きくするにつれて、初期化時の活性化が大きなシータ1のまま残ることを望みます。幅を大きくするにつれて、それがおおよそ定数で、汎用定数によって上下に境界を持ち、おおよそ一定であることを望みます。それは爆発すべきではありません。消失すべきでもありません。これは望むべき非常に自然なことのように思えます。

活性化があまりにも大きくなることは望みません。これは座標ごとです。今、私が持つ第二の主張は、モデルを初期化し、単一の勾配ステップを取るつもりだということです。そして、その単一の勾配ステップを取るとき、活性化の変化も大きなシータ1であることを確認したいと思います。

これらの両方とも非常に自然な条件のように思えます。なぜなら、これらに違反すると、モデルを大きくするにつれて、初期活性化が爆発または消失するか、1回の勾配ステップ後に活性化が爆発または消失することを意味するからです。これらは両方とも悪い、悪い条件です。

そして注記として、私は個別の活性化、座標のようなものについて話しています。そして、活性化のベクトル全体のノルムについて考えているなら、それは大きなシータ√nlのように見えるはずです。なぜなら、これらのそれぞれはおおよそ独立になるので、ノルムは幅、幅座標の要素数の平方根のように見えるからです。

私はこれらの2つの条件からμPを導出することができます。

8.2 スケール不変なハイパーパラメータの重要性

ケーススタディを通じて、本質的に学習率を正しく設定することが人々が持つ核心的な懸念の一つであることを見てきました。バッチサイズもそうです。しかし、一般的に、私たちはスケール不変なハイパーパラメータを持ちたいと思います。

そして、初期化の選択とレイヤーごとの学習率の選択は本質的に任意であることは事実です。なぜ一つの方法で初期化し、他の方法で初期化しない理由はありません。そして、もしこれらの自由変数を操作して学習率でスケール不変性を得ることができれば、それは本当に素晴らしいことでしょう。それは私たちの生活をはるかに楽にしてくれるでしょう。そして、小規模実験をはるかに可能にしてくれるでしょう。

これが理想的な状況です。モデルを大きくするにつれて、最適な学習率がすべてのスケールで永続的に同じままになるようにできれば、それは素晴らしいことです。それは本当に私たちの探索プロセスを簡素化してくれます。私たちは、ハイパーパラメータと実際の選択すべてが、一般的にスケール間で安定していることを望んでいます。それが理想です。

μPは非常に興味深いアプローチのクラスです。そしてそれは問題について考える非常に興味深い方法をいくつか教えてくれます。なぜなら、これは物理学からの非常に成功したアイデアだからです。多くの物理学者は繰り込みのようなアイデアについて考えます。特定のものの極限を取るとき、物事が安定していることを望みます。それらが爆発したり0になったりすることを望みません。これはそのアイデアの正確な応用です。

8.3 2つの基本条件：初期化時と勾配ステップ後の活性化安定性

ニューラルネットワークを訓練する際に起こるべきだと考える2つのことがあります。ニューラルネットワークをスケーラライズする際、この場合、幅だけを、ネットワークの幅を大きくするとしましょう。

私はこれらの2つの条件からμPを導出することができます。

9. μPの数学的導出

9.1 深層線形ネットワークを用いた導出

最初の条件、つまり活性化を安定に保ちたいということは、初期化に制約を課します。そのため、非常に、非常に単純な例を通して説明します。深層線形ネットワークを考えます。これはh of lで、つまりレイヤー小lでの活性化です。

そして、それはレイヤーlでの重み行列と、前のレイヤーからの活性化の関数になります。非線形性はありません。複雑なものはありません。すべて正方です。複雑さを忘れてください。複雑さが必要なら、プレプリントを読んでください。彼らは少し手を振るような形でなぜそれらのことが重要でないかを説明するでしょう。

今、初期化については、ガウス初期化を選択します。それは零中心になります。それは私の活性化のサイズに依存するサイズの矩形になります。そして、このレイヤーでのこの行列のノイズスケールである1つのハイパーパラメータを持ちます。申し訳ありません、このシグマに小さなlがあるべきです。

今、何が言えるでしょうか。私は初期化時のh of lのサイズを理解したいと思います。では、どのようにそれを行うことができるでしょうか。私たちができることの一つは、このシステムの極限挙動を考えることです。

基本的に小n of lと小n of l minus 1を無限大に取ります。そして、それを行うと、このwは集中します。それはランダムガウス行列で、ランダム行列理論を覚えているなら。実際、それはコースの前提条件ではありません。基本的なランダム行列理論を知っていれば、ガウス行列の作用素ノルムがこの対象におおよそ集中することを知っています。

それは、ノイズスケールであるシグマに、両座標の平方根を足したものを掛けたものになります。そして重要なことに、この等価性が真であることをおおよそ書き下すことができます。レイヤーlでの活性化、そのノルムは、Wlの作用素ノルムにh of l minus 1の活性化ノルムを掛けたものにおおよそ等しくなります。

そして、これはWlがh of l minus 1から独立であるということをおおよそ仮定しており、これは初期化時には真です。そのため、基本的に、もし望むなら、これを右矢印にすることができると思います。

今、シグマの特定の選択を行います。それは√nl over √nl minus 1にこの対象を掛けたものになります。単純にこの右辺のものとして考えることができます。これが正確な形式です。これが考えることができるより漸近的な形式です。しかし、実際にはファンインの1 over 平方根に、1とモデルのアスペクト比の最小値を掛けたものです。ファンインnがファンアウトよりもはるかに大きい場合、それが働きます。そのため、このシグマを選択したとしましょう。大体、ファンインの1 over 平方根です。

では、何が起こるでしょうか。これをこの公式、行列集中極限、そしてここでのこの近似にも代入することができます。そして、すべてのレイヤーが正しい活性化サイズを持つことを帰納的に証明することができます。

9.2 初期化制約の導出（条件A1）

すべてのレイヤーを通して行き、レイヤーl minus 1まで、私がこの性質を持っていると仮定しましょう。それが帰納的仮定です。レイヤーl minus 1で、私の活性化ノルムが√nl minus 1であるということです。OK。それは単なる仮定です。

今、これが真であるなら、私はこれらすべてを代入します。そのため、√nl minus 1をこのコンポーネントに、Wl作用素ノルムに代入し、極限を代入します。

そして、シグマについては、ここにあるこの表現を代入します。この逆がこれをキャンセルすることがわかります。そして、h of lのl2ノルムが√n of lに等しいということを正確に得ることになります。

これが私たちが望んでいたものです。なぜなら、以前に、私たちは活性化が大きなシータ1のままであることを確認したいと言ったからです。これは、ノルムが√n of lであるべきだということを意味します。そのため、これは低次項を含めて、私たちが得るものです。

これは、初期化について何をするべきかを示すステップバイステップの議論です。初期化については、ファンインの1 over 平方根に小さな補正係数を加えたものを選択したいと思います。これは、初期化時に活性化が爆発しないようにするためです。

ファンインの1 over 平方根について一瞬止まります。これは、実際には、私たちがクラスで行った最初の本当の数学かもしれないと感じるからです。そのため、人々にとって少しコンテキストの切り替えかもしれません。私は、本当の数学について話すことを警告しませんでした。これは皆さんにとって比較的明確ですか？ファンインの1 over 平方根。はい。

OK。皆さん全員がファンインの1 over 平方根に同意していると仮定します。そのため、今、μPの第二部分を導出します。

9.3 学習率制約の導出（条件A2）

μPの最初の部分は初期化についてでした。μPの第二部分は学習率についてです。そして、学習率について考えるために、第二の条件を見ます。条件A2は、初期化を過ぎて一勾配ステップを取るとき、私のアップデートサイズが一定のままでなければならない、と言っています。それは爆発することはできません。消失することもできません。

それは何を意味するのでしょうか？レイヤーlでの重みのアップデートであるdelta Wlがあるとすれば、それはどこから来るのでしょうか。SGDを行っているとしましょう、それはこの表現から来ます。それは学習率×l（私の損失）の勾配、そして活性化の転置になります。バッチサイズが1の場合、これはランク1の対象です。これはdelta of lへのランク1アップデートです。

そして、それがランク1であるため、素晴らしい簡単な表現があります。Wlの変化×前のレイヤーの活性化は、Wlの変化のノルム、このもののオペレーターノルムに、h of l minus 1のl2ノルムを掛けたものに等しいです。

そして今、レイヤーlでの活性化の変化がこの表現であるという事実と組み合わせます。これが真であることを自分自身で納得させることができます。レイヤーlでの実際の最終活性化が何であるかを把握し、アップデート後にwl h of lをキャンセルすることによって、これを書き出すことができます。これは左と右で共有される項です。すると、この表現を得ることができます。h of lでのアップデートとは何かを得ることができます。これは私たちが大体√n of lを維持したいオブジェクトです。このオブジェクトのノルムです。

そのため、これらの各項を見て、これの大きさが何であるかを見てみましょう。ここでの最初の項、wl delta h of l minus 1、これは帰納的仮定から制御されていると仮定できます。なぜなら、これは私たちが持っているdelta h of lに加えて条件A1の議論だからです。

条件A1は基本的に、delta of h of l minus 1が√nlになると言い、その後wlがそのノルムを維持します。より複雑な部分は、ここにあるこれら2つの議論、第2および第3項になります。delta Wl h of l minus 1とdelta Wl delta hl minus 1です。

申し訳ありません、それは非常に口がもつれます。それらはすべて同じ大きさの桁を持っています、実際。そして、本当に把握する必要がある唯一のことは、ここでのこの表現です。前のレイヤーのノルム×delta Wlのオペレーターノルムの積は何か、です。なぜなら、重み行列Wでのアップデートがどのくらい大きくなるかを実際に知らないからです。

それがわかれば、すべて非常に直接的なものです。

9.4 SGDとAdamでの違い

そして、残りの議論は実際に比較的単純です。これが実際には複雑な混合物であるにも関わらず、直感は実際に非常に明確です。この直感は、OK、私が本当に把握する必要があるのは何でしょうか？私が本当に把握する必要がある一つのことは、ここでのこの表現です。

レイヤーlでの重みはどのくらい変化するでしょうか？それが把握できれば、すべての関連する量を導出し、学習率を解くことができます。高いレベルでは、それがここでの戦略です。

そして、1回の勾配ステップ後にdelta Wlがどのくらい動くかを可能に把握する方法はあるでしょうか？それが本当に重要な質問です。まあ、ここに現れる追加的な巧妙な仮定があります。その仮定は次のようなものです。

私たちの学習が良く振る舞うなら、単一の勾配ステップ後に、損失の変化、delta of lというこの量も大きなシータ1でなければなりません。そして、なぜそうなのでしょうか？まあ、幅が無限大に行くにつれて、損失のサイズ、アップデート、損失の減少が爆発したり0に行ったりすることを望まないからです。

モデルがどれだけ大きくなっても、損失の改善が本質的に同じ桁のままであることを望みます。これは以前に持っていたものよりも強い仮定です。しかし、それが真であると仮定すると、本質的に、OK、損失の変化は勾配に重みの変化を掛けたものだと言うことができます。この左辺はO of 1です。

このdelta of lがどのくらい大きく見えるべきかを知っています。そのため、今、申し訳ありません、このdelta Wlがどのくらい大きく見えるかを知っています。今、勾配サイズを解くことができます。そして、それを持ったら、ここに代入することができます。delta Wlを知っています。lの勾配を知っています。条件A1からh of lのサイズを知っています。そして今、学習率を解くことができます。

そして、それがまさに下でここで得るものです。そして、算術を通して作業すれば、ここで得る最終結果は、SGDの学習率がファンアウト over ファンインに等しいということです。

多くのステップが含まれ、多くの置換と、少し疑わしい大O記法が方程式に置換されています。しかし、それを行った後、非常に単純な公式を得ることになります。

これはSGDに対して真であることに注意してください。そして、注意を払い、この方程式を見つめている人たちは、おそらく内心で文句を言っているでしょう。あなたは私たちを誤解させました、なぜならトランスフォーマーでは、nl over nl minus 1は何でしょうか？MLPの場合、それは実際には4のようなものです、なぜならDFFとD modelの間に4倍の係数があるからです。

そのため、このものは実際には変化しません。アスペクト比がネットワーク全体で劇的に変化していない限り、ほとんどのモデルで単なる定数です。μPが標準パラメータ化と異なる理由は、このSGDの導出が行われているからです。そこで、パラメータ化はμPとSPの間でよく似て見えます。

まったく同じ導出をAdamに対して行うと、実際に少し異なるものを得ることになります。それは、ファンアウト over ファンインではなく、1 over ファンインになります。

ここに要約があります。前から、うまくいけば喜んで、μPを定義するスペクトル条件と呼ばれる基本的なものの導出を通してあなたを引きずってきました。しかし、今、その結果の1スライドの高レベルな要点を提供します。

10. μPの実装と実証的検証

10.1 大規模μP探索実験の概要

それでは、μPの概念的で、やや数学的な構成要素でした。今度は、μPの実証的側面について話したいと思います。そのため、プレプリント、または私はこれが発表されたコラムだと思いますが、「μ転移の大規模探索」について話します。これは大きなアブレーションの束を持っているので、私はこれを気に入っています。そして、私はアブレーションの虜なので、大規模アブレーションを持つ任意の論文をコースで発表します。

彼らが行うのは、私たちが説明したμPを用いて、右側を見ると、それがより関連性の高い部分ですが、分散をスケールダウンし、グローバル幅Mによって学習率をスケールダウンしています。そして、彼らは主に深度を固定しており、これは通常深度と幅を一緒にスケールするので、少し異常なスケーリング体制ですが、彼らは幅の変動のみを見ている制御実験を本当に行いたいと思っており、μPがこの体制でスケーリングを正確に捉えるかどうかを見たいと思っています。

また、すべてのμP論文が行うようですが、少し奇妙な微妙さがあります。224N講義を覚えているなら、注意活性化にスケーリングがあることを覚えているでしょう。内積を行い、その後1 over √Dでスケールダウンします。そして、私はこれが行うべき正しいことである魔法の定数だと言いました。

μPおよび他の論文は、活性化とアップデートサイズの安定性に関連する様々な議論のために、1 over √Dスケーリングの代わりに1 over Dスケーリングを使用します。そのため、それは最初にμPに関連するものとして考えないかもしれない別のことで、言及する価値があると思いました。

アーキテクチャは、標準的なトランスフォーマーの材料にほぼ似ています。そして、私が既に述べたように、彼らは幅スケーリングのみを考慮します。そのため、彼らは、事前訓練テキストで自己回帰的に訓練された標準的なトランスフォーマーを取ります。そして、彼らはモデルをより広く、より広く、より広くしたいと思っています。MLPとモデル残差ストリーム次元で。彼らはそれをより大きく、より大きく、より大きくしていきます。そして、彼らが望むのは、幅をスケールアップするにつれて、最適学習率が同じままであることです。

そしてそれが同じままであるなら、それがμPの大きな勝利です。そのため、ゲームは皆さんにとってうまくいけば明確です。幅をスケールしたいだけです。私が最適である学習率が同じままであることを望みます。

10.2 幅スケーリングでの学習率転移性の検証

質問番号1は、それは機能するのかということです。まあ、答えはイエスです。異なる幅、128、512、2048があります。列を横断して異なる学習率があります。

ここでの理想化された戦略は、小さなスケールで学習率のスイープを実行することです。最小のスケールを選択し、それをスケールアップし、うまくいけばその基本学習率が最適のままであることです。そして、ええ、このやや正確な幅スケーリングを行っている場合、学習率はモデルサイズ間で非常に信頼できるように転移するようです。

異なる幅128、512、2048に対して、列全体で異なる学習率を試したとき、最小スケールで学習率のスイープを実行し、その学習率をより大きなスケールに転移させると、基本学習率が最適のままであることを発見しました。これは、μPの中核的な約束である学習率の安定性が実際に達成されていることを示しています。

彼らは、この幅スケーリングが行われているときに学習率が非常に信頼できるように転移することを示しています。小規模で最適化された学習率が、大規模でも同様に機能するということです。これは、小規模実験で見つけた最適な学習率を、計算資源のかかる大規模実験で再度調整する必要がないことを意味します。

実験結果では、異なる幅サイズ間で、同じ列の学習率設定において一貫して良好な性能が維持されており、特に最適な学習率において、幅が変わっても性能が安定していることが確認されています。これは、μPの理論的予測が実際の実験においても有効であることを示す重要な証拠です。

10.3 各種アーキテクチャ変更に対する頑健性テスト

そして、その後、μPがいつ破綻するかという質問を始めて尋ねることになると思います。理論的にはその質問を尋ねることができますが、実際にもその質問を尋ねることができます。そのため、人々が行うすべての現代的なアーキテクチャのバリエーションを試してみます。

そして、このハイパーパラメータ転移の話がこれらのバリエーションの下でも持続するかどうかを尋ねます。そして、この論文は、多くの異なるものを通り抜けるので、非常に良いです。彼らは活性化を変えます。バッチサイズ、初期化、RMSノルムゲインを変えます。彼らはsine勾配スタイルのもののような、本当にエキゾチックな最適化器さえ使用します。そして、彼らは正則化器も変えます。

これらのうち、学習率転移を防ぐのはどれでしょうか？

最初のもの、これは深層線形ネットワークを見て、「ああ、誰も単に行列を一緒に掛けるだけではない、間に非線形性がある」と言っている場合、おそらく関連があると思います。そのため、非線形性を変えるとμPは機能するでしょうか。

まあ、SwiGLU、squared ReLU、そしてReLUのベースラインμPアプローチ、すべて同じ最小学習率を持っています。全く変化がありません。例えば、SwiGLUとsquared ReLUがベースライン8よりも良いということを見るだけです。驚くことではなく、コースで学んだ多くのことと一致しています。

バッチサイズを変えるかもしれません、なぜなら私たちはバッチサイズがスケールに敏感になることを知っているからです。MiniCPMとDeepSeekで見たように、基本的に最適バッチサイズが何であるかを把握するためにバッチサイズにスケーリング損失を適合させます。

再び、バッチサイズを4倍上下にスケールしても、最適学習率は安定のままです。

初期化についてはどうでしょうか。人々が変える初期化があります。例えば、いくつかの人々は、すべての異なるアイテムが均一な注意を得るように、クエリ行列を0に設定します。おそらくそれはより安定です。

いくつかの人々は、一番上の埋め込み層を、標準パラメータ化またはμPのいずれかの使用に基づいて異なってスケールします。おそらくそれは大きく重要です。これらのどちらも、中央の列では、これらすべての場合において最適学習率が最適のままです。

10.4 μPが破綻する条件の特定

それは何に対して堅牢でないのでしょうか？まあ、すべての単一のケースで機能するわけではありません。例えば、学習可能ゲインを追加すると、それはμPを破綻させることがわかります。そのため、バイアスを除去する必要があります。しかし、それらを除去すれば、μPは機能します。

それらを追加し直すと、必ずしも機能しません。同様に、よりエキゾチックな最適化器を試すこともできます。Lionは勾配アップデートのサインを取るような最適化器で、私には少しクレイジーに感じられますが、これは進化的探索のようなものを通して、最速の最適化器を見つけるために探索されたと思います。

このよりクレイジーな最適化器を使用すると、それは本当に破綻します。そして、これは期待されることだと思います。μPは、アップデートサイズを制御するためにAdamWのような非常に特定の最適化器に適応するように設計されています。そのため、全く異なる最適化器を使用している場合、学習率が転移することを期待する理由がわからないでしょう。

そのため、この話が失敗するのは、おそらく期待されることです。そして最後に、それは何に対して、また堅牢でないのでしょうか。実際にはるかに強い重み減衰がある場合、μPは実際に失敗し始めることがわかります。そして、これは実際に行うものである重み減衰に対する少数の重要なμP失敗の一つです。

多くの他のものは、単に「ああ、私たちはおそらくそれを期待したか、それは標準的に行うことではない」のようなものです。重み減衰は実際に行うものです。

μPは一般的に有用なようです。標準パラメータ化、ベースラインに戻ると、同じ学習率を使用することはできないかもしれません。同じ学習率は2048で大幅により悪い損失をもたらします。

あなたのモデルは単に爆発し、基本的に退化した損失を与えます。同じ学習率でスケールアップしていたら、非常に悲しかったでしょう。そして、学習率が幅の関数として予測可能にスケールダウンする必要があることも見ることができます。

一方、10Bパラメータモデルまでずっとスケールアップしても、ベース損失が同じままであることを見ることができます。

彼らは1つの大規模実験を行い、学習率が2の負の6乗レベルで理想的なままであることを見ます。これはクールな検証です。そのため、彼らは中小規模で全研究を行います。彼らは1つの大きなヒーロー実行を行い、その後学習率が最適のままです。そのため、その実証結果は多少有望に見えます。Meta がLlama 4でそれを使用したという事実も非常に良いです。

しかし、私が知る限り、人々がμPを使用するのがコンセンサスというわけではありません。

11. 実践的なスケーリング指針

11.1 野生でのスケーリング実践方法

すべてをまとめると、野生でどのようにスケールするのでしょうか？私は超Chinchillaサイズで70Bモデルを訓練したことがありません。そのため、ケーススタディに大きく依存しなければなりません。

そして、野生でのスケーリングのいくつかの例を見てきました。スケーリング法則を使用してモデルハイパーパラメータ、特に学習率とバッチサイズを設定する人々を見てきました。

これらの空間での探索を避けるために、μPのようなものを使用したり、安定性を仮定したりする人々を見てきました。そしてまた、WSDのような代替学習スケジュールの使用は、これらのスケーリング法則の多くを適合させるのに必要な計算量を減らすことができます。

野生でのスケーリングにおいて、我々は実際のモデル構築者がどのような戦略を採用しているかを様々なケーススタディを通して観察してきました。学習率とバッチサイズの最適化は、ほぼすべての研究で中心的な懸念事項として現れています。

一部の研究者は、μPのような手法を用いてハイパーパラメータの安定性を追求する一方で、他の研究者はスケーリング法則を直接適用してこれらのパラメータを推定するアプローチを取っています。どちらのアプローチも、小規模実験から大規模展開への予測可能性を向上させることを目的としています。

また、WSDのような学習率スケジューリング手法の採用により、Chinchilla分析のような重要なスケーリング研究を単一の訓練実行で効率的に行うことが可能になりました。これは計算リソースの大幅な節約をもたらし、より多くの研究者が包括的なスケーリング分析を実行できるようになりました。

11.2 ケーススタディから得られた教訓

我々は野生でのスケーリングのいくつかの例を見てきました。スケーリング法則を使用してモデルハイパーパラメータ、特に学習率とバッチサイズを設定する人々を見てきました。これらの空間での探索を避けるために、μPのようなものを使用したり、安定性を仮定したりする人々を見てきました。

ケーススタディを通じて明らかになったのは、現代のLLM構築者が採用するアプローチには大きく分けて2つの戦略があることです。一つは、CerebrasやMiniCPMのようにμPを使用してハイパーパラメータの安定性を追求する手法です。もう一つは、DeepSeekのようにスケーリング法則を直接適用してバッチサイズと学習率を体系的に最適化する手法です。

興味深いことに、どちらのアプローチを採用した場合でも、Chinchilla分析の再実装は共通して行われています。これは、token対parameter比率の最適化が、モデル構築において普遍的に重要な要素であることを示しています。ただし、具体的な比率については、Chinchillaの20:1から、MiniCPMの192:1、Llama 3の39:1、Hunyuan-Largeの96:1まで大きく異なっており、20:1比率は出発点に過ぎないことが明確になりました。

また、多くの人々のスケーリング法則を見ると、ハイパーパラメータに関するものは常に少しノイジーで不安定に見えると思います。しかし、すべてのプレイヤーからのisoflops分析は常に非常に、非常に良く見えます。これは重要な教訓で、個別のハイパーパラメータ最適化よりも、isoflop分析の手法の方がより信頼性が高く再現性があることを示しています。

11.3 代替学習スケジュールの計算効率性

そしてまた、WSDのような代替学習スケジュールの使用は、これらのスケーリング法則の多くを適合させるのに必要な計算量を減らすことができます。

WSD（Warm-up Stable Decay）学習率スケジューリングは、特にMiniCPMによって普及され、現在多くの研究者によって採用されています。この手法の最大の利点は、Chinchilla分析を効率的に実行できることです。従来のコサイン学習率では、異なるデータ目標に対して異なる学習率スケジュールが必要であり、各目標に対して最初から訓練を行う必要がありました。これはn二乗回の実行を要求し、計算コストが非常に高くなっていました。

しかし、WSDの台形学習率構造（ウォームアップ、安定、減衰の3段階）により、安定フェーズを再利用することが可能になりました。研究者は単一の訓練実行を行い、異なるデータ量に対応するためにチェックポイントを巻き戻して異なる減衰フェーズを適用することができます。これにより、Chinchillaスタイルのデータスケーリング分析を、主に単一の訓練実行のコストで行うことが可能になりました。

この計算効率の向上は、より多くの研究者が包括的なスケーリング分析を実行できるようになることを意味します。特に、リソースが限られた研究環境においても、詳細なスケーリング法則研究を行うことが現実的になりました。DeepSeekもこの手法を採用しており、彼らは独自のバリエーションとして2段階の減衰フェーズ（10%+10%）を実装し、総計算予算の約20%をクールダウンフェーズに割り当てています。

これらの代替学習スケジュールの成功は、効率的なスケーリング研究の新しい標準を確立し、今後のLLM開発において重要な役割を果たしていくと考えられます。

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 11: Scaling laws 2

For more information about Stanford's online Artificial Intelligence programs visit: https://stanford.io/ai To learn more about enrolling in this course visit: https://online.stanford.edu/courses/cs336-language-modeling-scratch To follow along with the course schedule and syllabus visit: https://stanford-cs336.github.io/spring2025/ Percy Liang Associate Professor of Computer Science Director of Center for Research on Foundation Models (CRFM) Tatsunori Hashimoto Assistant Professor of Computer Science View the entire course playlist: https://www.youtube.com/playlist?list=PLoROMvodv4rOY23Y0BoGoBGgQ1zmU_MT_

youtu.be

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 11: Scaling laws 2