※本記事は、Stanford CS336「Language Modeling from Scratch」コースのTatsunori Hashimoto氏による「Scaling laws 1」講義の内容を基に作成されています。講義の詳細情報や受講に関する情報は https://online.stanford.edu/courses/ および https://stanford-cs336.github.io/spri... でご覧いただけます。本記事では、講義の内容を要約しております。なお、本記事の内容は原講義の内容を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講義動画をご視聴いただくことをお勧めいたします。
講師紹介
Percy Liang氏 スタンフォード大学コンピュータサイエンス学部准教授、Foundation Models研究センター(CRFM)ディレクター
Tatsunori Hashimoto氏 スタンフォード大学コンピュータサイエンス学部助教授
本講義は、Stanford Onlineを通じてスタンフォード大学工学部が提供する学術・専門教育プログラムの一環として配信されています。Stanford Onlineは、スタンフォード大学全体の学部・機関と連携し、グローバルな聴衆に向けて包括的な教育コンテンツを設計・提供するStanford Engineering Center for Global & Online Education(CGOE)により運営されています。
1. イントロダクション:スケーリング則の目的と意義
1.1 富裕な友人のシナリオ:100,000 H100sでの最良LM構築
Tatsunori Hashimoto:スケーリング則について話を始める前に、皆さんに以下のシナリオに身を置いてもらいたいと思います。非常に裕福な友人がいて、彼または彼女があなたに100,000台のH100を1ヶ月間提供してくれたとします。最初は10,000台と言おうと思いましたが、100,000台にしましょう。そして、あなたは可能な限り最高のオープンソース言語モデルを構築しなければなりません。これは非常に困難なタスクであり、この問題で進歩を遂げるために必要なツールのいくつかを既に提供しています。
インフラチームやシステム担当者を集めて、分散訓練フレームワークを構築することができます。次の課題では、優れた事前訓練データをまとめることになります。そして、アーキテクチャなどについてもすべて知っているため、すべてのピースを持っており、クランクを回して大きなモデルを実行することができます。
最初の数回の講義では、この過程で行うかもしれない様々な決定について話しました。アーキテクチャは何か、ハイパーパラメータは何か、これらすべてをどのように行うかなどについてです。初期の講義で私が与えた答えは、ある意味では、他の人々が行ったことを選ぶことでした。つまり、Llamaや他のモデルに従えばよいということです。しかし、これは非常に退屈な答えです。なぜなら、これでは最前線を押し進めることができないからです。
もしあなたが大きなフロンティア研究所にいて、最高のモデルを構築しようとしているなら、他の人を単にコピーしたくはないでしょう。イノベーションを起こしたいのです。では、どのようにしてイノベーションを起こし、最初にこれらの最適化されたソリューションを得るのでしょうか。これがスケーリング則のポイントになります。
1.2 従来手法の限界:大型モデルでの直接的なハイパーパラメータ調整
Tatsunori Hashimoto:私たちが構築したいのは、言語モデルの動作に対する単純な予測法則です。スケーリング則は基本的に、小さなモデルを取って、それらをスケールアップし、エンジニアリングを改善するためにそれを行うことができるという全体的なアイデアです。
これについて考える一つの方法は、深層学習の古い不愉快なやり方です。それは、多くの大きなモデルを訓練し、大きなモデルが良くなるようにハイパーパラメータを調整することです。これは膨大な計算量を必要とし、実際にはそう簡単にはできません。
そこで、新しい楽観主義があると思います。スケーリングに関するこれらの発展を追っている方は、このように考えるでしょう。つまり、多くの小さなモデルを訓練し、それらの小さなモデルから多くのことを学び、そしてそれらをより大きなモデルに外挿するということです。私たちは、この計算スケールの左側にある最小のモデルを取り、多くのことを学び、そして大きなモデルを構築するときに一発で成功させるのです。
1.3 新しい楽観的アプローチ:小型モデルから大型モデルへの外挿
Tatsunori Hashimoto:新しい楽観主義があると思います。スケーリングに関するこれらの発展を追っている方は、このように考えるでしょう。つまり、多くの小さなモデルを訓練し、それらの小さなモデルから多くのことを学び、そしてそれらをより大きなモデルに外挿するということです。私たちは、この計算スケールの左側にある最小のモデルを取り、何をすべきかについて多くのことを学び、そして大きなモデルを構築するときに一発で成功させるのです。
このアプローチの核心は、小さなモデルでの実験と学習を通じて得られた知見を、計算資源の制約がある中で効率的に大規模モデルに適用することにあります。従来の方法では、大型モデルを直接訓練してハイパーパラメータを調整する必要がありましたが、この新しいアプローチでは、小規模な実験での学習を基に、大規模な訓練を一回で成功させることを目指しています。
2. スケーリング則の歴史的背景と理論的基盤
2.1 統計的機械学習との関連:VC次元とRademacher複雑度
Tatsunori Hashimoto:まず、スケーリング則の歴史と背景について説明したいと思います。この文脈を説明したいのは、人々がスケーリング則について話すとき、しばしば非常にメシア的なAGI的な用語で語られるからです。「スケーリング則は、これらの素晴らしいことが永続的に対数線形であり、超知能を達成するだろう」というようなことを言うのです。
しかし、スケーリング則は実際にはもっと基礎的で、興味深い歴史があると思います。そこから始めて、スケーリング則が必ずしも対数プロット上での線の当てはめだけではないことを納得してもらおうと思います。ただし、それも私たちが行うことの大部分ではありますが。
統計的機械学習で育った人間として、私の出発点は統計的機械学習になります。スケーリング則とは何でしょうか。ある意味で、スケーリング則は、データ量を増やしたり、モデルサイズを変更したりするときに、モデルから特定の動作を期待することを教えてくれます。
機械学習101に戻って、VC次元やRademacher複雑度などを思い出すなら、それはまさにこの理論版です。上部には、有限のk個の仮説集合の中での学習の超過リスクに対する一般化境界があり、それは1/√mとしてスケールするはずです。ある意味で、これは私たちがnの関数として誤差がどれくらい速く減衰するかについて予測を行っているスケーリング則の理論版です。
下部では、生成モデリングを行っていて、生成モデルが本当に柔軟な非パラメトリッククラスである場合、もう少し奇妙なことをするかもしれません。何らかの滑らかな密度をフィットするかもしれません。この場合、密度を推定するL2誤差は、n^(-β/(2β+1))の多項式で上界されるという予測になります。これを非パラメトリック率と呼ぶ人もいます。
理論家たちは、特にサンプルサイズが誤差とどのように関係するかについて、長い間考えてきました。これは機械学習理論で考えられてきた非常に古典的な問題です。
2.2 初期のスケーリング則論文:1993年Bell Labs(Vapnik、Cortes他)
Tatsunori Hashimoto:しかし、これらは上界であり、実際に実現される損失値ではありません。そして実際にスケーリング則は、理論的な側面から実証的な側面への飛躍をある意味で表しています。つまり、データとモデルサイズが性能とどのように関係すべきかという理論的思考から、実際に私たちの境界は悪いが、もしかすると経験的にこれらのことをフィットできるかもしれないという実証的側面への移行です。
そして、これは楽しい雑学的事実、あるいは議論の余地のある雑学的事実です。最初のスケーリング則論文とは何でしょうか。実際に多くの論文がこれを引用していませんが、おそらく正しい最初のスケーリング則論文は、1993年のNeurIPSのBell Labsからの論文だと思います。これらの名前のいくつかを認識するかもしれません。これらは理論家であり、VapnikやCortes、その他機械学習理論で本当に古典的な仕事をした人々の一部です。
この講義の準備をしていて実際にこの論文を読んでいたときに抜粋を取ったのですが、この論文がいかに多くの点で時代を先取りしていたかに驚きました。論文では「大規模データベースでの分類器の訓練は計算的に非常に要求が厳しく、実際に全体を訓練する前にどれが良いかを把握する必要がある」と述べています。
そこで、実際に全体を訓練することなく、モデルがどれくらい良いかを予測する新しい予測手法を提案します。これはスケーリング則に非常に似て聞こえます。後でこれを見ることになります。
彼らは基本的に、モデルのテスト誤差は、還元不可能誤差に加えて多項式的に減衰する項として表現できるという関数形を持っています。これは現代のスケーリング則に非常に似て見えます。そして彼らは、多くの小さなモデルを訓練し、曲線をフィットし、「ああ、さらに先のモデルの動作を正確に予測できる」と言うことまでやっています。
そのため、多くのことと同様に、スケーリング則は部分的には、昔のBell Labsで考えられていたということです。
2.3 NLP分野での発展:Banko & Brill、Hestness et al. (2017)
Tatsunori Hashimoto:もちろん、スケーリングだけでなく、実際に現代のスケーリングの考え方について関連するアイデアを考えた他の人々もいます。スケーリング則の歴史でしばしば言及されるもう一つの論文があります。Banko & Brillは、特定の種類のNLPシステムの性能がデータ量とどのようにスケールするかを研究していました。
彼らは現代のスケーリング則に非常によく似た見た目のものを持っています。x軸に対数軸でのデータ、y軸に性能があり、基本的に「データをスケールアップすることで本当に劇的な性能向上を得ることができる。それは非常に予測可能であり、アルゴリズム開発にかける時間とお金と、より多くのデータを収集することとの間のトレードオフを考慮すべきかもしれない」と主張しています。
これは多くの事前訓練の考え方に非常に似て聞こえます。そして最後に、人々が最近および過去に考えてきたことの一つは、「この事は本当に予測可能なのか?正しい関数形は何なのか?」ということです。2012年という早い時期に、人々は「これらのことは実際に予測可能なのか?例えば、冪乗則のpower-3やpower-4は、モデルの動作を予測するための本当に正しい関数形なのか?」と本当に考えていました。
もちろん、これらすべては、y軸でのモデルの動作、つまり能力を、x軸で持っているデータ量の関数として考えていることを思い出してください。これが、これらすべての場合で本当に古典的に研究されてきた関係であり、データスケーリングと呼ぶかもしれないものです。
最初の大規模な古いニューラルスケーリング則論文に興味があるなら、それはおそらく2017年のHestnessらの論文でしょう。彼らがこの研究を行ったとき、Purdueにいたと思います。彼らは、機械翻訳、音声、そしていくつかの視覚タスクなど、一連のタスクに対して、本質的に誤差率が冪乗則として減少することを示しました。
2.4 3つの異なる領域:推測領域、冪乗則領域、漸近領域
Tatsunori Hashimoto:彼らは、スケーリング則について議論する際に私が参照するのが本当に好きな素晴らしいプロットを持っています。それは、モデルの動作には実際に3つの異なる領域があることを期待すべきだということです。最初は最善の推測から始まり、その後、モデルを予測可能にスケーリングしている領域、つまり冪乗則領域に入ります。そして、基本的にモデルクラスの還元不可能誤差に近づいている別の漸近領域があります。
私が強調したいのは、ここ数年間、新しい現象について多くの議論があったということです。例えば、「創発的能力」や「スケーリング計算が新しいこと」、または「システムが本当に重要である」といったことです。しかし、2018年にHestnessを注意深く読んでいたなら、本質的にこれらすべてのことを見ていたでしょう。
彼らは実際に、「モデルがランダム性能にあるときは、突然ランダム領域を離れることができるため、スケーリング則による予測を行うのは本当に困難だ」と言っています。彼らは実際に計算の限界について話しており、「スケールできるということは、実際にはスケーリング計算が本当に重要だということを意味する」と述べています。
そして最後に、彼らは「予測可能なスケーリングがあるなら、計算でモデル精度を支払うことを喜んで受け入れるべきなので、量子化のようなことをすべきかもしれない」といったことまで言っています。これらはすべて非常に現代的なアイデアであり、多くの初期のスケーリング則論文は、これらのプロットを見ると、予測可能なリソース投資で予測可能な能力向上が得られることを直感的に理解していたと思います。それがある意味で核心部分です。
3. データスケーリング則の理論と実践
3.1 データスケーリングの定義と数学的表現
Tatsunori Hashimoto:今度は、LLMのスケーリング動作について話したいと思います。本質的にいくつかの経験的結果を説明していきます。特にデータスケーリングについて説明し、いくつかの例を示して、これが期待すべき非常に自然な対象であることを納得してもらい、その後、異なる種類のものであるモデルサイズについて話します。
スケーリング則は非常によく確立されており、多くの変数で非常に頻繁に現れるようです。x軸で計算のスケーリングが見られます。これらはすべてKaplanのスケーリング則論文から取ったもので、この講義で広範囲に参照します。x軸は対数計算、y軸は対数テスト損失です。右側では、データセットサイズとパラメータの両方で同様の種類のスケーリングが見られます。
ここで言及したい一つの微妙な点は、データセットサイズやパラメータなどをスケールするとき、常に他の変数を想定していることです。この場合、データセットサイズをスケールしているなら、モデルサイズはデータセットサイズで飽和させることができるよりもはるかに大きいと仮定しています。なぜなら、明らかにパラメータよりもはるかに多くのデータがあるなら、最終的に漸近的になるからです。これらすべてで漸近的体制を避けようとしています。
また、これらは非常に非標準的な設定でも成り立ちます。ダウンストリームタスクでも成り立ち、Kaplan論文から示されているように、分布外でも成り立ちます。そのため、ある意味で、冪乗則関係は、特にこれらのOODや他の変数に対して、最初に期待するよりも頻繁に現れるようです。
最初にデータスケーリング則について話したいと思います。なぜなら、それらが最も直感的だと思うからです。少なくとも、そのための理論は非常に明確だと思います。正確に言うと、データスケーリングと言うとき、私が意味するのは、データセットサイズ(nと呼びます)を私たちの超過誤差にマッピングする何らかの単純な公式です。超過誤差は還元不可能体制を超えた誤差です。
Hessnessで言及した図を思い出すなら、私たちが期待するのは単調な対数的な見た目の曲線です。そして私たちの関心は主に冪乗則領域から還元不可能誤差領域にあります。もちろん、ランダム推測を離れるときの小データ領域で何が起こるかについて質問することも非常に興味深いですが、それについて推論するのははるかに困難です。一方、この右端の部分は、実際に冪乗則スケーリングを期待する非常に自然なことであることを希望的に納得させることができると思います。
3.2 統計学101からの例:平均推定とσ²/n関係
Tatsunori Hashimoto:それでは、最初の経験的観察について説明します。これは私が自然であることを納得させようとしているものです。x軸にデータセットサイズ、y軸にテスト損失をプロットすると、対数プロット上でモデル性能が線形になります。これをスケールフリーと呼んだり、冪乗則と呼んだりするかもしれません。これらはより物理学指向の用語です。そして、これは多くの人々によって確立されました。多くの例を見るにはKaplanを参照してください。
前の質問が提起したように、誤差が単調であることは期待しています。より多くのデータで訓練すれば、誤差は下がります。これは非常に明白です。あまり明白でない部分は、このスケーリングの正確な関数形です。対数対数空間で線形であると言うとき、それはx軸とy軸の間に多項式関係があることを意味します。なぜ多項式減衰が自然なのでしょうか。
私は2つの例を説明し、それらの両方がかなり自然な多項式減衰をもたらします。最も簡単な例から始めます。これは機械学習101というよりも、統計学101に過ぎません。
データセットの平均を推定したいとします。平均の推定はパラメータの推定のタスクです。スケーリング則とは何かを尋ねることができます。データの関数として私の平均推定タスクの誤差は何でしょうか。
これを書き出すことができます。私の入力はガウシアンから来て、タスクは平均を推定することです。これらを上の青いボックスに書きました。誤差は何でしょうか。非常に標準的な議論により、平均もガウシアンとして分布し、標準偏差をnで割ったものになります。
そのため、σ²/nが私の推定誤差になります。これは私の推定の期待二乗誤差です。これを見ると、これはnにおいて多項式です。そして本当に要点を強調するために、この両辺の対数を取ります。左側に誤差の対数、右側にnの対数があります。
正確に、誤差の対数 = -log n + 2 log σ を得ます。これは私たちが期待する種類のものそのものであり、平均推定に対してスケーリング則をフィッティングするなら、傾きが1であることを期待します。
3.3 非パラメトリック回帰の例:2D単位ボックスでの関数推定
Tatsunori Hashimoto:そこで、この新しい知識を身につけて、「さまざまなものを推定する際の率を調べに行き、それがデータスケーリングについて何を期待すべきかを教えてくれるだろう」と言うかもしれません。1/nを期待するかもしれませんし、不可知学習では1/√nを期待するかもしれません。そのため、対数プロットの傾きでは、1や0.5のような非常にきれいな整数を見ることを期待すべきです。
これらの論文を横断して実際に経験的に何を見つけるでしょうか。Hestnessでは、機械翻訳で0.13、音声で0.3、言語モデリングで指数0.95を見ます。これらはすべて、単純な関数をフィッティングするときに期待する1/nや1/√n率よりもはるかに遅いです。
なぜこのようなことが起こるのでしょうか。これがこの講義の最後の数学スライドになり、その後は対数対数プロットでの線のフィッティングに時間を費やすことができます。しかし、これは私たちが見るこれらの特定の傾きを期待する理由の要点を押さえてくれることを願っています。
ニューラルネットは単に平均を推定しているわけではないことを知っています。線形回帰をフィッティングしているわけでもありません。任意の関数をフィットできます。それを例にして、その例を解いてみましょう。
私の入力はx1からxnまで、n個のサンプルがあり、それらを2D単位ボックスに均等に配置します。ある任意の回帰関数y = fを推定したいと思います。fは滑らかなどの条件を仮定します。本当に正確にしたいなら、ここにはいくつかの正則性条件があります。
回帰関数fを推定する単純なアプローチは、2D空間を小さなボックスに切り分け、各ボックス内でy値の平均を測定することです。非常に単純な非パラメトリック回帰器は、空間を切り分けて推定することです。
非公式に、√m個のボックスを選ぶとします。今、各ボックスは√n個のサンプルを取得します。そして私の誤差は1/√nになります。この論理をより多くの次元で追跡すると、d次元では、これは誤差 = n^(-1/d)になることがわかります。
そして、全体のスケーリングの対数対数プロットを取ると、私は-1/dの傾きを期待します。なぜこの例を説明したかというと、柔軟な関数クラス、人々が非パラメトリック関数クラスと呼ぶものがある場合、次元依存性を期待し、したがってスケーリング則の傾きがはるかにゆっくりと移動することを期待するからです。
ある意味で、傾きは内在次元性やこのタスクの学習の容易さをほぼ正確に教えてくれています。
3.4 内在次元との関係:n^(-1/d)のスケーリング率
Tatsunori Hashimoto:人々はこれをより正式に、あるいはより文字通りに論じています。実際に我々が得るこのような奇妙なまたは非標準的な学習率の理由が、データの内在次元性と密接に関連していることを論じる理論/実証論文がいくつかあります。
例えば、これらの予測の破線と紫色の円のプロットは、ある程度近いものですが、内在次元の推定は極めて困難な問題であり、データを全体的にモデル化することと同じくらい困難であるため、これを読み込みすぎないようにしたいものです。
学生から質問がありました:「最後に言及した点に関連していますが、シミュレーションの観点から、そもそも根底にある内在次元を持つデータをどのように生成するのでしょうか?」
実際、ここでの結果について言うなら、例えばデータを生成したいなら、それはそれほど難しくありません。5つの変数を取る関数を書き下すことができます。そして、これら5つの変数がすべてお互いを打ち消さない限り、それは5次元表面になり、少しノイズを加えれば準備完了です。
ここでの困難は、実際にはCIFAR-10での訓練のようなことを行っていて、異なる設定を持っていて、CIFAの内在次元性を推定しようとしていることです。それははるかに困難なタスクです。
3.5 データスケーリング則の実用的応用
Tatsunori Hashimoto:データスケーリング則は非常に有用です。スケーリング則を説明する観点から話していましたが、実際にはデータスケーリング則を使って多くの興味深いことを行うことができます。さまざまな種類の工学的決定をデータスケーリング則を使って行うことができ、人々は実際にこれを行っています。
データセット構成の影響分析
例えば、データセットサイズだけでなく、データセット構成が性能にどのように影響するかを言うかもしれません。テストセットを変更している場合、Kaplanらには、実際にデータ構成はオフセットにのみ影響し、傾きには影響しないことを示す本当に素晴らしい図があります。
これが意味することは、本当に良いデータセットを選びたい場合、必ずしも巨大なスケールでモデルを訓練する必要がないということです。それらを縮小して、はるかに小さなモデルでデータ選択実験を行うことができます。異なるデータを混合する際に期待される形状の一種があり、回帰やその他の種類の技術を使って、スケーリング則を使用した最適なデータ混合を把握しようとすることができます。人々はこのトピックについていくつかの論文を書いていますが、すべてのデータ選択研究と同様に、これの多くは確実に実行するのがかなり困難に思えます。
マルチエポック訓練の効果
Tatsunori Hashimoto:尋ねるかもしれない他の興味深い質問もあります。最近、「インターネット上のデータが不足しているのか」について多くの議論があります。そして、これらの質問を始めると、他の興味深く重要な質問は、「同じデータで訓練を続けることができるのか、その収穫逓減特性は何か」ということです。
マルチエポック訓練にスケーリング則を拡張する興味深い研究があります。基本的に、実効サンプルサイズのようなものがあり、約4エポック後には、より多くのデータを繰り返すにつれて急速に収穫逓減があると主張しています。
通常のスケーリング則を修正することで、基本的に実効データ量とユニークトークン量を持つバージョンを得ることができ、これらは繰り返し量を増やすにつれて減少していきます。
高品質データの繰り返し vs 低品質新データのトレードオフ
Tatsunori Hashimoto:最後に、これら2つのアイデアの興味深い組み合わせの一つは、大規模データ体制でのデータ選択について考えている場合です。何兆、何兆ものトークンで訓練を行うことを想像してください。何が良いでしょうか?Wikipediaやおそらくあなたの秘密の海賊版書籍のような高品質ソースを10回繰り返すのが良いでしょうか、それとも新しいデータを含める方が良いでしょうか?
データを繰り返すか、新しいデータを含めるかという選択肢があり、データ混合を最適化できる複数の軸があります。また、本質的に新しい高品質データと低品質データの繰り返しとのトレードオフに関する興味深いデータスケーリング研究もあります。これはCMUの人々からの研究です。
これらすべては、予測的な冪乗則関係があると仮定し、この冪乗則関係が混合ごとに成り立つと仮定すれば、これらの種類のスケーリング則外挿をフィットし、大規模でのデータの良さの推定を得ることができるという、私が既に教えた内容の本当に自然な拡張です。
4. モデルスケーリング則と工学的決定
4.1 アーキテクチャ選択:TransformerとLSTMの比較
Tatsunori Hashimoto:それがデータスケーリングの出発点です。うまくいけば、この時点で、データと誤差の間に対数対数線形関係があることを経験的にも概念的にも納得していただけたと思います。この関係は、ドメインを横断して、異なる種類のモデルを横断して非常に頑健に成り立っているようです。そして、何が起こっているかについて、非常にきれいで明確な理論的理解を持つことができます。これを行うと、最適なデータ混合を選ぶなど、あらゆる種類の目的に使用できます。
今度は、データスケーリングから、私の意見では、わずかにより神秘的な種類のスケーリングに移りたいと思います。次にモデルスケーリングについて話します。これは、私たちが今答えようとするより実用的な工学的な問題のセットだと思います。
あなたは本当に大きな言語モデルの構築と出荷を担当しており、そこには多くの興味深いアイデアがあります。最新の状態空間モデルを訓練することもできますし、トランスフォーマーを訓練することもできますし、AdamやSGDを使うこともできます。人々はあらゆる種類の新しいトリックを発明しており、どれをスケールアップする価値があり、どれがそうでないかということです。
また、限られた計算リソースを取って、それらを異なることに費やすこともできます。より長時間モデルを訓練することもできますし、より大きなモデルを訓練することもできます。与えられたFLOPに対して、これらの間でトレードオフを行うことができます。また、より多くのデータを収集するか、より多くのGPUを取得するかなどのこともできます。やることができる異なる種類のことがたくさんあり、スケーリング則により、これらすべての質問に答えるための非常にシンプルな手順を持つことができます。
古典的なKaplanスケーリング則論文を説明します。これらのトピックに興味があるなら、それを読むことをお勧めします。それは、実際に研究したすべてのもののこの種の観察の本当に金鉱です。その一部は古いですが、かなり良い統一された設定でのあらゆる種類のことの徹底さにおいて、まだ比類がないと思います。
アーキテクチャの観点から、TransformerとLSTMのどちらが良いかを尋ねることから始めるかもしれません。力技的な方法は、LSTMをGPT-3レベルまでスケールアップして、それが良いかどうかを把握することかもしれません。スケーリング則の方法ははるかにシンプルです。基本的に多くのLSTMとTransformerを多くの異なる計算閾値または計算レベルで訓練し、それらをスケールアップしたときに何が起こるかを見ます。
そして、ここでの傾向はかなり明確だと思います。LSTM上に何層あっても、かなり大きなギャップ、つまりTransformerとLSTMの間のかなり大きな定数係数ギャップがあります。これは対数スケールであることを覚えておいてください。
これは、正確な数字がわからないが、これが15倍効率が悪いようなことを言っているようなものです。このプロット上のどこにいても、LSTMは、例えば15倍、Transformerより計算効率が悪いということです。そのため、LSTMを使用することに一定係数の計算ペナルティがあります。
4.2 多様なアーキテクチャの比較:GLU、MoE、Performerなど
Tatsunori Hashimoto:より多くのアーキテクチャがあり、どれが本当に良くて実行する価値があるかを言うこともできます。この古典的な論文の一部は、GoogleのTayらによるものです。彼らは、右側にある多くのアーキテクチャでまさにこの種のスケーリング研究を行いました。
基本的に、彼らはそれらをスケールアップしました。x軸は計算量です。赤い線は基本的に各アーキテクチャであり、緑の線はTransformerベースラインです。彼らは「これらの代替アーキテクチャのうち、Transformerに匹敵するか、Transformerを上回ることができるものはあるか」と尋ねています。
彼らが最終的に何を得たかというと、実際にTransformerを本当に強く確実に打ち負かすように見えるのは、Gated Linear UnitsとMixture of Expertsだけです。そして、それを知ったら、それはまさに人々が今日行っていることです。これは、Switch TransformerやGLUを行うべきであり、例えばPerformerを行うべきではないという結論にどのように到達したであろうかというスケーリング則版の同じアイデアの一種です。
スケーリング則は、なぜそれを行いたいかもしれないかについていくつかの明確な証拠を提供します。
4.3 オプティマイザー選択:SGD vs Adam
Tatsunori Hashimoto:オプティマイザーの選択も同様のことに従うと思います。これはHestnessからのものです。SGDとAdamを比較し、以前と非常に似た、計算での一定係数ギャップを発見しています。この場合はデータセットサイズですが、もちろんこれは計算に変換されます。AdamとSGDの効果の差です。
この場合のRHNは再帰的ハイウェイネットワークですが、ここでの詳細は無視することができます。特定の結果よりも、この種の分析をどのように行うかという点を理解していただければと思います。
4.4 モデル構造:深さ vs 幅の最適比率
Tatsunori Hashimoto:最初に、深さ対幅のようなものについても言いました。アスペクト比はどうあるべきかという、私たちが話したハイパーパラメータトピックの一つでした。Kaplanから同様の分析をスケーリング則形式で見ることができます。
これは少なくとも私には興味深いと思います。なぜなら、より深い層が劇的に良くなると考えるかもしれないからです。層数の間に明確な分離があるようなものです。しかし、少なくともここでは、実際に1層は本当に悪いが、他の層選択の多くはかなり安定しているということを見ています。
そして、うまくいけば、これはアーキテクチャ講義で見せたスライドを思い起こさせるでしょう。そこで私は、幅対深さの比、大体4対16かそれくらいが非常に自然な数字だったが、ほぼ最適である非常に広い盆地があると言いました。スケーリング則分析もそれをバックアップしています。
4.5 パラメータの非等価性:埋め込み層パラメータの特殊性
Tatsunori Hashimoto:指摘したい重要な微妙な点の一つは、すべてのパラメータが等しいわけではないということです。しばしばパラメータスケーリング分析を行いたいと思うでしょう。しかし、埋め込みパラメータをモデルの一部として数えるとすれば、かなり異なるスケーリング則を得ることになります。
ここで少し曲がっているような奇妙に見えるものを得ます。一方、非埋め込みパラメータのみを考慮すると、以前に示したはるかにきれいな結果が見られます。そのため、埋め込み層パラメータは実際には同じように動作せず、非埋め込みパラメータを考慮する際と同じ種類の対数線形スケーリングを示しません。
そして、すべてのパラメータが同じではないという関連研究があります。混合専門家のスケーリングに関する最近の論文では、スパースに活性化されるパラメータがある場合、パラメータであることの意味は何かを把握しようとしています。そして、そのような論文では、パラメータ数を正規化しようとするために、本質的に等価な密パラメータ数のようなものを導出しようとしています。
5. ハイパーパラメータのスケール認識調整
5.1 スケール横断でのハイパーパラメータ動作の一貫性
Tatsunori Hashimoto:この図を以前にハイパーパラメータ選択で見せましたが、うまくいけば今は元の種類のハイパーパラメータ選択の質問だけでなく、完全な文脈を見ることができるでしょう。多くの場合、以下のようなスケーリング則曲線を見ることがわかります。戻って、例えばここを見てみましょう。
しばしば、以下のような曲線を見ることができます。曲線の傾きが非常に似たままであることがよくあります。それらは交差せず、これらの曲線の間には一定係数のオフセットがあります。これが真実である場合、あなたができることは、特定の計算レベルまたは特定のハイパーパラメータセットでスライスを取り、ハイパーパラメータのトレードオフを非常に注意深く分析し、それをスケールアップすることが安全であると仮定することができるということです。
そして、Kaplanの論文に行くと、まさにこれらの種類の分析が行われているのを見ることができます。特に中央のアスペクト比プロットは間違いなく見る価値があります。彼らは単にモデルをスケールアップ・ダウンしているだけではありません。実際に異なるスライスを取っています。
5.2 異なるスケールでのアスペクト比分析
Tatsunori Hashimoto:異なるサイズのモデル、5000万、2億7000万、15億で、アスペクト比が損失をどのように変化させるかを見ています。彼らは、曲線の形状、スケーリング傾きだけでなく、実際に類似したままであることを見ています。
これが意味することは、10から100の間のアスペクト比を選ぶことができ、その間の何でもこれらすべての異なるスケールで問題なく動作するということです。そして、これは考えるべき重要なことだと思います。
最初に深層学習やモデル訓練で訓練を受けたとき、ハイパーパラメータ調整について考えますが、ハイパーパラメータを調整する方法においてスケール認識でありたいと思います。これは、スケーリング則スタイルのアプローチと、おそらくあなたが訓練されてきたこと、または小規模でこれらのモデルを調整しようと自然に考えることとの間の考え方の本当に大きな違いだと思います。
5.3 フィードフォワード次元比とアテンション頭次元の調整
Tatsunori Hashimoto:同じことがフィードフォワード次元比やアテンション頭次元についても行われています。スケールのさまざまな側面を変化させ、最小値が類似したままかどうかを確認しようとしています。
彼らは複数のスケールレベルでこれらの分析を実行し、異なるモデルサイズにわたって一貫した最適設定を特定しようとしています。これにより、小規模での実験結果を大規模なモデルに自信を持って適用できるかどうかを理解することができます。
このアプローチにより、各スケールで個別にハイパーパラメータを再調整する必要なく、異なるモデルサイズにわたって安定した性能を維持できる設定範囲を特定することが可能になります。
6. バッチサイズと学習率のスケーリング
6.1 臨界バッチサイズの概念
Tatsunori Hashimoto:もう一つの重要なことは、実際に次の講義ではありませんが、次の次の講義で、人々がどのようにモデルをスケールアップしてきたかについて、実用的なケーススタディのようなものについて話す予定です。実際に、モデルをスケールアップするときに注意深く対処しなければならない本当に厄介な2つのことは、バッチサイズと学習率であることがわかります。
モデルをスケールアップするとき、最適学習率がモデルスケール間で異なる可能性があります。それを行っている場合、実際に最適バッチサイズも変化する可能性があります。なぜなら、これら2つはしばしば共変しているからです。そのため、バッチサイズをスケールする正しい方法は何か、バッチサイズがスケールとどのように相互作用するか、また学習率についても考える必要があります。
システム講義からバッチサイズについてうまくいけば覚えているでしょうが、それは特定のポイントを過ぎると収穫逓減があります。ある点まで、バッチサイズがノイズスケールより小さいとき、ここの左側にいます。バッチサイズを増やすことは、より多くの勾配ステップを取ることとほぼ同等です。
これは、バッチサイズを2倍にすると、2つの勾配ステップを取るのと同じくらい良いと大まかに言っているようなものです。これは本当に本当に良い場所にいることです。なぜなら、今はバッチ全体で並列化できるシステムパワーを得ながら、2ステップを取る最適化効率を持っているからです。
しかし、特定のポイントを過ぎると、非効果的なスケーリングを持つことになります。今、ノイズスケールとバッチサイズが同じであり、バッチで取っている追加サンプルは有用なノイズを減らしていません。それは最適化ランドスケープの曲率のバイアス項のようなもので支配されています。
考えるべき本当に有用な分析対象の一つは、この臨界バッチサイズの概念です。臨界バッチサイズは、完全なスケーリングから強い収穫逓減に移行するこの閾値点のようなものと考えることができます。これを理論的に分析することができ、臨界バッチサイズに関するOpenAIの論文がこれを行っていますが、経験的にも分析することができ、これはスケーリング則の種類の方法で研究されてきたもう一つのことです。
6.2 損失目標とバッチサイズの関係:低損失目標→大バッチサイズ
Tatsunori Hashimoto:進歩が遅くなるポイントを経験的に推定することができます。そのため、これらの臨界バッチサイズのトレードオフポイントが何であるかを経験的に推定することができます。また、基本的により大きく、より良いモデルを訓練することもできます。
本当に興味深いことの一つは、損失を改善しようとするとき、つまりここで左側に行くとき、損失をより良く、より良く、より良く、より良くしていくときです。臨界バッチサイズは実際に小さくなります。つまり、損失目標が小さいほど、全体的なバッチサイズが大きくなることができます。
これが導くことの一つは、例えばLlama 3の訓練レポートを見ると、実際に彼らが特定のポイント後にバッチサイズを増加させたり、訓練中にバッチサイズを増加させるようなことを行っているのを見ることができます。なぜなら、損失目標が小さくなるにつれて、バッチサイズをより大きくすることができるからです。
6.3 学習率スケーリングの課題
Tatsunori Hashimoto:計算とモデルサイズの両方を増やすとき、一度により何が正しいことかについて、Kaplanからの種類のスケーリング分析を行うことができます。最適バッチサイズは何かを把握しようとすることができ、私たちが見るのは、計算量を増やすにつれて、実際に合理的な並列性を持つことができるということです。
少なくともこの計算閾値内では、総ステップ数は同じままでいることができ、バッチをより大きく、より大きく、より大きくしていく間です。もちろん、バッチの数を固定すると、ステップ数はどんどん上がっていきます。これはデータ並列処理にとって良いニュースであることを願っています。
標準実践:モデル幅に反比例する最適学習率
前述したように、この話のもう一つの側面は、バッチサイズがあり、それから学習率があり、これら2つは互いにかなり密接にリンクしているということです。次のスケーリング講義の部分で、MuPについてはるかに詳しく話すつもりです。しかし、これは本当に重要な、より広いアイデアだと思います。
2つのうちの1つを行うことができます。この図により、これら両方について話すことができると思います。まず、この左のプロットを見てみましょう。標準実践とラベル付けされているものです。Transformerを訓練するとき、基本的にここの左のもの、この標準実践のようなものを見ることになります。
最適学習率は異なるポイントにあり、モデルがより広くなり、MLPがより広く、より広く、より広くなるにつれて、最適学習率はかなり小さくなります。モデルをより小さく、より小さく、より小さくするにつれて、損失はもちろん上がります。なぜなら、モデルの表現力が劣るからですが、最適学習率も上がります。
しばしば人々は、経験則として、幅の逆数が学習率をスケールする正しい率だと言います。より高度な人々は、実際にこれらの曲線を取り、最小値を見つけ、最適学習率にスケーリング則をフィットします。
そこで、これは予測可能な減衰であり、おそらくスケーリング則をフィットできることがわかります。次の一連の講義でこれについてもっと話します。
MuP(Maximal Update Parameterization):スケール不変学習率
Tatsunori Hashimoto:しかし、多くの人々が採用し始めており、考えるべき本当に興味深いことだと思う代替案があります。それは、実際にモデルを再パラメータ化することができるということです。
特に、幅に基づいて異なる層の学習率をスケールするようなことを行うことができます。モデルの幅に基づいて初期化の分散をスケールすることもできます。また、モデルの異なる層のフォワードパスで出力を乗算することもできます。
これをモデルの幅に依存する方法で行うと、学習率がスケール間でより安定している、あるいは少なくとも元の論文ではスケール間で正確に安定しているとされるモデルのパラメータ化を得ることになります。つまり、学習率を一度調整すれば、他に何もする必要がありません。
その最適値は直接転移します。実際にここの最小の一つで調整し、それが非常に大きなスケールに直接転移します。これがμP(muP)と呼ばれるアイデアです。このオリジナル論文はμPと呼ばれています。他の変種もありました。Llama 4のリリースでMetaは、まだ何であるかよくわからないmetaPと呼ばれるものを発明したと主張しています。
しかし、多くの研究所がこれについて考えているのを見ることができます。なぜなら、最適学習率が何であるかを予測することに依存しなければならない場合、あらゆる種類の厄介なスケーリング則フィットを行わなければならず、これは非常に不安定かもしれません。しかし、モデルを再パラメータ化できるなら、まったく再調整を行う必要がないかもしれません。
もちろん、これは実際に実践で起こることよりもはるかに楽観的ですが、うまくいけば、これがなぜ本当にクールで本当に興味深いか、スケール認識初期化の感覚を与えるでしょう。
7. スケーリング則の限界と注意点
7.1 対数損失での良好な動作 vs ダウンストリームタスクでの予測困難性
Tatsunori Hashimoto:一つの注意点があり、多くのスケーリング則研究にとって大きな注意点だと思いますが、スケーリング則は対数損失に対して非常によく動作するということです。つまり、次トークン予測交差エントロピーで訓練するとき、スケーリング則のターゲットがそれらの交差エントロピーである場合、非常に簡単で、非常によく動作します。
しかし、ダウンストリームタスクを行おうとしている場合、ベンチマークで直接スケールしようとしている場合、動作ははるかに予測困難です。ここの左側では、これはYKの論文からのもので、多くの異なる種類のハイパーパラメータとアーキテクチャを比較しています。
パラメータ数(この場合は計算の代理)と負対数パープレキシティが非常にきれいに線形相関していることがわかります。これが基本的に言っていることは、深さや幅、または正確なハイパーパラメータ設定が何であるかは関係なく、本当に重要なのは総計算支出だけだということです。これは非常にシンプルで素晴らしい話です。
しかし、これらのモデルを取ると、これは2023年に戻るので、人々はまだSuperGLUE精度のようなことを行っていました。「これらのモデルのダウンストリーム性能は何か?」と基本的に言うと、もはや非常にきれいな線形関係は見られません。特定のモデルが他のモデルよりもはるかに優れており、特定のアーキテクチャが他のアーキテクチャよりも優れているような、まったく異なるものが見られます。
そのため、このようなスケーリング特性を正確に期待するかもしれません。
7.2 パープレキシティスケーリング vs ダウンストリーム性能の乖離
Tatsunori Hashimoto:私たちは、この話の変種が多くの異なる場所で展開されるのを見てきました。状態空間モデルに関する文献を追っていたなら、それも私たちが見てきたことの一つです。状態空間モデルでは、左側のような本当にきれいな予測可能なスケーリングを見ますが、文脈内学習やQAなどの特定の能力については、人々はこれらのモデルがあまりうまくいかない可能性があることを示しています。
そのため、このパープレキシティスケーリングをダウンストリームスケーリングと同じものとして扱わないことが重要であり、この種の分析を行うときは少し注意深くありたいものです。
7.3 状態空間モデルでの事例
Tatsunori Hashimoto:状態空間モデルでの具体例について既に触れましたが、これは重要な警告例です。状態空間モデルの研究では、パープレキシティに関して非常にきれいで予測可能なスケーリングを観察することができます。これは左側のプロットで見られるような美しい線形関係を示します。
しかし、実際の能力を測定しようとすると、特に文脈内学習(in-context learning)や質問応答(QA)のようなタスクでは、研究者たちはこれらのモデルが期待ほどうまく機能しない可能性があることを示しています。これは、パープレキシティでの優秀なスケーリング性能が、必ずしも実用的な能力での同等の性能向上を保証しないことを意味します。
この乖離は、スケーリング則を解釈し適用する際に注意深くある必要があることを示しています。パープレキシティという単一の指標での成功が、モデルの実際の有用性や能力を完全に予測するものではないのです。
8. 合同データ・モデルスケーリング則
8.1 計算資源の最適配分問題:データ vs モデルサイズ
Tatsunori Hashimoto:おそらくこれは皆さんの一部にとって驚くことではないかもしれませんが、うまくいけば驚きで説得力があるでしょう。ハイパーパラメータ選択、アーキテクチャ決定のような多くの工学的決定を、実際に訓練する前に行うことができるということです。これらのモデルを小規模で数桁の計算にわたって訓練し、その後、モデルの動作を予測するためにそれをスケールアップすることができます。
スケーリング則に基づく設計手順はかなりシンプルです。いくつかの小さなモデルを訓練し、これらの小さなモデルは数桁の計算にわたるべきです。何らかのスケーリング則を確立します。つまり、少なくとも訓練したモデルで明確な対数対数線形関係があることを確認し、その後、この予測に基づいて最適ハイパーパラメータを設定することができます。
多くの場合、実際にこれらのスケーリング則はそれほど変化しません。それらの傾きは実際に同じになります。この場合、この系として、いくつかの小さなモデルを訓練するだけで、それらの小さなモデルの結果は驚くほどうまく大きなモデルに転移します。これらの場合の多くで、すべてではありませんが、学習率は重要な例外です。
それがハイパーパラメータ選択とアーキテクチャ選択の方法です。今度は、スケーリング則の非常に重要な用途の一つについて話したいと思います。モデルのサイズをどのように選ぶか、これらのモデルのデータ効率などについてどのように考えるかについて、非常に大きな影響を与えたものです。
初期の頃、人々がこれらのモデルをスケールアップし始めていたとき、本当に核心的な質問がありました。より多くのデータが必要なのか、それともより大きなモデルが必要なのか、という質問です。ある意味で、2021年から2023年頃、データは計算よりもはるかに豊富でした。そのため、総データ制限について心配する必要がなく、制限リソースは計算でした。訓練予算のための総FLOP数、それが制限リソースの種類であり、そのリソースを多くの異なる方法で費やすことができました。
小さなモデルで大量のデータを訓練することもできますし、非常に少ないデータで一つの巨大なモデルを訓練することもできます。そして、これらの極端の両方は非常に無駄に見えます。非常に小さなモデルがある場合、大量のデータを投入することは有用に見えません。逆に、10個のトークンで巨大なモデルを持つことも、あまり有用に見えません。そして、これは多くの人々にとって核心的な質問でした。
8.2 合同スケーリング則の関数形
Tatsunori Hashimoto:そのため、同時に複数の著者が、この質問に答えようとする一種の合同データモデルスケーリング則を提案しました。
それらは何でしょうか。この時点まで、私は本質的に一つの変数でのスケーリング則についてのみ話してきました。その一つの変数は様々でした。時にはパラメータ、データ、または計算でした。しかし、合同スケーリングは見ていませんでした。そのため、データモデルスケーリング則は次のようなものです。
Rosenfeldの式:分離可能な冪乗則項
ここにある2つの方程式は、両方とも一次近似では機能的に同等であり、データ量とモデル量の間のトレードオフを記述しています。上部のRosenfeldからのものは、基本的に誤差の一部があり、その一部はデータで多項式的に減衰し、誤差の一部はモデルサイズで多項式的に減衰し、そしてデータサイズとモデルの両方を無限大にスケールしても除去できない還元不可能誤差項があると言っています。
Kaplanの式:還元不可能誤差への焦点
Tatsunori Hashimoto:Kaplanでも同じ効果ですが、ここでは還元不可能誤差ではなく還元可能誤差について考えているため、ここには定数項がありません。これは何らかの任意的なもののように見えます。なぜなら、これが正しい関数形でなければならないトップダウンの理由があるとは思わないからです。
しかし、これはデータとモデルで見る合同誤差に驚くほど良いフィットを提供します。これはRosenfeldからのものだと思います。彼らはこの素晴らしい3Dプロットを示しています。これはデータ量です。これはモデルのサイズで、これはy軸の損失です。そして、フィットされている表面は彼らの関数形です。点は彼らの実行です。
後ろからは見にくいかもしれませんが、表面は点とほぼ正確にフィットしています。そして、この関数形が一種の帽子から引き出されたものであるという事実にもかかわらず、それは驚くほど正確です。
8.3 3D表面フィッティングの驚異的精度
Tatsunori Hashimoto:これもRosenfeldからのものです。彼らは基本的に「小さい半分、つまり小さいモデルと小さいデータでのみ訓練する」と言っています。つまり、この左下の部分で、大きく、より多くのデータで訓練されたモデルに外挿しようとしています。
合同外挿のフィットはどの程度良いでしょうか。かなり良いです。誤差を見ると、x軸に実際の値、y軸に誤差の予測があり、ImageNetとWikiTextの両方でほぼ正確に合っています。
そのため、これはかなり良いようです。固定計算予算に対して、今度は何ができるでしょうか。例えばKaplanに戻ると、ここでも同様のことが行われているのを見ることができます。計算とデータの合同スケーリングのようなものを見ています。この場合、パラメータがx軸にあり、色は計算を表しているため、暗黙的に変化している第三のデータ軸があります。
これらの曲線上でシフトするとき、パラメータが変化しており、計算は一定に保たれているため、データ量が変化します。
9. Chinchilla論文の詳細分析
9.1 Kaplan推定値の問題:学習率スケジュールの影響
Tatsunori Hashimoto:Chinchillaは、皆さんがうまくいけば聞いたことがあると思いますが、おそらくこの問題を解決する際の参考文献です。RosenfeldとKaplanの両方が、この種の合同スケーリング関数形を思いつき、その後、両方とも、これらの関数形を使用して計算とデータの間のトレードオフを様々な方法で最適化することが可能であることに気づきました。
しかし、様々な理由で、これらの種類の関数形を正確にフィットするのは困難であり、学習率の形状が異なるなどの詳細が重要であるため、Kaplanはある推定値を持っていましたが、それは後に最適であると検証されたものからかなり離れていました。
そこで、Chinchilla論文は、多くのGoogle著者による論文でしたが、本質的に最小の訓練FLOP数で最高のモデルを得ることが目標である場合、トークン数とモデルサイズの間の正しいトレードオフは何かを実証的に本当に特定しようとする試みでした。
彼らは基本的に異なる曲線をフィッティングし、スケーリング予測を行うための3つの異なるアプローチ、アプローチ1、2、3を持っています。これらの青い点は彼らが訓練したモデルです。基本的に線は、異なるFLOPに対する異なる最適パラメータサイズを予測しています。そして、うまくいけば皆さんの多くがChinchilla比を知っているでしょう。それは大体パラメータあたり20トークンのようなものです。
これはまさにここから来ています。これらの各点を取って20を掛けると、大体FLOPが得られます。申し訳ありません、20を掛けるとトークン数が得られます。パラメータにそれを掛けるとFLOPが得られます。
Kaplanの結果と、基本的に1セットのトークン対パラメータ比を推定していたKaplanの結果と、Chinchillaの結果の間の違いの理由の一つは、学習率スケジュールのためです。コサイン学習率でモデルを訓練することを知っています。コサイン学習率は次のようなものです。上がって、戻って来て、最下部の最小学習率まで冷却されます。
しかし、コサイン学習率について皆をいつも困らせることの一つは、早期に切り捨てることができないということです。有効なモデルを得るためには、最後まで行かなければなりません。最後まで冷却フェーズを経る必要があります。途中でモデルを切り捨てると、これはゼロから始めて途中のどこかでコサイン学習率でモデルを訓練することと同じではありません。
これは、Kaplan推定値が後のChinchilla論文によって提供されたより改善された推定値からかなり離れていた要因の一つでした。他の要因もありました。
9.2 3つの異なる最適化手法
Tatsunori Hashimoto:それでは、Chinchilla著者は実際に何を行ったのでしょうか。彼らは、トークン対モデルの最適トレードオフを推定する3つの異なる手法を持っています。これらの各手法は、異なるスケーリング係数、つまりモデルサイズのスケーリング係数とデータサイズのスケーリング係数を提供します。
この場合、驚くことに、手法1と2で両方とも0.5を得ています。手法3は0.03ほど異なる、わずかに異なる推定値を提供しています。しかし、Kaplanらは、3つの推定値のどれよりもはるかに離れていることがわかります。これら3つの手法それぞれを見ていきます。各手法は理にかなっています。スケーリングについて異なる仮定を行いますが、最終的に非常に類似した推定値になります。
手法1:最小包絡線法
Chinchillaの手法1は、基本的に曲線の最小値を取ることです。それは何を意味するでしょうか。基本的に、持っているすべての異なる訓練曲線を重ね合わせます。
ここでx軸は異なるFLOP、y軸は訓練損失のようなものを見ることができ、多くの異なるサイズで訓練されたモデルがあります。もちろん、これらの各サイズは異なる量のトークンで訓練され、訓練を通して異なる総FLOPに到達します。
今度は下側の包絡線を見ます。つまり、任意の計算予算の下で最適であることが証明されたポイントやチェックポイントのセットです。これらのモデルを取って、「これらのモデルの実際のパラメータサイズは何だったか」を見ることができ、x軸の総計算、パラメータ数、対応するトークンすべてが比較的良いスケーリング則を形成することがわかります。
これは最小包絡線手法の一種です。基本的に、すべてのモデルサイズを最適化した最小訓練損失を期待し、実際にFLOPで最適であり、ある種の冪乗則を形成するということです。
手法2:等FLOP分析(最も概念的に直接的)
Tatsunori Hashimoto:もう一つの手法、これを単一の標準的なChinchilla分析を選ぶとすれば、おそらくこの手法を選ぶでしょうし、ある意味で最も概念的に単純だと思います。それが等FLOP分析です。
等FLOP分析を行うには、多くの計算スケールを選びます。これらの各色は異なる計算量です。これらの各計算スケールに対して、基本的に、より少ないデータで訓練されたより小さなパラメータのモデル、または少ないデータで訓練されたより多くのパラメータのモデルを持つことができます。
そのため、これらの各FLOPに対してモデルサイズを掃引します。その後、これらの各曲線の最小値を見ることができます。最小点を明示的に非パラメトリックに選ぶか、これらのそれぞれに二次関数をフィットして二次関数の最小点を得ることができます。
しかし、いずれの場合でも、議論はかなり単純です。この最小値自体が予測可能なスケーリング則に従うべきであり、したがってそこからFLOPあたりの最適パラメータのようなものを抽出できるということです。
それがこれらすべての最小点です。また、FLOPを最適パラメータ数で割ることで、FLOPあたりの最適トークン数も抽出できます。そして、これも非常にきれいな結果を与えることがわかり、手法1と一致しています。
それを以前と比較できます。これは、最終的なChinchillaモデル予算に対して630億パラメータが必要だと言っています。この手法では670億パラメータと言っています。2つはかなり近いです。
手法3:関数形フィッティング
Tatsunori Hashimoto:最後の手法は、正直に言うと少し面倒です。これはRosenfeld論文に戻ります。このような関数形がある場合、非常に自然な直感は「NとMの両方を変化させて多くのモデルを訓練し、曲線フィッティングを行う」と言うことです。得られたものに対してこの曲線をフィットしようとします。つまり、多くのモデルを訓練し、その3D形状をフィットします。
Rosenfeldから、これらをフィットすることがある程度合理的であることを知っています。これらすべての点がモデルです。左側に見えるこの種のヒートマップ色である曲線をフィットしました。その後、これらの破線から含意される等FLOPがどのように見えるべきかを逆算できます。
しかし、これを見ると、うまくいけば、スケーリング則のフィットや曲線フィットが他のプロットのフィットほど良くないことがわかるでしょう。そして、係数を見ると、Chinchilla手法3は、モデルサイズと総トークン数に関して、他の手法とは全く異なる推定値を与えます。
実際、これは長い間私にとって謎でした。私の学生の何人かが「なぜ手法3はそんなに違うのですか」と言い、私は「わからない、おそらくスケーリング則は時々ノイジーなのだろう」と言いました。
9.3 20トークン/パラメータ比の導出
Tatsunori Hashimoto:手法1と手法2での0.5指数の一貫性から、彼らは非常に類似した結果を得ました。最終的なChinchilla予算について、手法1では630億パラメータが必要だと述べ、手法2では670億パラメータと述べています。2つはかなり近い値です。
この分析から導出された重要な発見が、現在広く知られているChinchilla比、つまりパラメータあたり20トークンです。これは、最適な訓練効率を得るために、モデルの各パラメータに対して約20個のトークンで訓練すべきであることを意味します。
この比率は、固定された計算予算(FLOP)の下で最高の性能を達成するための、モデルサイズとデータサイズの間の最適なバランスを表しています。パラメータ数に20を掛けるとトークン数が得られ、さらにパラメータ数を掛けると総FLOPが得られるという関係になります。
この発見は、以前のKaplanらの推定値から大幅に修正されたものであり、より効率的な大規模言語モデルの訓練戦略の基礎となりました。
9.4 Epoch AIによる手法3の再現実験と修正
Tatsunori Hashimoto:多くの人がこれを知らないと思いますが、これは本当に楽しい雑学、雑学的事実ではなく雑学です。昨年、Epoch AIの何人かの人々が、何がこの結果を動機付けたのかわからないのですが、手法3を再現しようとするほど好奇心旺盛でした。
これらすべての訓練実行の元データを持っていないため、再現するのは非常に困難でした。そこで彼らは実際に、プロットを見て、法科学的ツールを使ってプロットから点の値を抽出するという極端なことまで行いました。それに基づいて、実際に元の結果を再現することができました。
そして面白いことに、彼らが示したのは、実際には曲線フィッティングが悪い部分だったということです。彼らのデータとアプローチは良かったのですが、実際に曲線をフィットしたとき、必ずしも正しく行わなかったのです。
回帰に詳しい方なら、残差はゼロ平均中心化されるべきです。そうでなければ、ゼロ中心化するために予測をオフセットすべきです。彼らの残差は非ゼロであり、その後、彼らはより良くフィットしました。そして、より良くフィットしたとき、実際に彼らの最適推定値は手法1と2とほぼ完全に一致しました。
これは、実際に元の著者がアイデアとデータの両方を正しく持っていたが、曲線フィッティングの軽微な問題のために、何らかの形で間違っていた、そして再現が実際にそれを以前よりも正しくしたという面白いケースの一つです。
通常、再現は物事を反証する傾向がありますが、この場合、実際に再現は元の結果が最初からずっと正しかったことを示しただけでした。これはかなりクールな結果だと思います。
10. 推論コスト時代への移行
10.1 製品化に伴う推論コストの重要性増大
Tatsunori Hashimoto:Chinchillaの結果について話したい最後のことは、訓練最適スケーリングについて話しているということです。つまり、固定FLOPs予算があり、可能な限り最高のモデルが欲しいのです。しかし、ChinchillaとKaplan論文が書かれたとき、実際には話が本当に変わったと思います。
Chinchilla論文とKaplan論文が書かれたとき、LLMはまだ本当に製品ではありませんでした。そのため、本当にゲームの名前は、誰もが最も大きく、最も派手で、最も知的なモデルを望んでいましたが、実際にこれらのシステムを展開する推論コストを気にしていませんでした。
しかし、現在では、これらのシステムが実際に製品であり、収益を生み出すため、推論コストが本当に重要になっています。収益に関連するコストがあります。そのため、時間の経過とともに、実際にパラメータあたりのトークン数が着実に増加しているのを見てきました。
10.2 トークン/パラメータ比の歴史的変遷
GPT-3:2トークン/パラメータ
Tatsunori Hashimoto:GPT-3はパラメータあたり2トークンでした。Chinchillaは私たちをパラメータあたり20トークンに移しました。しばらくの間、人々はパラメータあたり20トークンのようなもので遊んでいましたが、その後、人々は実際に私たちが気にかけているのは、本当に小さなパラメータサイズで本当に良い知能であることを、非常に迅速に理解しました。
そのため、人々はパラメータあたりのトークン数を非常に急速にスケールアップし始めました。昨日見たと思いますが、例えば最新のQEMモデルは30兆トークンで訓練されています。人々は本当にトークン対パラメータ比の限界を押し広げています。
Chinchilla:20トークン/パラメータ
Tatsunori Hashimoto:Chinchillaは私たちをパラメータあたり20トークンに移しました。しばらくの間、人々はパラメータあたり20トークンのようなもので遊んでいました。これは当時、固定計算予算の下で最適な性能を達成するための理論的に裏付けられた比率として確立されました。
Chinchillaの分析により、この20:1の比率が訓練効率の観点から最適であることが示され、多くの研究者や企業がこの指針に従ってモデルを設計し始めました。しかし、この比率が最適であったのは、主に訓練時の計算効率に焦点を当てていた時期でした。
最新QEMモデル:30兆トークン
Tatsunori Hashimoto:そして、人々は実際に私たちが気にかけているのは、本当に小さなパラメータサイズで本当に良い知能であることを、非常に迅速に理解しました。そのため、人々はパラメータあたりのトークン数を非常に急速にスケールアップし始めました。
昨日見たと思いますが、例えば最新のQEMモデルは30兆トークンで訓練されています。人々は本当にトークン対パラメータ比の限界を押し広げています。これは、Chinchillaの20トークン/パラメータ比から大幅に増加した数字です。
この極端な増加は、推論時の効率性を重視する現在のトレンドを反映しています。より多くのトークンで訓練することで、より小さなモデルでもより高い性能を達成でき、結果として展開時の計算コストを大幅に削減できるのです。
10.3 前払い訓練コスト vs 継続的運用コストのトレードオフ
Tatsunori Hashimoto:なぜなら、実際には本当に大きくて高価なモデルで推論を実行する継続的運用コストを支払うよりも、前払いコストを支払う方がはるかに良いからです。
これが現在の状況を推進している根本的な経済学です。訓練時により多くの計算資源を投資することで、より小さなモデルサイズでより高い能力を達成できます。そして、これらのより小さなモデルは、展開時により少ない計算資源で実行できるため、長期的な運用コストが大幅に削減されます。
本質的に、これは一回限りの高い訓練コストと、モデルの生涯にわたって発生する継続的な推論コストとの間のトレードオフです。現在の傾向は、製品として展開される言語モデルにとって、継続的運用コストの削減が初期の訓練投資を正当化するということを明確に示しています。この経済的現実が、パラメータあたりのトークン数の急激な増加を推進している主要な要因です。
11. 拡張事例:拡散モデルへの適用
11.1 テキスト拡散モデルでの同様分析
Tatsunori Hashimoto:最後に、これらの結果がかなり頑健で再現しやすいということを言って終わりたいと思います。数年前、私の学生の一人であるIsanが、テキスト用の拡散モデルを本当に前進させることに非常に興味を持っていました。そのため、私たちがしなければならないことの一つは、「これは全く新しい種類のモデルです。最適なトークン対パラメータ比が何かわからない。このものが確実にスケールするかどうかさえわからない。これは全く異なる種類の生成モデルです。どうすればよいでしょうか?」と言うことでした。
結果として、自己回帰モデルに対して「等FLOP分析を行う」と言う同じ種類のプレイブックを適用するだけで、あまり努力せずにほぼ正確にChinchillaのようなものを得ることがわかりました。自己回帰モデルで同じ種類の分析を拡散モデルに行います。うわあ、これは全く異なる生成モデルであるにもかかわらず、非常に似た種類の曲線を見ています。
11.2 自己回帰モデルとの比較:定数オフセットによる分離
Tatsunori Hashimoto:そして、これらの最小値をプロットすると、両方とも非常に予測可能なスケーリングを見ることができ、定数オフセットで分離されています。
これは本当に興味深い発見でした。全く異なる生成モデルアーキテクチャである拡散モデルが、自己回帰モデルと本質的に同じスケーリング動作を示したのです。2つのアプローチは、スケーリング曲線上で明確に分離されていますが、その分離は単純な定数オフセットです。これは、両方のモデルタイプが同じ基本的なスケーリング法則に従っているが、異なる効率レベルで動作していることを示唆しています。
この結果は、スケーリング則が特定のアーキテクチャに限定されるものではなく、より広範囲の生成モデルに適用可能な一般的な現象であることを示しています。
11.3 スケーリング則の汎用性と自然な発現
Tatsunori Hashimoto:私がこれを持ち出すのは、拡散モデルを特に推進したいからではなく、これらのスケーリング則が必ずしもこれらの非常に厳選された例である必要がないということを示すランダムなケーススタディまたは例として持ち出しているのです。新しいモデルや新しい環境で作業している際に、それらはかなり自然に起こるようです。
この観察は重要な示唆を持っています。スケーリング則は、特定のモデルアーキテクチャや訓練設定に特有の人工的な現象ではなく、むしろ機械学習システムの基本的な特性として自然に現れる傾向があるということです。
この汎用性は、新しいアーキテクチャや手法を開発する際に、スケーリング則分析を標準的なツールとして期待できることを意味します。研究者は、全く新しいモデルタイプに遭遇した場合でも、同様のスケーリング動作を観察し、それを活用して効率的な開発決定を行うことができると合理的に期待できます。
12. まとめと今後の展望
12.1 対数線形性の多次元への拡張
Tatsunori Hashimoto:この最後の部分をまとめると、対数線形性は、データについて考える一次元的なものだけではありません。それらは、モデルパラメータ、総計算などの多次元に拡張されます。そして、それにより、あらゆる種類のハイパーパラメータやその他の決定を行うことができます。それが最初の部分です。
スケーリング則の重要な発見の一つは、この対数線形関係が単一の変数(データサイズなど)に限定されないということです。実際に、複数の次元にわたって一貫した対数線形パターンを観察することができます。モデルパラメータ数、データセットサイズ、総計算量(FLOP)など、これらすべてが相互に関連した対数線形関係を示します。
この多次元性により、研究者や実践者は、単一の要素を最適化するだけでなく、複数の設計選択を同時に考慮し、それらの間の最適なトレードオフを見つけることができます。これにより、より包括的で効率的なモデル設計アプローチが可能になります。
12.2 リソーストレードオフでの賢明な意思決定
Tatsunori Hashimoto:そして、それらは私たちに本当にスマートなリソーストレードオフを行わせてくれます。大きなモデル対より多くのデータというトレードオフです。そして、私たちは、少なくとも等FLOPチラシのように、どれだけきれいに結果が出るかを見ました。これがChinchilla分析で見たものであり、どれだけ驚くほど明確に結果が出るかは注目に値します。
スケーリング則の実用的な価値の中核は、限られた計算リソースを最も効果的に配分する方法について情報に基づいた決定を行う能力にあります。従来のアプローチでは、より大きなモデルを構築するか、より多くのデータで訓練するかの選択は、しばしば直感や限られた実験に基づいて行われていました。
しかし、合同スケーリング則、特にChinchilla分析で見たような等FLOP手法により、これらのトレードオフを定量的に分析し、最適化することができるようになりました。固定された計算予算に対して、モデルサイズとデータサイズの最適な組み合わせを予測できるようになったのです。この能力は、大規模なモデル開発において数百万ドルの計算資源を効率的に活用するために不可欠です。
12.3 大規模訓練実行前の最適化手法としてのスケーリング則
Tatsunori Hashimoto:基本的なデータスケーリング、モデルスケーリング、そして、それらを組み合わせて使用することで、実際に大規模な訓練実行まで行くことなく、モデルのすべての側面を最適化するためにスケーリング則を使用できるということです。
これこそがスケーリング則の真の力です。小規模な実験から得られた知見を使って、大規模な訓練を実行する前に重要な設計決定をすべて行うことができるのです。これにより、膨大な計算リソースを投入する前に、アーキテクチャ選択、ハイパーパラメータ設定、データとモデルサイズの最適な比率などを予測し、最適化することが可能になります。
従来の方法では、これらの各決定に対して大規模な実験を行う必要がありましたが、スケーリング則を使用することで、数桁少ない計算コストで同等の洞察を得ることができます。これは、現代の大規模言語モデル開発において、時間と資源の両面で革命的な効率化をもたらしています。
本日は基本的なスケーリング則について説明し、KaplanとChinchillaの両方を今日復習しました。うまくいけば、今ではデータスケーリング、モデルスケーリング、そして実際に大規模な訓練実行まで行くことなく、モデルのすべての側面を最適化するためにスケーリング則を使用するというアイデアに賛同していただけたと思います。ありがとうございました。木曜日にお会いしましょう。