2025-06-11 Stanford CS336 Language Modeling from Scratch: データキュレーションの真実 - BERTから現代LLMまでの進化

出展元

https://youtu.be/WePxmeXU1xg?si=JEew3SswzdOgN38w

キーワード

データキュレーション品質フィルタリング著作権とフェアユース合成データ生成

初回調査日

Jul 16, 2025 1:27 PM

※本記事は、Stanford CS336 Language Modeling from Scratch Spring 2025のLecture 13: Data 1の内容を基に作成されています。

登壇者紹介：

Percy Liang - Stanford大学コンピュータサイエンス准教授、Center for Research on Foundation Models (CRFM)ディレクター
Tatsunori Hashimoto - Stanford大学コンピュータサイエンス助教授

本記事では、講義の内容を詳細に要約しております。なお、本記事の内容は原講義の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講義動画をご視聴いただくことをお勧めいたします。

関連リンク：

Stanford AI programs: https://stanford.io/ai
Course enrollment: https://online.stanford.edu/courses/
Course schedule: https://stanford-cs336.github.io/spri...
Full playlist: Stanford CS336 Language Modeling from Scra...

講義の詳細情報や関連資料については、上記のリンクよりご確認いただけます。

1. データの重要性とイントロダクション

1.1 データが言語モデルで最も重要な要素である理由

今日の講義はデータについて扱います。これまでの講義では、データが与えられた状況でモデルをどのように訓練するかについて議論してきました。アーキテクチャ、オプティマイザー、トークン化、スケーリング法則、並列処理といった内容は、すべて固定されたデータセットが前提でした。そして今回は、実際にどのようなデータで訓練するかについて話していきます。

私の率直な見解として、データは言語モデルを正しく構築する上で最も重要な要素です。おそらく異論があるかもしれません。スケーリング法則こそが最も重要だと考える人もいるでしょう。しかし、私がこう考える根拠を示します。

実際に企業が論文で何を開示しているかを見てみましょう。Llama 3やDeepSeekといったオープンウェイトモデルを考えてみると、彼らは明らかにアーキテクチャを完全に開示しています。そして論文では、訓練とその仕組みについて実際に多くを語っています。しかし基本的に、データについては語っていません。

多くの詳細を含むLlama 3の論文を見ても、データについては基本的にこう述べているだけです。「私たちは2023年末まで知識を含む様々なデータソースからデータセットを作成した」。公平に言えば、少なくとも高レベルでは、どのようにデータをフィルタリングするかについて多くを語っています。しかし明らかに、これはデータセットについてそれほど多くの情報ではありません。

これにはいくつかの理由があります。一つは競争力学（competitive dynamics）です。もう一つは、すでに訴訟を受けているよりもさらに訴えられたくないということでしょう。

基盤モデル以前は、データが重要であることは明確に認識されていたと思います。なぜなら、教師あり学習を推進するためにデータにアノテーションを付ける必要があったからです。今では、関与するアノテーションは少なくなりましたが、それでもデータ作業は存在し、多くのキュレーションとクリーニングを含んでいます。だから、私たちはそれほど進歩していないのかもしれません。

データは根本的に長い尻尾の問題の種類です。そして人々がこれについて非常に考える理由は、実際にそれが非常にスケーラブルだからだと思います。あらゆる種類の異なることを行うモデルを構築することを考えると、多言語性やコードといったデータの異なる側面に取り組む数百人のチームを簡単に雇うことができます。マルチモーダルの場合は、異なるタイプの画像なども扱えます。

一方、アーキテクチャは一つのアーキテクチャがあるだけで、それを定義する小さなチームがあり、それで終わりです。言語モデリング開発チームでリソースをどのように配分するかを考えると、データは非常に並列化可能です。

1.2 企業が論文でデータについて開示しない理由（競争上の秘密、訴訟リスク）

実際に企業が論文で何を開示しているかを見てみましょう。すべてのオープンウェイトモデル、Llama 3やDeepSeekでさえも、明らかにアーキテクチャを完全に開示しています。そして論文では、訓練とその仕組みについて実際に多くを語っています。しかし基本的に、データについては語っていません。

多くの詳細を含むLlama 3の論文を見ても、データについては基本的にこう述べているだけです：「私たちは2023年末まで知識を含む様々なデータソースからデータセットを作成した」。公平に言えば、少なくとも高レベルでは、どのようにデータをフィルタリングするかについて多くを語っています。しかし明らかに、これはデータセットについてそれほど多くの情報ではありません。

これは秘密保持の問題です。データの詳細を公開することで、競合他社に自社の優位性を明かすことになります。また、データの出所や収集方法を詳細に記述することで、著作権侵害やその他の法的問題での訴訟リスクを高めることにもなります。そのため、企業は意図的にデータセットに関する情報を曖昧にしているのです。

1.3 データの3つの学習段階：pre-training、mid-training、post-training

訓練には複数の段階があります。まず、このクラスの大部分が焦点を当てているpre-trainingがあります。ここでは通常、ウェブからの生データで訓練します。次に、mid-trainingがあります。これは、数学やコード、長いコンテキストなどの特定の能力をターゲットとした、より小さな高品質データ文書のセットをキュレーションする段階です。そして、post-trainingがあります。ここでは、指示追従データやチャットデータでファインチューニングを行ったり、強化学習を行って、実際に会話できるモデルにします。

これは通常、安全性なども適合する場所です。しかし実際には、境界線は曖昧です。そして、より最近のモデルでは、より多くの段階がありますが、正確に何があるかは分からないことが多いです。しかし、基本的な考え方は明確だと思います。

大量の低品質データから始めて、最終的により少量の高品質データで訓練するということです。見てきた用語を少し整理すると、ベースモデルは通常、pre-trainingとmid-trainingの後に得られるチェックポイントを指し、instructモデルはpost-trainingの後のものを指します。

実際には、段階間の境界は非常に流動的で、最近のモデルでは複数の段階が重複したり、新しい段階が追加されたりしていることが多いです。重要なのは、各段階で異なる品質レベルとサイズのデータを使用し、段階的に特定の能力を向上させていくという考え方です。

1.4 AI2の例：pre-training（3.9兆トークン）→ mid-training（100億トークン）→ post-training

これがどのように見えるかの例を見てみましょう。これはAI2からのもので、多くのオープンソースモデルをリリースしています。だから、データセットに何が含まれているかを正確に知っています。

Pre-trainingでは、これは少なくともオープンソースモデルにとって典型的なpre-trainingデータミックスです。DCLM-baselineと呼ばれるものからのウェブページがあり、これについては後で話します。コード、学術論文があります。数学とWikipediaがあります。そして、ここには約3.9兆トークンがあります。

Mid-trainingを見ると、実際には同じソースの多くが見られますが、フィルタリングされています。つまり、まだDCLM-baselineがありますが、そのデータセットの大部分を占めていた3.7兆から7000億にフィルタリングされています。いくつかのフラグ付きデータセットがあり、これについては後で言及します。まだWikipediaがあります。私たちはWikipediaが好きなようです。

そして、合成的に生成されたいくつかの新しいデータセットがあり、GSM8Kトレーニングセットも投げ込んでもいいでしょう。なぜダメなのでしょうか？それで約100億の訓練トークンです。

そして、実際のpost-trainingを行うTuluと呼ばれる別の論文があります。そして、ここに様々なデータミックスがあります。基本的に、様々なソースからのチャットデータと、異なる側面を捉える多くの合成生成データがあります。

この例は、各段階でデータの規模と品質がどのように変化するかを明確に示しています。Pre-trainingの3.9兆トークンから、mid-trainingの100億トークンへの劇的な削減は、より焦点を絞った高品質データへの移行を表しています。

2. 歴史的発展：初期のデータセット（2018-2019）

2.1 BERT（2018）：BooksCorpusとWikipedia

Smashwordsから7,000冊の自費出版書籍

2018年に戻って始めましょう。これは、あなたの一部がまだ覚えているかもしれないBERTモデルです。これは大きな出来事でした。BERTは書籍とWikipediaで訓練されました。それが正確に何を意味するかを掘り下げてみましょう。

データセットは、人々がモデルやevalや能力を見るため、実際にはそれほど議論されないことが多いと思います。Smashwordsと呼ばれるウェブサイトがあり、これは2008年に登場し、誰でも電子書籍を出版できるようにしました。昨年は約50万冊の書籍がありました。

2015年に、実際には視覚言語の論文がありました。これは本質的にSmashwordsをスクレイピングして、価格がゼロの自費出版書籍で構成されるBooksCorpusを作成しました。それで7,000冊の書籍を得ました。これは利用規約に違反しただけだったので、その後削除されました。

2015年当時は、野放し状態でした。人々はAIが、そしてAI著作権が今のような問題になるとは思っていませんでした。それがBooksCorpusです。もしあなたがそれを見たことがあるなら、それは古いデータセットですが、継続してきた書籍の重要性を表していると思います。

この時代のデータ収集は現在と比べて非常に単純で、法的な考慮も少なかったのが特徴的です。しかし、書籍データの重要性は、その後の言語モデル開発において継続的に認識されることになります。

BooksCorpusの利用規約違反による削除

この削除は、データセット作成における法的リスクの初期の例であり、現在の企業がデータの詳細を公開することを躊躇する理由の先駆けでもありました。当時はまだAIによる著作権侵害の問題が今ほど認識されていなかったため、比較的自由にデータを収集していましたが、後に法的な問題が明確になるにつれて、こうしたデータセットは利用できなくなったのです。

2.2 Wikipediaの特徴と制約

オリジナルな思考を含まない、引用ベース

それからWikipediaがあります。誰もがWikipediaを知っています。楽しみのために、ランダムな記事を指すことができます。確かに、これはWikipediaからのランダムな記事です。もう一度クリックすると、異なるランダムな記事が表示されます。そう、これはインドネシアのランダムな建物だと思います。20年以上前から存在していて、異なる言語の多くの異なる記事があります。

Wikipediaが何であるかを明示的に述べることが重要だと思います。オリジナルな思考は一切含まれていません。すべてが引用から来ています。だからこそ、実際の、オリジナルな一次資料の引用があるのです。意見や個人的なウェブページなどは存在しないはずです。

そして、それは注目度（Notability）に基づいています。これは、複数の情報源がそれをカバーしている必要があることを意味します。これは、Wikipediaに何が含まれ、何が含まれないかについて、すでにある種の感覚を与えてくれると思います。

明らかに、価値のあるコンテンツが多くありますが、おそらく尻尾の部分には、Wikipediaにないものが多くあるでしょう。そして、有用かもしれないが、Wikipediaにもない多くの意見があります。レシピはWikipediaにありません。

このような構造的な制約により、Wikipediaは信頼性が高く体系化されたデータソースとして機能しますが、同時に網羅性において限界があることも明らかです。

注目度（Notability）による選別

明らかに、価値のあるコンテンツが多くありますが、おそらく尻尾の部分には、Wikipediaにないものが多くあるでしょう。そして、有用かもしれないが、Wikipediaにもない多くの意見があります。レシピはWikipediaにありません、などなど。

誰でもコンテンツを編集できます。しかし実際には、少数の人が大部分を貢献しています。この男性は500万回の編集を行いました。おそらく彼は何らかのツールを使ったと思います。

この注目度による選別システムは、Wikipediaの品質を保証する重要な仕組みですが、同時に多くの有用な情報を除外してしまう制約でもあります。複数の独立した情報源による言及が必要という基準は、新しい話題やニッチな分野、地域的な情報などを排除する傾向があり、言語モデルの訓練データとしては偏りを生む可能性があります。

データポイズニング攻撃の可能性（Carliniの研究）

Wikipediaは、私たちが非常に高品質なソースだと考えています。まあ、おそらく信頼性が高く、平均的なインターネット記事よりも信頼性が高いでしょう。

しかし、データに関連して誰もが知っておくべきことがあります。それはデータポイズニング（data poisoning）です。これは、Carliniがすべてが壊れていることを示すすばらしい一連の結果を持っているというアイデアです。彼らは、この定期的なダンプの直前に悪意のある編集を注入できることを示しています。つまり、ダンプが来るときです。そして、編集がロールバックされる前に、ダンプに入るようにこの編集を注入するのです。

これはかなり巧妙だと思いました。そして、訓練データを制御できれば、基本的にそのような訓練データで訓練されたモデルに様々なことをさせることができることを知っています。たとえば、iPhoneのようなトリガーフレーズに負の感情を帰属させることです。

攻撃者はこのプロセスを活用して、ロールバック政策があっても、Wikipediaのようなものに欲しいものを何でも注入できるかもしれません。それ以来、これに対するパッチが行われていると思います。だから、文字通りこれを悪用することはできないと思います。しかし一般的に、モデルが訓練される広範なインターネットからのデータは、様々な動機を持つ攻撃者や誰でも、実際に言語モデルの動作をかなり制御できる場所から来ていることを認識することが重要だと思います。そして、このプロセスに対する監視を行うことは非常に困難です。

これは少し脱線でしたが、BERTは書籍とWikipediaで訓練されました。明らかに、当時、人々は言語モデルのデータポイズニングをそれほど気にしていませんでした。

3. Common Crawlとウェブデータ

3.1 Common Crawlの概要

2007年設立、月次のウェブクロール

それでは、Common Crawlについて話しましょう。これによって、誰かがあなたに言語モデルはインターネットで訓練されていると言うとき、あなたはそれを呼び出して、それは単純に間違っていると言うことができると思います。それは何を意味するのでしょうか？

Common Crawlについて話しましょう。これは、おそらくインターネットの学術的近似です。Common Crawlは2007年に設立されました。毎月、彼らはウェブクロールを実行します。過去17年間で約100の異なるウェブクロールがありました。

クロール自体は、言語モデル訓練と比較して、実際にはそれほど高価ではありません。いくつかのAWSマシンを借りて、2週間未満でそれを完了させることができます。最後のクロールは先月でした。

このクロールがどのように見えるかを感じ取るために、いくつかの統計を見てみましょう。約27億のページが追加されました。100のクロールがあります。各クロールは若干異なるウェブページを持つかもしれません。しかし、いくつかの重複があります。なぜなら、ヒューリスティックが何であるかは明確ではありませんが、急速に変化するサイトは複数回クロールし、あまり変化しないサイトはそれほどクロールしないということが想像できます。そして、多様化を図る明示的な試みがあります。

Common Crawlは、インターネット全体を包括的に網羅することを意図したものではないことが重要です。彼らのポリシーの一部は、穏やかで礼儀正しくあることです。

100回のクロール、27億ページ

17年間で100回のクロールということは、平均して年に約6回、つまり2ヶ月に1回程度のペースでクロールが実行されていることになります。最新のクロールだけで27億ページが追加されたという規模の大きさは、ウェブの膨大さを示しています。しかし、同時に各クロールで取得されるページには重複があり、全体として見ると、Common Crawlは完全にユニークなページの集合ではなく、時間とともに変化するウェブの断片的なスナップショットの集合体であることがわかります。

WARCファイル（生HTTP応答）とWETファイル（テキスト変換）

Common Crawlがクロールするとき、2つの形式でデータを生成します。1つはWARCファイルです。これは取得する生のHTTP応答で、HTMLページの場合は多くの場合HTMLです。これはWETと呼ばれる形式のテキストに変換されます。これは明らかに損失のあるプロセスです。HTMLからテキストへの変換では情報が失われます。

注目すべき点は、これが唯一の方法ではないということです。テキストであるWETファイルを使用するか、生のHTMLであるWARCファイルから始めて、自分で行うことができます。そして、そのためのいくつかのツールがあります。

あなたの課題では、異なるツールを試したり、少なくともHTML-to-textの変換を自分で行ったりします。そして、これは違いを生みます。

WARCファイルは生のHTTP応答を含むため、HTMLだけでなく、画像、CSS、JavaScript、その他のメディアファイルも含まれている可能性があります。一方、WETファイルはテキストのみを抽出した処理済みバージョンです。この変換プロセスでは、フォーマット情報、リンク構造、画像の代替テキストなど、多くの情報が失われる可能性があります。そのため、研究者や開発者は、用途に応じてどちらの形式を使用するかを慎重に選択する必要があります。

3.2 HTMLからテキスト変換の重要性

DataComp-LMの実験：Trafilatura使用で4ポイント性能向上

DataComp-LMからの論文では、少し後で話しますが、これは異なるHTML-to-textコンバーターを見るアブレーション実験です。

生のWETファイルを使用することは、実際にはTrafilaturaを使用するよりも、たとえば丸々4ポイント低くなります。つまり、ここにはいくつかの低レベルの詳細があります。

この4ポイントの差は、言語モデルの性能において非常に大きな違いです。HTML-to-textの変換は一見すると単純な前処理ステップのように思えますが、実際にはモデルの最終的な性能に大きな影響を与えることがこの実験で明らかになりました。

Trafilaturaは、単純なHTML-to-textコンバーターと比較して、よりクリーンで構造化されたテキストを抽出できる高度なツールです。これは、HTMLタグの除去、ボイラープレートテキストの識別と除去、本文の適切な抽出などをより効果的に行えるためです。この技術的な詳細が、最終的な言語モデルの品質に直接的かつ測定可能な影響を与えることは、データ処理における細部への注意の重要性を示しています。

3.3 robots.txtによる制御とその限界

ウェブサイトが、クロールに含まれたくない場合にフラグを立てることができる方法があるかという質問がありました。答えはイエスです。まあ、イエス、方法があります。ウェブサイトは、どのクローラーを許可するかを基本的に述べるルールの束を持つrobots.txtファイルを含むことができます。

robots.txtを見ると、たとえば、New York TimesはGooglebotに対して多くのものを許可しないことがわかります。そして、異なるルールがあります。

そして、あなたのお気に入りのLMプロバイダーのすべてを見ることができます。これらすべてがLM開発者というわけではありません。しかし、フロンティアモデルプロバイダーまたは開発者のほとんどが独自のクローラーを持っていることがわかります。Common Crawlが実際に網羅の点でかなり疎であることがわかったからです。

非常に大きいにもかかわらず、インターネットは非常に大きな場所です。しかし、robots.txtが確実に守られるという正式な方法はありません。これは一種のガイダンスです。robots.txtを尊重しない人がいるかもしれません。

robots.txtは本質的に紳士協定のようなものです。技術的には強制力がなく、クローラーがこれらのルールを無視することを物理的に阻止するものはありません。多くの主要な検索エンジンやクローラーはこれらのルールを尊重しますが、悪意のある行為者や無責任な開発者は簡単にこれらの指示を無視することができます。

さらに、主要なAI企業が独自のクローラーを開発している理由は、Common Crawlだけでは不十分だからです。Common Crawlは大規模ですが、インターネット全体の包括的な表現からは程遠く、多くの重要なコンテンツが欠けています。

3.4 著作権コンテンツの割合に関する質問

Common Crawlやその他のソースのどのくらいの割合が著作権材料なのかというアイデアはありますかという質問がありました。著作権については後で話しますが、その大部分が著作権だと私は言うでしょう。そして、それは複雑な話題です。だから、後で簡潔に触れます。

この質問は非常に重要で、実際にはデータ収集における根本的な課題を浮き彫りにしています。インターネット上のコンテンツの大部分は、何らかの形で著作権保護の対象となっています。ブログ投稿、ニュース記事、学術論文、書籍、さらには個人のウェブサイトのコンテンツまで、ほとんどすべてが自動的に著作権保護を受けています。

現代の著作権法では、作品が創作された瞬間から自動的に著作権が発生するため、インターネット上のコンテンツの圧倒的多数が技術的には著作権保護の対象となっています。これは、言語モデルの訓練データとして使用する際の法的な複雑さを生み出しており、後のセクションで詳しく検討する必要がある重要な問題です。

4. 初期のフィルタリング手法

4.1 CCNet（Meta）

多言語対応

Common Crawlは大きいです。そして、クラスの初日に見せたように、Common Crawlからランダムなサンプルを見ると、実際に良くないと思います。そのため、Common Crawlをフィルタリングする多くの試みがありました。

最も初期の試みの一つは、CCNetと呼ばれるものです。これはMetaからです。アイデアは、Common Crawlを取って高品質なデータセットを返すことができる汎用的な手順を求めていたということです。特に、彼らは多言語カバレッジに関心がありました。

そのため、彼らは多くのヒューリスティックを持っていました。重複を除去しました。言語識別を実行しました。これは基本的に、英語やドイツ語などの対象言語の例のみを保持する線形分類器です。

CCNetの多言語対応アプローチは、単一言語（主に英語）に焦点を当てた他の多くの初期の取り組みとは異なる重要な特徴でした。彼らは、言語識別という比較的単純な技術を使用して、複数の言語でのデータ処理を可能にしました。これは線形分類器ベースの手法で、各文書の言語を自動的に識別し、希望する言語のコンテンツのみを保持するものでした。

この多言語アプローチは、グローバルなインターネットコンテンツの多様性を反映しており、英語以外の言語でも高品質な訓練データを取得するという重要な課題に対処していました。

5-gramモデルでWikipediaライクな文書を抽出

そして、これが重要な部分ですが、品質をフィルタリングするために、彼らは5-gramモデルの下でWikipediaのように見える文書を調べました。つまり、Wikipediaテキストを取り、n-gramモデルを訓練し、それを使って文書をスコアリングしました。アイデアは、見てきたように、Wikipediaが高品質データの代理として使用されてきたということです。

それを使って、より高品質に見えるものを得ることができ、Wikipediaが高品質の代理として機能します。そして、議論したように、Wikipediaは明らかにすべてをカバーしているわけではありません。だから、これもすべてをカバーするつもりはありません。

この手法は、統計的言語モデリングの古典的なアプローチを品質フィルタリングに応用したものです。5-gramモデルは、5つの連続する単語の出現確率を学習し、与えられた文書がWikipediaのような文体や語彙パターンを持つかどうを判定できます。

しかし、このアプローチには根本的な限界があります。Wikipediaは確かに高品質ですが、その形式的で百科事典的な文体は、インターネット上の有用なコンテンツの一部しか代表していません。対話的なコンテンツ、技術的な議論、創造的な執筆、個人的な体験など、多くの価値のあるコンテンツがWikipediaの文体とは大きく異なる可能性があります。そのため、このフィルタリングは確実に重要な情報を見逃すことになります。

実験結果：Wikipedia単体よりも性能向上

彼らは当時、多くのBERTモデルを訓練しました。そして、Wikipedia単体での訓練を上回る性能を示しました。

CCNetは、ツールとフィルタリング機能の両方を指すため、時々混乱します。しかし、論文から公開されたデータセットも指します。

この実験結果は重要な洞察を提供しています。Wikipedia単体で訓練したモデルと比較して、CCNetでフィルタリングされたより大きなデータセットで訓練したモデルの方が優れた性能を示したのです。これは、量と多様性の重要性を示しています。つまり、Wikipediaは確かに高品質ですが、それだけでは言語の豊富さと多様性を完全に捉えることができないということです。

CCNetのフィルタリング手法により、Wikipediaの品質基準を満たしながらも、より広範囲なトピック、文体、語彙を含むデータセットを構築できました。この結果は、後の研究において「高品質の代理指標としてのWikipedia」という考え方を確立する基礎となり、多くの後続研究でWikipediaベースのフィルタリングが採用される理由となりました。

4.2 C4（Google）

ルールベースフィルタリング

一方、Googleも何かを行っていました。彼らはこのC4をリリースしました。これはColossal Clean Crawled Corpusの略です。Common Crawlを取り、この大きなテキストを何らかの形で活用したいという同じ洞察があったと思います。

この論文は、実際には、Colin Raffelによるもので、T5モデルを導入したことでより有名です。しかし、実際にはC4データセットを導入しており、これが主要な貢献です。長い論文です。そして、観察は、先ほど述べたように、Common Crawlには自然言語で有用ではないものがほとんどだということです。

1つのスナップショットから始めましょう。それはすでに1.4兆トークンです。彼らはヒューリスティックを使用することにしました。彼らは句読点で終わる行を保持し、3文未満のページを除去し、悪語を除去します。これをクリックすると悪語が表示できます。ここでは表示しません。彼らは括弧を除去しました。これは興味深いことで、明らかに多くのコードを除去します。

Pythonは保持されるかもしれませんし、いくつかのボイラープレートテキストも。そして、英語のみを保持しました。そこから多くのトークンを得ました。

C4のアプローチは、CCNetとは根本的に異なる哲学を採用しています。CCNetがモデルベースのフィルタリング（Wikipediaの5-gramモデル）を使用したのに対し、C4は完全にルールベースのヒューリスティックに依存しました。この選択には明確な理由がありました。

句読点で終わる行の保持、3文未満のページ除外

彼らはヒューリスティックを使用することにしました。彼らは句読点で終わる行を保持し、3文未満のページを除去し、悪語を除去します。これをクリックすると悪語が表示できます。ここでは表示しません。彼らは括弧を除去しました。これは興味深いことで、明らかに多くのコードを除去します。

これらの規則は一見すると単純に見えますが、実際には言語の品質について重要な仮定を含んでいます。句読点で終わる行を保持するという規則は、完全な文や思考を表現していると考えられるコンテンツを選択することを目的としています。3文未満のページを除外することで、実質的な内容を持たない短いページやスパムのようなコンテンツをフィルタリングしています。

括弧の除去は特に興味深い選択で、これによりプログラミングコードの大部分が除去されます。ただし、Pythonのようなインデントベースの言語の一部のコードは保持される可能性があります。この規則は、当時のT5モデルが主に自然言語処理タスクを対象としていたことを反映しています。

1.4兆トークンから大幅削減

1つのスナップショットから始めましょう。それはすでに1.4兆トークンです。彼らはヒューリスティックを使用することにしました。そこから多くのトークンを得ました。

この大幅な削減は、C4の品質重視のアプローチを示しています。1.4兆トークンという膨大な開始点から、厳格なルールベースフィルタリングを適用することで、最終的なデータセットは大幅に小さくなりました。

興味深いことに、ここにはトレードオフがあります。CCNetがモデルベースのアプローチを使用してWikipediaのように見せるためのフィルタリングを行ったのに対し、これは完全にルールベースです。

ここでの利点は、Wikipediaのようには見えないが、それでも適切に形成された文であるセンテンスがC4に含まれることです。一方で、非常にスパムっぽく、しかし適切に形成された文でもあるセンテンスがC4に含まれる可能性があります。

この相補的な性質は重要です。CCNetとC4は異なる種類の高品質データを捉えており、それぞれに利点と欠点があります。C4のルールベースアプローチは、より広範な文体の多様性を許容しますが、同時により多くのノイズを含む可能性もあります。

2. 歴史的発展：初期のデータセット（2018-2019）

2.1 BERT（2018）：BooksCorpusとWikipedia

Smashwordsから7,000冊の自費出版書籍

2015年に、実際には視覚言語の論文がありました。これは本質的にSmashwordsをスクレイピングして、価格がゼロの自費出版書籍で構成されるBooksCorpusを作成しました。それで7,000冊の書籍を得ました。

この7,000冊という数は、現在の基準から見ると比較的小さく見えるかもしれませんが、当時としては言語モデル訓練用の書籍データとしては画期的な規模でした。Smashwordsプラットフォームから価格が0円に設定された書籍のみを選択することで、少なくとも表面上は無料で利用可能なコンテンツを使用していました。しかし、後に明らかになるように、この収集方法自体が法的な問題を含んでいました。

BooksCorpusの利用規約違反による削除

これは利用規約に違反しただけだったので、その後削除されました。2015年当時は、野放し状態でした。人々はAIが、そしてAI著作権が今のような問題になるとは思っていませんでした。それがBooksCorpusです。もしあなたがそれを見たことがあるなら、それは古いデータセットですが、継続してきた書籍の重要性を表していると思います。

BooksCorpusの削除は、データセット作成における法的リスクの初期の重要な例でした。Smashwordsの利用規約では、大規模な自動スクレイピングが明確に禁止されていたにもかかわらず、研究者たちはこれを無視してデータを収集しました。当時の学術コミュニティでは、このような行為の法的な影響について十分な認識がありませんでした。

2015年は確かに「野放し状態」でした。人工知能と著作権の交差点における複雑な問題は、まだ広く認識されていませんでした。企業も政府も、大規模言語モデルの訓練に使用されるデータの法的な意味について、まだ本格的に考え始めていませんでした。BooksCorpusの削除は、この分野における法的意識の高まりの先駆けとなり、現在の企業がデータの詳細を公開することを躊躇する理由の初期例となりました。

しかし、このデータセットが示した書籍の重要性は継続しています。書籍は長い文脈、一貫した文体、豊富な語彙を提供し、言語モデルの訓練において独特の価値を持っています。

2.2 Wikipediaの特徴と制約

オリジナルな思考を含まない、引用ベース

この引用ベースの構造は、Wikipediaの品質と信頼性の基盤となっています。すべての情報は検証可能な出典から来ており、編集者は個人的な意見や独自の研究を追加することは禁止されています。これは「検証可能性、独自研究なし」(verifiability, no original research)というWikipediaの基本方針に基づいています。

この制約により、Wikipediaは非常に一貫した文体と構造を持っています。事実の記述、中立的な観点、系統的な情報整理が特徴です。しかし、この同じ制約が、創造性、個人的な体験、論議のある見解、新しいアイデアなど、人間の言語使用の多くの側面を除外しています。言語モデルの訓練データとしてWikipediaを使用する場合、これらの制約を理解することが重要です。

注目度（Notability）による選別

注目度による選別は、Wikipediaの包括性に根本的な制約を課しています。主流のメディアや学術的な出版物で複数回言及されていない話題は、どれほど有用であっても除外されます。これは、新興技術、地域的な現象、ニッチな趣味、個人的な体験、文化的な慣習など、多くの価値のある情報を排除することを意味します。

さらに、この基準は文化的・言語的偏見を生み出す可能性があります。英語圏の主流メディアでよく取り上げられる話題は含まれやすく、他の地域や文化の重要な話題は除外されやすくなります。編集者の分布についても同様の問題があります。少数の非常に活発な編集者が大部分のコンテンツを作成しているため、これらの個人の知識、興味、偏見がWikipedia全体の内容に不釣り合いな影響を与えている可能性があります。

言語モデルの訓練データとしてWikipediaを使用する場合、これらの制約により、モデルは人間の知識と言語使用の偏った表現を学習することになります。

データポイズニング攻撃の可能性（Carliniの研究）

この攻撃は、一見安全で信頼できるデータソースでさえ、悪意のある操作に脆弱であることを示しています。Carliniの研究は、言語モデルの訓練データの完全性を確保することがいかに困難であるかを明らかにしました。攻撃者は、Wikipediaのダンプのタイミングを利用して、一時的に悪意のあるコンテンツを注入し、それが大規模な言語モデルの訓練データに含まれるようにすることができます。

3. Common Crawlとウェブデータ

3.1 Common Crawlの概要

2007年設立、月次のウェブクロール

Common Crawlは、「インターネットで訓練された」という曖昧な表現に対する具体的な実態を提供しています。インターネット全体を完全にクロールすることは不可能であり、Common Crawlは「インターネットの学術的近似」として機能しています。

2007年の設立以来、彼らは一貫して月次のクロールを実行してきました。17年間で約100回のクロールということは、完全に毎月実行されているわけではありませんが、かなり定期的にクロールが行われていることを示しています。各クロールは、その時点でのウェブの状態のスナップショットを提供します。

クロールのコストが言語モデル訓練と比較して「それほど高価ではない」という指摘は重要です。これは、データ収集よりもモデル訓練の方が計算資源の面で遥かに集約的であることを示しています。

100回のクロール、27億ページ

27億ページという数字は、単一のクロールでの新規追加ページ数を示しています。これは膨大な数に見えますが、インターネット全体の規模を考えると、これでも部分的なスナップショットに過ぎません。

100回のクロールは17年間にわたって実行されており、各クロールは異なる時点でのウェブの状態を反映しています。しかし、重複は避けられません。静的なコンテンツは複数のクロールで繰り返し収集される一方で、動的なニュースサイトやソーシャルメディアなどは頻繁に変化するため、より頻繁にクロールされる可能性があります。

このクロール戦略の背後にある正確なヒューリスティックは公開されていませんが、サイトの更新頻度、重要度、サーバーの負荷などを考慮して、クロールの頻度を調整していることが推測されます。明示的な多様化の試みは、特定のドメインや言語に偏らないように、バランスの取れたデータ収集を目指していることを示しています。

WARCファイル（生HTTP応答）とWETファイル（テキスト変換）

あなたの課題では、異なるツールを試したり、少なくともHTML-to-textの変換を自分で行ったりします。そして、これは違いを生みます。

WARCファイルは、Web ARChiveの略で、インターネットアーカイブの標準的な形式です。これには完全なHTTP応答が含まれており、HTMLマークアップ、CSS、JavaScript、画像への参照、メタデータなど、すべてが保持されています。一方、WETファイル（Web Extracted Text）は、この生データからテキストコンテンツのみを抽出した処理済みバージョンです。

この変換プロセスは「明らかに損失のある」プロセスであり、フォーマット情報、リンク構造、レイアウト、埋め込みメディアなど、多くの情報が失われます。しかし、多くの自然言語処理アプリケーションでは、純粋なテキストコンテンツで十分な場合があります。

重要なのは、研究者は選択肢があるということです。すぐに使える処理済みのWETファイルを使用するか、生のWARCファイルから始めて独自のHTML-to-text変換を行うことができます。後者の方法では、より多くの制御が可能ですが、より多くの技術的な作業が必要です。

3.2 HTMLからテキスト変換の重要性

DataComp-LMの実験：Trafilatura使用で4ポイント性能向上

DataComp-LMからの論文では、少し後で話しますが、これは異なるHTML-to-textコンバーターを見るアブレーション実験です。

DataComp-LMの実験は、Common Crawlが提供するデフォルトのWETファイル（すでにHTMLからテキストに変換済み）を使用することと、生のWARCファイルからより高度なTrafilaturaツールを使用してテキストを抽出することの違いを定量的に示しています。

Trafilaturaは、HTMLの構造を理解し、ナビゲーションメニュー、広告、フッター、その他のボイラープレートコンテンツを効果的に除去し、主要なコンテンツのみを抽出する高度なツールです。一方、Common CrawlのWETファイルは、より単純な変換プロセスを使用しており、ノイズの多いテキストが含まれる可能性が高くなります。

この「低レベルの詳細」が最終的な言語モデルの性能に4ポイントという大きな差をもたらすことは、データ処理パイプラインにおける各段階の重要性を浮き彫りにしています。

3.3 robots.txtによる制御とその限界

robots.txtを見ると、たとえば、New York TimesはGooglebotに対して多くのものを許可しないことがわかります。そして、異なるルールがあります。

robots.txtは、1994年に導入された古いインターネット標準で、ウェブサイトの所有者がクローラーに対してどの部分をクロールしてもよいかを指定する仕組みです。しかし、これは本質的に「紳士協定」であり、法的拘束力はありません。

New York Timesの例は興味深いものです。彼らは異なるクローラーに対して異なるルールを設定しており、一部のクローラーには完全にアクセスを拒否し、他のクローラーには限定的なアクセスを許可しています。これは、新聞社が自社のコンテンツの使用を慎重に制御しようとしていることを示しています。

特に重要なのは、主要なAI企業が独自のクローラーを開発していることです。これは、Common Crawlだけでは不十分であることを示しています。Common Crawlは確かに大規模ですが、インターネットの包括的な表現には程遠く、多くの重要なコンテンツが欠けています。そのため、高品質なデータを求める企業は、より積極的で専門的なクロール戦略を採用する必要があります。

3.4 著作権コンテンツの割合に関する質問

この質問に対する私の答えは非常に率直です。Common Crawlに含まれるコンテンツの「大部分が著作権」であるということです。これは、多くの人が理解していない重要な現実です。

現代の著作権法では、作品が作成された瞬間から自動的に著作権保護が適用されます。これは、ブログ投稿、ニュース記事、学術論文、企業のウェブサイト、個人のウェブページなど、インターネット上のコンテンツの圧倒的多数が技術的には著作権保護の対象となっていることを意味します。

パブリックドメインの作品や明示的にCreative Commonsライセンスで公開されているコンテンツは存在しますが、それらはウェブコンテンツ全体の中では比較的少数派です。大部分のウェブコンテンツは、作成者が明示的に権利を放棄していない限り、自動的に著作権保護を受けています。

この現実は、言語モデルの訓練において非常に複雑な法的課題を生み出しています。データの量の問題ではなく、その大部分が何らかの形で著作権保護されているという質的な問題なのです。これが、後のセクションで詳しく検討する「複雑な話題」である理由です。

4. 初期のフィルタリング手法

4.1 CCNet（Meta）

多言語対応

CCNetの多言語対応は、当時の多くの研究が英語のみに焦点を当てていた中で、重要な進歩でした。彼らは、グローバルなインターネットコンテンツの言語的多様性を認識し、それを活用しようとしました。

言語識別プロセスは、各文書に対して線形分類器を適用し、その言語を自動的に検出するものでした。これにより、研究者は特定の言語（英語、ドイツ語、フランス語など）のコンテンツのみを選択的に保持できるようになりました。このアプローチは、単一言語での高品質データセットの作成を可能にしただけでなく、多言語言語モデルの開発にも道を開きました。

この多言語対応の重要性は、インターネットが本質的に多言語的な空間であることを認識することにありました。英語圏のコンテンツのみに焦点を当てることは、膨大な量の有価値な情報を見逃すことになります。

5-gramモデルでWikipediaライクな文書を抽出

この5-gramモデルベースのフィルタリングは、統計的言語モデリングの古典的な手法を品質評価に応用した革新的なアプローチでした。5-gramモデルは、5つの連続する単語の出現確率を学習することで、特定の文体や語彙パターンを捉えることができます。

具体的には、Wikipediaの全テキストを使用して5-gramモデルを訓練し、その後Common Crawlの各文書がこのモデルの下でどの程度の確率を持つかを計算しました。高い確率を持つ文書は、Wikipediaの文体により類似していると判定され、「高品質」として分類されました。

この手法の利点は、Wikipediaの構造化された、事実に基づく、中立的な文体を品質の指標として使用できることでした。しかし、根本的な限界も存在します。Wikipediaは確かに高品質ですが、その百科事典的な文体は、インターネット上の有用なコンテンツの一部分のみを代表しています。

創造的な執筆、技術的な議論、個人的な体験談、対話的なコンテンツなど、多くの価値のある情報がWikipediaの文体とは大きく異なる可能性があります。そのため、このフィルタリング手法は必然的に重要な情報を除外することになります。

実験結果：Wikipedia単体よりも性能向上

彼らは当時、多くのBERTモデルを訓練しました。そして、Wikipedia単体での訓練を上回る性能を示しました。

CCNetは、ツールとフィルタリング機能の両方を指すため、時々混乱します。しかし、論文から公開されたデータセットも指します。

この実験結果は、データセットのサイズと多様性の重要性を実証する重要な発見でした。Wikipedia単体で訓練されたBERTモデルと比較して、CCNetでフィルタリングされたより大きなデータセットで訓練されたモデルの方が、様々なタスクで優れた性能を示しました。

これは一見逆説的に思えるかもしれません。なぜなら、CCNetのフィルタリングはWikipediaに「似ている」文書を選択することを目的としていたからです。しかし、実際にはWikipedia単体よりも性能が向上したのです。この結果は、量と多様性の重要性を浮き彫りにしています。

Wikipediaは確かに高品質で一貫性がありますが、それだけでは言語の豊富さと多様性を完全に捉えることはできません。CCNetでフィルタリングされたデータセットは、Wikipediaの品質基準を満たしながらも、より広範囲なトピック、文体、語彙を含んでいました。これにより、モデルはより堅牢で汎用的な言語理解能力を獲得できました。

なお、「CCNet」という用語が混乱を招くのは、それが同時にフィルタリングツール、フィルタリング手法、そして最終的に公開されたデータセットの3つの意味で使用されるためです。しかし、いずれの意味においても、その核心的な貢献は同じです：Wikipediaベースの品質フィルタリングの有効性を示したことです。

4.2 C4（Google）

ルールベースフィルタリング

C4のアプローチは、CCNetとは哲学的に異なる道を選択しました。CCNetがWikipediaベースのモデルを使用して品質を判定したのに対し、C4は完全にルールベースのヒューリスティックに依存することを決定しました。

この選択には明確な理由がありました。当時、モデルベースのフィルタリングには潜在的な偏見の問題がありました。利用可能なモデルは比較的弱く、ページの真の品質を理解できない可能性がありました。さらに、モデルベースのフィルタリングは、Wikipediaのような特定の文体に似ていない、しかし実際には価値のあるコンテンツを除外する可能性がありました。

ルールベースのアプローチは、より透明で予測可能でした。研究者は、どのような種類のコンテンツが保持され、どのような種類が除外されるかを正確に理解できました。また、このアプローチは、周辺化されたグループからのデータを意図せずに除外する可能性も低くなりました。

C4の論文は、T5モデルの導入でより有名になりましたが、実際にはデータセットの作成に関する重要な貢献も含んでいました。これは、データセットの品質がモデルの性能に与える影響を理解するための重要な研究でした。

句読点で終わる行の保持、3文未満のページ除外

Pythonは保持されるかもしれませんし、いくつかのボイラープレートテキストも。そして、英語のみを保持しました。

これらの規則は、表面的には単純に見えますが、実際には言語の品質と完全性について重要な仮定を含んでいます。句読点で終わる行を保持するという規則は、完全な思考や文を表現していると考えられるコンテンツを選択することを目的としています。これは、不完全な文、リスト項目、フラグメントなどを除外する効果があります。

3文未満のページを除外する規則は、実質的な内容を持たないページを除去するためのものです。これには、エラーページ、短い通知、スパムのようなコンテンツ、または実際には価値のない短いページが含まれます。しかし、この規則は同時に、有用であっても簡潔な情報（定義、短い説明、重要な発表など）も除外する可能性があります。

括弧の除去は特に興味深い決定です。これは、プログラミングコードの大部分を効果的に除去します。なぜなら、多くのプログラミング言語は括弧を広範囲に使用するからです。ただし、Pythonのようなインデントベースの言語の一部は、括弧の使用が少ないため、部分的に保持される可能性があります。

この規則は、C4がT5モデルのために設計され、当時の主要な焦点が自然言語処理タスクであったことを反映しています。コード生成やプログラミング支援は、当時はまだ言語モデルの主要な応用分野ではありませんでした。

1.4兆トークンから大幅削減

1.4兆トークンという開始点は、Common Crawlの単一スナップショットの膨大な規模を示しています。しかし、C4の厳格なルールベースフィルタリングを適用した後、最終的なデータセットは大幅に小さくなりました。この削減は、インターネットコンテンツの大部分が言語モデルの訓練には適さないことを示しています。

C4とCCNetの「相補的な性質」は重要な洞察です。CCNetのモデルベースフィルタリングは、Wikipediaの特定の文体に似たコンテンツを優先しますが、これにより価値のあるコンテンツが除外される可能性があります。たとえば、カジュアルな会話、技術的な議論、創造的な執筆など、Wikipediaの形式的な文体とは異なるが有用なコンテンツです。

一方、C4のルールベースアプローチは、より広範な文体の多様性を許容します。適切に形成された文であれば、その内容やトピックに関係なく保持される可能性があります。しかし、この柔軟性は代償を伴います。文法的には正しいが、実際には価値の低いコンテンツ（スパム、広告、意味のない繰り返しなど）も含まれる可能性があります。

この両方のアプローチが存在することで、研究者は異なる種類の高品質データにアクセスできるようになり、各アプローチの長所と短所を理解できるようになりました。

5. GPT-3時代のデータセット（2020-2021）

5.1 GPT-3のデータ構成

品質分類器でWebText、Wikipedia、書籍を識別

それでは、より多くの話に入りましょう。今、私たちはGPT-3時代に入っています。多くのモデルとデータセットがあり、これによりここでいくつかの他のアイデアに入ることができます。

GPT-3データセットがありました。Common Crawlが処理され、WebText2があり、これは本質的にGPT-2で使用したのと同じアイデアです。この謎めいた書籍コーパスのセット、Books1とBooks2、そしてWikipediaがあります。その結果、約400億トークンになりました。これは現代の基準では実際にはかなり小さいですが、当時はかなり印象的でした。

Common Crawlの処理では、彼らはWebText、高品質ウェブデータ、Wikipedia、書籍を残りから区別するために品質分類器を訓練しました。基本的に、品質分類のアイデアは、正例の束を特定し、より大きなプールでそれに似たものをより多く探そうとすることです。

これが彼らが高品質だと判断したものです。そして、彼らはもっとこれを得たいと思っていました。

GPT-3の品質分類器は、データキュレーションにおける重要な発展でした。これは、明示的に定義された高品質データソース（WebText、Wikipedia、書籍）を正例として使用し、これらと類似した特徴を持つCommon Crawlの文書を識別するように訓練されました。

この手法の革新性は、異なる種類の高品質データを統合的に扱ったことにあります。WebTextは高いソーシャルエンゲージメントを持つウェブコンテンツ、Wikipediaは事実的で中立的な情報、書籍は長い文脈と一貫した文体を提供します。これらすべてを正例として使用することで、より包括的な品質基準を作成できました。

品質分類の概念は、単純なルールベースフィルタリングからより洗練されたアプローチへの移行を示しています。人間が直感的に「高品質」と感じるデータの特徴を機械学習モデルに学習させ、それを大規模なデータセットに適用することで、手動では不可能な規模でのキュレーションが可能になりました。

Books1とBooks2の「謎めいた」性質は、データセットの透明性における継続的な問題を示しています。GPT-3の論文では、これらの書籍コーパスについて詳細な説明がありませんでした。

400億トークン（当時としては大規模）

その結果、約400億トークンになりました。これは現代の基準では実際にはかなり小さいですが、当時はかなり印象的でした。

400億トークンという規模は、2020年当時の言語モデル訓練においては画期的な規模でした。これは、それまでの多くの研究が数億から数十億トークンで行われていたことを考えると、大幅な規模の拡大を表していました。

しかし、現在の視点から見ると、この規模は「かなり小さい」と評価されます。現代の大規模言語モデルは、数兆トークンのデータセットで訓練されることが一般的になっています。たとえば、後に登場するモデルでは、Llama 3が15兆トークン、Qwen3が36兆トークンで訓練されています。

この規模の進化は、計算資源の向上とともに、データの重要性に対する理解の深化を反映しています。GPT-3が400億トークンで当時としては印象的な性能を示したことで、より大規模なデータセットでの訓練がさらなる性能向上をもたらすという確信が生まれました。

このトークン数の相対的な評価の変化は、言語モデル分野の急速な発展を象徴しています。わずか数年で、「大規模」の定義が100倍以上変化したのです。これは、この分野がいかに急速に発展し、常に新しい規模の境界を押し広げているかを示しています。

5.2 The Pile（EleutherAI）

22の高品質ドメイン

The Pileが間もなく続きました。特に、EleutherAIはGPT-3とすべてが閉じられていることに反応して現れた組織でした。そして、彼らはオープンソースの言語モデルを再現しようとしていました。これは主に、みんなが高品質だと感じるデータを投げ入れている、分散型のDiscord駆動のボランティア活動でした。

彼らは22の高品質ドメインをキュレーションしました。Common Crawl OpenWebText、Stack Exchange、Wikipedia、arXiv、などがあります。ここにはより多くの統計がありますが、一般的な重みについて説明します。これはまだ、見てみると、かなり多様です。

そして、技術的に、ウェブ、Common Crawlはこのもののほとんどを持つことができると考えるのは興味深いことです。クロールできると仮定してです。しかし、多くの場合、人々は出かけて異なるタイプを特別扱いすることを見るでしょう。たとえば、彼らはもっと多くを得たいと思います。Wikipediaは異なって扱われるか、数学は異なって扱われます。

良いデータについての事前知識があるなら、直接出かけてそれを使うことができます。

The Pileの22の高品質ドメインは、EleutherAIコミュニティの集合的な判断を反映したものでした。これらのドメインは、Discord上でのボランティア活動を通じて特定され、各ドメインが言語モデルの訓練に価値をもたらすと考えられる理由について議論されました。

この分散型アプローチの興味深い点は、異なる専門知識を持つ人々が、それぞれの専門分野で価値のあるデータソースを提案できたことです。学術研究者はarXivの重要性を提唱し、プログラマーはStack Exchangeの価値を強調し、数学者は数学的なコンテンツの必要性を指摘しました。

「技術的に、ウェブ、Common Crawlはこのもののほとんどを持つことができる」という観察は重要な洞察です。理論的には、arXivの論文、Stack Exchangeの投稿、Wikipediaの記事など、これらのドメインの多くはウェブ上に存在し、Common Crawlによって取得される可能性があります。

しかし、実際には、特定のドメインを「特別扱い」する理由があります。Common Crawlからこれらのコンテンツを見つけて抽出することは困難で、品質も保証されません。直接ソースから取得することで、より高品質で完全なデータを得ることができます。これは、「良いデータについての事前知識」を活用する効果的な戦略です。

Stack Exchange、arXiv、Enron emails

彼らは22の高品質ドメインをキュレーションしました。Common Crawl OpenWebText、Stack Exchange、Wikipedia、arXiv、などがあります。

これは実際にGPT-3で訓練されたよりも多くのデータでした。彼らはまた、WARCがWETよりも優れていることに気づきました。

彼らはこの異なるツール、jusTextを使用してそれを変換しました。PubMed centralがありました。これは多くの論文で、素晴らしいです。NIH資金提供の研究は、論文がオープンアクセスでなければならないという義務があります。AIでは、論文がarXivに現れることを当然と思っていますが、他の多くの分野では当てはまりません。

arXivがあり、もちろん、それからEnronのメールがあります。実際、これは古いデータセットで、Enron船が沈没した後の召喚状から出てきました。これがここに入っている理由は何でしょうか？メールデータセットを入手するのは本当に困難であることが判明しました。想像できるように、メールはプライベートだからです。だから、これは本当に私たちが持っている最高のものです。

これらのデータソースの選択は、The Pileの多様性と実用性を示しています。Stack Exchangeは、実際のユーザーが実際の問題について質問し、専門家が答える質問応答形式のデータを提供します。これは、後の指示追従モデルの開発において特に価値があることが判明しました。

arXivは、最新の科学研究へのアクセスを提供する重要なソースです。AIの分野では、研究者が論文をarXivに投稿することが標準的な慣行になっていますが、他の分野ではそうではありません。PubMed Centralの存在は、NIH（国立衛生研究所）の資金提供を受けた研究がオープンアクセスでなければならないという義務によるものです。これは、生物医学分野の重要な研究へのアクセスを可能にします。

Enron emailsの包含は、特に興味深い選択です。これは、エンロンの企業スキャンダル後の法的手続きの結果として公開された、実際の企業メールの大規模なコレクションです。メールデータセットを取得することの困難さは、メールの本質的にプライベートな性質によるものです。

この状況は、言語モデルの訓練における重要な課題を浮き彫りにしています。実際の人間のコミュニケーションの重要な形式であるメールは、プライバシーの制約により、訓練データとして入手することが極めて困難です。Enron emailsは、法的な例外的状況により利用可能になった貴重な資源ですが、同時に、この種のデータが訓練されたモデルには、特定の企業文化や時代の偏見が含まれている可能性があることを示しています。

Project Gutenberg：著作権クリア済み75,000冊

異なるソースのいくつかに飛び込んでみましょう。Project Gutenbergは長い間前に始まりました。ほとんどが英語の書籍です。現在、約75,000冊の書籍があります。

これの最大の魅力は、これらが著作権クリアランスを持つ書籍であることです。これは主に、パブリックドメインにあることを意味します。75年が出版以来経過したと思います。だから、今では誰でも自由に使用できます。しかし、技術的にはパブリックドメインにないが、使用するのは大丈夫なものもあると思います。

PG-19と呼ばれるデータセットがあり、これはProject Gutenbergからの書籍です。これは、長いコンテキストで言語モデルをベンチマークしようとする論文でした。だから、書籍の魅力的なことは、ニュース記事や論文と比較して、本当に長いコンテキストがあることです。

Project Gutenbergは、デジタル図書館の先駆けとして1971年に設立された歴史的なプロジェクトです。75,000冊という規模は、無料でアクセス可能な文学作品のコレクションとしては非常に大きなものです。

著作権クリアランスを持つという特徴は、現代の言語モデル訓練において極めて重要です。大部分の書籍がまだ著作権保護下にある中で、Project Gutenbergの書籍は法的な懸念なしに使用できる貴重な資源です。この著作権クリアランスは主に、著作権の保護期間（一般的に著者の死後75年）が経過したことによるものです。

しかし、講師が指摘するように、コレクションには技術的にはパブリックドメインではないが、使用が許可されている書籍も含まれています。これは、著作権者が明示的に使用を許可した場合や、特別な法的状況にある場合が考えられます。

PG-19データセットの言及は、Project Gutenbergの書籍の特別な価値を強調しています。書籍は、ニュース記事や学術論文と比較して、非常に長い連続したテキストを提供します。これは、言語モデルが長距離依存関係を学習し、長いコンテキストを維持する能力を開発するのに理想的です。現代の言語モデルが数万から数百万トークンのコンテキスト長を扱えるようになった今、このような長い一貫したテキストの価値はさらに高まっています。

Books3：シャドウライブラリから取得（後に削除）

Books3は、このシャドウライブラリから書籍を作成したプロジェクトでした。有名な著者の書籍が著しく含まれており、その後、著作権侵害のために削除されました。

シャドウライブラリについて少し説明しましょう。基本的に著作権を無視し、ペイウォールを回避する多くの異なるライブラリがあります。これは基本的に違法です。

多くのテイクダウン命令と訴訟などがありました。しかし、通常、これらのコントロールは、異なる国のサーバーに配置するだけで回避されます。そして、支持者は、本当に無料であるべきものを無料にすると言います。しかし、明らかに、法律はまったく異なって考えています。

特に、LibGenには400万冊の書籍があり、これは75,000冊の書籍しかないProject Gutenbergと比較して多くの書籍です。

そして、メタがたとえばLibGenで訓練されたモデルであることが明らかになりました。そして、それについて大きな訴訟があります。

Books3は、The Pileプロジェクトの中でも特に議論の多い構成要素でした。シャドウライブラリから取得されたこのデータセットは、現代の有名な著者の作品を大量に含んでいました。これは、著作権がまだ有効な作品であり、その使用は明確に法的な問題を抱えていました。

シャドウライブラリの概念は、学術出版業界とデジタル権利の複雑な問題を浮き彫りにしています。これらのライブラリは、高額な購読料や出版料によって制限される学術・文学作品へのアクセスを民主化することを目的としています。支持者は、知識は人類の共有財産であり、経済的な障壁によって制限されるべきではないと主張します。

しかし、現実の法的状況は明確です。著作権法の下では、これらの活動は違法です。Books3の削除は、このような法的リスクの直接的な結果でした。

LibGenと Project Gutenbergの比較（400万冊対75,000冊）は、合法的に利用可能な書籍と違法に配布されている書籍の量的な差を示しています。これは、言語モデルの開発者が直面するジレンマを強調しています：法的に安全だが限定的なデータセットを使用するか、より豊富だが法的にリスクのあるデータセットを使用するかという選択です。

MetaがLibGenで訓練されたモデルについての言及は、大手技術企業でさえもこのような法的グレーゾーンのデータを使用していることを示しています。この問題に関する「大きな訴訟」は、AI業界全体が著作権問題に対処しなければならない現実を反映しています。

6. 主要なデータソース詳細

6.1 GitHub/The Stack

2,800万のパブリックリポジトリ

GitHub、誰もが知っています。そして、これは、言語モデル訓練でコードを取得する主要な手段だと思います。そして、コードは一般的にプログラミングに役立ちますが、もちろん、推論や他の能力にも役立つと考えられています。それをより厳密にする論文があるかどうかはわかりませんが。

ランダムなGitHubがあります。たぶんこれは機能しません。ランダムなGitHubリポジトリがあった場合に機能していました。これを行う理由は、あなたが訪問するGitHubリポジトリや訪問するWikipediaページが、代表的なサンプルとは明らかに異なると思うからです。ランダムにサンプリングすることで、このデータセットに実際に何が含まれているかの感覚を得ることができます。

何百万ものリポジトリがあるという数字を見るとき、すべてのリポジトリが同じように作成されているわけではありません。ランダムなリポジトリはがっかりするかもしれません。

2,800万のパブリックリポジトリがあります。興味深いことの一つは、GitHub、リポジトリとは何ですか？それはディレクトリです。その一部はコードです。その一部はコードではありません。

GitHubの2,800万のパブリックリポジトリという数字は、表面的には印象的に見えますが、実際の品質や有用性には大きなばらつきがあります。講師が指摘するように、私たちが日常的に訪問するGitHubリポジトリは、通常、よく知られたプロジェクト、活発に開発されているソフトウェア、または高品質なコードベースです。

しかし、全体のリポジトリの大部分は、このような高品質なコードではありません。学習プロジェクト、放棄されたプロジェクト、実験的なコード、不完全なプロジェクトなどが含まれています。ランダムサンプリングによって、データセットの真の性質を理解することができます。

「リポジトリとは何ですか？それはディレクトリです」という指摘は重要です。GitHubリポジトリには、実行可能なコードだけでなく、ドキュメント、設定ファイル、データファイル、画像、その他のリソースが含まれています。さらに、issues、pull requests、commit history、wikisなどの追加情報も存在します。

コードが「推論や他の能力にも役立つと考えられている」という観察は、現代の言語モデル研究における重要な仮説です。プログラミングコードは、論理的思考、問題解決、構造化された推論を必要とするため、これらの能力をモデルに教えるのに役立つと考えられています。ただし、講師が認めるように、これを厳密に証明する研究は限られています。

許可ライセンスのみ保持、重複除去

GitHub Archiveは、発生したすべてのGitHubイベントのスナップショットです。そして、Google BigQueryを使用してアクセスできます。

The Stackは、幸いにもGitHubに基づいてこのオープンソースバージョンのコードを作成したプロジェクトです。GitHub Archiveからすべてのリポジトリ名を取得し、137のリポジトリをGitクローンし、許可ライセンスのもののみを保持し、重複を除去しました。結果として3.1TBのコードが得られました。

コードについて良いことは、ウェブページと比較して、ライセンスがより明確になることが多いことです。ウェブページではライセンスがほとんど明確になることがありません。

The Stackプロジェクトの重要な貢献の一つは、法的に使用可能なコードのみを保持したことです。「許可ライセンス」とは、修正、配布、商用利用を許可するライセンス（MIT、Apache、BSD、GPLなど）を指します。これは、プロプライエタリライセンスやライセンスが不明なコードとは対照的です。

この選択的な保持は、言語モデル訓練の法的リスクを軽減する重要な戦略です。コードの世界では、多くのプロジェクトが明示的にライセンスを指定しており、これによりどのコードが訓練データとして使用可能かを判断できます。これは、ライセンスがほとんど明確でないウェブページと比較して、大きな利点です。

重複除去は、特にコードデータセットにおいて重要です。同じコードが複数のリポジトリにフォークされたり、コピーされたりすることは非常に一般的です。重複したコードで訓練すると、モデルが特定のコードパターンを過度に学習し、多様性が失われる可能性があります。

GitHub Archiveの使用は、効率的なデータ収集戦略を示しています。全てのGitHubを直接スクレイピングするのではなく、GitHub Archiveから利用可能なリポジトリのメタデータを取得し、それを基に選択的にクローンしました。137のリポジトリという数字は、恐らく137万の誤記だと思われますが、最終的に3.1TBのコードという実質的な規模のデータセットを得ることができました。

3.1TBのコード

結果として3.1TBのコードが得られました。

これを考えてみると、これは、ライブサービスがあることがわかります。毎日使用するウェブサイトであるGitHubがあります。そして、生のダンプを提供するスナップショットがあります。そして、それを実際の訓練可能なデータセットに変換する処理が行われます。

誰かがあなたのところに来て、GitHubで訓練したと言うとき、あなたは彼らに、それは正確に何を意味するのですか？どのような前処理ステップが取られたのですか？と尋ねなければなりません。

3.1TBのコードという規模は、当時としては非常に大きなコードデータセットでした。このサイズは、テキストベースのデータとしては相当な量を表しており、多様なプログラミング言語、フレームワーク、アプリケーションドメインにわたる豊富なコードを含んでいることを示しています。

講師が強調する「ライブサービス→スナップショット→処理可能データ」という流れは、現代のデータセット作成における重要なパラダムです。私たちが日常的に使用するサービス（GitHub）は、継続的に変化し、更新されています。しかし、機械学習の訓練には、特定の時点での静的なデータが必要です。

GitHub Archiveは、この動的なサービスの静的なスナップショットを提供します。しかし、このスナップショットでさえも、そのままでは訓練に使用できません。ライセンスフィルタリング、重複除去、形式変換、品質フィルタリングなどの複雑な処理が必要です。

「GitHubで訓練した」という表現の曖昧さは、現代のAI研究における重要な問題です。同じ「GitHubデータ」でも、処理方法によって全く異なるデータセットになり得ます。どのライセンスを含めたか、どのように重複を除去したか、どの言語を保持したか、どのような品質フィルタリングを適用したかなど、すべてが最終的なモデルの性能に影響します。

この透明性の欠如は、研究の再現性や比較可能性を困難にしています。

6.2 Stack Exchange

QA形式データ

Stack Exchangeは、サイトのコレクションです。最も著名なのは、それから始まったStack Overflowですが、数学や文学などの他の分野にも成長しています。参加を促すためのレピュテーションとバッジがあります。

あなたたちは皆、Stack Overflowを使ったことがあるでしょうから、私は必要ありません。まあ、楽しみのために、私はいつもランダムな例を見るのが好きです。これは基本的にランダムなStack Exchangeを与えるページです。これらが良いかどうかはわかりません。しかし、ここに質問があり、いくつかの回答があります。だから、これはかなり馴染みのあるものだと思います。

一つ注目すべきことは、このデータを見ると、これは本当にQAデータセットのように見えることです。これは、指示追従能力と実際のアプリケーションで期待されるものです。だから、pre-trainingでウェブデータや大規模な訓練で訓練する際の教訓は、その多くが、ユーザーがチャットボットに入力するようなものには全く見えない文書であることです。

しかし、pre-trainingデータのサブセットがあり、それはユーザーが入力するものと驚くほど似ており、応答と組み合わせられています。これが、pre-trainingとpost-trainingの間の境界線が少し曖昧である理由です。

Stack Exchangeの価値は、その構造化されたQA形式にあります。従来のpre-trainingデータの多くは、ニュース記事、ウェブページ、書籍など、一方向的な情報提供形式です。しかし、Stack Exchangeは、実際の人間が実際の問題について質問し、専門家が詳細な回答を提供する対話的な形式を提供します。

このデータの形式は、現代の言語モデルが実際に使用される方法と非常に似ています。ユーザーは具体的な問題や質問を持ってモデルに近づき、有用で正確な回答を期待します。Stack Exchangeのデータで訓練することで、モデルはこのような期待に応える能力を自然に学習できます。

「pre-trainingとpost-trainingの間の境界線が少し曖昧」という観察は重要です。従来は、pre-trainingで一般的な言語理解を学習し、post-trainingで特定のタスク（指示追従など）を学習すると考えられていました。しかし、Stack Exchangeのようなデータは、pre-training段階でも指示追従に似た能力を提供します。

この曖昧さは、現代の言語モデル開発において重要な意味を持ちます。適切なpre-trainingデータを選択することで、後のpost-training段階での作業を軽減できる可能性があります。

メタデータ（コメント、投票）を活用可能

Stack Exchangeについて素晴らしいことは、コメントや投票のようなメタデータもあることです。これはフィルタリングに使用できます。

Stack Exchangeのメタデータの豊富さは、他の多くのデータソースと比較して際立った特徴です。各質問と回答には、コミュニティからの投票（アップvoteとダウンvote）、コメント、受け入れられた回答のマーク、質問者と回答者の評判スコア、タグ、時間スタンプなどの情報が付随しています。

この構造化されたメタデータは、データ品質のフィルタリングに非常に有用です。例えば、高い投票を受けた回答は、コミュニティによって有用で正確だと認められた可能性が高いです。逆に、負の投票を受けたコンテンツは、不正確または有害である可能性があります。

コメントは、質問や回答の文脈を理解するのに役立ちます。しばしば、コメントには重要な補足情報、修正提案、または議論が含まれており、これらは回答の品質や妥当性を判断する際の貴重な手がかりとなります。

受け入れられた回答（accepted answers）は、特に価値があります。これは、質問者が最も有用だと判断した回答であり、問題解決の観点から最も関連性が高いと考えられます。

ユーザーの評判スコアも、回答の信頼性を判断するための指標として使用できます。高い評判を持つユーザーからの回答は、一般的により信頼性が高いと考えられます。

このような多層的な品質シグナルは、言語モデルの訓練において非常に貴重です。単純にすべてのStack Exchangeデータを使用するのではなく、これらのメタデータを使用して最高品質のQAペアのみを選択することで、モデルの性能を向上させることができます。

商用利用にはライセンス必要

そして、データダンプが提供されますが、現在これは非商用で使用する場合は問題ありませんが、商用エンティティの場合は、ライセンスの料金を支払う必要があります。

Stack Exchangeのライセンシング政策の変化は、データアクセスの商業化における重要な転換点を表しています。以前は、研究者や開発者が比較的自由にStack Exchangeのデータにアクセスできましたが、現在は明確な二層システムが導入されています。

非商用利用に対する無料アクセスは、学術研究や個人プロジェクトにとって重要な配慮です。これにより、大学の研究者や独立した開発者は、引き続きこの貴重なリソースにアクセスできます。

しかし、商用エンティティに対するライセンス料の導入は、データの価値に対する認識の変化を反映しています。Stack Exchangeのような高品質なQAデータは、商用言語モデルの開発において極めて価値があることが明らかになりました。企業がこのデータを使用して利益を上げる製品を開発する場合、データの作成者（Stack Exchangeとそのコミュニティ）も適切な対価を受け取るべきだという考え方です。

この変化は、より広範なトレンドの一部です。多くのデータプロバイダーが、自社のデータが大規模言語モデルの訓練に使用されていることを認識し、その価値を収益化しようとしています。RedditとGoogleの契約、OpenAIとShutterstockの契約など、同様の動きが業界全体で見られます。

これは、オープンソースコミュニティとデータの商業化の間の緊張関係も浮き彫りにしています。Stack Exchangeのコンテンツの多くは、コミュニティメンバーによって無償で作成されましたが、その価値は現在、商用利用において収益化されています。

7. 現代的なアプローチ（2022-2025）

7.1 Llama

CCNet処理のCommon Crawl

2022年に、Llamaがあります。Llamaのデータセットは、CCNetで処理されたCommon Crawlでした。ここで分類器があります。微妙な違いがあります。GPT-3では、Wikipediaページのように見えるかどうかを分類していたのを覚えています。Llamaでは、Wikipediaから参照されたページのように見えるかどうかを予測する分類器で訓練されました。

アイデアは、Wikipediaが高品質のページを引用するということです。そして、それらのページのほとんどはWikipediaの記事のようには見えないかもしれませんが、それでも高品質です。だから、ここでも、GPT-2 WebTextで見た、このリンク構造が再び現れています。

Llamaのデータセット構築における重要な革新は、品質分類器のアプローチの洗練でした。GPT-3が「Wikipediaのように見える」かどうかを判定していたのに対し、Llamaは「Wikipediaから参照されている」かどうかを判定基準としました。

この変更は、深い洞察に基づいています。Wikipediaの記事自体は、特定の文体と構造を持っていますが、Wikipediaが引用する外部ソースは、はるかに多様な形式を取る可能性があります。学術論文、ニュース記事、政府の報告書、企業のウェブサイトなど、様々な文体の高品質コンテンツが含まれます。

しかし、これらの参照されたページに共通するのは、Wikipedia編集者がそれらを信頼できる情報源として判断したということです。Wikipediaの厳格な編集基準と引用方針を考えると、これらのページは一般的に事実的で信頼性が高いと考えられます。

「GPT-2 WebTextで見た、このリンク構造が再び現れています」という観察は重要です。WebTextはRedditのカルマが高い投稿からリンクされたページを使用しました。Llamaは、信頼できる百科事典からリンクされたページを使用します。両方とも、リンクという行為自体を品質のシグナルとして使用しています。

この手法は、人間の判断（Reddit投稿者の投票、Wikipedia編集者の引用選択）を品質フィルタリングに組み込む効果的な方法です。直接的な品質評価よりも、間接的な承認メカニズムを活用することで、より多様で包括的な高品質データセットを構築できます。

Wikipediaから参照されたページの品質分類

ここで分類器があります。微妙な違いがあります。GPT-3では、Wikipediaページのように見えるかどうかを分類していたのを覚えています。Llamaでは、Wikipediaから参照されたページのように見えるかどうかを予測する分類器で訓練されました。

この品質分類の進化は、データキュレーションにおける重要な概念的な飛躍を表しています。GPT-3のアプローチは、Wikipediaの表面的な特徴（文体、構造、語彙）を学習し、それに似たコンテンツを検索しました。これは「形式的類似性」に基づく分類でした。

しかし、Llamaのアプローチは、より根本的な品質の概念に基づいています。Wikipediaから参照されているという事実は、そのコンテンツがWikipedia編集者によって信頼できる情報源として判断されたことを意味します。これは「権威による承認」に基づく分類です。

この変更の利点は、多様性と品質の両方を同時に捉えることができることです。Wikipedia編集者が引用するページは、学術論文、ニュース記事、政府文書、企業レポート、専門的なウェブサイトなど、非常に多様な形式を取ります。これらはすべて異なる文体を持ちますが、共通しているのは、信頼性と事実性です。

「リンク構造が再び現れています」という観察は、このアプローチの根本的な哲学を示しています。インターネット上でのリンクは、単なる接続ではなく、推薦や承認の行為です。GPT-2のWebTextでは、Redditユーザーの投票が品質のシグナルでした。Llamaでは、Wikipedia編集者の引用選択が品質のシグナルです。

この手法は、人間の集合的な判断を活用して、機械的なフィルタリングでは捉えにくい品質を識別する効果的な方法です。それは、コミュニティの知恵と専門知識を、大規模なデータキュレーションに組み込む方法を示しています。

1.2兆トークン

彼らはまた、C4を含めました。なぜダメなのでしょうか？GitHubを使用しました。いくつかの手動ルールに基づいてフィルタリングした許可ライセンスを保持し、Wikipedia、Project Gutenberg、Books3（これが彼らを多くの問題に巻き込みました）、arXiv、Stack Exchangeを使用しました。そして、彼らは1.2兆トークンを得ました。

彼らはデータセットを公開しませんでしたが、together（協力して）はRedPajamaと呼ばれるこのデータセットを再現しました。これで、データ処理コードとデータを取得できます。

だから、これは再現でした。これは明らかに最適ではありませんでした。そして、Cerebrasはさらなる重複除去を行い、627億パラメータのサブセットになりました。

RedPajama-V2もあります。これは少し混乱しますが、これは別のものです。これは本質的に、Common Crawlスナップショットを取得し、あらゆる種類の異なる品質シグナルで30兆トークンを生成することです。だから、これは品質シグナルで計算された品質シグナルに基づいてフィルタリングする方法を研究するためのリソースです。

1.2兆トークンという規模は、当時としては大幅な増加を表していました。GPT-3の400億トークンから約30倍の増加です。この規模の拡大は、データの量が言語モデルの性能に与える影響に対する理解の深化を反映しています。

Llamaがデータセットを公開しなかったことは、企業の秘密保持慣行の典型例です。しかし、togetherコミュニティによるRedPajamaの再現は、オープンソースコミュニティの重要な貢献でした。これにより、研究者はLlamaのアプローチを研究し、改良することができるようになりました。

「これは明らかに最適ではありませんでした」という評価は、初期の再現の限界を認めています。完全に同一のデータセットを再現することは、元の処理パイプラインの詳細がすべて公開されていない場合、非常に困難です。

Cerebrasによるさらなる重複除去は、データセットの改善における継続的な取り組みを示しています。627億パラメータのサブセットへの削減は、品質を重視したフィルタリングの結果です。

RedPajama-V2の説明は、データセット開発における重要な発展を示しています。これは単なるデータセットではなく、研究プラットフォームです。30兆トークンという規模で、様々な品質シグナルを提供することで、研究者は異なるフィルタリング戦略を実験し、比較することができます。これは、データキュレーションの科学的研究を促進する重要な貢献です。

7.2 RefinedWeb

ウェブデータのみで十分という仮説

それから、RefinedWebがもう一つの論文でした。ここでの論文は、まあ、The Pileを覚えています。ウェブデータがあり、そして他のすべてのものがありました。そして、彼らのポイントは、もしウェブデータの十分に良い仕事をフィルタリングすれば、それが必要なすべてだということでした。なぜなら、技術的に、インターネットはある意味ですべてを持っているからです。

それについて考えてみると、コンピューターでアクセスでき、インターネットに接続されているなら、おそらくそれで十分です。

RefinedWebの核心的な仮説は、データキュレーションにおける哲学的な転換を表しています。The Pileのアプローチは、異なる高品質ソース（Common Crawl、Stack Exchange、arXiv、GitHub、書籍など）を明示的に組み合わせることでした。これは「キュレーションされた多様性」のアプローチと呼べるでしょう。

しかし、RefinedWebは異なる視点を提案しました。インターネットは本質的に、人類の知識と活動の大部分を既に含んでいます。学術論文、コード、書籍、議論、ニュース、教育資料など、The Pileが別々に扱っていたほとんどすべてのタイプのコンテンツは、理論的にはCommon Crawlに含まれているはずです。

「技術的に、インターネットはある意味ですべてを持っている」という観察は、深い洞察です。arXivの論文もウェブ上にあり、Stack Exchangeの投稿もウェブ上にあり、多くの書籍もデジタル形式でウェブ上にあります。GitHubのコードもウェブ経由でアクセス可能です。

この仮説が正しければ、複雑なデータキュレーションパイプラインを構築する代わりに、単一のソース（ウェブデータ）に焦点を当て、より高度なフィルタリング技術を開発することで、同等またはより良い結果を得ることができるはずです。

これは、データキュレーションの複雑さを単純化し、より一貫性のあるデータセットを作成する可能性を示唆しています。異なるソースからのデータを統合する際の形式の不一致や重複の問題も回避できます。

Trafilatura使用、MLベースフィルタリング回避

RefinedWebを少し見てみましょう。実際のデータがHugging Faceにあり、このように見えます。解像度は多分それを見るのに十分大きくないでしょう。とにかく、それはスクラップします。

彼らはコンテンツを抽出するためにTrafilaturaを使用しました。なぜなら、述べたように、TrafilaturaはCommon Crawlが提供するWETファイルを使用するよりも優れているからです。彼らはGopherルールを使用しました。そして、彼らはバイアスを避けるためにMLベースのフィルタリングを避けるポイントを作りました。そして、彼らはファジー重複除去を行いました。

RefinedWebの技術的選択は、当時の最良の実践を反映していました。Trafilaturaの使用は、先ほど見たDataComp-LMの実験結果に基づいています。Common CrawlのデフォルトのWETファイルではなく、より高品質なHTML-to-text変換を使用することで、4ポイントの性能向上が期待できます。

Gopherルールの採用は、DeepMindの経験を活用したものです。これらは、手動で設計されたヒューリスティックルールのセットで、低品質なコンテンツを除去するために使用されます。例えば、単語の80%に少なくとも1つの英字が含まれている必要があるなどの規則です。

「バイアスを避けるためにMLベースのフィルタリングを避ける」という決定は、当時の重要な考慮事項でした。2022年頃、多くの研究者が、モデルベースのフィルタリングが意図しない偏見を導入する可能性を懸念していました。特に、弱いモデルは文脈を適切に理解できず、周辺化されたコミュニティからのコンテンツを不当に除外する可能性がありました。

また、モデルベースのフィルタリングは、特定の文体や形式（例えばWikipediaのような）に似たコンテンツを優先する傾向があり、これが言語の多様性を減少させる可能性もありました。

ファジー重複除去は、完全に同一ではないが、実質的に同じコンテンツを検出して除去する技術です。これは、単純な文字列マッチングよりも高度で、わずかな違い（フォーマット、句読点、小さな変更など）があっても重複を識別できます。

5兆トークン（600億のみ公開）

そして、彼らはファジー重複除去を行いました。

だから、彼らは5兆トークンのデータセットを持っていましたが、これはかなり大きいですが、そのうち600億のみを公開しました。

5兆トークンという規模は、当時としては非常に大きなデータセットでした。これは、Llamaの1.2兆トークンを大幅に上回る規模で、単一のソース（ウェブデータ）から構築されたデータセットとしては画期的なものでした。この規模は、「ウェブデータのみで十分」という彼らの仮説を支持する重要な証拠となりました。

しかし、5兆トークンのうち600億のみを公開したという事実は、データセットの公開における現実的な制約を反映しています。これは全体のわずか1.2%に過ぎません。この限定的な公開にはいくつかの理由が考えられます。

第一に、ストレージとホスティングのコストです。5兆トークンのデータセットは、テラバイト規模の容量を必要とし、これを無料で公開し続けることは経済的に困難です。第二に、帯域幅の制約です。数多くの研究者が同時に大規模なデータセットをダウンロードすることは、サーバーに大きな負荷をかけます。

第三に、法的なリスクの可能性もあります。5兆トークンのデータセットには、著作権の問題がある可能性のあるコンテンツが含まれている可能性があり、完全な公開はリスクを伴います。

この限定的な公開は、研究コミュニティにとって両刃の剣でした。600億トークンでも相当な規模のデータセットですが、完全なRefinedWebの真の価値を評価したり、その手法を完全に再現したりすることは困難でした。

この状況は、大規模データセットの公開における根本的な課題を浮き彫りにしています。研究の透明性と再現性を促進したいという願望と、実用的・法的・経済的な制約との間のバランスを取る必要があります。

7.3 FineWeb

15兆トークン

Hugging FaceのFineWebは、RefinedWebの複製として開始されましたが、それを改善しようとしました。だから、彼らは当時のすべてのCommon Crawlダンプを使用したと思います。いくつかのフィルタリングを行いました。また、これはまだ手動ルールを使用しており、モデルベースのフィルタリングはありません。そして、彼らはいくつかの重複除去といくつかの基本的な匿名化を行いました。

だから、彼らはこれから15兆トークンを得ました。だから、これはまだ、私はFineWebをCommon Crawlを扱うのが面倒だが、これは軽くフィルタリングされたデータセットで、さらにモデルベースのフィルタリングを行うことができると考えるだろう、本当に良いデータセットだと思います。

15兆トークンという規模は、当時の公開データセットとしては驚異的な規模でした。これは、RefinedWebの5兆トークンを大幅に上回り、単一のソース（Common Crawl）から構築されたデータセットとしては最大級のものでした。

この規模の達成は、「当時のすべてのCommon Crawlダンプを使用した」ことによるものです。Common Crawlは月次でクロールを実行しており、各ダンプは異なる時点でのウェブの状態を表します。これらすべてを統合することで、時間的にも内容的にも非常に包括的なデータセットを構築できました。

「これはまだ手動ルールを使用しており、モデルベースのフィルタリングはありません」という特徴は、FineWebの意図的な設計選択でした。これは、RefinedWebのアプローチを踏襲し、バイアスを回避するという当時の考え方を反映しています。

基本的な匿名化の実装は、プライバシー保護の観点から重要でした。個人を特定できる情報（メールアドレス、電話番号、住所など）を除去または難読化することで、プライバシーリスクを軽減しています。

講師のFineWebに対する評価は実用的です。「軽くフィルタリングされたデータセットで、さらにモデルベースのフィルタリングを行うことができる」という位置づけは、FineWebの真の価値を表しています。これは、最終的な訓練データセットではなく、研究者が独自のフィルタリング戦略を適用できる高品質な出発点として機能することを意図しています。

「Common Crawlを扱うのが面倒」という言及は、生のCommon Crawlデータを処理することの技術的な複雑さを指しています。FineWebは、この複雑さを抽象化し、研究者がより高レベルのデータキュレーション研究に集中できるようにしています。

軽度フィルタリング、さらなるモデルベースフィルタリング用

だから、これはまだ、私はFineWebをCommon Crawlを扱うのが面倒だが、これは軽くフィルタリングされたデータセットで、さらにモデルベースのフィルタリングを行うことができると考えるだろう、本当に良いデータセットだと思います。

FineWebの「軽度フィルタリング」という特徴は、その戦略的な設計哲学を反映しています。完全にフィルタリングされた最終的なデータセットを提供するのではなく、研究者が独自の品質基準を適用できる柔軟な基盤を提供することを目的としています。

この軽度フィルタリングには、基本的な品質チェック（極端に短いページの除去、明らかにスパムのようなコンテンツの除去、基本的な言語識別など）が含まれていますが、より主観的な品質判断は避けています。これにより、研究者は自分の特定の用途に応じて、より厳格または異なる基準を適用できます。

「さらなるモデルベースフィルタリング用」という位置づけは、FineWebの時代的な文脈を理解する上で重要です。2022年頃、モデルベースフィルタリングに対する態度は変化し始めていました。初期の偏見に対する懸念から、性能向上への焦点へと移行していました。

FineWebは、この変化を予想し、研究者が最新のモデルベースフィルタリング技術を適用できるプラットフォームとして機能するよう設計されました。これは、データキュレーションの民主化とも言えるアプローチで、各研究者が自分の研究目標に最適なフィルタリング戦略を開発できるようにしています。

「Common Crawlを扱うのが面倒」という実用的な観察は、FineWebの真の価値を示しています。生のCommon Crawlデータは、複雑なファイル形式、大量のノイズ、処理の複雑さなど、多くの技術的障壁を含んでいます。FineWebは、これらの障壁を除去し、研究者がより高レベルのデータサイエンスに集中できるようにしています。

8. 最新のデータセット開発

8.1 DCLM（DataComp-LM）

240兆トークンのプール

先に進んで、AI2には一連のモデルがあり、OLMoと呼ばれています。彼らの最初のモデルは、Dolmaデータセットで訓練されました。そして、これは構成です。Common Crawlがあります。The Stackがあり、私たちが話したコードです。C4があり、あなたは知っています。Redditがあります。A2はSemantic Scholarを持っています。だから、これはそれから派生していると思います。Project GutenbergとWikipediaがあります。

同年、昨年でした。複数の異なる組織からの協力があったDataCompという論文がありました。

ここで、彼らが望んでいたのは、本質的にデータセットを作成するための競争を定義することでした。そして、彼らは基本的なインフラストラクチャを設定したかったのです。だから、彼らは標準的なデータセットを定義し、本質的に異なるデータ処理アルゴリズムを試すことができます。

だから、彼らはCommon Crawlを処理し、すべてのダンプを処理して、DCLM-poolを作成しました。これは240兆トークンを持っています。だから、それは多くのトークンです。

240兆トークンという規模は、これまでに構築された最大のデータプールの一つです。これは、Common Crawlのすべてのダンプを包括的に処理した結果であり、インターネットコンテンツの最も完全な表現に近いものです。

DataComp-LMプロジェクトの革新的な側面は、競争プラットフォームとしての設計です。従来のデータセット開発では、各研究グループが独自の処理パイプラインを開発し、結果を比較することが困難でした。DCLMは、共通の出発点（240兆トークンのプール）を提供することで、異なるフィルタリング戦略を公正に比較できるようにしました。

「複数の異なる組織からの協力」という特徴は、現代のAI研究の重要なトレンドを反映しています。データセット構築の規模と複雑さが増大するにつれて、単一の研究グループでは対処できない規模になっています。DCLMは、University of Washington、Allen Institute for AI、Google Research、その他の組織からの専門知識を統合しました。

このプロジェクトは、データキュレーションを科学的研究の対象として確立することを目的としていました。「基本的なインフラストラクチャを設定」することで、研究者は異なるフィルタリング手法、品質メトリック、処理戦略を系統的に比較できるようになりました。

240兆トークンのプールは、生のCommon Crawlデータに基本的な処理（重複除去、基本的な品質フィルタリング、フォーマット標準化など）を適用したものです。これは、より高度なフィルタリング技術を適用するための出発点として機能します。

品質分類器で1.4%まで削減（3.8兆トークン）

しかし、ご存知のように、Common Crawlは平均的には最高品質ではありません。だから、それはかなり絞り込まれます。彼らは、そのデータセットをフィルタリングする特定のレシピを持っていました。これは、DCLM-poolをDCLM-baselineと呼ばれるものにフィルタリングしたものです。

そして、ここで、彼らは品質フィルターを使うことに非常に積極的でした。これはどのように見えるかです。彼らはいくつかのルールベースのフィルタリング、基本的なものを行います。

興味深い主な点は、彼らがDCLM-poolをDCLM-baselineにフィルタリングしたfastTextフィルターを取ったことです。だから、彼らは全データセットの1.4%のみを保持しました。

240兆トークンから3.8兆トークンへの削減は、驚くべき積極的なフィルタリングです。これは、元のデータの98.6%を除去したことを意味します。この大幅な削減は、Common Crawlの大部分が言語モデルの訓練には適さないという現実を反映しています。

この1.4%という保持率は、品質重視のアプローチの極端な例です。これまでのデータセットでは、このように積極的なフィルタリングは行われていませんでした。DCLMの研究者たちは、量よりも質を優先することが、最終的により良いモデルを生み出すという仮説を検証しようとしました。

fastTextフィルターの使用は、効率的でスケーラブルなフィルタリングソリューションを示しています。fastTextは、Meta（Facebook）によって開発された高速なテキスト分類ライブラリで、240兆トークンのような大規模なデータセットに対して実用的な速度でフィルタリングを実行できます。

この積極的なフィルタリングは、データキュレーションにおけるトレードオフを浮き彫りにしています。一方で、非常に高品質なデータセットが得られる可能性があります。他方で、有用な情報を含む可能性のある大量のデータが失われます。特に、主流ではないが価値のある情報、新しい形式のコンテンツ、または分類器が理解できない複雑なコンテンツが除外される可能性があります。

3.8兆トークンという最終的な規模は、それでも非常に大きなデータセットです。これは、初期のモデル（GPT-3の400億トークン）と比較すると約100倍の規模です。しかし、現代の基準（Llama 3の15兆トークン）と比較すると、品質重視のアプローチがいかに選択的であるかがわかります。

正例：OpenHermes（GPT-4生成）、ELI5

だから、品質フィルタリングでは、正例、負例を定義し、分類器を訓練します。だから、正例は2つのソースから来ています。

OpenHermesデータセットがあります。だから、これは主にGPT-4生成の指示データです。だから、これは興味深いです。彼らは実際に指示データを使用して、pre-trainingデータをキュレーションしています。だから、今、彼らは明示的に指示データで訓練していませんが、指示データのように見えるデータを探しています。

そして、ELI5があります。これは基本的に「5歳児に説明」と呼ばれるsubredditです。そして、これがデータセットがどのように見えるかです。最初の2つのプレイをラッシュで無駄にすることの意味は何ですか？だから、これらはたとえば、あなたがチャットボットに尋ねるかもしれない質問です。

DCLMの品質分類器における正例の選択は、非常に戦略的で革新的でした。OpenHermesデータセットの使用は、特に興味深い選択です。これは、GPT-4によって生成された指示追従データで、高品質な質問応答ペアを含んでいます。

この選択の革新的な側面は、「指示データを使用して、pre-trainingデータをキュレーションしている」ことです。従来のpre-trainingでは、指示データとpre-trainingデータは明確に分離されていました。しかし、DCLMは、指示データの特徴を持つウェブコンテンツを、pre-training段階で積極的に求めています。

これは、「明示的に指示データで訓練していませんが、指示データのように見えるデータを探しています」という微妙だが重要な区別を示しています。モデルは直接的な指示追従訓練を受けていませんが、自然に指示追従に似た構造を持つコンテンツで訓練されています。

ELI5（Explain Like I'm 5）subredditの選択は、同様に戦略的です。このsubredditは、複雑な概念を簡潔で理解しやすい方法で説明することに特化しています。質問は実際のユーザーから来ており、回答はコミュニティによって投票され、品質が保証されています。

「最初の2つのプレイをラッシュで無駄にすることの意味は何ですか？」という例は、ELI5の典型的な質問を示しています。これらの質問は、実際に人々がチャットボットに尋ねる可能性のある自然な質問です。形式的ではなく、好奇心に基づいており、明確な回答を求めています。

この正例の選択は、現代の言語モデルの実際の使用パターンを反映しています。ユーザーは、フォーマルな学術的質問よりも、日常的で実用的な質問をする傾向があります。DCLMは、この現実を認識し、実際の使用ケースにより適したデータを優先しています。

実験結果：RefinedWebより3%向上

負例は、RefinedWebからサンプリングされています。

低品質データではありませんが、これら他の2つのソースほどキュレーションされていません。だから、結果は、彼らがDCLM-baseline、240兆トークンを取り、3.8兆トークンに削減したことです。それはまだ良いサイズのチャンクです。

だから、彼らは、これらでfastText分類器を訓練し、すべてのDCLM-poolで実行しました。そして、ここに結果テーブルの一つがあります。

だから、ここでのベンチマークは、コアにHellaSwagのような標準的な言語モデリングベンチマークの束を含んでいます。そして、彼らはこの分類器を使用して、実際にRefinedWebを3%、そして他の多くのものを1%または2%上回ることを示しています。

3%の性能向上は、言語モデリングの文脈では非常に大きな改善です。この向上は、DCLMの品質分類器アプローチの有効性を実証する重要な証拠となりました。

RefinedWebを負例として使用するという選択は、巧妙な実験設計を示しています。RefinedWebは決して低品質なデータセットではありません。実際、それは当時の最先端のウェブデータセットの一つでした。しかし、DCLMの文脈では、それは「これら他の2つのソースほどキュレーションされていません」という相対的な基準で評価されています。

この実験設計は、品質の相対的な性質を強調しています。OpenHermesとELI5のような高度にキュレーションされたデータと比較して、RefinedWebは「普通の」ウェブデータを代表しています。分類器は、この品質の違いを学習し、より大きなプールからより高品質なコンテンツを識別できるようになります。

HellaSwagのような標準的な言語モデリングベンチマークでの評価は、改善が特定のタスクに限定されるものではなく、一般的な言語理解能力の向上を示していることを確認しています。

「他の多くのものを1%または2%上回る」という結果は、DCLMアプローチの一貫性を示しています。単一のベンチマークでの偶然の改善ではなく、複数の評価指標にわたる系統的な向上が観察されました。

この結果は、モデルベースフィルタリングの復権を示す重要な証拠となりました。初期の偏見に対する懸念は依然として有効ですが、適切に設計された品質分類器が実際に言語モデルの性能を向上させることができるという確信を研究コミュニティに与えました。

8.2 Nemotron-CC（NVIDIA）

より多くのトークン保持を重視

私が話す最後のpre-trainingデータセットは、Nemotron-CCです。これはNVIDIAから出てきました。彼らはNemotronモデルを訓練することで何らかの作業をしていましたが、最近では、彼らはpost-trainingとデータキュレーションをより多く行っています。

だから、彼らの主な論文は、DCLM、baselineは素晴らしいデータセットですが、非常に積極的にフィルタリングしていることです。覚えていますか、それは240兆トークンから3.8兆トークンにずっとフィルタリングしました。そして、より大きなモデルをより長く訓練したい場合、より多くのトークンが必要です。なぜなら、この積極的なフィルタリング3.8兆は、たとえば、400億モデルの訓練実行を維持するのに実際には十分ではないからです。

Nemotron-CCの根本的な洞察は、DCLMアプローチの限界を指摘することでした。DCLMの1.4%という積極的なフィルタリングは、確かに高品質なデータセットを生み出しましたが、現代の大規模言語モデルの訓練要件には不十分でした。

「より大きなモデルをより長く訓練したい場合、より多くのトークンが必要です」という観察は、スケーリング法則の現実を反映しています。モデルのサイズが大きくなるにつれて、最適な性能を得るためには、より多くの訓練データが必要になります。400億パラメータのモデルを適切に訓練するには、3.8兆トークンでは不十分かもしれません。

この問題は、データキュレーションにおける根本的なトレードオフを浮き彫りにしています。一方で、高品質なデータでの訓練は、より良いモデルを生み出す可能性があります。他方で、十分な量のデータがなければ、モデルは適切に訓練されない可能性があります。

NVIDIAのアプローチは、この緊張関係を解決しようとしました。彼らは、品質を犠牲にせずに、より多くのトークンを保持する方法を模索しました。これは、より洗練されたフィルタリング技術や、異なる品質レベルのデータを効果的に組み合わせる方法を必要としました。

この問題は、AI業界の現実的な制約も反映しています。研究環境では、小さくて完璧なデータセットで実験することが可能ですが、商用のモデル開発では、大規模で実用的なデータセットが必要です。Nemotron-CCは、この現実的な要求に応えようとしました。

教育的価値による言語モデル評価

最初に彼らが気づいた興味深いことは、彼らはHTML-to-textのアブレーションを行いましたが、品質に基づいてだけでなく、残されたトークンの数に基づいても行いました。だから、彼らは本当にトークンを捨てないようにしようとしています。

そして、TrafilaturaではなくjusTextが実際により多くのトークンを保持することがわかりました。だから、彼らはjusTextを使用しました。

そして、彼らは品質フィルタリングのために多くの異なる技術を使用しました。彼らは巨大なNemotronモデルに、教育的価値に基づいて文書を本質的にスコアリングするようにプロンプトしました。それをより高速なモデルに蒸留し、それを使用して訓練しました。

だから、これは、言語モデルが教育的価値だと思うものに基づくフィルターです。

教育的価値による評価は、Nemotron-CCにおける重要な革新でした。従来の品質フィルタリングは、Wikipediaライクさや文法的正確性などの形式的な基準に基づいていました。しかし、「教育的価値」という概念は、より深い意味的な品質を捉えようとしています。

「巨大なNemotronモデルに、教育的価値に基づいて文書を本質的にスコアリングするようにプロンプトした」というアプローチは、現代的なLLM活用の典型例です。大規模な言語モデルの理解能力を、データキュレーションのツールとして使用することで、従来の自動化されたメトリクスでは捉えられない品質の側面を評価できます。

教育的価値の概念は、多面的です。これには、情報の正確性、説明の明確性、概念の論理的な構造、学習者にとっての有用性、段階的な理解の促進などが含まれる可能性があります。大規模言語モデルは、これらの複雑な要素を統合的に評価する能力を持っています。

「それをより高速なモデルに蒸留し、それを使用して訓練した」というプロセスは、実用的な効率性の考慮を示しています。巨大なモデルに240兆トークンすべてを評価させることは計算的に非現実的です。しかし、小さなサブセットでの評価を学習させた高速なモデルは、大規模なデータセットに対して実用的な速度で動作できます。

この手法は、言語モデル自体がデータキュレーションの品質評価者として機能できることを示しています。これは、AI開発における自己言及的な側面を表しており、より高度なモデルが次世代のモデルの訓練データを改善するために使用されています。

低品質データの言語モデルによる書き換え

彼らはまた、DCLMクラシファイアも使用しました。興味深い方法で、彼らは基本的にすべてのこれらのクラシファイアを実行し、そのスコアをバケット化しました。そして、各バケットから、いくつかのデータセットをサンプリングしました。だから、それは上位を取るだけではありません。なぜなら、彼らは異なる専門家の品質に関する意見に対して良いカバレッジを持っていることを確認しようとしているからだと思います。

彼らはまた、これを行いました。これは興味深いことです。彼らは言語モデルを使用して、フィルタリングするだけでなく、データセットも書き換えました。だから、低品質データセットに対して、彼らは基本的に言語モデルを使用して、より高品質に見えるように書き換えました。

だから、明らかに、そこにはミスがある可能性があります。

しかし、全体的に見て、おそらく低品質のインターネットデータで訓練するよりも悪くないでしょう。

低品質データの言語モデルによる書き換えは、Nemotron-CCの最も革新的で議論の余地のある特徴の一つでした。この手法は、従来のフィルタリング（データを保持するか除外するか）から、積極的なデータ改善への根本的な転換を表しています。

この書き換えプロセスは、低品質だが潜在的に有用な情報を含むコンテンツを対象としています。例えば、文法的に不正確だが事実的に正しい情報、構造化されていないが価値のある知識、または不完全だが改善可能な説明などが含まれる可能性があります。

「明らかに、そこにはミスがある可能性があります」という認識は、この手法の重要な限界を示しています。言語モデルによる書き換えは、元の情報を誤解したり、事実を歪めたり、または誤った情報を導入したりする可能性があります。これは、データの完全性に対する潜在的なリスクです。

しかし、「全体的に見て、おそらく低品質のインターネットデータで訓練するよりも悪くないでしょう」という判断は、実用的な視点を反映しています。完璧なデータセットは存在せず、すべてのデータキュレーション手法には何らかのトレードオフがあります。

この手法の背後にある論理は、不完全なデータを完全に廃棄するよりも、改善を試みる方が有益である可能性があるというものです。特に、大規模なデータセットが必要な現代のモデル訓練では、完全なデータのみを使用することは実用的ではない可能性があります。

書き換えプロセスは、データキュレーションにおける新しいパラダイムを示しています。静的なフィルタリングから動的な改善へと移行し、AIシステムが自身の訓練データを積極的に改善するという自己改善的なアプローチです。

6.3兆トークン

そして、高品質データセットについては、彼らは言語モデルを使用して、タスクのように見えるものを本質的に生成しました。だから、あなたはWikipediaの記事を取ります。言語モデルに、本質的に入力出力ペアを作成するよう求めます。入力は質問で、出力が回答かもしれません。または、入力がこの文書を要約してで、出力が要約かもしれません。または、入力が重要な情報を抽出してで、出力が重要な情報です。

だから、これはまた、まあ、結局、指示に従う時間に、指示に従えるようになりたいという考えを得ようとしています。だから、それについてのヘッドスタートを得るかもしれません。

だから、彼らはそれから6.3兆トークンを得ました。これは3兆トークンよりも多く、ほぼ2倍ですが、すべてがCommon Crawlから来ているのに、彼らは本質的に、もしかすると2倍ではないかもしれませんが、ほぼサイズを2倍にすることができました。

参考までに、Llama 3は15兆で訓練されています。

Qwen3は36兆で訓練されています。これにはマルチモーダルデータも含まれていると思います。だから、6.3兆は、この時点では巨大ではありません。しかし、データセットを持つオープンソースモデルにとっては、それはかなり良いです。

6.3兆トークンという最終的な規模は、Nemotron-CCの包括的なアプローチの成果を示しています。これは、DCLMの3.8兆トークンから大幅な増加であり、「ほぼ2倍」という改善を達成しました。

この増加は、複数の革新的な技術の組み合わせによって実現されました。より効率的なHTML-to-text変換（jusText）、より保守的なフィルタリング戦略、低品質データの書き換え、および高品質データからの合成タスク生成などです。

「すべてがCommon Crawlから来ている」という点は重要です。これは、同じ原材料から、より洗練された処理技術を使用することで、大幅により多くの有用なデータを抽出できることを示しています。これは、データキュレーションの技術的進歩の価値を実証しています。

現代の基準との比較（Llama 3の15兆、Qwen3の36兆）は、データセットの規模における継続的な拡大を示しています。6.3兆トークンは、「この時点では巨大ではありません」が、これは業界全体の規模拡大の速度を反映しています。

「データセットを持つオープンソースモデルにとっては、それはかなり良いです」という評価は重要な区別です。企業が数十兆トークンのプロプライエタリデータセットを使用する中で、研究コミュニティが利用できる公開データセットははるかに小さいのが現実です。

この文脈では、6.3兆トークンは学術研究や小規模な商用アプリケーションにとって十分に有用な規模です。「ほとんどの私たちにとって、6.3兆は1エポック行うのに十分以上です」という実用的な観点は、すべての研究者が最大規模のデータセットを必要とするわけではないことを示しています。

9. 著作権問題

9.1 著作権の基本概念

1976年著作権法、75年間の保護期間

いくつかの英語データセットについて話しました。多言語データセットはどうなのかと思っていました。

質問は、多言語データセットについてはどうかということです。私は主に英語に焦点を当てました。なぜなら、研究の多くが主に行われているからです。しかし、明らかに、Common Crawlには多言語データがあります。そして、多言語データセットも作成されています。

時間の関係で、著作権に移りましょう。これは、どれだけのウェブが著作権を持っているかという早期の質問でした。著作権が実際に何についてのものかを理解しましょう。

現在、生成AI周辺で多くの訴訟があり、主に著作権に関するものです。一般的に、著作権法は知的財産法の一種に該当します。ここでの目標は、知的財産の創造を促進することです。だから、著作権法がそもそも存在する理由です。

著作権、特許、商標、企業秘密など、多くの種類の著作権があります。

著作権法は、訓練データに最も関連するものです。そして、これは1700年代のイングランドに遡ります。しかし、米国では、1976年以来、著作権法があり、これが本質的に著作権の意味を確立しました。

正式には、それは「有形な表現媒体に固定された創作的著作物」に適用されます。

だから、それは創作的な作品です。だから、もしあなたが単なるコレクションなら、著作権は適用されません。電話帳は、選択や配列に何らかの創造性がない限り、著作権適用対象外です。

著作権は表現にのみ適用され、アイデアには適用されません。だから、アルゴリズムに著作権をかけることはできません。コードには著作権をかけることができます。

1976年米国著作権法は、現代の著作権保護の基礎を確立しました。この法律は、以前のシステムからの重要な変更を導入しました。最も重要な変更の一つは、著作権保護の期間と発動条件でした。

75年間の保護期間（実際には、個人の著作者の場合は著作者の生存期間プラス70年、法人著作の場合は95年）は、著作権の経済的インセンティブを提供しながら、最終的に作品がパブリックドメインに入ることを保証しています。

「有形な表現媒体に固定された創作的著作物」という定義は、いくつかの重要な要素を含んでいます。「創作的」という要件は、単純な事実の編集や機械的な複製を除外します。電話帳の例は、この原則を明確に示しています。名前と電話番号の単純なリストは創作的ではありませんが、独創的な選択や配列があれば保護される可能性があります。

「表現にのみ適用され、アイデアには適用されません」という原則は、アイデア・表現二分論として知られています。これは、抽象的な概念やアルゴリズムは保護されないが、それらの具体的な実装は保護されることを意味します。プログラミングの文脈では、アルゴリズムのアイデア自体は保護されませんが、特定のコード実装は保護されます。

この法的枠組みは、言語モデルの訓練データにとって複雑な意味を持ちます。インターネット上のコンテンツの大部分は、この定義の下で自動的に著作権保護を受けています。

登録不要、$65で訴訟可能

そして、これが行ったことの一つは、著作権が以前は出版されたもののみに適用されていたということです。そして今では、固定されたというより緩い概念です。一般的に、著作権は範囲が拡大しています。

そして、著作権に登録は必要ありません。これは特許とは異なります。何かを発明して登録しなければ、それに対する請求権はありません。

一方、著作権は、あなたが何かを作成し、それをあなたのウェブサイトに投稿すれば、明示的に著作権と書かなくても、著作権が適用されます。しかし、作成者が著作権侵害で誰かを訴える前に、登録が必要です。しかし、登録の障壁も$65であり、数千もする可能性がある特許とは対照的に、わずか$65です。

この登録システムの変化は、著作権保護の民主化を表しています。「固定されたというより緩い概念」への移行は、著作権の範囲を大幅に拡大しました。以前は、正式に出版された作品のみが保護されていましたが、現在は、メモ、ブログ投稿、ソーシャルメディアの投稿、個人的なウェブサイトなど、あらゆる形で「固定」されたコンテンツが保護されます。

「登録は必要ありません」という原則は、著作権と特許の根本的な違いを示しています。特許システムでは、発明者が政府に正式に申請し、承認を得る必要があります。このプロセスは複雑で時間がかかり、費用も高額です。

しかし、著作権は「作成すると同時に」発生します。作成者がコンテンツを作成し、それを何らかの形で記録（「固定」）した瞬間から、自動的に著作権保護が開始されます。これは、「明示的に著作権と書かなくても」適用されることを意味します。

ただし、実際に著作権侵害で訴訟を起こすためには、事前に登録が必要です。この要件は、訴訟の濫用を防ぎ、著作権者が真剣に権利を主張していることを確認するためのものです。

「登録の障壁も$65」という低い費用は、特許の数千ドルと比較して、著作権登録を非常にアクセスしやすくしています。これは、個人の作成者やインディペンデントなクリエイターでも、自分の作品を法的に保護できることを意味します。

この低い障壁は、言語モデルの訓練データの文脈で重要な意味を持ちます。インターネット上の多くのコンテンツ作成者が、比較的簡単に法的保護を求めることができるため、訓練データとして使用されるコンテンツの大部分が潜在的に法的な請求の対象となる可能性があります。

インターネット上の多くのコンテンツが著作権保護対象

今では75年間続き、その後、著作権が失効し、パブリックドメインの一部になります。だから、すべてのクラシックやProject Gutenbergのほとんどは、著作権から外れています。

私が人々が気づいていないかもしれないことは、インターネット上の多くのものが実際に著作権を持っているということです。だから、何かが著作権を持っているかどうかは、実際には問題ではありません。問題は、それを使用できるかどうかです。

この現実は、多くの人々が理解していない著作権の基本的な性質を浮き彫りにしています。現代の著作権法の下では、インターネット上のコンテンツの圧倒的多数が自動的に著作権保護を受けています。

「何かが著作権を持っているかどうかは、実際には問題ではありません」という観察は、重要な視点の転換を示しています。多くの人々は、コンテンツが明示的に著作権表示を持っていない場合、または無料でアクセスできる場合、それが自由に使用できると誤解しています。

しかし、現実は異なります。ブログ投稿、ニュース記事、ソーシャルメディアの投稿、個人のウェブサイト、フォーラムの投稿、コメント、レビューなど、インターネット上のほとんどすべてのオリジナルコンテンツは、作成された瞬間から自動的に著作権保護を受けています。

この状況は、言語モデルの訓練データにとって根本的な課題を生み出しています。Common Crawlやその他のウェブクロールから収集されるデータの大部分は、技術的には著作権保護の対象です。これは、データの量や技術的な入手可能性の問題ではなく、法的な使用許可の問題なのです。

「問題は、それを使用できるかどうかです」という核心的な問題は、次のセクションで詳しく検討される使用許可の仕組み（ライセンスとフェアユース）につながります。

Project Gutenbergの例は、この問題の対照的な例を示しています。これらの作品は、75年の保護期間が経過してパブリックドメインに入ったため、法的な制約なしに使用できます。しかし、これらの作品は、現代のインターネットコンテンツの極小部分を占めるに過ぎません。

9.2 使用許可の2つの方法

ライセンス契約（Google-Reddit等）

そして、それを使用する方法は2つあります。

ライセンスを取得するか、フェアユース条項に訴えるかです。

ライセンスルートを選択する場合、作成者と契約を結んでライセンスを取得し、何らかの条件でデータを使用できます。そして、これは本質的に、GoogleとRedditがこの関係を持っているように行われます。

効果的に、ライセンスは「私を訴えないで」です。

Creative Commons ライセンスと呼ばれる特別なタイプのライセンスがあり、これは著作権のある作品の無料配布を可能にします。

ライセンス契約は、著作権保護されたコンテンツを合法的に使用する最も直接的な方法です。このアプローチでは、データの使用者（通常は企業）が、コンテンツの所有者と直接的な法的合意を結びます。

Google-Redditの関係は、現代のAI業界における典型的な例です。Googleは、Redditの投稿とコメントを言語モデルの訓練に使用する権利を得るために、Redditと契約を結びました。この契約により、Googleは法的なリスクを負うことなく、Redditの膨大なユーザー生成コンテンツにアクセスできるようになりました。

「効果的に、ライセンスは『私を訴えないで』です」という表現は、ライセンスの本質を簡潔に捉えています。ライセンスは、技術的には著作権侵害となる可能性のある行為を、合法的に行うことを許可するものです。著作権者は、特定の条件下でコンテンツの使用を明示的に許可し、その見返りに通常は金銭的な対価を受け取ります。

この種のライセンス契約は、AI業界でますます一般的になっています。OpenAIとShutterstock、OpenAIとStack Exchangeなど、多くの類似した契約が締結されています。これらの契約は、大量のデータが必要な言語モデル開発と、コンテンツの価値を収益化したいデータ所有者との間のwin-winの関係を作り出しています。

Creative Commonsライセンスは、より民主的なアプローチを提供します。これらのライセンスは、著作権者が自分の作品を特定の条件下で自由に使用できることを事前に宣言することを可能にします。Wikipediaの全コンテンツ、多くのYouTube動画、学術論文、その他のコンテンツがCreative Commonsライセンスの下で公開されています。

しかし、個別のライセンス契約には限界があります。インターネット上の個々のウェブサイトやコンテンツ作成者と契約を結ぶことは、現実的ではありません。これが、次のセクションで検討されるフェアユースの重要性を示しています。

フェアユース条項の適用

Creative Commonsは、約20年前に創設されました。これは本質的に、パブリックドメインと著作権の間のギャップを埋めるためのものです。そして、アイデアは、人々が75年待つことなく、このものを使用できるようにしたいということです。

そして、作成者が実際に人々が自分のコンテンツを使用することを喜んでいる場合があります。しかし、ほとんどの場合、彼らがイエスと言うかノーと言うかは明確ではありません。

だから、現在、多くのモデル開発者は、基盤モデルを訓練するためのデータをライセンス供与しています。例えば、GoogleとReddit、OpenAIとShutterstock、OpenAIとStack Exchange、などです。だから、お金があれば、ライセンスを取得しに行きます。

もしあなたがお金がないなら、私は貧しい学者だと言って、そうしたら彼らはあなたにそれを使わせてくれるかもしれません。

しかし、問題は、インターネットにライセンスを取得することはできないということです。ランダムなウェブサイトに行きます。誰と話すのでしょうか？

だから、合法的に使用できる唯一の方法は、フェアユースに訴えることです。だから、フェアユースは、基本的に、何かが著作権を持っていて、あなたがライセンスを持っていなくても、いくつかの条件下でそれを使用できると言います。

フェアユース条項は、著作権法における重要な例外規定です。これは、著作権保護されたコンテンツを、権利者の許可なしに使用できる特定の状況を定義しています。

「インターネットにライセンスを取得することはできない」という観察は、現代のデータ駆動型AI開発における根本的な課題を明確に示しています。個別のライセンス契約は、Google-Redditのような大規模なプラットフォームとは可能ですが、インターネット全体の断片化された性質では実用的ではありません。

ランダムなウェブサイトに遭遇した場合、そのコンテンツを使用する許可を求めるために「誰と話すのでしょうか？」という疑問は、インターネットの非中央集権的な性質を浮き彫りにしています。多くのウェブサイトは連絡先情報を明確に提供していません。個人のブログ、放棄されたサイト、または組織的に複雑な企業サイトでは、適切な権利者を特定することさえ困難です。

この現実により、フェアユースは、大規模なウェブデータを使用する唯一の法的に実行可能な経路となっています。フェアユースがなければ、Common Crawlのようなデータセットでの訓練は法的に不可能になる可能性があります。

フェアユースの概念は、著作権の目的（創作を促進すること）と、知識の普及、教育、研究、イノベーションなどの社会的利益とのバランスを取ろうとしています。これは、著作権が絶対的な権利ではなく、より広い社会的目標との関係で評価される必要があることを認識しています。

言語モデルの訓練におけるフェアユースの適用は、現在進行中の法的議論の中心的な問題です。これは、新しい技術と既存の法的枠組みの間の緊張関係を表しています。

9.3 フェアユースの判断基準

使用目的・性質（教育的・変革的）

そして、条件は、使用の目的と性質によって決定されます。だから、たとえば、商用ではなく教育目的で使用している場合、またはあなたが作品を何らかの形で変革しているか、それを単にコピーしてあなたのウェブサイトでホストして自分のもののように偽装するのではない場合、それはあなたを助けるでしょう。

フェアユースの最初の要素である「使用の目的と性質」は、著作権保護された作品の使用に関する最も重要な考慮事項の一つです。この基準は、使用がどのような文脈で、どのような目的で行われるかを評価します。

「商用ではなく教育目的で使用している場合」という区別は、フェアユースの伝統的な適用を反映しています。教育、研究、批評、報道などの用途は、一般的にフェアユースの下でより有利に扱われます。これは、これらの活動が社会的な価値を持ち、著作権法の根本的な目的（知識の普及と文化的発展の促進）と一致するからです。

しかし、「変革的」使用の概念は、より複雑で現代的な考慮事項です。変革的使用とは、元の作品を単純に複製するのではなく、新しい目的、意味、または価値を加える使用を指します。これは、元の作品の表現を保持しながらも、全く異なる目的で使用することを含みます。

言語モデルの訓練の文脈では、この変革的使用の概念は特に重要です。訓練プロセスでは、個々の作品をそのまま再現することが目的ではなく、大量のテキストから言語パターンを学習することが目的です。これは、元の作品の「単なるコピー」ではなく、統計的学習による変革的な使用と主張される可能性があります。

「あなたのウェブサイトでホストして自分のもののように偽装する」という対照的な例は、明らかに変革的ではない使用を示しています。これは、元の作品と同じ目的で、同じ市場で競合する可能性があり、フェアユースの保護を受けにくいでしょう。

教育目的の使用も、言語モデルの訓練において複雑な問題を提起します。多くの研究機関は教育的使命を持っていますが、研究の結果として開発された商用アプリケーションは、純粋に教育的とは言えない可能性があります。

著作物の性質（事実的vs創作的）

著作物が何であるか、もしそれが創作的なものなら、実際、申し訳ありません、もしそれが事実的なものなら、フェアユースになる可能性が高いです。

たとえば、電話帳。事実により近いものは、本当に著作権をかけることができません。

フェアユースの第二の要素である「著作物の性質」は、使用される作品の種類とその創作性のレベルを評価します。この基準は、すべての著作物が同等に保護されるわけではないという認識に基づいています。

「もしそれが事実的なものなら、フェアユースになる可能性が高い」という原則は、著作権法の基本的な哲学を反映しています。事実、データ、客観的な情報は、一般的に創作的な表現よりも弱い著作権保護を受けます。これは、事実そのものは誰の所有物でもなく、社会全体の共有財産であるべきだという考えに基づいています。

電話帳の例は、この原則の典型的な適用を示しています。名前、住所、電話番号は純粋な事実であり、これらを単純にリストアップすることは創作的な活動ではありません。そのため、電話帳のような事実的な編集物は、その選択や配列に独創性がない限り、著作権保護を受けません。

この区別は、言語モデルの訓練データにとって重要な意味を持ちます。インターネット上のコンテンツの多くは、事実的な情報（ニュース記事、技術文書、百科事典的な記述、データベース、政府文書など）を含んでいます。これらの事実的な作品は、創作的な作品（小説、詩、映画、音楽など）よりもフェアユースの主張に対してより寛容な扱いを受ける可能性があります。

ただし、この区別は完全に明確ではありません。多くの作品は、事実的な内容と創作的な表現の両方を含んでいます。たとえば、ニュース記事は事実を報告しますが、記者の独特な視点、表現スタイル、分析が含まれています。

言語モデルの訓練の文脈では、この区別は複雑な問題を提起します。訓練データには、高度に創作的な小説から純粋に事実的な技術文書まで、あらゆる種類のコンテンツが含まれています。各タイプのコンテンツは、フェアユースの分析において異なる考慮が必要になる可能性があります。

使用量

スニペットだけを使用する場合、それはフェアユースになる可能性が高いです。言語モデルの場合、これは適用されません。なぜなら、おそらく全体で訓練したいからです。そのほんの一部ではなく。

フェアユースの第三の要素である「使用量」は、著作権保護された作品のうち、どれだけの部分が使用されているかを評価します。この基準は、一般的に「少ない方が良い」という原則に基づいています。

「スニペットだけを使用する場合」という例は、この原則の典型的な適用を示しています。書評で本から短い引用をする、学術論文で他の研究から数行を引用する、ニュース記事で演説から一部を引用するなど、限定的な使用は一般的にフェアユースの下で保護されやすくなります。

しかし、「言語モデルの場合、これは適用されません」という現実は、AI訓練における根本的な課題を浮き彫りにしています。言語モデルの効果的な訓練には、通常、文書全体が必要です。部分的な使用では、言語の文脈、構造、意味の完全な理解を得ることができません。

「おそらく全体で訓練したいからです。そのほんの一部ではなく」という必要性は、言語モデルの技術的要件を反映しています。書籍の数ページだけ、記事の数段落だけを使用することは、モデルの学習にとって十分ではありません。効果的な言語理解には、完全な文書、多様な文脈、豊富な例が必要です。

この問題は、従来のフェアユースの適用と現代のAI技術の間の根本的な不整合を示しています。フェアユースの法的枠組みは、人間が限定的な目的で小さな部分を使用することを想定して設計されましたが、機械学習は大量のデータを包括的に処理する必要があります。

ただし、使用量の評価は単純に量的なものではありません。作品の「心臓部」や最も重要な部分を使用することは、たとえ量的に少なくても、フェアユースの主張を弱める可能性があります。言語モデルの訓練では、この「心臓部」の概念をどのように適用するかは不明確です。

この使用量の問題は、AI業界にとって最も困難なフェアユースの側面の一つです。技術的な必要性と法的な制約の間の緊張関係を表しており、現在進行中の訴訟の中心的な争点となっています。

市場への影響

そして、市場への影響です。

だから、たとえば、あなたが作品を本質的に作成者を置き換えるために使用している場合、それはあなたがまったく異なることをするためにその作品を使用している場合よりも、好ましくないように見られるでしょう。

だから、明らかに、あなたが映画を見て、それの要約を書くなら、それはフェアユースです。あなたがそのアイデアを再実装する場合、それは問題ありません。

Google Booksについて長い10年間の戦いがあり、彼らがスニペットを表示するとき、それがフェアユースなのかどうかでしたが、最終的にはGoogleに有利に裁定されました。

フェアユースの第四の要素である「市場への影響」は、しばしば最も重要な考慮事項とされています。この基準は、使用が元の作品の市場価値や潜在的な市場にどのような影響を与えるかを評価します。

「あなたが作品を本質的に作成者を置き換えるために使用している場合」という状況は、最も問題のある使用形態です。これは、新しい使用が元の作品と同じ市場で競合し、消費者が元の作品の代わりに新しい使用を選択する可能性があることを意味します。このような「置き換え」は、著作権者の経済的利益を直接的に害し、フェアユースの主張を大幅に弱めます。

対照的に、「まったく異なることをするためにその作品を使用している場合」は、より有利に扱われます。これは、新しい使用が元の作品とは異なる市場や目的に向けられており、直接的な競合関係にないことを示しています。

映画の要約を書くという例は、この原則の明確な適用を示しています。映画の要約は、映画そのものの代替品ではありません。視聴者は要約を読んだからといって映画を見る必要がなくなるわけではなく、むしろ要約は映画への関心を高める可能性があります。

アイデアの再実装も同様です。既存のソフトウェアのアイデアを別の形で実装することは、元のコードを直接複製するのとは異なります。これは、アイデア・表現二分論の適用でもあります。

Google Booksの例は、この原則の現実的な適用を示しています。「長い10年間の戦い」は、新しい技術と既存の著作権法の間の緊張関係を反映しています。Googleは、検索可能なデータベースでスニペットを表示することが、本の販売を促進し、新しい市場を創出すると主張しました。

最終的に、裁判所はGoogleに有利に裁定しました。これは、Google Booksサービスが本の代替品ではなく、むしろ発見のツールとして機能し、実際には本の市場にとって有益であると判断されたからです。

言語モデルの訓練の文脈では、市場への影響は複雑な問題です。一方で、言語モデルは特定の作品の直接的な代替品ではありません。他方で、非常に高度なモデルが特定の種類のコンテンツを生成できる場合、それは一部の作成者の市場に影響を与える可能性があります。

9.4 機械学習での課題

コピー自体が著作権侵害の可能性

それは重要なことですが、著作権は逐語的な記憶についてだけではありません。だから、プロットとキャラクターも著作権の対象となる可能性があります。だから、あなたが本質的にn-gramの重複がほとんどなくても、ハリーポッターのキャラクターを取って、それを本質的に発展させるなら、それは著作権の侵害になる可能性があります。

しかし、一方で、もしあなたがパロディをするなら、それはフェアユースかもしれません。だから、これらのことは非常に微妙です。

著作権は、意味論と経済学、そしてコンテンツの種類に関するものです。だから、それは非常に複雑なトピックです。

訓練についてはどうでしょうか？一つのことは、著作権は、著作権という名前にコピーが含まれています。

訓練の最初のステップは、データをコピーすることです。それを使って何もしなくても、技術的にはすでに侵害です。

機械学習における著作権の課題は、従来の著作権法の概念と現代のAI技術の間の根本的な不整合を示しています。

「コピー自体が著作権侵害の可能性」という現実は、機械学習の基本的なプロセスに関する重要な法的問題を提起しています。「訓練の最初のステップは、データをコピーすることです」という技術的な現実は、法的な複雑さを生み出しています。

データをハードドライブにダウンロードし、メモリにロードし、処理のために複製することは、すべて技術的には「コピー」行為です。従来の著作権法の下では、これらの行為はそれぞれ、著作権者の排他的権利である複製権を侵害する可能性があります。

「それを使って何もしなくても、技術的にはすでに侵害です」という観察は、この問題の根本的な性質を強調しています。実際の訓練プロセスや最終的なモデルの出力が問題になる前に、データの単純な取得と保存が法的な問題を提起する可能性があります。

この問題は、著作権法が主に人間の行為を想定して設計されていることに起因しています。従来、「コピー」は、本を複写機で複製したり、音楽を録音したりするような、明確に意図的な行為でした。しかし、機械学習では、大量のデータの自動処理が必要であり、このプロセスには必然的に大規模な複製が含まれます。

ハリーポッターの例は、さらに複雑な問題を示しています。「n-gramの重複がほとんどなくても」、つまり直接的な文章の複製がなくても、キャラクター、プロット、設定などの創作的要素の使用は著作権侵害となる可能性があります。

これは、言語モデルが特定の作品の特徴的な要素を学習し、再現する能力を持つ場合、逐語的な記憶がなくても法的な問題を引き起こす可能性があることを示しています。

パロディの言及は、フェアユースの複雑さを示しています。同じ創作的要素の使用でも、文脈と目的によって、侵害となる場合もあれば、保護される場合もあります。

「著作権は、意味論と経済学、そしてコンテンツの種類に関するものです」という総括は、この問題の多面的な性質を強調しています。これは単純な法的ルールの適用ではなく、文脈、意図、影響を考慮した複雑な評価を必要とします。

暗記・抽出の問題

多くの人々が、機械学習システムは、アイデアではなく表現に興味があると主張しています。あなたはこのすべてのデータで訓練しているのは、言語がどのように機能するかと一般的な知識を抽出しようとしているからであって、特定の作品に興味があるからではありません。

しかし、もちろん、学習アルゴリズムは記憶する可能性があり、あなたはモデルから訓練データを抽出することができます。非常に簡単に。

そして、また、言語モデルが著作権に関係なく、確実に市場に影響を与えることができるという問題もあります。

暗記・抽出の問題は、機械学習における著作権の最も具体的で証明可能な側面の一つです。この問題は、AIシステムが理論的には「アイデア」のみを学習することを意図しているにもかかわらず、実際には具体的な「表現」を記憶し、再現できるという現実を扱っています。

「機械学習システムは、アイデアではなく表現に興味があると主張しています」という防御的な議論は、著作権のアイデア・表現二分論に基づいています。この議論によれば、言語モデルは、テキストの表面的な形式ではなく、言語の深い構造とパターンを学習していることになります。

「言語がどのように機能するかと一般的な知識を抽出しようとしている」という説明は、機械学習の本来の目的を描写しています。理想的には、モデルは個別の文章や段落を記憶するのではなく、言語の統計的な規則性と知識の抽象的な表現を学習することになります。

しかし、「学習アルゴリズムは記憶する可能性があり、あなたはモデルから訓練データを抽出することができます。非常に簡単に」という現実は、この理想的な説明の限界を明らかにしています。

現代の言語モデルは、訓練データの具体的な断片を記憶し、適切にプロンプトされると、それらを逐語的に再現できることが実証されています。この能力は、特に大規模なモデルにおいて顕著であり、訓練データの正確な引用、コードスニペット、詩の行、さらには個人情報さえも生成できます。

この暗記現象は、機械学習が「アイデア」のみを学習するという主張を複雑にします。モデルが具体的な表現を記憶し、再現できる場合、それは確実に著作権で保護される「表現」に関与していることになります。

「言語モデルが著作権に関係なく、確実に市場に影響を与えることができる」という追加的な問題は、フェアユースの市場影響テストに関連しています。たとえモデルが直接的に著作権を侵害していなくても、特定の種類のコンテンツを生成する能力によって、元の作成者の市場を displaced する可能性があります。

この市場影響は、個別の作品の直接的な複製ではなく、より一般的な能力（詩を書く、コードを生成する、記事を作成するなど）を通じて生じる可能性があります。これは、従来の著作権分析では扱いにくい新しい種類の経済的影響を表しています。

利用規約による制限

また、あなたが特定の作品について、あなたがライセンスを持っていて、フェアユースに訴えることができるとしても、利用規約のためにそのデータを合法的に取得することができない可能性があります。

たとえば、YouTubeには多くのCreative Commons動画がありますが、YouTubeから動画をダウンロードするスクリプトを書くと、YouTubeの利用規約に違反します。だから、これらのプラットフォームには他のゲーティングがあります。

利用規約による制限は、著作権とは別の法的な層を追加し、データアクセスをさらに複雑にしています。これは、コンテンツの著作権状態とは独立して存在する契約上の制約です。

「あなたがライセンスを持っていて、フェアユースに訴えることができるとしても」という状況でも、データの取得自体が法的に問題になる可能性があります。これは、著作権法とは異なる法的原則—契約法—に基づく制約です。

YouTube Creative Commonsの例は、この複雑さを明確に示しています。Creative Commonsライセンスは、著作権の観点から、動画の使用を明示的に許可しています。理論的には、これらの動画を言語モデルの訓練に使用することは、著作権の問題を引き起こさない可能性があります。

しかし、「YouTubeから動画をダウンロードするスクリプトを書くと、YouTubeの利用規約に違反します」という現実は、別の法的な障壁を作り出しています。YouTubeの利用規約は、ユーザーとプラットフォームの間の契約であり、著作権法とは無関係に、特定の行為（自動ダウンロード、大量データ抽出など）を禁止しています。

この利用規約の制限は、多くの主要プラットフォームで一般的です。Facebook、Twitter、Reddit、Stack Overflowなどのほとんどのソーシャルメディアプラットフォームは、自動化されたデータ収集やスクレイピングを禁止する利用規約を持っています。

「これらのプラットフォームには他のゲーティングがあります」という観察は、データアクセスの現実を要約しています。著作権の問題を解決したとしても、プラットフォームレベルでの契約上の制約が残る可能性があります。

この状況は、現代のインターネットにおけるデータアクセスの断片化された性質を反映しています。コンテンツは技術的には公開されていても、法的には複数の層の保護を受けています。著作権、利用規約、技術的な制約（API制限、レート制限など）が組み合わさって、複雑な法的環境を作り出しています。

この問題は、大規模なデータ収集を行うAI企業にとって、個別のライセンス契約がなぜ魅力的であるかを説明しています。これらの契約は、著作権と利用規約の両方の問題を同時に解決するからです。

10. Mid-training と Post-training

10.1 Long Context Extension

書籍と数学データの活用

さあ、この節は少し短くなります。そして、境界がしばしば明確でないため、mid-trainingとpost-trainingを一緒に折りたたんでいます。多くの場合、私たちは今、一般的に高品質ではなく、特定の能力をどのように植え付けるかに焦点を当てているが、pre-trainingでさえ、私たちはすでに品質分類器と高品質について考えていたため、そのラインはあまり明確ではない。

そして、このクラスではあまり話していないが、重要なことの一つは、長いコンテキストです。だから、もしあなたが上位のモデルを見るなら、長いコンテキストを持っています。Geminiはまだ、私はLlama 4が1000万のコンテキストを宣伝するかもしれないと思いますが、コンテキストの長さは非常に大きいです。

そして、transformersはシーケンス長と二次的にスケールします。推論の講義で見たように、あなたはそれを回避することができますが、それでも最高の結果を得るには、フルアテンションが必要だと思います。

そして、明らかに、あなたは訓練の始めに長いコンテキストで訓練を始めたくありません。だから、長いコンテキストの拡張は、モデルがあまり良くない場合、長いコンテキストで訓練サイクルを無駄にしたくないため、mid-trainingで現れることが多いです。

これを行う方法は複数ありますが、これはデータの講義なので、私は長距離依存性を作る必要があるデータについて話します。

そして、このようなデータの一部は合成することもできます。だから、人々はタスクも見ています。

長いコンテキストの拡張は、現代の言語モデル開発における重要な課題の一つです。「上位のモデルを見るなら、長いコンテキストを持っています」という観察は、この能力が最先端モデルの差別化要因となっていることを示しています。

「Llama 4が1000万のコンテキストを宣伝するかもしれない」という予測は、コンテキスト長の急速な拡大を示しています。これは、数年前に数千トークンのコンテキストが標準だったことを考えると、驚異的な進歩です。

「transformersはシーケンス長と二次的にスケール」するという技術的制約は、長いコンテキストの課題を説明しています。注意機構の計算複雑性は、シーケンス長の二乗に比例して増加するため、非常に長いコンテキストでの訓練は計算的に非常に expensive になります。

「推論の講義で見たように、あなたはそれを回避することができますが、それでも最高の結果を得るには、フルアテンションが必要だと思います」という認識は、効率化技術の限界を認めています。様々な近似手法が開発されていますが、完全な注意機構が依然として最高の性能を提供します。

「あなたは訓練の始めに長いコンテキストで訓練を始めたくありません」という戦略的考慮は、計算効率の観点から重要です。モデルが基本的な言語理解能力を持たない初期段階で長いコンテキストで訓練することは、計算資源の無駄遣いになります。

そのため、「長いコンテキストの拡張は、mid-trainingで現れることが多い」のです。モデルが基本的な能力を獲得した後で、段階的にコンテキスト長を拡張することで、効率的に長いコンテキスト能力を開発できます。

「長距離依存性を作る必要があるデータ」という要件は、長いコンテキスト訓練の核心的な課題です。単に長いテキストを提供するだけでは不十分で、テキストの異なる部分間に意味のある関係や依存関係が存在する必要があります。

書籍と数学データは、この要件を満たす理想的なデータソースです。書籍は、章を通じて一貫したキャラクター、プロット、テーマを維持し、数学的な証明や論証は、長い推論チェーンで論理的な依存関係を構築します。

長距離依存関係の学習

これを行う方法は複数ありますが、これはデータの講義なので、私は長距離依存性を作る必要があるデータについて話します。

そして、このようなデータの一部は合成することもできます。だから、人々はタスクも見ています。

長距離依存関係の学習は、長いコンテキスト能力を開発する上で最も重要な技術的課題の一つです。単に長いテキストを提供するだけでは不十分で、テキストの離れた部分間に意味のある関係が存在する必要があります。

「長距離依存性を作る必要があるデータ」という要件は、この課題の核心を示しています。効果的な長いコンテキスト訓練には、モデルが遠く離れた情報を関連付け、統合する能力を発達させるデータが必要です。

書籍は、この要件を満たす理想的なデータソースです。小説では、第1章で紹介されたキャラクターの特徴が、数百ページ後の第20章での行動を理解するのに重要になることがあります。また、早い段階で設定された伏線が、物語の後半で重要な意味を持つことがあります。

数学データも同様に価値があります。数学的な証明では、定理Aの証明が定理Bの証明に依存し、それが定理Cの証明に必要になるという長い論理的チェーンが形成されます。これらの依存関係は、しばしば非常に長い範囲にわたって存在します。

「このようなデータの一部は合成することもできます」という指摘は、データの不足を補う重要な戦略を示しています。自然に発生する長距離依存関係を持つデータは限られているため、人工的に生成することが有効です。

合成データの例としては、複数の情報を統合して答える必要がある質問応答タスク、長い文書の要約、複雑な論理的推論チェーンなどがあります。これらのタスクは、モデルが長いコンテキスト全体にわたって情報を追跡し、統合する能力を発達させるのに役立ちます。

「人々はタスクも見ています」という言及は、タスクベースの長いコンテキスト訓練の重要性を示しています。単純にテキストを読むだけでなく、そのテキストに基づいて具体的なタスクを実行することで、モデルは長距離依存関係をより効果的に学習できます。

このようなタスクには、長い文書からの情報抽出、複数の証拠に基づく推論、長い対話履歴の維持などが含まれます。これらのタスクは、モデルが実際のアプリケーションで遭遇する長いコンテキストの使用パターンを模倣しています。

10.2 指示データセット

SuperNaturalInstructions：1,600タスク

そして、人々がタスクを見ているという話をしました。だから、従来のNLPベンチマークを標準形式に変換して、ファインチューニングできるようにする多くの研究があります。

SuperNaturalInstructionsは、そのようなデータセットの一つで、コミュニティが集まって1,600のタスクを作成し、それらを標準化されたプロンプトに統合しました。

SuperNaturalInstructionsは、指示追従データセットの開発における重要なマイルストーンでした。このプロジェクトは、NLP研究コミュニティの分散的な協力の成果であり、多様な研究者が異なる専門分野から貢献しました。

「1,600のタスク」という規模は、従来の個別のNLPベンチマークと比較して、非常に包括的な範囲を示しています。これには、テキスト分類、感情分析、名前付き実体認識、質問応答、テキスト生成、翻訳、要約など、NLPの主要な分野のほとんどが含まれていました。

「コミュニティが集まって」という協力的なアプローチは、大規模なデータセット作成の新しいモデルを示しています。単一の研究グループが全てのタスクを作成するのではなく、各研究者が自分の専門分野でのタスクを貢献することで、より多様で高品質なデータセットが作成されました。

「標準化されたプロンプト」への統合は、技術的に重要な貢献でした。従来のNLPタスクは、それぞれ異なる入力形式、出力形式、評価基準を持っていました。しかし、SuperNaturalInstructionsは、これらすべてを統一的な指示-応答形式に変換しました。

この標準化により、言語モデルは単一の統一されたインターフェースで、多様なタスクを学習できるようになりました。これは、「タスクを学習する」のではなく、「タスクを実行する方法を学習する」という、より一般的な能力の開発を可能にしました。

このアプローチは、従来のタスク固有のファインチューニングから、より汎用的な指示追従能力への移行を示しています。モデルは、特定のタスクのための特別な訓練を受けるのではなく、様々な指示を理解し、適切に応答する一般的な能力を開発します。

SuperNaturalInstructionsの影響は、後の多くの指示追従データセットや、指示チューニングの標準的な実践に見ることができます。これは、現代の言語モデルが任意のタスクを自然言語の指示で実行できるという期待の基礎を築きました。

Flan：NLPタスクの指示形式変換

Flanは同じ年頃にありました。

2022年に出版されましたが、論文は2023年でした。だから、2022年は、すべてのNLPタスクを取って、それらを指示追従形式に押し込むという年でした。

このうちの一つの利点は、今、あなたのお気に入りのNLPタスクをすべて解決できる言語モデルを持っていることです。そして、転移学習の恩恵を受けます。

これは、T5に戻ることについて多くの考えです。

Flanは、Googleが開発した指示チューニング手法で、SuperNaturalInstructionsと同時期に登場しました。これは、NLPタスクの指示形式への変換における重要な並行的な発展でした。

「2022年は、すべてのNLPタスクを取って、それらを指示追従形式に押し込むという年でした」という観察は、この時期の研究コミュニティの集合的な動きを捉えています。これは、偶然の一致ではなく、言語モデルの発展段階において自然な進化でした。

2022年頃、GPT-3の成功により、大規模言語モデルが様々なタスクを統一的なインターフェースで処理できる可能性が明らかになりました。しかし、これらのモデルは、特定のタスクで一貫した性能を発揮するには、適切な指示追従能力が必要でした。

「あなたのお気に入りのNLPタスクをすべて解決できる言語モデルを持っている」という利点は、研究と実用の両方において革命的でした。従来は、感情分析、名前付き実体認識、質問応答、テキスト生成などの異なるタスクに対して、別々のモデルを訓練し、維持する必要がありました。

指示チューニングにより、単一のモデルが、適切な指示を与えられれば、これらすべてのタスクを実行できるようになりました。これは、開発、展開、維持のコストを大幅に削減しました。

「転移学習の恩恵を受けます」という指摘は、この統合アプローチの重要な技術的利点を示しています。異なるタスクから学習した知識が相互に強化し合うことで、個別にトレーニングされたタスク固有のモデルよりも優れた性能を発揮できる可能性があります。

「T5に戻ることについて多くの考えです」という言及は、歴史的な文脈を提供しています。T5（Text-to-Text Transfer Transformer）は、すべてのNLPタスクをテキスト生成問題として扱うという統一的なアプローチを最初に提案しました。FlanやSuperNaturalInstructionsは、この考え方をさらに発展させ、自然言語の指示を追加することで、より直感的で柔軟なインターフェースを実現しました。

テンプレート化の問題

これは、T5に戻ることについて多くの考えです。しかし、このうちの一つの問題は、多くの場合、あなたが持っているプロンプトが非常にテンプレート化されているということです。SuperNaturalInstructionsのいくつかを見ると、それらの一部は、すべて同じように見えるため、実際には超自然的ではありません。

だから、それが指示追従データセットを動機付けます。そして、2022年以来、言語モデルは、あなたがそれに与える任意の一回限りのタスクに答えることができるはずだという期待があります。だから、タスクという概念さえ消えます。

テンプレート化の問題は、初期の指示データセットにおける重要な限界でした。「あなたが持っているプロンプトが非常にテンプレート化されている」という現実は、これらのデータセットの人工的な性質を示しています。

SuperNaturalInstructionsの例では、1,600のタスクが標準化されたプロンプト形式に変換されましたが、この標準化プロセスは、必然的に多くの指示を類似したパターンに従わせました。「すべて同じように見える」という結果は、データセットの多様性を損なう副作用でした。

「実際には超自然的ではありません」という批判は、データセットの名前に込められた「自然性」への期待と現実の乖離を指摘しています。人間が実際に使用する指示は、非常に多様で、創造的で、文脈に依存しています。しかし、研究データセットの指示は、しばしば公式的で予測可能なパターンに従っていました。

この問題は、従来のNLPタスクを指示形式に変換する際の根本的な課題を反映しています。既存のベンチマークは、特定の形式と制約の下で設計されており、これらを自然言語の指示に変換することは、しばしば不自然で機械的な結果をもたらします。

「それが指示追従データセットを動機付けます」という発展は、この問題に対する研究コミュニティの対応を示しています。テンプレート化された指示の限界を認識し、より自然で多様な指示を含むデータセットの開発が必要になりました。

「2022年以来、言語モデルは、あなたがそれに与える任意の一回限りのタスクに答えることができるはずだという期待があります」という変化は、ユーザーの期待における重要な転換を示しています。従来のNLPシステムは、事前に定義されたタスクセットに制限されていましたが、現代の言語モデルは、創造的で予期しないタスクにも対応できることが期待されています。

「タスクという概念さえ消えます」という観察は、この発展の最終的な意味を示しています。タスクとは、人工的な分類に過ぎず、実際のユーザーは、任意の問題や要求を自然言語で表現し、モデルがそれを理解して適切に応答することを期待しています。

10.3 合成データ生成

Alpaca：self-instruct手法

だから、オープンコミュニティでの多くの作業は、Alpacaから始めて、合成データに基づいています。これは、self-instructのアイデアを使用して、言語モデルにプロンプトして例を生成させ、それをファインチューニングに使用できるようにしました。

Alpacaは、オープンソースの言語モデル開発における重要な転換点でした。Stanford HAIによって開発されたこのプロジェクトは、高価で複雑な人間による注釈に依存せずに、高品質な指示追従データセットを作成する方法を実証しました。

「オープンコミュニティでの多くの作業は、Alpacaから始めて、合成データに基づいています」という状況は、リソースの制約に直面した研究コミュニティの創造的な対応を示しています。大手技術企業とは異なり、学術研究者や独立開発者は、大規模な人間による注釈チームを雇う資源を持っていませんでした。

Self-instructの手法は、この問題に対する革新的な解決策でした。「言語モデルにプロンプトして例を生成させ」るというアプローチは、既存の強力なモデル（GPT-3.5など）の能力を活用して、新しい訓練データを作成するものでした。

具体的には、モデルに「新しい指示を考案し、それに対する適切な応答を生成せよ」というメタレベルのタスクを与えました。これにより、モデルは教師と学習者の両方の役割を果たし、自己改善のサイクルを作り出しました。

このアプローチの利点は、スケーラビリティと多様性でした。人間が手動で作成できる例の数は限られていますが、言語モデルは理論的に無限の例を生成できます。また、モデルは人間が思いつかないような創造的な指示と応答の組み合わせを生成する可能性があります。

「ファインチューニングに使用できる」という実用的な側面は、このアプローチの重要な特徴です。生成された例は、直接的に新しいモデルの訓練に使用され、指示追従能力を向上させることができました。

Alpacaの成功は、後の多くのオープンソースプロジェクトの基礎となりました。この手法により、リソースの限られた研究者でも、比較的高品質な指示追従モデルを開発できるようになりました。

Vicuna：ShareGPTの会話データ

Vicunaがあり、これはShareGPTで共有されたこれらの会話を使用しました。これは現在廃止されています。

Vicunaは、UC Berkeley、CMU、Stanford、UC San Diegoの研究者によって開発された、もう一つの重要なオープンソース言語モデルでした。Alpacaの合成データアプローチとは対照的に、Vicunaは実際のユーザーの会話データを活用しました。

「ShareGPTで共有されたこれらの会話を使用しました」というアプローチは、実際の使用パターンを反映した訓練データを取得する革新的な方法でした。ShareGPTは、ユーザーがChatGPTとの会話を他のユーザーと共有できるプラットフォームで、興味深い、有用な、または面白い対話を公開する場として機能していました。

この実際の会話データの使用には、いくつかの重要な利点がありました。第一に、これらの会話は実際のユーザーのニーズと関心を反映していました。人工的に作成された指示と応答とは異なり、ShareGPTのデータは、人々が実際に言語モデルとどのように対話するかを示していました。

第二に、これらの会話は自然で多様な言語使用を含んでいました。ユーザーは、カジュアルな質問から技術的な問題まで、様々な方法でモデルに近づき、これが豊富な言語的多様性を提供しました。

第三に、会話の形式は、現代の言語モデルの主要な使用ケースである対話システムの訓練に理想的でした。単発の指示-応答ペアではなく、多回転の会話を通じて、モデルは文脈を維持し、一貫した対話を行う能力を学習できました。

「これは現在廃止されています」という現実は、データアクセスの不安定性を示しています。ShareGPTプラットフォームは、様々な理由（法的懸念、技術的問題、運営上の課題など）により、最終的にサービスを終了しました。

この廃止は、オープンソースコミュニティが直面する継続的な課題を浮き彫りにしています。実際のユーザーデータへのアクセスは、高品質な訓練データを提供する可能性がありますが、同時に持続可能性、プライバシー、法的な問題を提起します。

Vicunaの成功にもかかわらず、ShareGPTの廃止は、この種のデータソースの脆弱性を示しており、より持続可能で倫理的なデータ収集方法の必要性を強調しています。

Evol-instruct：複雑化手法

言語モデルに自分自身とチャットさせることもできます。いくつかの質問をシードにして、それが何らかの合成データを作成します。

そして、これらのevol-instructメソッドもあり、本質的に質問を取って、それをより複雑にします。

Evol-instructは、WizardLMプロジェクトで開発された、指示データの品質向上における重要な革新でした。この手法は、単に新しい指示を生成するだけでなく、既存の指示を段階的に改善し、複雑化することに焦点を当てました。

「本質的に質問を取って、それをより複雑にします」というアプローチは、指示の深度と洗練度を向上させる体系的な方法でした。このプロセスは、人間の学習や教育における段階的な複雑化を模倣しています。

Evol-instructの基本的な考え方は、簡単な指示から始めて、それを反復的に進化させることです。たとえば、「犬について説明してください」という単純な指示から始めて、「異なる犬種の特徴を比較し、それぞれの歴史的背景と適した環境について詳しく説明してください」というより複雑な指示へと発展させます。

この複雑化プロセスには、いくつかの次元があります。深化（より詳細な情報を要求）、拡張（より多くの側面を含める）、推論（より高度な思考を要求）、制約の追加（特定の条件や制限を設ける）などです。

「言語モデルに自分自身とチャットさせることもできます」という言及は、セルフプレイや自己対話の技術を示しています。これは、一つのモデルが質問者と回答者の両方の役割を果たし、多回転の対話を生成する方法です。

この自己対話アプローチは、人間の会話パターンを模倣した自然な対話データを生成するのに有効でした。「いくつかの質問をシードにして」始めることで、モデルは多様な方向に会話を発展させることができました。

Evol-instructの重要な貢献は、データの量だけでなく質の向上に焦点を当てたことです。単に多くの例を生成するのではなく、より困難で教育的な例を作成することで、モデルの能力をより効果的に向上させることができました。

この手法は、後の多くの合成データ生成プロジェクトに影響を与え、現在でも指示データの品質向上における重要な技術として使用されています。

OpenHermes：複数データセット統合

Common Crawlを取って、本質的にクイズサイトを特定し、言語モデルを使ってQAペアを抽出するその他の方法があります。

そして、これがOpenHermesです。これは、DCLMの作業で前に見たものです。これは、異なるデータセットの集合体にすぎません。

OpenHermesは、指示追従データセットの統合において重要な役割を果たしました。「異なるデータセットの集合体にすぎません」という説明は、一見すると単純に聞こえますが、実際には複雑で価値のある作業でした。

OpenHermesの開発における重要な洞察は、単一のデータセットよりも複数のデータセットを組み合わせることで、より包括的で堅牢な指示追従能力を開発できるということでした。各データセットは、異なる種類の指示、応答スタイル、ドメイン知識を提供するため、それらの統合により、より多様で実用的な訓練データが得られました。

「異なるデータセットの集合体」という特性は、OpenHermesの戦略的な価値を示しています。これには、Alpacaの合成データ、ShareGPTの会話データ、その他の高品質な指示データセットが含まれていました。各データセットの強みを活用し、弱点を補完することで、バランスの取れた訓練データを作成しました。

統合プロセスには、技術的な課題もありました。異なるデータセットは、異なる形式、品質基準、ライセンス条件を持っているため、これらを一貫した形式に標準化し、品質を保証する必要がありました。

「DCLMの作業で前に見たものです」という文脈は、OpenHermesの重要性を示しています。DCLMプロジェクトでは、OpenHermesが品質分類器の訓練における正例として使用されました。これは、OpenHermesが研究コミュニティにおいて高品質な指示データの代表例として認識されていることを示しています。

OpenHermesの成功は、オープンソースコミュニティにおける協力的なデータ開発の重要性を示しています。個別の研究グループが独自のデータセットを開発するのではなく、既存の高品質なデータセットを統合し、共有することで、コミュニティ全体が恩恵を受けることができました。

Common Crawlからのクイズサイトの抽出についての言及は、創造的なデータ収集戦略の例です。ウェブ上には、自然にQA形式で構造化されたコンテンツが存在し、これらを識別して抽出することで、高品質な訓練データを取得できます。

10.4 最新動向

Llama-Nemotron：推論トレース含む

Llama 2 chatでは、正確なデータセットはわかりませんが、彼らは本質的にアノテーターを使用して高品質な指示データを書きました。そして、彼らはこの論文で、何百万ものオープンデータセットの例を使用するよりも、これが優れていると主張しています。

しかし、彼らは、より少ないアノテーション、より多くのRLHFをするだけで、さらにお金を節約できたかもしれませんが、これについては後で話します。

そして、最後に、最後の段階で言及するのは、つい最近出てきたLlama-Nemotronのpost-trainingデータです。

これは、このデータセットについてはそれほど詳細はありませんが、データセットがリリースされているので、それを見て調べることができます。彼らは、WildChatのような公開データセットを持っています。そして、彼らはデータを生成できるすべてのモデルから合成的にいくつかのデータを生成しました。

彼らはまた、R1のおかげで推論トレースを含めています。

Llama-Nemotronは、post-trainingデータセットの最新の発展を表しています。このデータセットは、R1モデルの影響を受けて、推論トレースを含む新しい世代のpost-trainingデータを示しています。

「このデータセットについてはそれほど詳細はありませんが、データセットがリリースされているので、それを見て調べることができます」という状況は、現代のAI研究における透明性の向上を示しています。企業が詳細な説明を提供しなくても、実際のデータセットを公開することで、研究コミュニティが独自に分析できるようになっています。

WildChatのような「公開データセット」の使用は、実際のユーザーとの対話データの価値を示しています。これらのデータセットは、人工的に作成された指示よりも、より自然で多様な対話パターンを提供します。

「データを生成できるすべてのモデルから合成的にいくつかのデータを生成しました」というアプローチは、モデルの多様性を活用した戦略です。異なるモデルは異なる強みと応答スタイルを持っているため、複数のモデルからデータを生成することで、より包括的な訓練データを作成できます。

「R1のおかげで推論トレースを含めています」という革新は、最も重要な発展です。R1（reasoning model）は、段階的な推論プロセスを明示的に示すことで、複雑な問題解決能力を向上させました。

推論トレースの含有は、post-trainingデータの質的な向上を表しています。従来の指示-応答データでは、モデルは最終的な答えのみを学習していましたが、推論トレースにより、問題解決のプロセス自体を学習できるようになりました。

これは、「思考の連鎖」（chain-of-thought）推論の発展した形態で、モデルが複雑な推論タスクをより効果的に処理できるようになります。数学的問題、論理的推論、複雑な質問応答などのタスクにおいて、段階的な思考プロセスの明示は、大幅な性能向上をもたらす可能性があります。

この推論トレースの導入は、言語モデルの能力における新しい段階を示しており、単純な情報取得から複雑な推論への移行を表しています。

オープンウェイトモデルからの蒸留

だから、これらを数個のバケツに分けることができます。

初期の作業の多くは、GPT-4があったということでした。これは合成データを生成する最も簡単な方法です。これの問題は、学術研究には問題ありませんが、OpenAIがGPT-4を使用して、競合するモデルを訓練するデータセットを作成することは、OpenAIの利用規約に違反することです。

一方、これらのオープンウェイトモデルは、より許可的なライセンスを持っています。つまり、基本的に、彼らからの蒸留を行い、好きなことを何でもできるということです。

Llamaには何らかの制限があるかもしれませんが、広く言えば、OpenAIよりもより許可的だと思います。

オープンウェイトモデルからの蒸留は、合成データ生成における重要な戦略的転換を表しています。この移行は、法的な制約と実用的な考慮の両方によって動機付けられています。

「OpenAIがGPT-4を使用して、競合するモデルを訓練するデータセットを作成することは、OpenAIの利用規約に違反する」という制約は、商用AI開発における重要な障壁です。OpenAIの利用規約は、自社のモデルを使用して競合製品を開発することを明示的に禁止しています。

この制約は、「学術研究には問題ありませんが」という学術と商用の区別を生み出します。大学の研究者は、研究目的でGPT-4を使用して合成データを生成することができますが、商用製品の開発者は同じことをすることができません。

「これらのオープンウェイトモデルは、より許可的なライセンスを持っています」という現実は、オープンソースコミュニティの重要な利点を示しています。Llama、Mistral、その他のオープンウェイトモデルは、一般的により自由なライセンス条件を提供しています。

「基本的に、彼らからの蒸留を行い、好きなことを何でもできるということです」という自由度は、開発者にとって非常に価値があります。これにより、企業は法的なリスクを負うことなく、高品質なモデルから合成データを生成できます。

蒸留プロセスでは、より大きく、より能力の高いモデル（教師モデル）を使用して、より小さく、より効率的なモデル（学生モデル）を訓練します。オープンウェイトモデルからの蒸留により、開発者は最先端の能力を持つモデルの知識を、より実用的で展開可能な形で活用できます。

「Llamaには何らかの制限があるかもしれませんが、広く言えば、OpenAIよりもより許可的だと思います」という評価は、現実的な法的環境を反映しています。完全に制限のないライセンスは稀ですが、オープンウェイトモデルは一般的に商用使用に対してより寛容です。

この傾向は、AI業界における重要な競争力学を示しています。オープンウェイトモデルは、より自由な使用条件を提供することで、開発者コミュニティを引き付け、エコシステムを構築しています。

人間アノテーターによる高品質データ作成

そして、最後に、もしあなたが本当にパラノイアなら、実際に高品質な指示を作成するためにアノテーターを雇うことができます。これは明らかにより高価で遅いです。

そして、アノテーターが実際にあなたのデータを作成するためにGPT-4を使用しているかもしれないという心配もあります。

だから、そこでも注意が必要です。

人間アノテーターによる高品質データ作成は、post-trainingデータセット開発における最も保守的で確実なアプローチです。「もしあなたが本当にパラノイアなら」という表現は、法的リスクや品質に対する最高レベルの懸念を持つ組織の視点を反映しています。

このアプローチの主な利点は、完全な制御と透明性です。人間のアノテーターは、特定の品質基準、スタイルガイドライン、内容要件に従って、カスタマイズされたデータを作成できます。また、著作権やライセンスに関する法的な問題を避けることができます。

「明らかにより高価で遅いです」という現実は、このアプローチの主要な欠点を示しています。熟練したアノテーターの雇用、訓練、管理には大きなコストがかかります。また、人間による手動作業は、合成データ生成と比較して、時間とスケーラビリティの面で大きな制約があります。

コストの問題は、特に大規模なデータセットが必要な場合に顕著になります。数千から数万の高品質な指示-応答ペアを作成するには、多数のアノテーターが長期間にわたって作業する必要があります。これは、小規模な組織や研究グループにとって現実的でない場合があります。

「アノテーターが実際にあなたのデータを作成するためにGPT-4を使用しているかもしれないという心配もあります」という懸念は、現代のアノテーション作業における重要な問題を浮き彫りにしています。

この問題は、アノテーターの効率性と品質の間のジレンマを反映しています。手動でのデータ作成は時間がかかり、アノテーターは生産性を向上させるために、GPT-4のようなツールを使用したくなる可能性があります。しかし、これにより、雇用者が避けようとしていた正確な法的および品質の問題が再び生じる可能性があります。

「だから、そこでも注意が必要です」という警告は、このアプローチでさえも完全に問題がないわけではないことを示しています。適切な監督、品質管理、ガイドラインの実施が必要です。

現実的には、多くの組織は、これらのアプローチを組み合わせて使用しています。人間による高品質なシードデータから始めて、それを合成データで拡張し、オープンウェイトモデルからの蒸留で多様性を加えるという階層的なアプローチが一般的になっています。

11. 重要な洞察と実験結果

11.1 データの段階的品質向上：大量低品質→少量高品質

要約しましょう。重要な教訓は、データは天から降ってこないということです。それを得るために本当に一生懸命働く必要があります。そして、そこには、これらのライブサービスがあることを考えるのが重要です。GitHubのようなものです。そして、まず、それを使用する必要があります。生データのダンプを最初に取得する必要があります。

しかし、生データで訓練することはできません。それは大きすぎるか、ノイズが多すぎるか、トークンでさえありません。そして、多くの場合、それを処理する必要があります。そして、私たちが見た品質フィルタリングや重複除去のための多くのヒューリスティックが、ここに適合します。

データの段階的品質向上は、現代の言語モデル開発における最も重要な戦略的洞察の一つです。この講義を通じて観察された一貫したパターンは、「大量低品質→少量高品質」への段階的な変遷です。

Pre-training段階では、240兆トークンのDCLM-poolのような膨大な量のデータから始まります。これは、Common Crawlの包括的な処理により得られる最大規模のデータセットですが、品質は非常に混在しています。スパム、広告、不完全なページ、重複コンテンツなどが大量に含まれています。

この段階での処理は、基本的なクリーニングと構造化に焦点を当てています。HTML-to-text変換、基本的な言語識別、明らかに有害なコンテンツの除去などが行われます。しかし、この段階では、まだ大量のノイズが残っています。

Mid-training段階では、データの量は大幅に減少しますが、品質は向上します。DCLMの例では、240兆トークンから3.8兆トークンへと、99%以上の削減が行われました。この段階では、教育的価値、Wikipedia参照、指示データとの類似性など、より洗練された品質基準が適用されます。

Post-training段階では、データ量はさらに減少し、数十億から数百億トークンレベルになりますが、品質は最高レベルに達します。人間によるアノテーション、高品質な合成データ、推論トレースなどが含まれます。

「データは天から降ってこない」という表現は、この段階的プロセスの労働集約的な性質を強調しています。各段階で、技術的な専門知識、計算資源、時間の大規模な投資が必要です。

「ライブサービス→ダンプ→処理→学習可能なデータ」という流れは、現代のデータパイプラインの標準的な構造を示しています。GitHub、Reddit、Common Crawlなどの動的なサービスから、静的なスナップショットを取得し、それを段階的に処理して、最終的に言語モデルが学習できる形式に変換します。

この段階的品質向上の重要性は、単に技術的な必要性だけでなく、計算効率と最終的な性能の両方を最適化するためです。

11.2 モデルベースフィルタリングの復活：初期の偏見回避から性能重視へ

これは早期に触れましたが、データこそが言語モデルの差別化要因であることです。アーキテクチャ、これらのアーキテクチャは非常に汎用的であるため、transformer MOEスタイルについて考えてみると、これらのアーキテクチャは行動がそれほど異なることはありません。訓練とデータを適合させることができると仮定して、品質を決定するのは本当にデータです。

同時に、私たちは今や、皆がモデルベースのフィルタリングを行っていることを見ています。これは、I think人々が偏見を回避しようとしていた時期もあったためです。

モデルベースフィルタリングの復活は、データキュレーションにおける重要な思想的転換を表しています。この変化は、偏見に対する初期の懸念から、実用的な性能向上への焦点の移行を示しています。

初期の懸念期（2020-2021年頃）では、研究コミュニティは、モデルベースフィルタリングが意図しない偏見を導入する可能性について深刻な懸念を抱いていました。当時利用可能なモデルは比較的弱く、文脈を適切に理解できない可能性がありました。

さらに重要なのは、モデルベースフィルタリングが、Wikipediaのような特定の文体や形式に似たコンテンツを優先する傾向があることでした。これは、周辺化されたコミュニティからのコンテンツ、非標準的な言語使用、または主流の形式に従わない貴重な情報を除外する可能性がありました。

この懸念に対応して、C4、RefinedWeb、FineWebなどのプロジェクトは、意図的に「MLベースのフィルタリングを避け」、代わりに透明で予測可能なルールベースのヒューリスティックに依存しました。これらのアプローチは、偏見を回避し、データの多様性を保持することを目的としていました。

しかし、「同時に、私たちは今や、皆がモデルベースのフィルタリングを行っていることを見ています」という現実は、この思想的転換を示しています。DCLMの3%の性能向上、Nemotronの教育的価値評価、OpenHermesの使用など、モデルベースフィルタリングの実証された効果が、偏見に対する理論的な懸念を上回りました。

この復活の背景には、いくつかの要因があります。第一に、モデルの能力が大幅に向上し、より洗練された品質判断が可能になりました。第二に、研究コミュニティが、偏見の問題と性能の改善の間のトレードオフをより現実的に評価するようになりました。

第三に、実際の実験結果が、適切に設計されたモデルベースフィルタリングが、確実に言語モデルの性能を向上させることを示しました。理論的な懸念よりも、実証的な証拠が重視されるようになりました。

「データこそが言語モデルの差別化要因である」という観察は、この転換の根本的な動機を説明しています。アーキテクチャが標準化され、訓練技術が成熟するにつれて、データの品質が最も重要な競争優位性となりました。

この文脈では、モデルベースフィルタリングは、単なる技術的な選択ではなく、競争上の必要性となりました。最高品質のデータセットを構築するためには、最も効果的なツールを使用する必要があり、それがモデルベースフィルタリングでした。

11.3 HTML変換の重要性：適切なツール選択で4ポイント差

また、いくつかの法的・倫理的問題があります。著作権について話しましたが、ここにはもっと多くのことがあります。そして、最後に、この分野全体が混乱だと思うなら、あなたは正しいです。それは非常にヒューリスティックです。つまり、うまくいけば改善する多くの機会があります。

HTML変換の重要性は、データ処理における「低レベル詳細」の予期せぬ影響を示す最も印象的な例の一つです。DataComp-LMの実験で実証された4ポイントの性能差は、一見すると技術的な些細事に見える選択が、最終的な言語モデルの品質に劇的な影響を与えることを明らかにしました。

この4ポイントの改善は、言語モデリングの文脈では非常に大きな違いです。多くの研究論文が、新しいアーキテクチャや訓練技術で1-2ポイントの改善を報告することを考えると、単純なツール選択による4ポイントの向上は驚異的です。

Common CrawlのデフォルトのWETファイルと、Trafilaturaを使用した高品質なHTML-to-text変換の間の違いは、テキスト抽出の品質の重要性を浮き彫りにしています。WETファイルは、基本的なHTML-to-text変換を使用しており、ナビゲーションメニュー、広告、フッター、その他のボイラープレートコンテンツが含まれがちです。

対照的に、Trafilaturaは、HTMLの構造を理解し、主要なコンテンツを識別し、ノイズを効果的に除去するように設計されています。これは、クリーナーで、より関連性の高い、より構造化されたテキストを生成します。

この違いが4ポイントの性能差をもたらしたという事実は、データ品質の重要性を強調しています。言語モデルは、訓練データの品質に非常に敏感であり、わずかな品質の改善でも、大幅な性能向上をもたらす可能性があります。

この発見は、データ処理パイプラインにおける各段階の重要性を示しています。研究者は、しばしば高レベルのアルゴリズムや手法に焦点を当てますが、HTML変換のような基本的なツール選択も同様に重要である可能性があります。

さらに、この結果は、「低レベル詳細」への注意の価値を実証しています。データサイエンスにおいて、前処理は退屈で技術的な作業として見なされがちですが、実際には最終的な結果に大きな影響を与える可能性があります。

Nemotronプロジェクトでも、HTML-to-text変換の選択について類似した考慮が見られました。彼らは、品質だけでなく、残されるトークンの数も考慮して、jusTextをTrafilaturaよりも選択しました。これは、異なるツールが異なるトレードオフを提供することを示しています。

この教訓は、データ処理における体系的な実験の重要性を強調しています。研究者は、データパイプラインの各段階で異なる選択肢を評価し、最終的な性能への影響を測定する必要があります。

11.4 品質分類器の進化：Wikipedia類似→参照ページ品質→教育的価値

品質分類器の進化は、データキュレーションにおける洗練度の向上を示す重要な軌跡です。この発展は、単純な形式的類似性から、より深い意味的品質の理解へと進歩しました。

Wikipedia類似性の段階（CCNet、GPT-3）では、品質分類器は比較的単純な統計的手法に基づいていました。CCNetの5-gramモデルは、Wikipediaテキストでの語彙パターンを学習し、類似した文体を持つ文書を識別しました。GPT-3も、Wikipediaのような文書かどうかを判定する分類器を使用しました。

このアプローチの利点は、Wikipediaの高い編集基準と一貫した品質を活用できることでした。しかし、限界も明確でした。Wikipedia特有の百科事典的な文体に似たコンテンツのみが「高品質」として分類され、他の形式の価値ある情報（対話、技術的議論、創造的な執筆など）が除外される可能性がありました。

参照ページ品質の段階（Llama）では、より洗練されたアプローチが導入されました。Wikipediaから「参照されたページ」に焦点を当てることで、品質の概念が拡張されました。この進化は重要な洞察を示しています：Wikipedia編集者が引用するページは、Wikipedia記事自体とは異なる文体を持つ可能性がありますが、それでも高品質です。

この手法は、「権威による承認」という品質の概念を導入しました。Wikipedia編集者の集合的な判断を信頼し、彼らが引用するページを品質の指標として使用しました。これにより、学術論文、ニュース記事、政府文書、技術文書など、より多様な文体の高品質コンテンツが含まれるようになりました。

教育的価値の段階（Nemotron-CC）では、さらに高度な品質概念が導入されました。巨大な言語モデルに「教育的価値」に基づく文書の評価を求めることで、人間の複雑な品質判断を模倣しようとしました。

この段階の革新性は、品質が単一の基準ではなく、多面的な概念であることを認識したことにあります。教育的価値には、情報の正確性、説明の明確性、概念の論理的構造、学習者にとっての有用性など、複数の要素が含まれる可能性があります。

大規模言語モデルの使用により、これらの複雑な要素を統合的に評価することが可能になりました。従来の統計的手法では捉えられない、意味的で文脈的な品質の側面を識別できるようになりました。

この進化は、データキュレーションにおける自己参照的な側面も示しています。より高度な言語モデルが、次世代のモデルの訓練データを改善するために使用されています。これは、AI開発における正のフィードバックループを作り出しています。

各段階での改善は、実証的な結果によって支持されています。CCNetはWikipedia単体よりも優れた性能を示し、DCLMの品質分類器はRefinedWebより3%向上し、Nemotronの教育的価値評価はさらなる改善を実現しました。

この軌跡は、データ品質の理解における継続的な進歩を示しており、将来的にはさらに洗練された品質概念が開発される可能性を示唆しています。

11.5 トークン保持vs品質のトレードオフ：DCLM（1.4%保持）vs Nemotron（より多く保持）

トークン保持と品質のトレードオフは、現代のデータキュレーションにおける最も重要な戦略的ジレンマの一つです。DCLMとNemotronの対照的なアプローチは、この問題の複雑さを明確に示しています。

DCLMの積極的フィルタリング（1.4%保持）は、品質重視の極端な例でした。240兆トークンから3.8兆トークンへの削減は、98.6%のデータを除外したことを意味します。この積極的なアプローチは、「品質が量を上回る」という哲学に基づいていました。

DCLMの戦略の根拠は、大部分のウェブコンテンツが言語モデルの訓練には適さないという観察でした。スパム、広告、重複コンテンツ、低品質な記事などを除去することで、モデルがより効率的に学習できる高品質なデータセットを作成できると考えられました。

この積極的なフィルタリングは、実際に成果を上げました。RefinedWebより3%の性能向上を実現し、モデルベースフィルタリングの有効性を実証しました。これは、品質重視のアプローチが、少なくとも特定の文脈では有効であることを示しています。

Nemotronの保守的フィルタリング（より多く保持）は、異なる哲学に基づいていました。彼らの主要な懸念は、「より大きなモデルをより長く訓練したい場合、より多くのトークンが必要」ということでした。3.8兆トークンは、400億パラメータモデルの訓練実行を維持するのに不十分である可能性がありました。

Nemotronのアプローチは、現代のスケーリング法則の現実を反映していました。モデルのサイズが大きくなるにつれて、最適な性能を得るためには、より多くの訓練データが必要になります。積極的なフィルタリングは、短期的には高品質なデータセットを作成するかもしれませんが、長期的には大規模モデルの訓練を制限する可能性があります。

Nemotronは、この問題に対する革新的な解決策を提案しました。単純にフィルタリング基準を緩和するのではなく、より洗練された技術を使用してより多くのトークンを保持しました。これには、低品質データの言語モデルによる書き換え、複数の品質分類器の組み合わせ、教育的価値による評価などが含まれていました。

結果として、Nemotronは6.3兆トークンを達成し、DCLMの3.8兆トークンをほぼ2倍上回りました。これは、「品質を犠牲にせずにより多くのトークンを保持する」という目標の成功例でした。

このトレードオフの根本的な意味は、データキュレーションにおける一つの最適解が存在しないことを示しています。適切な戦略は、具体的な目標、利用可能なリソース、対象とするモデルの規模に依存します。

小規模なモデルや限られた計算資源では、DCLMの積極的フィルタリングが適切かもしれません。高品質なデータでの効率的な訓練により、優れた性能を達成できる可能性があります。

一方、大規模モデルや商用アプリケーションでは、Nemotronのより包括的なアプローチが必要かもしれません。十分な訓練データがなければ、モデルは適切に訓練されない可能性があります。

この対比は、データキュレーションが科学であると同時に芸術でもあることを示しています。技術的な指標と戦略的な考慮の両方を統合する必要があります。

11.6 合成データの台頭：GPT-4からオープンモデルへのシフト

合成データの台頭は、post-trainingデータセット開発における最も重要な変革の一つです。この分野では、初期のGPT-4依存から、より持続可能で法的に安全なオープンモデルベースのアプローチへの明確な移行が観察されています。

初期のGPT-4依存時代（2022-2023）では、合成データ生成の標準的なアプローチは、OpenAIのGPT-4を使用することでした。Alpacaプロジェクトは、この手法の典型例で、GPT-4にself-instructプロンプトを適用して、指示と応答のペアを大量生成しました。

この時期の魅力は明確でした。GPT-4は、当時最も能力の高い言語モデルであり、高品質で多様な合成データを生成できました。「これは合成データを生成する最も簡単な方法です」という現実は、研究者にとって非常に魅力的でした。

しかし、この依存には重要な限界がありました。「学術研究には問題ありませんが、OpenAIがGPT-4を使用して、競合するモデルを訓練するデータセットを作成することは、OpenAIの利用規約に違反することです」という制約が、商用開発における大きな障壁となりました。

オープンモデルへの移行（2023-2024）は、この制約に対する業界の対応でした。「これらのオープンウェイトモデルは、より許可的なライセンスを持っています」という現実が、新しい可能性を開きました。

Llama、Mistral、その他のオープンウェイトモデルは、商用利用に対してより寛容な条件を提供しました。「基本的に、彼らからの蒸留を行い、好きなことを何でもできるということです」という自由度は、開発者にとって革命的でした。

この移行は、単に法的な制約への対応以上の意味を持っていました。オープンモデルの使用により、開発者は合成データ生成プロセスをより完全に制御できるようになりました。モデルの調整、特定のドメインへの特化、独自の品質基準の適用などが可能になりました。

技術的な革新も、この移行を促進しました。OpenHermesのような統合データセット、Evol-instructのような複雑化手法、自己対話による多回転会話生成など、様々な技術がオープンモデルを使用して実装されました。

Llama-Nemotronの最新動向では、「データを生成できるすべてのモデルから合成的にいくつかのデータを生成しました」というアプローチが見られます。これは、単一のモデルではなく、複数のオープンモデルを組み合わせて使用する戦略です。

R1による推論トレースの導入は、この発展の最新段階を示しています。単純な指示-応答ペアから、段階的な推論プロセスを含む複雑な合成データへの移行は、オープンモデルの能力向上と密接に関連しています。

この移行の重要性は、AI業界の構造的な変化を反映しています。プロプライエタリなモデルへの依存から、より開かれた、協力的なエコシステムへの移行は、イノベーションの民主化を促進しています。

経済的な意味も重要です。GPT-4のAPIコストは、大規模な合成データ生成において大きな障壁でした。オープンモデルの使用により、組織は一度のインフラストラクチャ投資で、無制限に合成データを生成できるようになりました。

この変化は、合成データ生成の持続可能性と拡張性を大幅に向上させました。現在、多くの組織が、法的制約を受けることなく、高品質な合成データを大規模に生成できるようになっています。

12. 結論

12.1 データは天から降ってこない：継続的な努力が必要

要約しましょう。重要な教訓は、データは天から降ってこないということです。それを得るために本当に一生懸命働く必要があります。

この講義を通じて観察された最も重要な現実は、高品質な訓練データの取得が、決して自動的でも簡単でもないということです。「データは天から降ってこない」という表現は、データ取得の労働集約的で継続的な性質を的確に表現しています。

現代の言語モデル開発において、データは最も重要でありながら、最も困難な要素の一つです。この困難さは、技術的、法的、実用的な複数の層にわたって存在します。

技術的な課題では、Common Crawlのような生データから学習可能なデータセットまでの変換には、複雑な処理パイプラインが必要です。HTMLからテキストへの変換、重複除去、品質フィルタリング、言語識別、トークン化など、各段階で専門的な知識と注意深い実装が必要です。

DataComp-LMの実験で示されたように、HTML-to-text変換ツールの選択だけで4ポイントの性能差が生じることは、これらの「低レベル詳細」の重要性を示しています。適切なツールの選択、パラメータの調整、品質管理など、すべてが最終的な結果に影響します。

法的・倫理的な課題も継続的な努力を必要とします。インターネット上のコンテンツの大部分が著作権保護されている現実において、フェアユースの適用、ライセンス契約の交渉、利用規約の遵守など、法的な考慮が不可欠です。

さらに、データポイズニング、プライバシー保護、偏見の除去など、倫理的な責任も継続的な監視と改善を必要とします。これらの問題は、技術的な解決策だけでは不十分で、継続的な人間の判断と介入が必要です。

運用的な課題では、数百兆トークンの規模でのデータ処理には、大規模な計算資源、ストレージ、帯域幅が必要です。これらのリソースの管理、最適化、スケーリングは、継続的な技術的および運用的な努力を必要とします。

品質管理も継続的なプロセスです。CCNetの5-gramモデルから、Nemotronの教育的価値評価まで、品質分類器の進化は、継続的な実験、評価、改善の結果です。最適な品質基準は、技術の進歩、データの変化、アプリケーションの要求とともに進化します。

この継続的な努力の必要性は、データキュレーションが一度限りの活動ではなく、継続的な研究開発分野であることを示しています。新しいデータソースの発見、処理技術の改善、品質基準の進化、法的環境の変化など、すべてが継続的な適応を必要とします。

成功している組織や研究グループは、データを戦略的資産として扱い、継続的な投資と改善を行っています。これは、単に技術的な問題ではなく、組織的な能力とコミットメントの問題でもあります。

12.2 生のサービス→ダンプ→処理→学習可能なデータ

そして、そこには、これらのライブサービスがあることを考えるのが重要です。GitHubのようなものです。そして、まず、それを使用する必要があります。生データのダンプを最初に取得する必要があります。

現代のデータキュレーションにおける標準的なパイプラインは、「生のサービス→ダンプ→処理→学習可能なデータ」という4段階のプロセスに従います。この構造化された流れは、すべての主要なデータセット開発プロジェクトで観察される基本的なパターンです。

生のサービス段階では、GitHub、Reddit、Stack Exchange、Common Crawlなどの動的なオンラインサービスが出発点となります。これらのサービスは、継続的に更新され、ユーザーによって生成され、時間とともに進化する活発なデータエコシステムです。

GitHubでは、開発者が日々新しいコードをコミットし、リポジトリを作成し、問題を議論しています。Redditでは、ユーザーが投稿し、コメントし、投票しています。これらのサービスは、人間の活動と知識の自然な集約点として機能しています。

ダンプ段階では、これらの動的なサービスから静的なスナップショットを作成します。Common Crawlの月次クロール、GitHub Archiveの定期的なスナップショット、Wikipediaの定期的なダンプなどがこの段階に該当します。

このスナップショット化は、機械学習の要件によって必要とされます。動的に変化するデータでは、一貫した訓練や評価が困難です。特定の時点での固定されたデータセットが、再現可能な研究と開発に必要です。

「生データのダンプを最初に取得する必要があります」という必要性は、データアクセスの最初の技術的課題を表しています。これには、APIの使用、ウェブスクレイピング、公式なデータダンプの取得など、様々な方法があります。

処理段階が最も複雑で労働集約的な段階です。「生データで訓練することはできません」という現実は、この段階の重要性を強調しています。生データは、通常、以下の問題を抱えています：

規模の問題：「大きすぎる」データは、利用可能な計算資源を超える可能性があります
品質の問題：「ノイズが多すぎる」データは、モデルの学習を妨げる可能性があります
形式の問題：「トークンでさえありません」という状況では、基本的な前処理が必要です

この段階では、HTMLからテキストへの変換、重複除去、品質フィルタリング、言語識別、トークン化、フォーマット標準化など、複数の処理ステップが適用されます。

学習可能なデータ段階では、最終的に言語モデルが直接消費できる形式のデータが生成されます。これには、適切なトークン化、バッチ化、シーケンス長の調整などが含まれます。

この4段階のパイプラインは、現代のAI開発における重要な現実を反映しています。データは、その最終的な使用形態とは大きく異なる形で存在し、複雑な変換プロセスを通じて学習可能な形式に変換される必要があります。

「誰かがあなたのところに来て、GitHubで訓練したと言うとき、あなたは彼らに、それは正確に何を意味するのですか？どのような前処理ステップが取られたのですか？と尋ねなければなりません」という警告は、この複雑性を強調しています。

12.3 データが言語モデルの差別化要因

データが言語モデルの主要な差別化要因であるという洞察は、現代のAI開発における最も重要な戦略的認識の一つです。この現実は、技術的な成熟度と競争力学の変化を反映しています。

アーキテクチャの標準化が進行している現在、transformer MOEスタイルのアーキテクチャは業界標準となっています。主要なモデル（GPT、LLaMA、Gemini、Claude）は、基本的に類似したアーキテクチャ設計を使用しています。注意機構、残差接続、層正規化、位置エンコーディングなど、核となる技術的要素は広く共有されています。

この標準化の結果、「これらのアーキテクチャは行動がそれほど異なることはありません」という現実が生まれました。同じアーキテクチャを使用する異なるモデル間での性能差は、主にアーキテクチャの設計選択ではなく、他の要因によって決定されます。

訓練技術の成熟も同様の傾向を示しています。AdamW、学習率スケジューリング、グラディエントクリッピング、混合精度訓練など、効果的な訓練技術は広く知られており、実装されています。これらの技術は、もはや競争優位の源泉ではなく、基本的な要件となっています。

データの戦略的重要性は、この文脈で明らかになります。アーキテクチャと訓練技術が標準化されるにつれて、データの品質と独自性が最も重要な差別化要因となります。高品質なデータセットを構築し、維持する能力が、組織の競争力を決定します。

この現実は、企業の投資パターンにも反映されています。大手技術企業は、独自のデータソースへのアクセス、高品質な合成データの生成、効果的なデータキュレーションパイプラインの構築に大きな投資を行っています。

データの希少性も重要な要因です。高品質なデータは、アーキテクチャの知識とは異なり、簡単に複製または共有できません。著作権、プライバシー、利用規約などの制約により、データアクセスは本質的に制限されています。

Google-Reddit、OpenAI-Shutterstock、OpenAI-Stack Exchangeなどのライセンス契約は、この戦略的重要性を実証しています。これらの契約は、独自のデータソースへの排他的または優先的なアクセスを確保することを目的としています。

データの長期的価値も重要です。アーキテクチャの革新は比較的短期間で陳腐化する可能性がありますが、高品質なデータセットは長期間にわたって価値を提供します。一度構築されたデータセットは、複数の世代のモデルで使用でき、継続的な改善により価値を増大させることができます。

この認識は、研究開発戦略にも影響を与えています。多くの組織が、新しいアーキテクチャの開発よりも、データキュレーション能力の向上に重点を置くようになっています。

競争力学の変化も反映されています。「データが最も重要」という現実は、技術的な革新よりも、データアクセスとキュレーション能力が競争優位の主要な源泉となっていることを示しています。

この傾向は、AI業界の成熟を示しています。初期段階では、技術的な革新が主要な差別化要因でしたが、現在では、データの品質と独自性が最も重要な競争要素となっています。

12.4 法的・倫理的課題の存在

また、いくつかの法的・倫理的問題があります。著作権について話しましたが、ここにはもっと多くのことがあります。

法的・倫理的課題は、現代の言語モデルデータキュレーションにおいて避けることのできない複雑な現実です。これらの課題は、技術的な進歩と既存の法的・倫理的枠組みとの間の根本的な緊張関係を反映しています。

著作権問題は、最も明白で差し迫った法的課題です。インターネット上のコンテンツの大部分が自動的に著作権保護を受けているという現実は、大規模なデータ収集に根本的な問題を提起しています。フェアユースの適用、ライセンス契約の必要性、利用規約の制約など、複数の法的層が言語モデルの訓練を複雑にしています。

しかし、「ここにはもっと多くのことがあります」という指摘が示すように、著作権は氷山の一角に過ぎません。

プライバシー権は、ますます重要な懸念となっています。訓練データには、個人情報、メールアドレス、電話番号、住所などの個人を特定できる情報が含まれる可能性があります。EUのGDPR、カリフォルニアのCCPAなどのプライバシー規制は、このようなデータの使用に厳しい制限を課しています。

データポイズニングの脆弱性も重要な課題です。Carliniの研究で示されたように、Wikipediaのような信頼できるソースでさえ、悪意のある操作に対して脆弱です。攻撃者が訓練データを操作して、モデルの動作に影響を与える可能性があります。

バイアスと公平性の問題は、社会的責任の観点から重要です。訓練データに含まれる歴史的、文化的、社会的バイアスは、モデルの出力に反映され、差別的な結果をもたらす可能性があります。これは、周辺化されたコミュニティに不当な影響を与える可能性があります。

同意と透明性の問題も増大しています。多くのコンテンツ作成者は、自分の作品が言語モデルの訓練に使用されることを知らず、同意していません。データの収集、使用、共有に関する透明性の欠如は、信頼の問題を生み出しています。

知的財産権の複雑さも、著作権を超えて存在します。商標、特許、企業秘密などの他の形態の知的財産権も、訓練データの使用に影響を与える可能性があります。

国際的な法的複雑さも重要な要因です。異なる国々は、データ保護、著作権、プライバシーに関して異なる法的枠組みを持っています。グローバルに運営される言語モデルは、複数の法域での複雑な規制を遵守する必要があります。

倫理的責任は、法的要件を超えて存在します。社会への影響、文化的配慮、環境への影響など、より広範な倫理的考慮が必要です。

これらの課題の解決には、技術的解決策だけでは不十分です。法的専門知識、倫理的ガイドライン、業界標準、政府規制などの包括的なアプローチが必要です。

継続的な進化も重要な特徴です。技術の進歩に伴い、新しい法的・倫理的課題が継続的に出現します。これらの課題への対応は、一度限りの活動ではなく、継続的な監視と適応を必要とします。

成功する組織は、これらの課題を単なる制約ではなく、責任あるAI開発の不可欠な要素として認識し、適切なリソースと注意を割り当てています。

12.5 ヒューリスティック的な性質＝改善の機会

そして、最後に、この分野全体が混乱だと思うなら、あなたは正しいです。それは非常にヒューリスティックです。つまり、うまくいけば改善する多くの機会があります。

データキュレーションの現状に対する率直な評価は、この分野の根本的な性質を浮き彫りにしています。「この分野全体が混乱だと思うなら、あなたは正しいです」という認識は、現在の手法の限界を正直に認めるものです。

ヒューリスティックな性質は、この分野の特徴的な特性です。品質フィルタリング、重複除去、データクリーニングなど、多くの重要な決定が、理論的に根拠づけられた原則ではなく、経験的な試行錯誤に基づいています。

CCNetの5-gramモデル、C4のルールベースフィルタリング、Gopherの手動ルール、DCLMの品質分類器など、これらのアプローチはすべて、特定の文脈で機能することが示されていますが、普遍的な原則や理論的基盤を欠いています。

改善の機会の存在は、この分野の大きな可能性を示しています。現在の手法が主に経験的であることは、より系統的で科学的なアプローチの余地があることを意味します。

品質の定義については、より客観的で測定可能な基準を開発する機会があります。現在の「教育的価値」や「Wikipedia類似性」などの基準は、主観的で文脈に依存しています。より普遍的で定量的な品質メトリクスの開発が可能かもしれません。

フィルタリング技術の改善も重要な機会です。現在の手法は、しばしば大量の有用なデータを除外する一方で、低品質なデータを通過させる可能性があります。より精密で効率的なフィルタリング技術の開発により、品質とカバレッジの両方を向上させることができるかもしれません。

自動化と効率化の機会も存在します。現在の多くのプロセスは、人間の判断と手動の介入に依存しています。より高度な自動化により、一貫性と効率性を向上させることができるかもしれません。

理論的基盤の開発も重要な機会です。データ品質、学習効率、最適なデータ組成などに関する理論的理解の向上により、より原則的なアプローチが可能になるかもしれません。

評価方法の改善も必要です。現在の評価は、主に最終的なモデル性能に基づいていますが、データの品質を直接評価する方法の開発により、より効率的なデータキュレーションが可能になるかもしれません。

標準化と再現性の向上も重要な機会です。現在の手法は、しばしば組織固有で再現が困難です。より標準化されたツール、メトリクス、プロセスの開発により、研究と開発の効率を向上させることができるかもしれません。

学際的アプローチも有望です。言語学、認知科学、情報科学、図書館学などの分野からの洞察を統合することで、より効果的なデータキュレーション手法を開発できるかもしれません。

この「混乱」した現状は、研究者と開発者にとって大きな機会を提供しています。既存の手法を改善し、新しいアプローチを開発し、より科学的で効率的なデータキュレーションの実践を確立する余地が豊富に存在しています。

現在の限界を認識することは、悲観的な見方ではなく、この分野の巨大な可能性を示すものです。データキュレーションは、AI開発の最も重要でありながら、最も改善の余地がある分野の一つです。

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 13: Data 1

For more information about Stanford's online Artificial Intelligence programs visit: https://stanford.io/ai To learn more about enrolling in this course visit: https://online.stanford.edu/courses/cs336-language-modeling-scratch To follow along with the course schedule and syllabus visit: https://stanford-cs336.github.io/spring2025/ Percy Liang Associate Professor of Computer Science Director of Center for Research on Foundation Models (CRFM) Tatsunori Hashimoto Assistant Professor of Computer Science View the entire course playlist: https://www.youtube.com/playlist?list=PLoROMvodv4rOY23Y0BoGoBGgQ1zmU_MT_

youtu.be

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 13: Data 1