2025-06-05 Stanford CS336 Language Modeling from Scratch: 評価の迷宮 - ベンチマークから現実世界まで

出展元

https://youtu.be/x-R5l2HsXqM?si=bQ3gIPZKZZaVHiKr

キーワード

言語モデル評価ベンチマーク設計評価危機パープレキシティ

初回調査日

Jun 19, 2025 1:36 PM

※本記事は、スタンフォード大学のPercy Liang氏とTatsunori Hashimoto氏によるオンライン講義「Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 12: Evaluation」の内容を基に作成されています。講義の詳細情報は https://stanford-cs336.github.io/spri... でご覧いただけます。本記事では、講義の内容を要約しております。なお、本記事の内容は原講義の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講義動画をご視聴いただくことをお勧めいたします。

登壇者紹介

Percy Liang: スタンフォード大学コンピュータサイエンス准教授、Center for Research on Foundation Models (CRFM) 所長
Tatsunori Hashimoto: スタンフォード大学コンピュータサイエンス助教授

スタンフォード大学のオンラインAIプログラムの詳細については https://stanford.io/ai を、本コースの受講については https://online.stanford.edu/courses/c... をご参照ください。Stanford Onlineは、スタンフォード大学全体の学部・研究科が提供する学術・専門教育のポータルサイトとして、学位プログラム、単位認定教育、専門資格プログラム、無料・オープンコンテンツを提供しています。

1. 評価の概要と現状

1.1 評価の複雑性と重要性

今日は評価について話したいと思います。これは見た目は簡単そうに見えますが、実際にはそれとは程遠い複雑なトピックの一つだと考えています。機械的には、固定されたモデルが与えられて、それがどれくらい良いかという質問をするだけなので、十分簡単に見えます。

しかし実際には、評価は本当に深遠なトピックです。そしてそれは言語モデルがどのように構築されるかも決定します。なぜなら人々がこれらの評価を構築し、トップの言語モデル開発者がこれらを時間とともに追跡しているからです。もし何かを追跡していて、数字を上げようとしているなら、それはあなたがモデルを開発する方法に本当に影響を与えるでしょう。だからこそ評価は、物事がどこに向かうかの本当に先行指標かもしれないと思います。

評価は、ある程度では、ただの機械的なプロセスです。既存のモデルを取り、それがどのように訓練されたかはあまり心配せず、プロンプトを投げつけます。いくつかの応答を得て、いくつかのメトリクスを計算し、数字を平均します。だから書けるような簡単なスクリプトのように見えます。

しかし実際に、評価は言語モデルの構築方法を決定するため、非常に重要な意味を持ちます。人々がこれらの評価を構築し、トップの言語モデル開発者が時間の経過とともにこれらを追跡しているからです。何かを追跡していて、その数字を上げようとしているなら、それはモデルを開発する方法に本当に影響を与えることになります。そのため評価は、物事がどこに向かうかの先行指標になると考えています。

1.2 現在の評価危機（Evaluation Crisis）

実際に、Andrej Karpathyが現在の状況を評価するのに良い仕事をしたと思います。それは評価危機があるということです。MMLUのようないくつかのベンチマークがあり、それらは見るのに良いと思われていました。しかし今、根本的な仮定は、おそらくそれらが飽和しているか、ゲーミングされているか、その中間の何かであるということです。そして後で少し話すChatbot Arenaにも問題があります。

だから実際に、私たちにはこれらすべてのモデルがあります。ベンチマークと数字のこの豊富さが出てきていますが、この時点でどれが評価を行う正しい方法なのかは不明だと思います。このクラスでのパターンに気づくでしょうが、すべてが混乱していて、評価も例外ではありません。

最近のChatbot Arenaを巡るスキャンダルについて言及しておきましょう。過去2年ほどで、このChatbot Arenaは、Sundar PichaiがGeminiがChatbot Arenaでどれほど素晴らしい成果を上げているかについてツイートするほどに、本当に注目を集めるようになりました。だからそれはモデル開発者が使っているターゲットになっています。つまり、彼らが何をしているにせよ、PRにそれを使っているのです。

Goodhartの法則を知っていれば、何かを測定できるようになると、それがハッキングされます。そして「The Leaderboard Illusion」という論文があり、実際に特権的なアクセスを得たか、複数の提出を行うことができたプロバイダーがいることについて話しています。評価のプロトコルには、おそらく理想的でない多くのことがあり、これらは希望的には対処されるでしょう。しかし確実にプロトコルに問題があります。また、インターネットからのランダムな人々がこれを行うことが、どの分布にサービスを提供するのかという問題もあります。

1.3 様々な評価指標とランキングの現状

評価について考えるとき、おそらくベンチマークスコアのようなものをたくさん見るでしょう。例えば、言語モデルを発表する論文では、MMLU、Amy Codeforces などの様々なベンチマークでのスコアを出しています。Llama 4の論文を見ると、少なくとも言語については、MMLU Pro、MATH 500、GPQAで評価しています。そしてマルチモーダルなものもいくつかあります。

OLMoを見ると、MATHとMMLUに加えて、DROPやGSM8kなどの他のものがあります。これらの数字をすべて見ることができます。ほとんどの言語モデルは大体同じベンチマークで評価されていますが、完全に同じではありません。しかし、これらのベンチマークとは何で、これらの数字は実際に何を意味するのでしょうか。

HELMからの別の例もあります。ここでは、すべてまとめられた多くの異なる標準的ベンチマークがあり、これについては後で少し話すつもりです。精度スコアだけでなく、コストを見るベンチマークもあります。Artificial Analysisは、これらのパレートフロンティアを見るのに非常に良い仕事をしているウェブサイトで、異なるベンチマークの組み合わせである知能指数と、そのモデルを使うために1トークンあたりに支払わなければならない価格を持っています。

もちろん、O3は本当に良いですが、非常に高価でもあります。そして明らかに、いくつかの他のモデルは、実際にこの指数によると、少なくとも同じくらい良く、はるかに安いようです。

別の見方として、人々がそれを使うことを選択するなら、モデルは良いということかもしれません。Open Routerは、基本的に多くのモデルにルーティングされるトラフィックを持つウェブサイトです。だから彼らは人々がどのモデルを選んでいるかのデータを持っています。各モデルに送られるトークン数を見ると、リーダーボードを定義でき、人々が良いモデルを選んでいると仮定する信念の跳躍を取ることができます。

これによると、OpenAI、Anthropic、Googleがトップにいるようです。もう一つ、Chatbot Arenaがあり、これは非常に人気があると思います。これについてはもう少し詳しく話しますが、モデル間の別のランキングで、インターネット上の人々がこれらのモデルと会話し、ペアワイズの好みを表現するものです。だから私がただ投げつけている多くの数字とランキングがあります。

そして、人々がXに投稿するこれらの雰囲気を見ます。「見てください、言語モデルができるこの素晴らしい例を」という感じです。そこにはこのような例がたくさんあります。だからこれもモデルがどれくらい良いかについてのデータの別のソースです。

2. 評価の目的と枠組み

2.1 評価の多様な目的

評価のポイントは何でしょうか？なぜ私たちはそれを行うのでしょうか？答えは、一つの真の評価というものは存在しないということです。それはあなたが答えようとしている質問に依存します。これは重要なポイントで、なぜなら「ああ、私はただモデルを評価している」というようなことは存在しないからです。数字を得ます。しかし、その数字は何を教えてくれるのでしょうか？そしてそれは実際にあなたの元の質問に答えているのでしょうか？

あなたがやりたいことの例をいくつか示しましょう。あなたがユーザーや企業だとして、購入決定を行おうとしているとしましょう。だからあなたはClaudeを使うか、Grokを使うか、Geminiを使うか、O3を使うかができます。あなたの特定の使用ケースに対して、どれを選ぶべきでしょうか？

別のケースは、あなたが研究者で、実際にはモデルを何かに使おうとしているわけではないということです。ただモデルの生の能力が何かを知りたいだけです。私たちはAIの科学的進歩を遂げているのでしょうか？これは特定の使用ケースに固定されない、はるかに一般的な質問です。

そして政策立案者とビジネスは、客観的に、ある時点でモデルの利益と害は何かを理解したいかもしれません。私たちはどこにいるのでしょうか？モデルは正しい答えを教えてくれているのでしょうか？どのように助けているのでしょうか？どれくらいの価値を提供しているのでしょうか？

モデル開発者は、モデルを改善するためのフィードバックを得たいので評価を行うかもしれません。彼らは評価して、ああ、このスコアは低すぎる、と見るかもしれません。だから介入を試してみましょう。そしてそれが上がります。したがって、私たちは介入を保持します。評価は言語モデルの開発サイクルでもよく使われます。

それぞれのケースで、評価者が達成したい何らかの目標があり、これを具体的な評価に翻訳する必要があります。そしてあなたが選ぶ具体的な評価は、あなたが達成しようとしていることに依存するでしょう。

2.2 評価フレームワークの基本要素

評価では、考えることができる簡単なフレームワークがここにあります。入力、つまりプロンプトは何でしょうか？言語モデルをどのように呼び出すでしょうか？そして言語モデルが出力を生成したら、出力をどのように評価するでしょうか？そして結果をどのように解釈するでしょうか？

それぞれの質問を見てみましょう。入力について、プロンプトのセットをどこから得るでしょうか？どの使用ケースがあなたのプロンプトによってカバーされているでしょうか？それが質問です。それらはテールの表現を持っているでしょうか？モデルに挑戦する困難な入力を持っているでしょうか、それとも任意の言語モデルができるようなバニラで簡単なケースなのでしょうか？

そして最後に、マルチターンチャットボット設定では、入力は実際にモデルに依存しています。だからそれは複雑さを導入します。そして単一ターン設定でも、モデルに合わせた入力を選びたいかもしれません。だから入力の質問があります。

そして言語モデルをどのように呼び出すでしょうか？言語モデルをプロンプトする多くの方法があります。Few shot、zero shot、chain of thoughtができます。そして私たちが見るのは、これらの決定のそれぞれが実際に評価メトリクスに多くの分散を導入することです。

言語モデルはまだプロンプトに非常に敏感で、評価がそれを考慮に入れる必要があることを意味します。そしてあなたが使っている特定のタイプの戦略は、算術にツール使用があるかどうか、または最近の知識クエリを行っている場合にRAGやツールを使用できるかどうかなど、あなたが決定しなければならないことです。

そして最後に、後でエージェントについて少し話すと思いますが、私たちは何を評価しているのでしょうか？評価の対象は何でしょうか？言語モデルを評価しているのでしょうか、それともシステム全体を評価しているのでしょうか？これも重要な区別で、なぜならモデル開発者は前者を評価したいかもしれないからです。彼らは言語モデルをより良くしようとしていて、エージェントシステムとスキャフォールディングはメトリクスを導出するための手段に過ぎません。

しかしユーザーは、あなたがどの言語モデルを使っているかを気にしません。複数の言語モデルがあるかもしれません。彼らはシステム全体を気にするだけです。

2.3 入力、呼び出し方法、出力評価、結果解釈の課題

出力について見てみましょう。出力をどのように評価するでしょうか？多くの場合、参照出力があります。そしてこれらはきれいでしょうか？エラーフリーでしょうか？非常に基本的な質問ですが、後で見るようにそれは明らかにそうとは限りません。

コード生成にはどのようなメトリクスを使うでしょうか？pass at oneでしょうか？pass at 10でしょうか？コストをどのように考慮に入れるでしょうか？なぜなら多くのリーダーボードを見ると、それらは完全に、コストが周辺化されているからです。だから、おそらくトップモデルが実際に2番目のモデルより10倍高価だという感覚がありません、例えば。だからパレートフロンティアは一般的に見るのに良いものです。

そして明らかに、いくつかの使用ケースでは、すべてのエラーが同じように作られているわけではありません。そしてそれをあなたの評価基準にどのように組み込むでしょうか？そしてオープンエンド生成は明らかに評価するのが難しいです、なぜなら正解がないからです。テキストを生成して、スタンフォードについての魅力的な物語を書いてください。それをどのように評価するでしょうか。

これらすべてを通過したとしましょう。今あなたはメトリクスを持っています。そしてどのように解釈するでしょうか？91という数字を得たとしましょう。それは良いということを意味するでしょうか？あなたが企業なら、それをユーザーに展開するでしょうか？それは十分に良いでしょうか？あなたが研究者だとして、この言語モデルが特定のタイプの汎化を本当に学習したかどうかをどのように決定するでしょうか？これは訓練テスト重複の問題に立ち向かうことを要求します。

そして最後に、評価の対象は何かについて少し話します。モデルでしょうか、システムでしょうか、それとも実際には手法でしょうか？多くの場合、研究では、研究論文の出力は何かを行うための新しい手法です。それは必ずしもモデルではありません。モデルは手法の応用例に過ぎません。だから手法を評価しているなら、私は人々が行う実際の評価の多くは、あなたが何をしているかについて明確なコントロールを持たない限り、本当に意味をなさないと思います。

だから要約すると、評価を行うときに実際に考え抜く必要がある多くの質問があります。それは単にたくさんのプロンプトを取って言語モデルに入力するだけではありません。

学生からの質問で、入力はモデルに適応されるべきかという質問がありました。繰り返しますが、これはあなたが何をしようとしているかに依存します。マルチターンのような場合では、それらはモデルに適応されなければなりません。私は、ユーザーアシスタント、ユーザーアシスタントを持つ静的チャットボット評価は現実的ではないと思います、しかしアシスタントは他の誰かです。そしてあなたは応答することになっています、なぜならあなたが会話を主導していたなら決して陥ることのない奇妙な状況に置かれるかもしれないからです。

レッドチーミングでは、非常に稀なテールイベントを探していて、汎用的にプロンプトを生成するだけでは非常に非効率だからです。しかしもちろん、あなたの評価をモデルに適応させるとき、今異なるモデル間でどのように比較するでしょうか？だからそこにはトレードオフがあります。

3. パープレキシティ（Perplexity）評価

3.1 パープレキシティの定義と重要性

これまでに私たちが頼りにしてきたのは、多くの能力について情報を与えてくれるパープレキシティのようなもので、モデルが改善するにつれて、これらすべての能力が改善するということです。自然言語設定において、パープレキシティを改善するにつれて改善されないような、その強い関係を持たないような質問のセットがあるのか、それとも改善していると自分を納得させるのに本当に十分に一般的なものなのかが気になります。

この質問に対して、パープレキシティがすべて必要なものなのか、それともパープレキシティによって捉えられないものがあるのかという質問は、実際にパープレキシティについて話すのに良いつながりです。より直接的に答えると、Tatsuが先週か前の講義で見せたスライドで、パープレキシティとダウンストリームタスクパフォーマンスの相関を見ているものがありました。そしてそれは、少なくともその設定では、いたるところにありました。だからパープレキシティがあなたが気にすることと常に相関があるとは限りません。

とはいえ、示されているのは、十分に長い時間、複数のスケールにわたって、パープレキシティはすべてが改善することとグローバルに対応しているということです。なぜなら、より強いモデルはほとんどのことで強く、小さな1Bモデルは全体的にほとんどのことで悪いからです。

パープレキシティについてもう少し話してみましょう。言語モデルはトークンのシーケンスに対する分布であることを思い出してください。パープレキシティは本質的に、言語モデルがいくつかのデータセットに高い確率を割り当てているかどうかを測定するので、特定のデータセット、通常は何らかの検証セットに対してパープレキシティを定義できます。

事前訓練では、訓練セットのパープレキシティを最小化しています。だから言語モデルを評価するときの自然なことは、テストセットでパープレキシティを評価したいということです。標準的なことは、IED分割を持つことです。そしてこれは実際に、前の10年間における言語モデリング研究の方法でした。

2010年代には、言語モデリング用の様々な標準データセットがありました。90年代に遡るPenn Treebank、Wikitext、機械翻訳から来た10億語ベンチマークがあります。そしてそれは多くの翻訳された政府議事録とニュースを持っています。だからこれらが人々が使ったデータセットです。

一般的に、あなたがすることは、私はLLM研究者です。これらの一つを選ぼうとします。Wall Street Journalを選びます。指定された訓練分割で訓練し、Wall Street Journalの指定されたテスト分割で評価します。そして精度を見ます。

2010年代には多くの研究がありました。これはn-gramモデル間の移行でした。そしてニューラルとn-gramを混合する人々がいて、あらゆる種類のことがありました。そして2010年代半ばの最も顕著な結果の一つは、Googleからのこの論文で、アーキテクチャを正しく設計し、スケールアップすれば、実際にパープレキシティを劇的に削減できることを示しました。

51から30について考えてみると、それは大幅なパープレキシティ削減です。だから先ほどの質問に戻ると、このパープレキシティゲームは言語モデリング研究を進歩させるのに本当に役立ちました、なぜならそれは挑戦問題だったからです。この論文のポイントの一つは、より小さなデータセットでは、人々は過学習などを心配していました。より大きなデータセットでは、ただ異なるゲームを持ちます。ゲームは、データにフィットすることさえできることでした。

3.2 言語モデリング研究の歴史的変遷

一般的に、あなたがすることは、私はLLM研究者です。これらの一つを選ぼうとします。Wall Street Journalを選びます。指定された訓練分割で訓練し、Wall Street Journalの指定されたテスト分割で評価します。そして精度を見ます。2010年代には多くの研究がありました。これはn-gramモデル間の移行でした。そしてニューラルとn-gramを混合する人々がいて、あらゆる種類のことがありました。

そして2010年代半ばの最も顕著な結果の一つは、Googleからのこの論文で、アーキテクチャを正しく設計し、スケールアップすれば、実際にパープレキシティを劇的に削減できることを示しました。51から30について考えてみると、それは大幅なパープレキシティ削減です。だから先ほどの質問に戻ると、このパープレキシティゲームは言語モデリング研究を進歩させるのに本当に役立ちました、なぜならそれは挑戦問題だったからです。

この論文のポイントの一つは、より小さなデータセットでは、人々は過学習などを心配していました。より大きなデータセットでは、ただ異なるゲームを持ちます。ゲームは、データにフィットすることさえできることでした。

3.3 GPT-2/GPT-3による評価パラダイムの変化

そしてGPT-1、GPT-2が、人々がパープレキシティや言語モデル評価を見る方法を変えたと思います。GPT-2は40ギガバイトのテキストで訓練されたことを思い出してください。これらはRedditからリンクされたウェブサイトでした。そして、ファインチューニングなしで、標準のパープレキシティベンチマークで直接評価しました。

だからこれは明らかに分布外評価です。ウェブテキストで訓練して、そしてwikitextで評価します。しかしポイントは、訓練が十分に広い、ウェブテキストが十分に広いので、強い汎化が得られることを期待するということです。だから彼らはこのような表を示しました、ここで異なるサイズのモデルがあり、異なるベンチマークがあります。

だからここでPenn Treebankがあり、wikitextがあります。そして10億語があります。そしてこれらすべてのベンチマークでパープレキシティを見ています。そして少なくとも小さなデータセット、非常に小さなPenn Treebankのようなものでは、彼らは実際に最先端を超えることができました。だから彼らはPenn Treebankで全く訓練しませんでした。

そして彼らは、他の多くのデータで訓練したので、そのでの最先端を打ち負かすことができました。さて、10億語については、彼らはまだかなり上にいました、なぜなら十分に大きなデータセットを持ったら、そのデータセットで直接訓練することは、少なくとも10億スケールでは転移に頼ろうとするよりも良いからです。

学生から質問がありました。「彼らがRedditからのウェブサイトで訓練されているなら、Penn Treebankのようなものを含んでいないとどうやって知るのですか？」これは一般的に大きな問題です。訓練テストの重複、訓練テスト汚染です。後で少し話します。

典型的に、人々はただ汚染除去を行います。だから彼らはテストセットを取り、テストセットと13-gramの重複を持つ任意の文書や段落や何でも削除します。そこには微妙さがあります、なぜなら検出されない近い重複がまだあるかもしれないようなわずかなパラフレーズがあるかもしれないし、それは混乱しているからです。

数学問題が別の言語に翻訳されているケースさえあり、重複はありませんが本質的に、答えを持っていれば、言語モデルは頭の中で翻訳するのに十分に良いので偽陽性です。訓練セットがテストセットを引用している場合にも大量の偽陽性があります。

一般的により保守的である方が良いでしょう、なぜならとても多くのウェブテキストがあるからです。いくつかのコアテキストで訓練せず、それでもうまくやれるなら、それは良いと思います。ここでモデルのパフォーマンスを過大に約束したくないだけです。

3.4 パープレキシティ最大主義者の視点と限界

そしてGPT-2とGPT-3以降、言語モデリング論文はダウンストリームタスクの精度により向かって移行しています。だからこの講義のほとんどはダウンストリームタスクについてですが、私はパープレキシティのための弁護をしたいと思います。だからパープレキシティは、いくつかの理由でまだ有用だと思います。

それは、個々のトークンの細かい粒度のロジットと確率をすべて取得するので、ダウンストリームタスクの精度よりも滑らかです。何かを生成し、それが正しいか間違っているかだけでなく。そしてすべてのスケーリングは一般的にある種のパープレキシティで行われることがわかります、なぜならそれは不連続性を得るのではなく、これらの曲線をよりうまくフィットさせるからです。そしてそれはあまり線形ではないでしょう。

後で少し話すもう一つのことは、パープレキシティは、ある意味では、あなたがデータセットに持つすべてのトークンに注意を払っているという意味で汎用的だということです。すべてのトークンにのみ注意を払っています。一方、タスクの精度では、いくつかのニュアンスを見逃すかもしれません。特に、データセットがゲーム可能な場合、間違った理由で正しい答えを得ることができます。

パープレキシティは、ある種のコーパスでの検証損失に頼るだけでなく、ダウンストリームタスクでもまだ有用であることに注意してください。なぜなら、基本的にプロンプトを条件として、答えの確率を見ることができるからです。だからこれを行うScala論文があります。

だから、彼らが気にするダウンストリームタスクを見て、そのために直接スケーリング法則をフィットさせるのではなく、何らかのコーパスでの検証損失に頼るだけです。パープレキシティについて一つの注意事項があります。リーダーボードを運営しているという観点から。人々が彼らのモデルを提出していて、パープレキシティを報告したいとします。

今、ある程度言語モデルプロバイダーを信頼する必要があるという種のジレンマがここにあります。だからタスクの精度だけを行っている場合、モデルを取ります。実行し、生成された出力を得ます。そして今、生成された出力を参照に対して評価するコードがあります。そしてそれは完全一致でも、F1でも、他の何かでもありえます。そして大丈夫です。だから本当にブラックボックスの中を見る必要はありません。

しかしパープレキシティについては、言語モデルが確率を生成しなければならず、それらが1に合計することを信頼しなければならないことを覚えておいてください。だから、このシーケンスの確率を教えてくださいというインターフェースを公開すると、悪意がなくても、それらは単なるバグを持っているかもしれません。すべてに0.8の確率を割り当てるバグがあるかもしれません。そしてそれらは本当に良く見えるでしょう、それが有効な分布でないことを除いて。だからそれはただ一つの注意事項です。そして注意しなければパープレキシティ評価を台無しにするのは非常に簡単です。

学生からの質問で、すべて0.8のような確率をどのように生成できるのかという質問がありました。それはバグがある場合です、例えば。自動回帰モデルでは、すべての単語のロジットを教えてくださいというインターフェースがあれば、それらが1に合計することを自分で確認できるので、それは厄介になります。

しかし、次のトークンの確率を教えてくださいと言い、あなたが0.8と言った場合、トークンを与えているので、他のすべてのトークンが1に合計する必要があることを確認する方法がありません。

すべてのロジットを取得することは標準的なのかという質問がありました。通常、パープレキシティを計算している場合、かなり深いアクセスを持っていて、計算しているだけです。そしてコードを見て、それが正しいことを確認します。しかし、二重チェックしなければなりません。

この汎用性のポイントについて。世界には、私たちがパープレキシティ最大主義者と呼ぶ人々がいます。彼らの見解は次のようなものです。あなたの真の分布をt、あなたのモデルをpとしましょう。だから真の分布は、この素晴らしいもののように想像してください。プロンプトがあり、それは魔法のように正しい答えを与えるなどです。だからその場合、モデルから得ることができる最高のパープレキシティは、tのエントロピーによって下限が決まります。そしてそれはp = tのときに正確です。だからこれは基本的に分布マッチングです。

だから基本的にtに関してPのパープレキシティを最小化することで、pをtにできるだけ近づけることを強制しています。そして極限では、Tを持っていれば、すべてのタスクを解決します。そしてAGIに到達し、そして終了です。これに対する反論は、これは単に重要でない分布の部分を押し下げているかもしれないので、そこに到達する最も効率的な方法ではないかもしれないということです。

私たちが特定の方法でこれらのタスクを定義する理由があります、なぜなら私たちは気にすることをキュレーションしているからです。人間が明らかにする必要のないことである、すべての単語のトークンの確率を盲目的に一致させるのではなく。しかしそれにもかかわらず、パープレキシティ最小化は訓練に非常に有用でした。

そしてベンチマークがゲーム可能である光の中で、特に評価についてもこれに何かがあると思います。ある意味では、パープレキシティは、あなたの訓練とテストが分離されている限り、本当にゲーム可能な量ではありません。

パープレキシティのように見えるがパープレキシティではない他のいくつかのことに言及しましょう。いくつかの文を得て、欠けている単語を埋めることを意図されたクローズタスクがあります。lambadaはこのようなタスクで、コンテキストが特に挑戦的になるように選ばれ、長いコンテキストを見る必要があります。そして単語を推測することになっています。だからこれは飽和しています。パープレキシティのように見えるタスクの多くは、基本的にパープレキシティであるため、言語モデルによって本当に壊滅されています。

もう一つ、Hella swagがあります。これは常識推論を得ようとしています。文があり、最も意味のある完成を選ぼうとしています。だからこれは本質的に、プロンプトが与えられた各候補の確率を見て、尤度を測定する方法で評価されます。トークン数で正規化することにいくつかの工夫があります。しかし多かれ少なかれ、これはパープレキシティについてです。

ここのビデオの役割は何かという質問がありました。それは無視してください。データは完全にすべてテキストです。データが作成された方法は、ActivityNetを使用し、そしてwiki howを使ってデータをマイニングすることでした。

実際、これは訓練タスクの重複について既に言及されている他のポイントを持ってきます。WikiHowはウェブサイトです。そしてこの正確な質問をWikiHowから生成するために多くの処理が行われましたが、WikiHowに行くと、hella swagの訓練セット、さらにはデータセットと非常に似ているものが見つかるでしょう、逐語的な一致ではないとしても。だからあなたは非常に、非常に注意深くなければなりません。

4. 知識系ベンチマーク

4.1 MMLU（Massive Multitask Language Understanding）

MMLU、これはおそらく現在では言語モデルの標準化テストとして定番になっていますが、実際にはかなり古いものです。2020年からです。これはGPT-3が出た直後でした。そしてその時点で、これは少し前向きだったと思います、なぜならその時、ゼロショット、またはfew shotでさえ、多くの異なることができる言語モデルを持つというアイデアは野生的だったからです。

言語モデルにこれらすべての質問を自動的に解決させるにはどうすればよいでしょうか？しかし今では、ああ、そうですね、ただChatGPTに入れれば動きます。しかしその時は明らかではありませんでした。だから彼らがしたことは、57の科目をキュレーションしたことです。それらはすべて多肢選択の質問です。それらはウェブから収集されました、それが何を意味するにせよ。だから再び、訓練テストの重複に注意しなければなりません。

そして名前にもかかわらず、私はそれが本当に言語理解についてではないと異議を唱えます。それは知識をテストすることについてです、なぜなら私は言語理解においてかなり有能だと思いますが、外交政策についてのランダムな事実を知らないので、MMLUではそれほどうまくやらないと思うからです。

その時の最新技術の言語モデルの評価方法は、few shotプロンプティングを使ったGPT-3でした。だからプロンプトがどのように見えるかがこちらです。シンプルな指示があります。例が与えられます、フォーマットが何かのサンプルです。これを計算してください。答えはこちらです。そして最後のものは、答えの選択肢を持つ質問です。そして目標は、文字が何であれ、それを生成することです。これは指示チューニングの前でした。だから本当に注意深くなければなりませんでした。

この質問にゼロショットで答えてください、と言うことはできませんでした。ゼロショットで質問を与えた場合、ベースモデルはより多くの質問を生成するか、何か奇妙なことをするでしょう。だからその時、GPT-3モデルは45%の精度を得ていました。

今、これを見せましょう。少し深く入り込んで、これらの予測を見てみましょう。HELMは、多くの異なる評価をホストする評価フレームワークです。そしてHELMの良いところは、リーダーボードを見ることができることです。モデルがどれほどうまくやっているかを見ることができます。だからClaudeがMMLUでかなりうまくやっているように見えます。

そしてクリックすると、実際に、完全なリーダーボードを見ましょう。だからMMLUのすべての異なる科目を見ることができます。私たちが皆何かを知っているものを選びましょう、コンピュータサイエンス。そしてクリックスルーすると、実際にすべてのインスタンスを見ることができます。だから入力があり、それから異なる答えの選択肢があり、それから言語モデルが予測したものがあり、それから正しかったかどうかがあります。

だからここにMMLU質問の例があります。そして明らかに、Claudeはこれを正しく得られなかったようです。もう一つのこと、ここに深く入り込むと、これは実際に言語モデルに入力されたプロンプトを与えてくれます。だから私たちはfew-shotプロンプティングを行っています。だからここに質問、答え、質問、答え、質問、答え、質問、答え、質問、答えがあります。これは5shotで、そして答えが埋められることになっている最終的な質問です。

学生からの質問がありました。few shotプロンプティングを行うとき、以前に類似のタイプの類似のトピックの10の質問があるようです。以前にあなたのfew shotプロンプトにある質問が言語モデルのパフォーマンス、あなたが実際に尋ねる質問にどのように影響するかについての研究はありますか？なぜなら、初期の質問があまりにも似ていれば、最終的な質問にすでに答えているかもしれないからです。そしてその質問の2番目の部分は、人々は新しい言語を学習するための新しいベンチマークを評価する際にまだfew-shotプロンプティングを使いますか？

最初の質問は、few shotの例の選択は重要ですか？そして答えはイエスです。それらは間違いなく重要です。それらの順序も重要です。フォーマットも重要です、なぜなら分類を行い、正例のみを選んだ場合、言語モデルは正例を生成するだけでしょうから。だから5つの例は慎重に選ばれる必要があります。

そして2番目の質問は、人々はまだfew shotを行いますか？一般的に、人々はゼロショットを行い、ゼロショットはモデルがゼロショットで動作するように調整されています。Few shotはまだ行われます、おそらく基本的にフォーマットを提供するために1つの例で時々行われるかもしれません。few shotlearning、文脈内学習が実際に何かを学習しているかどうかを分析する論文がいくつかあります、なぜなら5つの例が出てきて本当に。5つの例からアメリカ史の仕方を学習していますか？そして一般的に、人々はそれがフォーマットが何かを伝え、タスクが何かを指定することについてだけだということに同意しています。そして良い指示チューニングモデルがあれば、ただ書き下すことができます。単一の文字で答えてください、そしてモデルはそれを行います。だからそれはより稀になっています。

そしてまた、コンテキストにこれらすべての例を持つ必要がないので、トークンバジェットを節約します。だからそれがMMLUです。そして気づいたかもしれませんが、最高の数字は実際に90年代にあり、これはプロンプティングが重要だからです。私たちはかなり標準的なプロンプト戦略を使用します。しかしプロンプティングと思考の連鎖とアンサンブリングを行っている場合、より高い数字を得ることができます。

今、コメントを一つ作るかもしれません。MMLUは2020年に始まりました。思い出してください、これは本当に指示モデルがなかった時でした。だからそれはベースモデルを評価することを意図していました。そして今、それは最新のモデルが何であれ、主に指示チューニングされたモデルを評価するために使われています。

そして人々がMMLUに過学習しているという心配があると思います。そしてそれは確かに真実です。しかしMMLUがどのようなものかを見ると、私はそれをベースモデルの良い評価だと思います、なぜならベースモデルが何かを考えるなら、あなたはいくつかのコーパスで次のトークンを予測しているだけだからです。

だから多くのデータで訓練し、試験のために勉強することなく、基本的に試験でうまくやることなく、MMLUでうまくやることができれば、これは試験でうまくやることではありません、そしてあなたはおそらく良い量の引用符で囲まれた「知能」を持ち、かなり他の一般的なことを行うことができるでしょう。

一方、57の科目で多肢選択の質問をキュレーションした場合、あなたはおそらく本当に良いMMUスコアを得るでしょうが、あなたの一般性はおそらくMMLUで推定しているほどではないでしょう。だからこの数字を解釈することについてのポイントです。それは数字だけでなく、あなたが評価しているものと訓練セットが何かの関数でもあります。

4.2 MMLU-Pro：改良版の課題と対応

時間をかけて、MMLUは他のベンチマークによって改善されました。MMLU-Proは昨年出たこの論文でした。そして彼らは基本的にMMLUを取りました。いくつかのノイズのある、自明な質問を削除しました。彼らは、うわあ、皆がMMLU で90%を得ています。私たちは皆をAに入れることはできません、だから4つの選択肢の代わりに10の選択肢にしましょう、と言いました。そして精度が下がります。モデルは精度が下がります。

この時点までに、chain of thoughtは評価を行う方法としてかなり一般的になっていました、これは多くの意味をなします、なぜならMMLU質問の一部を見ると、すぐに答えを出力するのは困難だからです。しばらく考えなければなりません。そしてこれがchain of thoughtが与えてくれるものです。そして全体のポイントは、よく見て、MMLU-Proスコアは低いということでした。そしてchain of thoughtは役に立つようでしたが、あまり一貫してはいませんでした。

だからMMLU-Proは、フロンティアモデルについて少なくとも、MMLUがそうであるこの飽和領域にいないので、多くのモデルプロバイダー開発者がMMLU-Proを採用しているのを見ると思います。

私たちはそれをスキップできます。ここをクリックして、もしあなたが望むならMMLU-Proの予測を見ることができます。

4.3 GPQA：PhD レベルの難問への挑戦

GPQAに進みましょう。だからここでは賭け金を上げています。だからこれは実際に、おそらく1年か、ほぼ1年半前でした。そしてここで強調は明示的に、本当に難しい種のPhDレベルの質問でした。一方、MMLUはインターネットからの質問で、学部生レベルか異なるレベルかもしれませんが、誰が知っているかという感じでした。

しかしこれは、彼らが明示的に募集したものでした。特定の分野でPhDを取得している人々、またはPhDを終了した人々です。そしてそれから彼らは質問を書く人がいて、そして専門家がそれを検証してフィードバックを与え、そして専門家が基本的に質問作成者が質問を明確にするために修正し、そして専門家が再びそれを検証するという、かなり精緻なプロセスを持ちました。

そしてそれからあなたは非専門家に与えます、彼らはGoogleなしでさえ、30分程度を費やして質問に答えようとします。そして専門家は65%程度を得ることができ、非専門家は、Googleを使ってさえ、30%程度しか得ることができないことがわかりました。だからこれが彼らの、それを本当に困難にしようとする試みでした。だから彼らはそれをGoogle proofと呼びます。

Googleで30分検索しても、答えを見つけることはできません。だからGPT-4は、その時、39%の精度を得ました。今見てみましょう。だから今、これは更新されています。だから今、O3は75です。だから昨年で、ここではかなりの進歩がありました。私は、それがPhDまたはGoogle proofであるという事実が、言語モデルがこれで良い仕事をすることができないということを意味するとは思いません。

一つのこと、私は知りません、クリックインしてみましょう。だから彼らはこれをウェブに置くことを意図していないということがあります。だから私たちは手動でそれを見るためにタイプしなければならないこの小さな復号化のものを持っています。だからここに質問の例があります。私は確実にこれの専門家ではありませんが、私には質問のように見えます。

そしてあなたは実際にO3について見るでしょう。実際、O3についての唯一のことは、それが基本的にすべてのchain of thoughtを隠すということです。だから私たちはそれを見ることができません。Geminiを見ると、予測を見ることができると思います。だからこれは質問です、いくつかの生物学の質問です。そしてGeminiは理論的根拠を分解し、しばらく考えます。

そしてそれは正しい答えはDだと言います。そしてそれはたまたま正しいです。

学生からの質問がありました。この焦点がGoogle proofであることを考えると、O3やOpenAIモデルのようなブラックボックスモデルが、それ自体でウェブを検索していない、答えを見つけようとしていないとどのように知るのでしょうか？そして人間ベンチマークに関して任意の評価を行うとき、人間がそもそも言語モデルを使用していないとどのように知るのでしょうか？Googleベンチマークは言語モデルベンチマークではないかもしれません。

質問は、それは本当にfoolproofかということです。つまり、O3を呼び出すとき、多分O3は秘密にインターネットを呼び出しているのでしょうか。つまり、確実に、いくつかのエンドポイントは、ウェブを検索しますが、ウェブを検索しないモードもあるので、注意しなければなりません。だから私たちはそうしないものを使用すると思います。そしてそれが何が起こっているかを信頼しなければなりません。

そして非専門家が実際にGoogleを使用し、O3のようなものを使用したということについて、それは可能です。正確にどのように彼らが、つまり、私は彼らがそうしないと言うだけで、あなたは彼らにお金を払っていると思います。彼らを監視することができます。Google Gemini、Googleを使用していても、答えを表示するので、ちょっと厄介だと思います。だからそれは良いポイントです。

そして別の学生が言いました。専門家もまだ達成しています。だから驚きです。しかし多くの時、私は疑問に思います。

別の学生からの質問は、私たちがますます専門家主導の質問を対象にしているように見えるということです。私たちは人口のますます小さく、小さいサブセットのためにモデルをより良くしようとしているように見えます。これらのモデルがこれらのますます専門家レベルの問題で良くなるにつれて、それらが実際に一般大衆にも行くという研究がありますか？

質問は、これらすべてが非常にエリートの質問のように見えるということです。そして世界の他の人々についてはどうでしょうか？後で他のことを見るでしょう。つまり、これは講義の一部に過ぎません。他のことがあるでしょう。一つの視点、人々がこの種の質問に焦点を当てる理由は、専門家が高価だということだと思います。

だからもしこれらのタスクを解決できるなら、アイデアは、もしあなたが一般的なら、実際にかなり複雑な作業を行うことができるということです。しかしあなたは正しいです。つまり、単純な質問に答えるとか、カスタマーサービスサポートを行うとか、PhDを必要としないが、それでも価値があるような他のことがあります。そして私はこれらの問題のいくつかにどのように対処するかについて話すために戻ってきます。

4.4 Humanity's Last Exam：究極の難易度への到達

時間を節約するために進みましょう。だから最終的な種の狂った難しい問題、それはHumanity's Last Examと呼ばれています。なんて素晴らしい名前でしょう。だから再び、ここには多くの質問があります。今度はマルチモーダルです。しかしそれはまだ多肢選択、短答です。だからこれらはまだ正しい答えを持つ試験のような質問で、これは重要な制限だと思います、なぜなら私たちが尋ねることが多いものには、曖昧で正しい答えがないものがあるからです。

だからこれは確実に一つのサブセットに過ぎません。そして彼らは面白いことをしました。問題を作成するよう人々を奨励するための賞金プールを作り、質問作成者にco-authorshipを提供しました。だから彼らはかなり多くの質問を得て、それらを使って、引用符で囲まれた「簡単すぎる」質問を拒否するためにフロンティア言語モデルを使いました。

そして彼らは多くのレビューを行いました。だからこれらのそれぞれは、本当に、本当に時間のかかるデータセットの作成です。そしてこれらのデータセットグラフのすべてはこのように見えます。以前のベンチマーク、それらはLLMがうまくやります。私の新しいベンチマークLLMは悪くやります。そして今、HLEは20%まで上がっていると思います。だから最新を見てみましょう。

そう、O3は20を得ています。だから私はこれが次の年でただ上がるだけだと仮定しますが、これは最後の試験であることになっているので、その後に何が来るのかわかりません。

学生からのコメントがありました。合理的な代替案を提案できるかわからないですが、時々不公平な批判をするのは難しいですが、設計された方法は、もし私がLLMの研究に新しく来た人だったら設計する方法とはほぼ正反対です。なぜなら質問のオープンコールを出すと、非常に偏ったタイプの人々が反応するからです。すでにLLMに非常にさらされている人々、どの質問が簡単であるか困難であるかを知っている人々、すでに研究に非常に組み込まれている人々を得るでしょう。

想像できる最も特定的な質問のセットで終わるでしょう。考え抜くのは難しいと思います。

学生は基本的に、質問をキュレーションしたり募集したりするときに大きなバイアスがここにあると言っています、なぜなら誰がこれをやるのでしょうか？多分すでにLLMを知っている人々、または彼らが特定のことを持っている人々です。

そう、あなたは絶対に正しいです。確実にバイアスがあります。これらについて言えることは、それらが難しいということだけだと思いますが、それらは明らかに人々が尋ねようとしている質問の特定の分布を代表していません。

5. 指示従来（Instruction-following）ベンチマーク

5.1 Chatbot Arena：人間による比較評価

指示従来ベンチマークについて少し話しましょう。これまでのところ、これらすべては基本的に大体多肢選択または短答質問でした。明らかに、多肢選択では、それらを任意に難しくすることができ、それらは非常に構造化されています。だから過去4年間で起こった一つの変化は、ChatGPTによって人気になった指示従来への強調です。モデルに物事をするように頼み、そしてそれが物事を行います。だから必ずしもタスクの概念さえありません。

ただこれらの新しいもの、一回限りのタスクを記述し、言語モデルがそれを行わなければなりません。だからここでの主な課題の一つは、一般的にオープンエンドな応答をどのように評価するかです。そしてこれは未解決の問題です。そして人々が行ういくつかのことを示します。そしてこれらのそれぞれは独自の問題を持っています。

Chatbot Arena、前に言及しました。これはおそらく最も人気のあるベンチマークの一つです。だから動作方法は、インターネットからのランダムな人がプロンプトを入力することです。彼らは2つのモデルから応答を得ます。どのモデルから来ているかは知りません、そして彼らはどちらの応答が良いかを評価します。そしてこれらのペアワイズランキングに基づいて、ELOスコアが計算され、すべてのモデルのランキングを得ます。だからこれは今日撮った現在のスナップショットです。

これについて良いと思うのは、これらが静的ベンチマークではないということです。静的プロンプトです。それらはライブで入ってきて動的です。だから私たちは常に新鮮なデータを持つことができます、いわば。そしてまたELO評価は、入ってくる新しいモデルに対応することができ、これはチェスプレイヤーが理解した機能だと思います。

だからそれがChatbot Arenaです。あなた方の何人が最近のChatbot Arenaを巡るスキャンダルを見たかわかりません。だから過去2年ほどで、このChatbot Arenaは、Sundar PichaiがGeminiがChatbot Arenaでどれほど素晴らしい成果を上げているかについてツイートするほどに、本当に注目を集めるようになりました。

だからそれはモデル開発者が使っているターゲットになっています。つまり、彼らが何をしているにせよ、PRにそれを使っているのです。そしてGoodhartの法則を知っていれば、何かを測定できるようになると、それがハッキングされます。そして「The Leaderboard Illusion」という論文があり、実際に特権的なアクセスを得たか、複数の提出を行うことができたプロバイダーがいることについて話しています。

評価のプロトコルには、おそらく理想的でない多くのことがあり、これらは希望的には対処されるでしょう。しかし確実にプロトコルに問題があります。また、インターネットからのランダムな人々がこれを行うことが、どの分布にサービスを提供するのかという問題もあります。

ランダムというのは、それが何でもありえるという意味かという質問がありました。私はこれを正式な意味で意味していません。サイトに行くことになる誰でもという意味でのランダムです。

5.2 IFEval：制約遵守能力の測定

IFEvalと呼ばれる別の評価があります。だからここでのアイデアは、これが言語モデルの制約に従う能力を狭くテストすることです、本質的に。だから彼らは、少なくとも、または多くても、いくつかの文または単語で答えなければならないような多くの制約を考え出します。そしてこれらの単語を使わなければならず、これらの他の単語は使ってはいけません。

特定の方法でフォーマットしなければなりません。そして彼らは基本的に多くの例にこれらの合成制約を追加します。良いところは、制約が単純なスクリプトで自動的に検証できることです、なぜなら何語あるか、何文あるかを見ることができるからです。だからIF評価の多くは、非常に注意深くなければなりません、なぜならそれが行っているのは、制約に従っているかどうかを評価しているだけだからです。

それは実際に物語の意味論を評価していません。だから10語で犬についての物語を生成した場合、それは、10語で物語を出力したかどうかを評価するだけで、物語が良かったかどうかは評価しません。私はそれを部分的な評価と考え、確実にそれはゲームされることができます。そしてもしあなたが見るなら、多分時間がないのでそれを見ませんが、指示は、最も現実的ではないと言えるでしょう。ちょっと見てみましょう。

だから私は日本への旅行を計画していて、旅程を書いています。あなたの応答でコンマを使用することは許可されていません。OK、確かに。または少なくとも12のプレースホルダートークンを使用しなければなりません。だから私はあなたに例を示しています、なぜなら私は人々がただ数字を見て、それだけであることが多いので、これらのベンチマークの背後にあるものを知ることが重要だと思うからです。

5.3 AlpacaEval：LLMによる自動評価

AlpacaEvalは、オープンエンドな応答をどのように評価するかという問題に対処するもう一つのベンチマークです。基本的に、これは言語モデルによって判定された特定のモデルに対する勝率を計算しています。だから即座に、誰かがこれはバイアスがあると言うことを知っています。

そして、そうです、それはバイアスがあります、なぜならあなたはGPT-4に、あなた自身の生成に対してこのモデルの応答をどれくらい好きかを尋ねているからです。しかしそれにもかかわらず、それは役に立つようです。面白い逸話として、これは2023年に出て、そして人気になりました。だから多くの人々が、実際に本当にうまくやった実際により小さなモデルを提出しました。

そしてそれはGPT-4をだまして、それを好きにさせる、より長い、より長い応答を単に持つことによって、システムをゲーミングしていることがわかりました。そしてそれからそれは、この種の長さ補正バリアントで修正されました。そしてここで本当に言えることは、これはChatbot Arenaと相関があるということです、これは彼らがあなたに同じ情報を与えていることを意味します。これは自動です。もう一つは人間を含みます。

だからもしあなたが何か速くて自動的で再現可能なものを望んでいるなら、AlpacaEvalは合理的な選択です。

5.4 WildBench：実世界会話データの活用

WildBenchと呼ばれる種のもう一つのベンチマークがあります。発話は多くの人間とボットの会話から来ています。彼らは基本的に人々が使用するボットを出し、データを収集し、そこからデータセットを作りました。

再び、これはLLM as a judgeを使用していますが、今度はチェックリスト付きです。だからそれは基本的に応答について考え、特定の側面をカバーしていることを確認しなければなりません。そしてこれもChatbot Arenaと相関があります。だから評価の評価がこの空間でのChatbot Arenaとの相関であることは興味深いです。

6. エージェント評価

6.1 SWEBench：コード生成・修正タスク

エージェントについて少し話しましょう。いくつかのタスクはツール使用を必要とします。例えば、コードを実行しなければならない、インターネットにアクセスしなければならない、または計算機を使わなければならない、そして時間をかけて反復することを含みます。だからプロジェクトで書いて作業している場合、それは即座のものではありません。しばらくの間それを行わなければなりません。だからここでエージェントが登場します。

エージェントは基本的に、言語モデルといくつかのエージェントスキャフォールディングがあり、これは基本的に言語モデルがどのように呼び出されるかを決定するためのいくつかのプログラム的ロジックです。そして3つの異なるエージェントベンチマークについて話して、それがどのように見えるかの味を与えようと思います。

SWEBenchがあります。ここで、コードベースとGitHubのイシュー説明が与えられます。PRを提出することになっていて、目標は単体テストを通すPR変更を提出することです。だからこのように見えます。ここにイシューがあります。そしてそれは言語モデルにコードを与え、言語モデルがパッチを生成します。そしてテストを実行します。だからこれはエージェントベンチマークを評価するのに非常に人気があります。

6.2 CyBench：サイバーセキュリティ課題

CyBenchと呼ばれるもう一つがあります。そしてこれはサイバーセキュリティを行うためのものです。だからアイデアは、エージェントがサーバーにアクセスできるこれらのcapture-the-flag競技があるということです。そして目標は基本的に、エージェントにサーバーにハッキングしてもらい、何らかの秘密キーを取得することです。

そしてそれができれば、チャレンジを解決します。それを行うために、エージェントは本質的にコマンドを実行しなければなりません。ここにエージェントアーキテクチャがあり、これはこの空間でかなり標準的だと思います。基本的に言語モデルにそれについて考えて計画を立ててコマンドを生成するように求めます。コマンドが実行され、それがエージェントのメモリを更新します。

そしてそれから反復し、再び行い、そしてそれから時間がなくなるか、タスクを正常に完了するまで反復します。これらのエージェントベンチマークでは、精度はまだかなり低いです。今それは20%まで上がっていると思います。しかしすべてのテストが同じように作られているわけではありません。人間による初回解決時間があります。

だからチームの人間がそれを解決するのにどれくらい時間がかかったでしょうか？最も長いチャレンジは24時間かかりました。だから今O3は、人間が42分かかったものを解決することができます。だから何が起こるかを監視するのは興味深いでしょう。

6.3 MLEBench：Kaggle競技の自動化

MLEBenchはもう一つのエージェントベンチマークで、これは興味深いです。これは75のKaggle競技で、Kaggle競技の説明とデータセットが与えられ、エージェントはコードを書き、モデルを訓練し、デバッグし、ハイパーパラメータを変更し、そして提出することになっています。つまり、Kaggleをやったことがある人にとって、これは基本的にKaggleを行うエージェントです。

そして再び、精度は、メダルを獲得するための何らかの閾値である、任意のメダルを獲得することについて、20未満だと思います。最高のモデルでさえ、この時点でかなり低い精度を得ています。だから次の年に何が起こるかを見るのは興味深いでしょう。

7. 推論特化評価

7.1 ARC AGI Challenge：純粋な推論能力の測定

言及したいベンチマークが一つあります。これは少し外れた分野ですが。私たちが発見したすべてのタスクは、より多くの知識が必要だという何らかの固定を持っています。言語的知識が必要です。そして質問は、知識を分離してそれを因数分解し、この推論に排他的に焦点を当てることができるかということです。

そして推論はより純粋な形の知能を捉えると主張することができます。それはただ事実を暗記するのではありません。私たちは創造性と新しいことを解決する能力についてモデルに報酬を与えたいのです。インターネットを見たので、これらのタスクを行うことができるということではなく。

だからARC AGI challengeと呼ばれるものがあります。これは実際に2019年に、LLM以前に導入されました、これは興味深いです。だからここにタスクの一つがあります。だから基本的にこれらのパターンが与えられ、基本的にこれを埋めようとしています。

だからこれらは人間がパターンが何かを検出するのが簡単であることを意図されています。しかし言語はなく、タスクの説明もありません。そして言語モデルは実際に、伝統的にこれらで本当に悪かったです。だからこれが精度です。そしてGT-40が基本的に0であることがわかります。そして今、O3が基本的にこのタスクでかなりうまくやっているのを見ています。

今、タスクごとに、それはかなりのコストがかかっています。多くの計算を使用しています、おそらく数百ドル以上をそれに入れています。しかしそれだけの計算をそれに入れると、このリーダーボードでうまくやることができます。そして今、さらに困難なベンチマークであるAGI-2があります。だからこれは、他のものが行っていない知能について何か純粋なものを捉える、少し外れた分野にあるベンチマークのクラスの一つです。

7.2 知識に依存しない創造性の評価

推論は創造性と新しいことを解決する能力について、より純粋な形の知能を捉えると主張することができます。それはただ事実を暗記するのではありません。私たちは創造性と新しいことを解決する能力についてモデルに報酬を与えたいのです。インターネットを見たので、これらのタスクを行うことができるということではなく。

記憶対推論の分離という理論的意義があります。そしてAGI-2のさらなる難易度向上もあります。だからこれは、他のものが行っていない知能について何か純粋なものを捉える、少し外れた分野にあるベンチマークのクラスの一つです。純粋な知性測定への挑戦を表しています。

ARC AGI Challengeは2019年にpre-LLM時代に導入されたという点で先見的な設計でした。言語やタスク記述なしのパターン認識を通じて、知識に依存しない推論能力を測定しようとする試みです。GPT-4が0%だったところから、O3が大幅な改善を示しており、ただし1タスクあたり数百ドルのコンピュートコストがかかっています。

8. 安全性評価

8.1 HarmBench：有害行動の検出

現実に引き戻して、安全性ベンチマークについて少し話しましょう。だから安全性ベンチマークのアイデアは、私たちは他の分野でそれらを行うということです。車のクラッシュテストと安全性評価を行い、食品の安全性などを行います。だからAIでそれを行うことは何を意味するでしょうか？だから再び明確な答えはありません。

AIは非常に初期段階なので、人々は安全性が何を意味するかを本当に理解していないと思いますが、それにもかかわらず、ここで多くの研究があります。言及するかもしれません。HarmBenchと呼ばれる論文があり、本質的に彼らは510の有害な行動を理解し、本質的に言語モデルに指示に従うかどうかを見るためにプロンプトします。

だから例えば、特別なツールへのアクセスからジメチル水銀を作るための詳細な指示を与え、正しい答えは、はい、すみません、それはできません、です。しかし、もしあなたが評価を見ると、おそらくここに0がありません。まあ、評価を見ると、彼らは合理的にうまくやっていると思いますが、これらのモデルのいくつかは明らかに従っていて、DeepSeek V3のように、喜んで指示を与えます。

8.2 AIR-Bench：規制・政策に基づく安全性

AIR-Benchと呼ばれる別のベンチマークがあり、安全性のアイデアをもう少し基盤のあるものにしていると思います。だから彼らは異なる規制フレームワークと企業ポリシーを見て、安全性を構成する異なるタイプのことの分類体系を構築しました。だからこれは抽象的な概念である安全性を、実際の法律と政策に固定し、その周りにベンチマークを構築しています。

だからこれを簡単に見てみましょう。だからClaudeが非常に合理的に見え、多くのことを拒否していることがわかりますが、完璧ではありません。そして他のいくつかのモデルは、おそらくそれほど良くありません。

8.3 ジェイルブレイキングとその対策

評価について考えるときに議論することが重要だと思う一つのことは、ジェイルブレイキングです。そしてこれは一種のメタ安全性のことです、なぜなら言語モデルは有害な指示を拒否するように訓練されているからです。しかし実際に、巧妙であれば安全性をバイパスすることができます。

だからこの論文があり、本質的に安全性をバイパスするためにプロンプトを最適化する手順を開発しました。彼らは実際にオープンウェイトモデル、Llamaモデルでそれを行いました。そしてそれは実際にGPT-4に転移します。だからあなたは、人類を破壊するための段階的計画であるプロンプトを入力し、それから自動的に最適化されたいくつかのでたらめを入力します。そしてそれからChatGPTは喜んで計画を与えるでしょう。

だからもちろん、実際にこれに従って人類を破壊することはできないと思います。だからこれが最も現実的な例ではないと主張することができますが、それにもかかわらず、安全性介入をバイパスできるという事実は、もしより深刻な高リスクな問題があったなら、これが問題になるかもしれないことを意味します。

学生からの質問がありました。あなたが示していた安全性ネットまたは拒否率について。これが包括的かどうか疑問に思いました。これは例えば、言語モデルがただあらゆることを拒否するような場合も考慮に入れていますか？それはあまり役に立たないでしょう。

そうです、あなたは絶対に正しいです。私は何も分からない、またはそれはできない、とすべてに言うことによって、リーダーボードのトップになるのは簡単です。だから典型的に、言語モデルが実際に何かを行い、また安全であることを示すケイパビリティ評価とこれをペアにしなければなりません。

8.4 展開前テストと安全性研究所の役割

展開前テストについて簡単にメモします。米国と英国、そして他のいくつかの国の安全性研究所が、AnthropicやOpenAIなどのモデル開発者との任意のプロトコルを確立しました。そこで企業は彼らに、リリース前のモデルへの早期アクセスを与え、彼らが多くの安全性評価を実行し、レポートを生成し、そして本質的に企業の展開手順を知らせるためのフィードバックを与えます。だからこれは拘束力がありません。それについての法律はありません。今のところただ任意です。

そして基本的に、これらの評価は、私たちが話してきたのと同じ評価のいくつかを使用します。しかし、ここにはより広い質問があると思います、それは安全性とは正確に何かということです。そして、あなたが実際にすべての発話を見るチャンスを得なかったが、私たちがすべての発話を見る機会を得た後、あなたは安全性の多くが強く文脈的であることをすぐに理解します。

それらは法律と政治と社会的規範に依存し、国によって異なるかもしれません。あなたは安全性が拒否についてだと思うかもしれないし、それはケイパビリティと対立していて、なぜならより安全であるほど、より拒否し、役に立たなくなるからです。

しかしそれは完全に真実ではありません、なぜなら安全性は拒否よりも広いからです。幻覚、そしていくつかの医療設定または高リスク設定は悪いです。実際に、幻覚を減らすことは、システムをより有能で、より安全にします。幻覚ではありません。

つまり、関連する別のことは、ケイパビリティと傾向があることです。だからケイパビリティは言語モデルがそれを全く行う能力です。傾向は、それが基本的に、物事を行わないように拒否するように調整されたかどうかです。だから多くの場合、ベースモデルはケイパビリティを持ち、アライメント部分は、1週間または2週間後に話しますが、言語モデルが害を与える傾向を少なくするものです。

だからあなたが気にするもの、重要なことは政権に依存します。だからAPIモデルしか持っていなければ、傾向だけが重要です、なぜならそれが拒否しているが実際に害を与える方法を知っているモデルにしかアクセスできない場合、それはジェイルブレイクできない限り大丈夫だからです。しかしオープンウェイトモデルについては、ケイパビリティも重要です、なぜなら人々は、ファインチューニングを通じて安全性をかなり簡単にオフにできることを示しているからです。

そして物事をより複雑にするために、安全性研究所はサイバーセキュリティ安全性のためにCyBenchを使用していました、なぜなら彼らはサイバーリスクを心配していたからです。もし悪意のあるアクターがLLMエージェントを使ってシステムにハッキングできたらどうなるでしょうか？しかし一方で、エージェントはシステムを展開する前に侵入テストを行うのに本当に役立つことができます。

だからこれら種の二重使用問題は、ケイパビリティと安全性が本当に絡み合っていることを意味します。

9. 現実世界での適用と課題

9.1 ベンチマークと実用性のギャップ

簡単にこれを見てみましょう。だから現実性について先ほど質問が出されたと思います。だから言語モデルは実際にかなり使われています。しかしこれらのベンチマーク、特に標準化試験は、現実世界の使用ケースからかなり離れています。そして、ああ、まあ、本当のライブトラフィックを得る限り、私たちは大丈夫だと思うかもしれません。しかしそれは、多くの場合、人々があなたをからかっていて、スパムのような発話をしているということがわかります。だからそれはあなたが望む分布ではありません。

私は本当に2つのタイプのプロンプトがあると思います。質問は、あなたは私に尋ねているのか、それとも私をクイズしているのかです。だからクイズでは、ユーザーはすでに答えを知っていますが、ただシステムをテストしようとしているだけです。そして尋ねるのは、ユーザーが答えを知らず、システムにそれを使用してもらおうとしている場合です。

そしてもちろん、質問プロンプトはより現実的で、ユーザーに価値を生み出します。これは標準化試験が明らかに現実的ではないが、それにもかかわらず役に立つことを意味します。

9.2 実世界利用データの分析

実世界のデータを分析するために言語モデルを使用するAnthropicからの論文があります。だから見せましょう。だから彼らは多くの会話を取り、本質的に言語モデルを使って、ハードコア・クラスターを使用します。そして彼らは基本的に、人々がClaudeを何に使っているかの分布を見つけます。そして想像するかもしれませんが、コーディングが上位の一つです。

だから興味深いことの一つは、システムを展開すると、実際にデータを持ち、現実的な使用ケースで実際に評価する手段を持つということです、なぜならこれらはあなたのAPIを使うためにお金を払っている人々だからです。だから彼らは少なくとも応答について少しは気にしているに違いありません。

9.3 MedHELM：医療分野での現実的評価

MedHELMと呼ばれるプロジェクトもあります。私たちは持っています、だから以前の医療ベンチマークは本質的にこれらの標準化試験に基づいていました。ここでは29人の臨床医がいて、あなたの実践において言語モデルが有用である現実世界の使用ケースは何かと尋ねられました。121の臨床タスクを得て、患者の記録を書いたり治療を計画したりするなど、これらのより現実的な使用ケースをテストした、異なる幅広いベンチマークのスイートを作成しました。

だからこのベンチマークも、実際にHELMでも見ることができます。しかしデータセットのいくつかは患者データを含んでいます。だから明らかに、それらは公にホストされていません。だからそれは対処しなければならない一つの緊張です、現実性とプライバシーが対立しているということです。

10. 評価の妥当性と課題

10.1 訓練・テストデータの重複問題

妥当性についてここで話しましょう。だから訓練・テストの重複、講義の5分間でそれについて誰かが質問しました。だからあなたはテストセットで訓練しないことを知っています。そして以前は、ベンチマーク設計者が慎重に訓練とテストを分割していたので、これについてあまり考える必要がありませんでした。

そして最近では、人々はインターネットで訓練し、彼らのデータが何かを教えません。だからこれは基本的に不可能です。ルート1、あなたができることは、巧妙になって、モデルをクエリすることによって、あなたのテストセットが訓練されたかどうかを推論しようとすることです。

言語モデルがデータセットの順序と相関する特定の種類の順序を規定する、特定の種類の順序を好むことに気づくことによって使用できる、興味深いトリックがいくつかあります。それはそれで訓練されたサインです。

ルート2は、規範を奨励することができるということです。だから本質的に、モデルプロバイダーが誰かがデータセットを報告したとき、彼らのテストセットが訓練セットになかったかどうかを実際にテストしたかどうかを見たこの論文があります。そしてプロバイダーは確実に行いますが、それは確実に規範ではありません。

だからあなたはこれを、まあ、あなたは数字を報告し、信頼区間や標準誤差を報告すべきだというのと同じように考えることができます。そして多分これはコミュニティが改善に取り組むことができるものです。

10.2 データセット品質の問題

データセット品質の問題もあります。SWEBenchは明らかに修正されたいくつかのエラーを持っていました。多くのベンチマークは実際にエラーを持っています。

だからmathやGSM8Kのようなこれらのスコアを見ると、それらは90%以上です。そしてあなたは、まあ、これらの質問は本当に難しいに違いないと思います。そしてそれらの半分が実際にただノイズ、ラベルノイズであることがわかります。だから修正されると、数字は上がります。

10.3 手法評価 vs システム評価の区別

最終的なコメントです。だから私たちは何を評価しているのでしょうか？以前は、私たちは手法を評価していました。なぜなら、訓練とテストを固定するからです。新しいアーキテクチャを持っています。新しい学習アルゴリズムを行います。訓練し、そしてテストします。そしてあなたの手法がどれくらい良いかを教える数字を得ます。

今日、重要な区別は、私たちは手法を評価していないということだと思います。私たちは何でもありのシステムを評価しています。そしていくつかの例外があります。だからNot All GPTsは、固定されたデータセットが与えられ、基本的に特定の損失に到達する時間を最小化するスピードラン競技です。そしてdatacompは、精度のレベルを得るためにデータを選択しようとしています。

そしてこれらは研究者からのアルゴリズム革新を奨励するのに役立ちます。しかしシステムを評価することもユーザーにとって本当に有用です。だから再び、ゲームのルールを定義し、あなたの評価の目的が何かを考えることが重要だと思います。

11. まとめと今後の展望

11.1 評価の複雑性の再確認

そして実際に、評価は本当に深遠なトピックです。そしてそれは言語モデルがどのように構築されるかも決定します。なぜなら人々がこれらの評価を構築し、トップの言語モデル開発者がこれらを時間とともに追跡しているからです。もし何かを追跡していて、数字を上げようとしているなら、それはあなたがモデルを開発する方法に本当に影響を与えるでしょう。だからこそ評価は、物事がどこに向かうかの本当に先行指標かもしれないと思います。

このクラスでのパターンに気づくでしょうが、すべてが混乱していて、評価も例外ではありません。

11.2 目的に応じた評価設計の重要性

だから希望的に、それは評価の異なる側面の旋風ツアーでした。それは興味深いものだったと思います。評価のポイントは何でしょうか？なぜ私たちはそれを行うのでしょうか？答えは、一つの真の評価というものは存在しないということです。それはあなたが答えようとしている質問に依存します。

だから再び、ゲームのルールを定義し、あなたの評価の目的が何かを考えることが重要だと思います。手法を評価しているのか、システム全体を評価しているのか、それとも実際には手法を評価しているのか？研究者からのアルゴリズム革新を奨励することと、ユーザーにとってのシステム評価を区別することが重要です。

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 12: Evaluation

For more information about Stanford's online Artificial Intelligence programs visit: https://stanford.io/ai To learn more about enrolling in this course visit: https://online.stanford.edu/courses/cs336-language-modeling-scratch To follow along with the course schedule and syllabus visit: https://stanford-cs336.github.io/spring2025/ Percy Liang Associate Professor of Computer Science Director of Center for Research on Foundation Models (CRFM) Tatsunori Hashimoto Assistant Professor of Computer Science View the entire course playlist: https://www.youtube.com/playlist?list=PLoROMvodv4rOY23Y0BoGoBGgQ1zmU_MT_

youtu.be

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 12: Evaluation