2025-12-18 新しいことを学ぶ力 ― ARC-AGIが測るAIの真の知能

出展元

https://www.youtube.com/watch?v=pBlIgs6w7Ss

初回調査日

Mar 24, 2026 12:40 PM

キーワード

ARC-AGI汎化知能推論パラダイムAGIベンチマーク

※本記事は、Y CombinatorのDiana Hu氏とARC Prize FoundationプレジデントのGreg Kamradt氏による対談動画「How Intelligent Is AI, Really?」の内容を基に作成されています。本動画はNeurIPS 2025カンファレンス期間中に収録されたものです。動画はこちら（https://www.youtube.com/watch?v=pBlIgs6w7Ss ）でご覧いただけます。本記事では動画の内容を要約しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈についてはオリジナルの動画をご覧いただくことをお勧めいたします。またY Combinator（@ycombinator）およびARC Prize Foundation（@arcprize）のソーシャルメディアアカウントもご参照ください。

1. ARC Prizeの使命とCholletによる知能の定義

1-1. ARC Prize Foundationの概要と使命

Diana： 本日はARC PrizeのプレジデントであるGregをお迎えしています。EuropeのYC 2025でお会いできて光栄です。まず、ARC Prize Foundationはどのような活動をしているのか教えていただけますか。

Greg： ARC Prize Foundationはノンプロフィットの組織ですが、通常の非営利団体とは少し異なります。私たちは非常にテクノロジー志向であり、ミッションは「人間と同じように汎化できるシステムに向けた、オープンな進歩を引き寄せること」です。特定の企業や研究機関に閉じることなく、世界中の研究者やチームが参加できるオープンな形で、AGI（汎用人工知能）への進歩を加速させることを目指しています。

1-2. 従来の知能観との違いとCholletの再定義

Diana： Francois Cholletは知能を「新しいことをより効率的に学ぶ能力」と定義していますね。ファウンダーたちが様々なモデルリリースのベンチマーク、たとえばMLUのスコアを追いかけているなかで、この定義はどのような意味を持つのでしょうか。

Greg： ARC Prizeにはとても明確な知能の定義があります。これはCholletが2019年に発表した「知能の測定について（On the Measure of Intelligence）」という論文に基づいています。一般的に知能というと、SATテストで何点取れるか、あるいはどれだけ難しい数学の問題を解けるか、という尺度で捉えられがちです。しかしCholletはそれとは全く異なる代替理論を提唱しました。それが「知能とは新しいことを学ぶ能力である」という定義です。この定義こそが、ARC Prizeの活動全体の基盤となっています。

1-3. AIの得意領域と汎化の困難さという気づき

Greg： AIがチェスで超人的な強さを持つことは既知の事実です。囲碁でも然りですし、自動運転においても同様です。しかし、ここで重要な問いが生まれます。それは、チェスで超人的に強いシステムが、まったく別のスキル、たとえば囲碁を新たに学べるか、ということです。実際にはそれが非常に難しい。チェス専用のシステムは囲碁を学ぶことができず、囲碁専用のシステムは自動運転を学ぶことができません。つまり、特定領域での高い性能と、新しい領域を学ぶ汎化能力はまったく別の話なのです。Cholletはまさにこの点を問題提起し、「特定タスクでの高スコアではなく、新しいタスクをどれだけ効率的に習得できるか」こそが知能の本質だと主張しました。この気づきがARC Prizeの存在意義そのものであり、私たちが目指す「汎化できるシステム」の定義に直結しています。

2. ARC-AGIが実際にテストすること、そしてLLMの惨敗

2-1. 「新しいことを学ぶ能力」を測るベンチマークとしての設計思想

Diana： Cholletの知能の定義に基づいて、ARC-AGIは具体的にどのようなことをテストするのでしょうか。

Greg： Cholletは知能の定義を提唱するだけでなく、「ではその知能を実際にどう測るか」というところまで踏み込みました。それがARC-AGIベンチマーク、当時はただ「ARCベンチマーク」と呼ばれていたものです。このベンチマークが優れているのは、人間もAIも同じテストを受けられるという点です。つまり、人間とAIを同じ土俵で比較できる、数少ない評価手段のひとつなのです。

2-2. 難化路線との対比と一般人解決可能レベルの維持

Greg： 他の多くのベンチマークが採用している方向性は、私が「PhD++問題」と呼ぶアプローチです。つまり、問題をどんどん難しくしていくというものです。MMLUがあり、MMLU+があり、今ではHumanity's Last Examというものまで登場しています。これらはすでに超人的なレベルに達しています。一方でARC-AGIは全く逆の発想に立っています。私たちは全てのベンチマーク問題を一般の人々が解けるかどうか検証したうえで収録しています。これは意図的な設計です。なぜなら、AIが解けないのに普通の人間が解ける問題が存在するということは、そこに「まだ何かが欠けている」という明確なシグナルになるからです。難しすぎる問題で高スコアを出しても、それは汎化の証拠にはなりません。

2-3. GPT-4の正答率4〜5%という事実と人間との歴然たるギャップ

Diana： 実際、2024年以前の大規模言語モデルはARC-AGIで散々な結果だったと聞いています。

Greg： そうです、本当に惨憺たる結果でした。2012年のImageNetの時代を振り返ると、当時はただ猫の画像を見せるだけでコンピュータを困らせることができました。それほどAIの能力は限られていたわけです。Cholletが2019年にARCベンチマークを発表し、そこから2024年まで時計を進めると、当時最先端だったGPT-4のベースモデル、つまり推論機能なしのモデルが、このベンチマークでたった4〜5%しか正解できなかったのです。普通の人間が解ける問題に対して、世界最高水準の大規模言語モデルがほぼ何もできなかった。これは非常に明確なメッセージです。高い言語能力や膨大な知識を持つことと、新しい問題を学習・推論によって解くことは、根本的に異なる能力なのだということが、この数字によって白日の下に晒されたのです。

3. 推論パラダイムのブレークスルーと業界標準化

3-1. o1リリース直後の正答率急上昇と推論パラダイムの変革的意義

Diana： GPT-4が4〜5%という結果だったとのことですが、その後に大きな変化があったと理解しています。何がきっかけだったのでしょうか。

Greg： o1、そしてo1 previewが初めてリリースされた直後に、私はすぐにARC-AGIでテストしました。すると正答率が一気に21%まで跳ね上がったのです。5年間でたった4〜5%だったものが、ほんの短期間でここまで上昇した。この数字の変化は非常に重要なシグナルです。何か根本的に異なるアプローチが導入されたということを示しています。そのアプローチこそが推論パラダイム、つまりモデルが答えを出す前に内部で段階的な思考プロセスを踏むという手法です。ARC-AGIはこの推論パラダイムの変革的な意義を、業界のどのベンチマークよりも早く、かつ明確に可視化することができたのです。

3-2. ARC-AGIが推論アプローチの重要性をいち早く特定したという経験

Greg： この経験から言えることがあります。ARC-AGIは単にAIの性能を測るツールであるだけでなく、AI研究における重要なブレークスルーがどこで起きているかを特定するツールとしても機能するということです。MMLUのような難化路線のベンチマークでは、推論パラダイムの導入がどれほど本質的な進歩をもたらしたかを捉えることは難しかったかもしれません。しかしARC-AGIは「新しいことを学ぶ能力」を直接測っているがゆえに、推論能力の向上がそのまま数値に反映されました。私たちはARC-AGIを通じて、推論こそが当時のAI進歩において変革的な要素であったということを明確に示すことができたと考えています。

3-3. 主要ラボによる採用と業界標準化、その位置づけ

Diana： 実際に今では多くの主要ラボがARC-AGIを採用していますよね。

Greg： そうです。直近12ヶ月を振り返ると、OpenAI、xAIのGrok 4、GoogleのGemini 3 ProとDeepThink、そして最近ではAnthropicのOpus 4.5と、フロンティアラボが次々と自社のモデルリリースにおける性能報告にARC-AGIを採用するようになりました。「私たちは今この最新モデルをリリースしました、そしてこれがARC-AGIでの性能です」という形で報告してくれることは、私たちにとって非常に嬉しいことです。ただ、ひとつ強調しておきたいのは、大手ラボによる採用はあくまで副次的なものだということです。ARC Prizeの本来のミッションは、個人研究者や小規模チームを含む幅広い研究者がオープンなAGI進歩に向けて取り組むことを鼓舞することにあります。大手ラボの採用はそのミッションを後押ししてくれますが、それをもってミッション達成とは言えません。ベンチマークが使われることと、真の汎化に向けた進歩は、別の話なのです。

4. バニティメトリクスとAI進歩における偽陽性

4-1. ベンチマーク採用とミッション達成は別物であるという警戒

Diana： 多くのチームがAI製品を出荷しようとしているなかで、よく見られる偽陽性、つまり進歩のように見えて実は進歩ではないものにはどのようなものがありますか。

Greg： その質問に答えるにあたって、私は今ほぼ研究者としての帽子をかぶっています。というのも、現在のAIの世界には2つの非常に異なる帽子があるからです。ひとつは「経済的価値を生み出す、製品を収益化する」という帽子。もうひとつは、私が身につけているほうの帽子、つまり「汎用知能をロマン的に追い求める」という帽子です。この視点の違いが、何を進歩と見なすかに大きく影響します。大手ラボがARC-AGIを採用してくれることは、私たちのミッションにとって確かに追い風です。しかしそれをもって「ミッションが完了した」「仕事が終わった」とは言えません。ベンチマークのスコアが上がることと、真に汎化できるシステムに近づくことは、必ずしも同じではないからです。

4-2. 経済的追求と汎化知能探求という2つの視点の対比

Greg： 経済的価値の観点からAIを見ると、特定のタスクで高いスコアを出すことが目標になりがちです。そしてそれは短期的には非常に合理的な判断です。しかし汎化知能を追求する視点から見ると、特定のベンチマークで高スコアを出すために最適化されたシステムが、本当に「新しいことを学ぶ能力」を持っているかどうかは全く別の問題です。私がAI進歩における偽陽性として最も気になるのは、まさにこの2つの視点が混同されてしまっているケースです。あるベンチマークで高スコアを達成したことをもって「AGIに近づいた」と主張するような動きが、業界全体で見られます。しかし私の目から見ると、それは真の進歩とは言えないことが多いのです。

4-3. RL環境依存アプローチへの批判と真の汎化に必要な条件の仮説

Greg： 具体的に言うと、強化学習（RL）環境の問題があります。著名なAI研究者たちが「RL環境さえ作れれば、そのベンチマークやドメインで高スコアを出せる」と言っているのをよく耳にします。私にはそれがまるでモグラ叩きのように見えます。あらゆるタスクに対してRL環境を作り続けるなんて、現実的に不可能です。将来登場する新しい問題に対して、そのたびにRL環境を用意するわけにはいかない。そしてAGIの核心にあるのはノベルティ、つまり新規性への対応です。これは私たちがARC-AGIにおいて隠しテストセットを設けている理由のひとつでもあります。RL環境を使ったアプローチで短期的なスコアの向上が得られることは認めます。しかし私がより重視したいのは、そのような環境を必要とせずに汎化できるシステムへの投資です。人間と比較してみてください。人間は新しいタスクを学ぶために、そのタスク専用のRL環境でトレーニングする必要はありません。真に汎化できるシステムとはそういうものであるべきだ、というのが私の考えです。

4-4. ノベルティへの対応がAGIの核心であるという考え方

Greg： 結局のところ、AGIにとって本質的なのは「これまで見たことのない問題に対処できるか」という点です。既知の問題をうまく解くことと、未知の問題に適応することはまったく異なります。RL環境を使ったアプローチはどうしても既知の問題への最適化になりがちで、未知の問題、つまりノベルティへの対応という観点では根本的な限界があります。私たちがARC-AGIで測ろうとしているのはまさにこの部分であり、それこそがAI研究において真に投資すべき方向性だと私は信じています。

5. ARC-AGIの進化の歴史とv3の設計思想

5-1. ARC-AGI 1・2の概要と静的ベンチマークとしての位置づけ

Diana： ここでARC-AGIのバージョンの歴史を少し振り返っていただけますか。v1、v2ときて、v3が近づいているとのことですが。

Greg： はい、まずARC-AGI 1は2019年にCholletが発表しました。彼はベンチマーク内の800のタスクをすべて自分一人で作成しました。これ自体が非常に大きな偉業です。そしてこのベンチマークは「知能の測定について」という論文とともに公開されました。次にARC-AGI 2ですが、これは2025年3月、つまり今年の初めにリリースしました。v1をより深化・強化したバージョンと捉えてください。ここで重要な点は、v1とv2はどちらも静的なベンチマーク、いわばメタスタティックなベンチマークであるということです。問題が固定されており、テスト受験者はその問題に対して答えを返すという一方向の構造になっています。

5-2. インタラクティブ形式への転換という設計思想

Greg： v3は来年リリース予定ですが、v1・v2との最大の違いはインタラクティブであるという点です。現実の世界を考えてみてください。私たちは常に何らかのアクションを起こし、環境からフィードバックを受け取り、それを踏まえて次のアクションを決める、という往復のループの中で生きています。私はこの構造こそが現実の本質だと考えており、将来AGIが宣言されるとすれば、それはインタラクティブなベンチマークによってなされるべきだという強い信念を持っています。静的なベンチマークへの回答能力だけでは、現実世界における汎化能力を真に測ることはできないのです。

5-3. 約150のゲーム環境と説明なしでゴールを自ら発見させる設計

Diana： v3には実際に触れてみましたが、なかなか面白いゲームでしたよ。

Greg： そうでしょう！v3は約150のビデオゲーム環境で構成されています。「ビデオゲーム」という言葉を使っているのは伝わりやすいからですが、本質的にはアクションを入力すると何らかの応答が返ってくる環境のことです。そしてv3で私が最もワクワクしている点は、テスト受験者に対して環境の攻略方法に関する一切の説明を与えないということです。英語もなければ、言葉も、記号も何もありません。ベンチマークをクリアするためには、まずいくつかのアクションを試みて環境がどう反応するかを観察し、そもそも何が最終ゴールなのかを自分で発見するところから始めなければなりません。これはARC-AGI 1・2と同様に、汎化能力、とりわけノベルティへの対応を直接問う設計です。

5-4. 一般人による事前検証と品質基準

Greg： v1・v2と同様に、v3のすべてのゲームについても一般の人々によるテストを実施します。会計士やUberドライバーといった、AIや技術とは無関係の方々です。各ゲームに10人を配置し、一定の最低解決率を下回るゲームは除外します。これは非常に重要な品質基準です。なぜなら、一般の人間が解けるのにAIが解けないゲームが存在するという状況こそが、「まだ何かが欠けている、新しい研究のアイデアが必要だ」という明確なシグナルになるからです。難化路線のベンチマークとは対照的に、私たちは常にこの「人間には解けるがAIには解けない」というギャップを可視化し続けることにこだわっています。

5-5. 将来のAGI宣言はインタラクティブベンチマークによるべきという信念

Greg： 私がv3に込めている思想をひとことで言えば、「現実世界はインタラクティブである」ということです。静的な問題への回答能力をいくら高めても、それは現実世界における汎化の証拠にはなりません。行動し、フィードバックを受け取り、適応するというループの中でこそ、真の知能は試されます。だからこそ、将来本当にAGIと呼べるシステムが登場したとき、その宣言の根拠となるべきはインタラクティブなベンチマークであるべきだと私は信じています。v3はその土台を作るための取り組みです。

6. 精度を超えた知能の測定と、ARC-AGI完全制覇が意味すること

6-1. 壁時計時間が知能指標として恣意的である理由

Diana： 知能を測る指標として、精度だけでなく、新しいスキルを習得するのにかかる時間やデータ量も重要だという考え方が広まっています。モデルを人間の時間軸で評価することにはどれくらい近づいているのでしょうか。

Greg： 時間、つまり壁時計時間については、私たちは少し異なる見方をしています。コンピュートをより多く投入すれば、処理時間はいくらでも短縮できます。つまり壁時計時間というのは、結局のところ「どれだけコンピュートを使うか」という意思決定の問題に過ぎず、知能そのものの指標としては恣意的だということです。どれだけ速く答えが出るかよりも、どのような過程でその答えに至ったかのほうが、知能を測る上ではるかに本質的です。

6-2. 真に重要な2つの効率指標：データ量とエネルギー量

Greg： 知能の方程式に真に重要なのは、壁時計時間ではなく2つの別の要素です。ひとつ目は、あるタスクを習得するために必要なトレーニングデータの量です。これはまさにDianaがおっしゃっていた点と重なります。ふたつ目は、その知能を実行するために必要なエネルギー量です。この2つの指標が非常に興味深いのは、人間に対してはすでにこの両方のベンチマークが存在するからです。あるタスクを習得するために人間が必要とするデータ点の数も、そのタスクを実行する際に人間の脳が消費するエネルギー量も、すでに測定されています。つまり、AIと人間を同じ土俵で比較するための参照値がすでに手元にあるのです。

6-3. v3での効率測定方法と2016年Atariブルートフォースとの対比

Greg： v3では精度だけでなく、この効率の観点も組み込んで測定します。v3はターン制のビデオゲーム環境ですので、上下左右などのアクションをひとつずつ入力していく形式です。私たちは人間がゲームをクリアするのに要したアクション数を計測し、それをAIのアクション数と比較します。そしてAIの性能を、観測された平均的な人間のパフォーマンスに正規化して評価するという仕組みです。この設計の背景にあるのは、2016年のAtariゲームへの挑戦と対比するとわかりやすいです。当時のAIはブルートフォースアプローチを取っており、ゲームをクリアするために数百万、数十億フレームのゲーム映像と、同様に膨大な数のアクションを必要としていました。空間を力任せに探索することでスコアを稼いでいたわけです。v3ではそのようなアプローチは許容しません。人間と同程度のアクション数でゴールに到達できるかどうかを問うことで、ブルートフォースではなく真の適応的学習能力を測ります。

6-4. ARC-AGI完全制覇はAGIの必要条件であるが十分条件ではないという整理

Diana： 最後に魔法の杖を振って、明日突然あるチームがARC-AGIのベンチマークで100%を達成したとしましょう。世界はAGIに対する認識をどのように更新すべきでしょうか。また世界はどう変わるでしょうか。

Greg： これは非常に深いテーマで、いくらでも掘り下げられます。Cholletは当初から一貫して「ARC-AGIを解くものはAGIにとって必要条件であるが、十分条件ではない」と述べています。つまり、ARC-AGI 1と2を解くシステムはAGIそのものではありませんが、汎化能力の権威ある証拠にはなります。そしてv3については、それをクリアしたシステムはAGIではないものの、「システムが汎化できる」という、これまでで最も権威ある証拠になると私たちは主張しています。100%を達成したからといって即座にAGI宣言とはならないのです。

6-5. 達成チームへの分析姿勢とARC Prizeの長期的目標

Greg： もし明日そのようなチームが現れたとしたら、私たちはまずそのシステムを詳しく分析したいと思います。どこにまだ失敗点があるのかを特定し、本当に汎化と呼べる能力を持っているのかを検証する必要があります。そして優れたベンチマーク設計者として、私たちは世界を真のAGIに向けて導き続ける役割を担っています。ARC Prizeとして私たちが目指しているのは、「本当のAGIがいつ達成されたかを完全に理解し、それを宣言できる立場に自分たちを置くこと」です。もし明日そのチームが現れたとしたら、ぜひ直接話し合いたいですね。