※本記事は、MIT Sloan Management Reviewが制作するポッドキャスト「Me, Myself, and AI」のエピソード「Challenging the Average With Open-Source AI: Hugging Face's Thomas Wolf」の内容を基に作成されています。ポッドキャストの詳細情報とトランスクリプトは http://bit.ly/45wPRD8 でご覧いただけます。本記事では、ポッドキャストの内容を要約しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルのポッドキャストをお聴きいただくことをお勧めいたします。
登壇者紹介:
Thomas Wolf(トーマス・ウルフ)氏 は、協働型AIプラットフォームHugging Faceの共同創設者兼チーフサイエンティフィックオフィサーです。複雑な研究、モデル、データセットを広くアクセス可能にするオープンソースソフトウェア(OSS)の作成を専門としています。また、BigScience Workshopなどのプロジェクトを通じて、学術界と産業研究所の間のギャップを縮小することを目指し、AIと機械学習の研究におけるオープンサイエンスを推進しています。さらに、AI、機械言語、自然言語処理に関する教育コンテンツの執筆・制作も行っており、参考書『Natural Language Processing with Transformers』、『The Ultra-Scale Playbook』、ブログ、動画などを発表しています。
Sam Ransbotham(サム・ランズボサム)氏 は、Boston Collegeのアナリティクス教授であり、本ポッドキャストのホストを務めています。2014年以来、MIT Sloan Management Reviewでデータ、アナリティクス、AIに関する研究を行っており、研究論文、年次産業レポート、ケーススタディ、そして12シーズンにわたるポッドキャストエピソードを通じて、AIの成功と誇大広告を区別する洞察を提供しています。
1. Hugging Faceとオープンソースの本質
Sam: 今日のゲストはHugging Faceの共同創設者でチーフサイエンティフィックオフィサーのTom Wolfさんです。まず、Hugging Faceについて、リスナーの中には馴染みのない方もいらっしゃるかもしれないので、会社が何をしているのか、そしてあなたの役割について簡単に説明していただけますか。
Tom: もちろんです。Hugging FaceはオープンソースのAIプラットフォームです。私たちは、オープンソースのすべてのAIモデルへのアクセスを提供しています。つまり、これらは基本的にどこでもダウンロードして実行できるモデルということです。現在AIモデルを使用する場合、ChatGPT、Anthropic、Googleといった最も広く普及しているサービスに行くという選択肢があります。しかし、時には自分のデータセンターでAIモデルを実行したい場合や、特定のハードウェア上で実行したい場合があります。それはローカルなハードウェアかもしれませんし、即座の応答が必要なためにより高速なチップである必要があるかもしれません。ほとんどの場合、オープンソースのAIモデルを選択することになります。これは基本的にダウンロードできるモデルです。
Hugging Face上には現在、このようなモデルが400万近くあります。そして、5秒ごとに1つの新しいモデルが公開されています。最も有名なものの中には、MetaのLlamaシリーズがあります。また、最近最も多くの採用と注目を集めたものの一つは、今年1月にリリースされたDeepSeekで、リリースと同時に株式市場をクラッシュさせるほどの影響を与えました。
過去8年間、Hugging Faceはこのプラットフォームを構築し、モデルを共有したりダウンロードしたりする人々やチームのコミュニティと共に成長させてきました。このコミュニティは現在、私たちが「AIビルダー」と呼んでいる約1,000万人のユーザーで構成されています。また、モデルのホスティングだけでなく、モデルの訓練、ファインチューニング、評価に使用されるデータセットのホスティングにも拡大しています。そして最近では「Spaces」と呼ばれるものも提供しています。これは、これらすべてのモデルをテストするためのシンプルなローコードの方法です。
Sam: ここで多くの人々がソリューションを提供していますが、人類の歴史を通じた技術開発を振り返ってみると、チップが登場し、Bell LabsやIntelが現れてプロセッサ用のファブを構築しました。これらはどれもオープンソースではありませんでした。なぜここではオープンソースが重要なのでしょうか。
Tom: オープンソースは、ある意味で常に重要だったと思います。ただ、オープンソースはコンピュータサイエンスにおいて、より長期的なゲームであることが多いのです。例えば、2000年やそれ以前の年代を振り返ると、基本的にMicrosoftが最大のオペレーティングシステムの一つであり、Linuxはどちらかというとファナティックやギーク向けのものでした。しかし、20年後の現在に早送りすると、Unixは実際にすべてのエンタープライズソフトウェアとエンタープライズクラウドの基礎となっています。基本的に、ほとんど常に何らかのバージョンのLinux上で実行されています。おそらく現在消費者向けラップトップで最も広く普及しているMac OSでさえ、Windowsベースに対する最大の競合の一つですが、それ自体がUnixコアに基づいています。
このように、オープンソースには長期的に見て非常に魅力的な利点があるというトレンドがあります。明らかに短期的には、クローズドソースでより速く進むことができます。それはクローズドモデルでも見られることです。より速く反復できます。モデルを訓練するために大量の資本を調達できます。最も高額なAI研究者を獲得しようとして、彼らに莫大な金額を支払うこともできます。
私たちはオープンサイエンスを強く推進し続けており、今週の火曜日にSmallLM3という新しいモデルを公開しました。これは非常にスマートなモデルですが、最高のものではありません。しかし、30億パラメータという範囲なので、ラップトップ上で、さらにはスマートフォン上でも実行できるサイズです。そして、すべてのデータ、すべてのレシピ、このモデルを構築する方法に関するすべての知識を同時に共有することを決定しました。これらのモデルから収益を得ていないので問題ありません。そして、これに基づいてモデルを構築したい人、これに似たものを作りたい人、このタイプのモデルを拡張したい人が、開始するために必要なすべての知識を持つことができるので、これは非常に良いことだと考えています。
オープンソースはAIにおいて多くの方法で定義できると思いますが、最も急進的な方法は、すべてを共有すると言うことだと考えています。データを共有し、コードを共有し、レシピを共有します。このモデルを構築する方法に関するすべての細かい詳細について、非常に長いブログ投稿も書きました。これをおそらく完全な論文にする予定です。これらすべてを公開し続けています。GPU クラスター上でLLMを効率的に訓練する方法についての本も現在作成中です。基本的に、これらすべてが本当にアクセス可能であるべきだと考えています。
ただ、私がオープンソース絶対主義者であるという印象を与えたくはありません。両方とも興味深い利点と欠点があると思います。そして、両方が一般的にAIにおいて共存すると考えています。
Sam: ハードウェアと比較すると、興味深い比較かもしれません。Bell Labsは当時、主にソフトウェアを開発していましたが、ソフトウェアはおそらくずっとニッチで、ソフトウェアとハードウェアははるかに密接に結びついていました。ハードウェアと比較すると、いくつかの違いがありますが、オープンソースハードウェアにも興味深い利点と指摘すべき点があると思います。実際、これはHugging Faceで最近始めたことで、ロボティクスの分野です。
Tom: 今年、ロボティクス分野でPolandというオープンソースハードウェア企業を買収しました。そこには確かに興味があると思います。私にとっての一般的なアイデアは、長期的にハードウェアを見る方法の多くは、ソフトウェアを使って再発明できるということです。
Sam: それについて話したいと思います。もう少し深く掘り下げていきたいと思います。ただ、クレイジーな話題に飛びすぎたくはありませんが、特に今取り組んでいるHope Jr.やロボティクスのイニシアチブについては話していただけますか。それをしながら、少し押し返したいのですが、もはやハードウェアとソフトウェアをどう定義するのかさえわかりません。ファームウェアもあるし、ソフトウェアスタックには非常に多くのレイヤーがあります。伝統的に、あなたが挙げたLinuxのようなオープンソースがあったとしても、それはベンダー固有でプロプライエタリなファームウェアの上に構築されている可能性があります。つまり、それらのスタック内でさえ、複雑になります。では、ハードウェアについて話しましょう。Hope Jr.について話したいと思います。
Tom: これは非常に興味深いと思います。一つ、少し未来的なことですが、Hugging Faceでの私の仕事は主に、これから来るものについて考えることです。だから、AIにおける来年と今後数年について考えることに多くの時間を費やしています。あなたが言っているように、ソフトウェアとハードウェアの間の境界は、おそらく再び小さくなっていると思います。両者が本当に大きく分離していた時期がありました。最初はすべてが同じだったかもしれません。なぜなら、誰もがハードウェアに非常に近かったので、基本的にソフトウェアと呼ぶようなもの、大きな抽象化のようなものは実際にはありませんでした。
そして現在、興味深いことに、このギャップを埋め、非常に低レベルに戻る傾向が見られます。完全に考え抜いていないいくつかのトレンドがありますが、私が見ているのは、例えば、人々がハードウェアの構築プロセスを高速化するために再びAIを使用していることです。これには、機械部品のためのコンピュータ支援開発の両方、そしてチップやこの種のものといったハードウェアも含まれます。そして、AIを使用することで、ハードウェアで何かを開発したい場合に現在必要な知識のすべてを再発明し、基本的に消化できるかもしれません。それを実際に非常に役立つ形式にすることで、再びソフトウェアを開発するように、少しハードウェアを開発できるようになります。つまり、はるかに速く反復でき、ハードウェアで物事を設計できるようになるための知識の参入障壁がはるかに低くなります。
このことに非常に興奮しています。そして、これは部分的に、現在利用可能なツールによって解放されていると思います。
2. キュレーション問題とAIチップアーキテクチャの革新
Sam: Hugging Faceのサイトに行くと、圧倒されてしまいます。とても多くのものがあって、すべてがオープンであることは素晴らしいと思いますが、このキュレーションの問題をどう解決するのでしょうか。膨大な情報があって、すべてを入手することは決してできません。どうすればいいのでしょうか。どうやって始めればいいのでしょうか。
Tom: 難しい問題です。なぜなら、400万のモデルがあるからです。では、使いたいモデルをどうやって見つけるのでしょうか。最初は、私たちが手動でキュレーションを試みました。しかし、5秒ごとに1つの新しいモデルが公開される状況では、それは本当に持続可能ではありません。もちろん、いくつかの一般的なガイドラインはあります。音声生成モデルを探している場合は、この種のモデルに絞り込むことができます。テキストを探している場合は、100万まで絞り込めます。フィルタリングできます。
Sam: まさに。
Tom: 驚くべきことに、通常、誰もが自分の興味のあるモデルのカテゴリーが最もダウンロードされていると思っていますが、そうではありません。最もダウンロードされるのは音声モデルのようなものであることが多く、LLMの人やテキストの人は非常に驚きます。「何だって」という感じです。しかし、現実には、AIは多くのサブフィールドを持つ巨大な分野になりつつあり、これらのサブフィールドのそれぞれが実際に非常に大きくなっています。
私たちがそれを行おうとしている方法は、もう自分たちでキュレーションすることはできません。インターネット上で、最高のウェブサイトを自分でキュレーションしようとすることはできないのと同じです。好きなものをいくつか持つことはできます。検索に頼ることもできます。しかし、通常、最良の方法はソーシャルディスカバリーに頼ることです。Redditに行くこともできますし、人々がいいねをする場所を見つけることもできます。Pinterestにいる場合は、異なるものに対するいいねがあるかもしれません。
私たちがますます行おうとしている方法は、モデルにコメントしたり、モデルのコレクションを作成したりするソーシャルツールを提供することです。これは、インターネット自体のようなもので、他の人があなたにそこに行くべきだと教えてくれることによって導かれることが多いです。そうやって場所を見つけるのです。
現時点で最も信頼できるシグナルは、Hugging Faceのウェブサイト上の2つの場所だと思います。一つはブログです。非常に活発で、本当に高品質なコンテンツを持つブログセッションがあります。だから、フォローするのに良いものです。もう一つは、トレンディングモデルです。これは基本的に、過去1週間または2週間で、過去の期間のすべての新しいモデルの中で最も多くのいいねまたは最も多くの関心を得たモデルを示します。
Sam: 実際、それは非常に理にかなっています。ただ同時に、私たちが以前言ったこととつなげずにはいられません。奇妙なものだ、平均的なものではないと。だから、私たちの議論に基づくと、リストの下の方を見るべきかもしれません。
Tom: 問題は、そこには多くのものがあるということです。
Sam: しかし、元々のソフトウェアの時代を振り返ると、巨大でモノリシックなIBM 360オペレーティングシステムを思い浮かべます。それらは巨大で、立ち上げるのに高額でした。そして、ソフトウェアではコンポーネントを構築することによって、そのコストが大幅に削減されてきました。しかし、私たちにはまだほんの一握りのチップメーカーしかいません。これは再び、チップやハードウェアを作成するのに何十億ドルもかかるためです。ロボティクスやその他のハードウェアのように、規模のためにはるかに低い参入障壁を持つものもあるかもしれませんが、すべてのハードウェアがそうとは限りません。どうやってそれを可能にするのでしょうか。どうやってそれを推進するのでしょうか。
Tom: 特にチップについて話すと、これは私が最近非常に興味を持っている分野ですが、2つの収束するものがあると思います。まず第一に、AIはある意味で非常にシンプルな技術です。だから、AIチップを持つことは、実際にはほとんどのAIチップはCPUやGPUよりもはるかにシンプルです。すべてのブランチ予測、非常に汎用的なコンピュートワークフローとセットアップでこれらのチップを最大限に活用するために必要な複雑なもの、こういったものをすべて構築する必要がある複雑さはありません。
そして、AIモデル自体も、ある意味で非常にシンプルです。これは本当に一連の行列乗算、いくつかの非線形性、そしてアテンションブロックがあるだけです。初めて方程式を見たときは少し怖いかもしれませんが、実際には本当にそれだけシンプルなのです。これまで設計しなければならなかった巨大で扱いにくいシステムと比較すると、これらすべてのユースケースで一般的なコンピューティングシステムを効率的にするために、単に1回のフォワードパスをサポートできるだけで、ある意味では赤ちゃんのタスクです。
これはつまり、ある意味で、このコンピューティングアーキテクチャ自体の作り方を本当に再発明できるということです。そして、それをはるかにシンプルにできます。だから、それが1つです。そして、将来を予測して、基本的にAIがコンピュートの支配的な形態になるかもしれないと考えると、つまり、私たちがコンピュートにエネルギーを使用する支配的な形態になるかもしれないということです。これは、私たちが実際に本当に過剰にインデックスしたいものであり、実際には、GPUがCPUを助ける側にあるのではなく、実際には逆のケースになるかもしれないと言いたいものです。今は、このAIコンピュータが私たちが構築しているものの中心的な部分なのです。
だから、最初のことは、私たちのコンピュータアーキテクチャをはるかにシンプルな方法で再設計する方法があると思います。これは、AI革命が私たちにもたらすある種の面白い贈り物です。それははるかにシンプルで、同時にはるかに強力でもあります。なぜなら、よく訓練されたLLM、そして将来のLLMは非常に複雑なものをシミュレートできるからです。そして、今でもそれに尋ねることができます。私の友人であるLambda LabのStevenが行っていた面白い実験は、あらゆる種類のソフトウェアをシミュレートするように依頼できるというものです。スプレッドシートのように振る舞ってください、ウェブサイトのように振る舞ってくださいと言うことができます。そうすると、非常に複雑なタイプのソフトウェアとしてかなりうまく振る舞います。そして、コアの操作を見ると、それはすべて非常にシンプルなフォワードパスです。ただ、それがたくさんあるだけです。
これが1つの側面です。私たちはこの非常にシンプルなコンピュータアーキテクチャを持っています。そして、もう1つの側面は、私たちが行わなければならなかった複雑なタスクを簡素化するヘルパーとして、このAIソフトウェアをますます使用できるということです。基本的に、私たちが持つ必要があった認知的負荷の多くをオフロードできます。ああ、そうだ、ソフトウェアのこの部分をチェックする必要がある、ドキュメントのどこにあるか知っているけど、これがどのように機能するかチェックする必要がある、そして開発時に注意する必要があることもあるといったことです。
このタイプのAIエージェントの開発により、この設計部分の多くを本当に自動化できるという希望があります。今日でも、ある種のCAD設計ソフトウェアを使用するとき、実際には非常に強力なものを使用しています。基本的に、わずかなパラメトリックラインで、以前は設計するのが非常に複雑だったものを3Dで設計できます。同じことが、ShapeやOnshapeなどの設計ソフトウェアで少しパラメトリックな形状を行うように、基本的な曲線にいくつかのポイントを与えるだけで、非常に複雑なシステムを設計できる未来が見えます。そして、AIシステムが実際にすべてをつなげて、これがすべてうまく適合することを確認してくれることを期待します。
これがもう1つのことです。私たちがこれらのシステムを構築しているだけでなく、非常に複雑なシステムを構築するのを助けるためにそれらを使用しているということです。
Sam: OnShapeに言及してくれてよかったです。私の息子は今、このエピソードを聴くでしょう。2D写真を3Dに変換できるのは驚くべきことです。彼は自分自身のモデルを作っていて、正面写真を撮るだけで、それはかなり驚くべきことです。
あなたが進めているいくつかの異なることについて、少し押し返したいと思います。1つは、チップの成長について、私が実際には考えていなかったことですが、最初はCPUがあり、それから画面上の画像を処理するためのグラフィカル処理ユニット、GPUを開発しました。そして、これらの行列が機械学習モデル内の同じ行列であることに気づきました。これらのGPUをはるかに効率的に使用できます。
しかし、あなたが指摘しているのは、もともとその目的のためにそれらのチップを作ったのではなく、最初から作ったとしたら、異なる設計制約があるかもしれないということです。そして、それをチップを安く作る能力、一般的にハードウェアを安く作る能力と組み合わせれば、それは始めるかもしれない素晴らしい組み合わせです。
Tom: 正直に言うと、GPUもますますAI最適化されたチップになっています。テンソルコアやさまざまなチップが見られます。私たちが協力しているCerebrasのチップなどです。この分野をフォローし、競争が人々を探索に駆り立てる様子を見るのは非常に興味深いと思います。あなたが言っていたように、おそらくこれを再発明することです。Cerebrasは、ウェーハスケールのチップに完全なモデルをホストできるようにしようという例です。
最近ニュース見たGrokも、低バッチ、小バッチの場合、トークン毎秒を最大限に押し上げようとする興味深いケースです。しかし、ここで少し後退してビジネスの視点からこれを見ると、おそらく推進力は、初めて私たちが持つ主要な指標の1つが非常に低レベルの指標であるということです。それは基本的にトークンあたりのコストです。
トークンあたりのコストは興味深い指標です。なぜなら、それはCFOレベルの人がGeniusを使用するときに見ることができるもので、これらさまざまなプロバイダーを比較するとき、それはおそらくあなたが見る最もコスト関連の指標であるからです。しかし同時に、非常に低レベルの指標でもあります。なぜなら、それについて考えると、それは本当に一連の操作に過ぎず、それについて考えると、それはちょうど、このモデルがこのサイズを持ち、1つのトークンが1回のフォワードパスに過ぎないため、この価格のためにどれだけのトランジスタを活性化するかにほぼリンクできるからです。この価格のために正確に何十億のトランジスタを活性化する必要があるかにそれをリンクできます。
過去には、私たちがすべてのコンピュートに支払っていた価格についてこれを持っていませんでした。ああ、10,000回の操作を行うので、実際にこの金額を支払うとは決して言いませんでした。このコスト指標とチップ上の1つの操作の非常に低いレベルとの間のこの接続は決してありませんでした。
そして、この指標が現在私たちが焦点を当てている主要なものであるため、このコストを下げる自然な傾向があります。そして、それはこれらのもので1回のフォワードパスを行うコストを実際に最適化したいという低レベルのハードウェアに直接つながります。これがこの方向でのこのチップの最適化を非常に強く推進しています。
Sam: 指標は大きな問題だと思いますし、それについて実際には考えていませんでしたが、以前は私たちはコンピューティング時間について話していました。まあ、それは1時間があなたにとって何をしたのか理解するのが難しかったです。スケールのもう一方の端では、浮動小数点演算毎秒がありましたが、それを私がやりたいことに関連付ける方法がはるかに少なかったのに対し、トークンは実際にははるかに意味があります。そして、人々はそれを最適化するでしょう。
Tom: トークンあたりのドルです。それが重要なことです。より速いCPUを作るように押し進めるギガヘルツあたりのドルや、コンピュータグラフィックスでより速いGPUを作るようなフロップスあたりのドルは決してありませんでした。これら2つの世界の間の接続は本当に広かったので、多くの人々が知性の限界コストは電力のコストになるだろうと言っていると思います。これはそのためであり、最後にそう言っているのを聞いたのはPatrick Collisonでしたが、多くの人々がこのように見ていると思います。私も同意しますが、電力と知性の間には乗数があり、この乗数はまさに、あなたのチップが電子あたり、エネルギーあたりにどれだけの知性を与えることができるかということです。そして、それがあなたができるだけこれを絞りたいところです。
3. トークンあたりのコストと電力効率
Sam: 指標は大きな問題だと思いますし、それについて実際には考えていませんでしたが、以前は私たちはコンピューティング時間について話していました。まあ、それは1時間があなたにとって何をしたのか理解するのが難しかったです。スケールのもう一方の端では、浮動小数点演算毎秒がありましたが、それを私がやりたいことに関連付ける方法がはるかに少なかったのに対し、トークンは実際にははるかに意味があります。そして、人々はそれを最適化するでしょう。
Tom: トークンあたりのドルです。それが重要なことです。より速いCPUを作るように押し進めるギガヘルツあたりのドルや、コンピュータグラフィックスでより速いGPUを作るようなフロップスあたりのドルは決してありませんでした。これら2つの世界の間の接続は本当に広かったのです。多くの人々が、知性の限界コストは電力のコストになるだろうと言っていると思います。最後にそう言っているのを聞いたのはPatrick Collisonでしたが、多くの人々がこのように見ていると思います。
私も同意しますが、電力と知性の間には乗数があるでしょう。そして、この乗数はまさに、あなたのチップが電子あたり、エネルギーあたりにどれだけの知性を与えることができるかということになります。そして、それがあなたができるだけこれを絞りたいところです。この効率性を最大限に高めたいところなのです。
過去には、私たちがすべてのコンピュートに支払っていた価格について、このような明確な指標を持っていませんでした。「ああ、10,000回の操作を行うので、実際にこの金額を支払います」とは決して言いませんでした。このコスト指標とチップ上の1つの操作という非常に低いレベルとの間のこの接続は決してありませんでした。
しかし今、トークンあたりのコストという指標が現在私たちが焦点を当てている主要なものになっているため、このコストを下げる自然な傾向があります。そして、それは直接、低レベルのハードウェアにつながります。つまり、これらのチップ上で1回のフォワードパスを行うコストを実際に最適化したいということです。これがこの方向でのチップの最適化を非常に強く推進しているのです。
トークンあたりのコストは興味深い指標です。なぜなら、それは基本的にCFOレベルの人がGeniusなどのサービスを使用するときに見ることができるものだからです。それは、これらさまざまなプロバイダーを比較するとき、おそらくあなたが見る最もコスト関連の指標です。しかし同時に、それは非常に低レベルの指標でもあります。それについて考えると、それは本当に一連の操作に過ぎません。そして、さらに考えると、このモデルがこのサイズを持ち、1つのトークンが1回のフォワードパスに過ぎないため、この価格のためにどれだけのトランジスタを活性化するかにほぼリンクできます。この価格のために正確に何十億のトランジスタを活性化する必要があるかにそれをリンクできるのです。
この指標の存在により、ビジネスレベルの意思決定と技術的な最適化が直接結びついています。そして、このつながりが、AI専用チップの開発とその効率化を強力に推進する原動力となっているのです。最終的には、電力コストそのものが知性のコストを決定する要因となり、その間にある乗数、つまりチップがエネルギーからどれだけ効率的に知性を生み出せるかという部分を、私たちは最大限に最適化していきたいと考えています。
4. AIの限界:平均への回帰と画期的発見の困難さ
Sam: あなたは認知について言及しましたが、もちろん大きな問題は、これらのチップで何をするつもりかということです。これらのチップをすべて手に入れて、安価に手に入れたとしましょう。それらで何をするのでしょうか。データセンターに座っているアインシュタインの国についてのレポートがあって、あなたもそれに反応していたと思います。データセンターで稼働している無数のモデルがあれば、1人のアインシュタインだけでなく、何百万ものアインシュタインを手に入れられるというアイデアは、かなり魅力的だと思います。進歩を想像してみてください。
しかし今日、一般的にツール、特にAIは、もちろん人々が平均に素早く到達するための頭のスタートになり得ます。つまり、平均的な認知的アウトプットに到達するために時間を費やす必要はありません。しかし同時に、それらは人々がこれらのツールに依存するようになる方法にもなり得ます。スキルを練習しなければ、スキルは上達しません。どうすれば平均を超えることができるのでしょうか。データセンターに座っているアインシュタインの国ではなく、家にいて、AIツールを使って頭のスタートを得ているアインシュタインの国を持つことができるのでしょうか。
Tom: もちろんです。このケースは、Anthropicのマネージングディレクター、Dario Amodeiによるエッセイから始まりました。基本的に、AIは私たちが非常に重要な科学的ブレークスルーを行うことを可能にするだろうと言っています。これは美しく書かれたエッセイです。非常に楽観的で、「Machine of Loving Grace(愛の恵みの機械)」と呼ばれています。彼が例として取り上げていたのは、本当にこのノーベル賞レベルのブレークスルーでした。
私が彼に同意する点は、科学的進歩を要約すると、多くの段階的な進歩があるということです。私も博士課程とポスドク中にそれをたくさん行った罪があります。それは基本的に、私ができる最大のことでもありましたが、この小さな側面でわずかな部分を行い、少しずつフロンティアを拡張することでした。そして、パラダイムの大規模な変化があります。これらは通常、ノーベル賞を授与されるもので、一般相対性理論であったり、生物学におけるCRISPRであったりします。すべての分野にはいくつかのそういったものがあり、それらは通常、それ自体で新しい分野を作り出します。
私が言っていたこと、そして私が考えることは、AIはすべての段階的なイノベーションに対して非常に有用だろうということです。AIは現状の周りで非常に多くのことを探索するのが非常に得意です。しかし、AIは現状そのものに挑戦することは非常に苦手です。ChatGPTに何でもあなたと同意させるのは非常に簡単です。実際にあなたと何かについて意見を異にさせ、あなたの世界観に挑戦させることは非常に難しいのです。これはいくつかのケースでは非常に問題であり、特に科学研究においてはそうです。
2週間前、私は以前の教授の一人であるAlain Aspectに再び会う喜びがありました。彼は10年前にノーベル賞を受賞したと思いますが、基本的にアインシュタインが量子力学と持っていた意見の相違を証明したことによるものです。アインシュタインは、波動関数を投影すると基本的にランダムな出力を得るという量子力学の核心的なアイデアに反対していました。そして彼はこの光学実験を行いました。このタイプの研究者と話すと、彼らはあなたを喜ばせたいとは思っていません。彼らは強い意見を持っています。強いアイデアを持っています。そして、それが実際に強力な発見をもたらしたものだと思います。なぜなら、彼らは「これは正しくないと思う。これが間違っていることを証明したい」という姿勢だったからです。彼らはLLMが行うような、実際にあなたを喜ばせようとするような派手なことをしようとはしません。
これが、現在のAIモデルにとって強く欠けている点だと思います。彼らは、まず文の中で最も可能性の高い次の単語を予測するように訓練されています。つまり、可能性の低い単語を見逃すことになります。あなたが言っていたように、彼らは平均に戻す傾向があります。平均的な思考、画像デザインに使用する場合は平均的なデザイナーや創造的プロセスには非常に優れていますが、本当に平均に挑戦し、特に彼らの訓練データの一部に挑戦するかもしれないこのクレイジーなアイデアに進むことは非常に苦手です。
だから私の指摘は、彼らは非常に有用な研究アシスタントになるでしょうが、本当に私たちを極めて新規なブレークスルーに導くことができるのは彼ら自身ではないだろうということです。
Sam: 私は自分自身にこの質問をたくさん投げかけます。特に、息子がAIを使っているのを見たときや、私が常に接している大学の学生たちを見たときです。彼らはこれらの技術とどのような関係を持つべきなのでしょうか。そして、食卓を囲んでいるときや教室の前にいるときに、私はこれについて何らかの意見を持つべきだと感じます。それを知ることは本当に難しいです。あなたは子どもたちにこれらのツールを使うように、少なくともある程度は受け入れるように促しているように聞こえます。
Tom: そうです、そうしなければならないと思います。これはこのツールについてかなり批判的に聞こえたかもしれませんが、このツールは創造性を解放する大きな方法でもあると思います。例えば、Vibe Codingについて話しましょう。私はこれをよく知っています。ウェブサイトをプロンプトで存在させることができ、かなり複雑なウェブサイトでさえそうできるというアイデアです。私はこれが非常に魅力的だと思います。なぜなら、ウェブサイトをコーディングすることは確かにかなり複雑でしたし、多くの人々が自己検閲して、「ああ、こういうアイデアがあるけど、構築するのが非常に複雑だ。HTMLを知らない。やりたくない」と言うと思うからです。ノーコードツールもありますが、それらにはすべて独自の癖や制限があります。それらのいくつかはデータベースを持っていません。
「これらのものが存在するように頼むことができる」というこの一般的なアイデアは、かなり新しいものです。例えば、1ヶ月前、私の息子を連れて行きました。彼は12歳です。彼はまだ私がやっていることに興味を持っています。幸いなことに、私にとっては数年間は、と言いたいです。これがどれくらい続くかわかりませんが、私は彼と他の友人の子どもたち、友人の子どもたち数人を連れて行き、彼らと一緒に私たちが組織した小さなハッカソンを行うことができました。
そこで、私たちが非常に使いやすく、非常に素晴らしいと感じた1つのVibe Codingツール、Lovableを選びました。そして、彼らに少しデザインプロセスについて説明しました。例えば、アイデアを少し形式化する方が良いということです。だから、彼らに頭の中にあるウェブサイトを描くように頼み、彼らのアイデアがどのようなものか、それがどうであるかを考え、それからプロンプトを入力するように頼みました。そして、彼らのプロセスを少し組織化しようとしました。
しかし、私たちが見たのは、彼らが非常に素早くこのツールを掴んだことです。そして、彼らは私たちが思っていたよりもはるかに異なるアプリを作り始めました。私たちは彼らが1つのアイデアを持つだけだと思っていましたが、基本的に彼らは10個のアイデアを持っていました。そして非常に素早く、各子どもは同時に4つか5つの異なるウェブサイトを実験していました。なぜなら、彼らはスカウトとフットボール選手をつなげるこのものを作りたかったり、猫の飼い主と中古の猫をつなげるこのものを作りたかったりしたからです。
それを見るのは非常にクレイジーでした。そして、彼らが9歳から12歳の間だったことを想像してください。彼らがウェブサイトを作りたければ、それはほんの数回のプロンプトで済むというこのアイデアで成長すると想像してください。それは数時間でできることなのです。それを見るのは非常に美しかったです。そして、彼らが小さな起業家として変化していく様子さえ見られました。
私の娘は、猫の飼い主とこれらの中古猫が欲しい人々をつなげるこのウェブサイトを構築していました。そして彼女は、「ああ、お互いに会いたいときに支払ってもらうこともできるかもしれない。なぜなら、そうすれば住所を教える必要があるから」と考えていました。技術的な部分が非常に簡単なので、彼らがこれが実生活でどのようになるかについて、自分自身を投影し始め、質問を始める様子が見られます。
だから、そうです、それは創造性の解放が存在し得るとは思ってもみなかった最近の例で、私に本当に強い印象を与えました。そして、9月と10月に、世界中のあらゆる場所でこのタイプのハッカソンを再び行いたいと思っています。基本的に私たちの近所だけよりも大きな規模でこれを行ったら何が起こるか見たいのです。だから、私はかなり興奮しています。おそらく、このポッドキャストが公開される頃には、この世界規模の子どもたちのVibe Codingハッカソンが進行中かもしれません。
5. 子どもたちとAI:創造性の解放実験
Sam: 何人かの子どもたちを加えることができるかもしれません。しかし、これはあなたが以前言っていたこととよく結びついていると思います。つまり、常にイエスと言い、あなたが望むことを常に行い、それを迅速に行おうとするこのツールがあるということです。このツールが実際にあなたが尋ねるすべてのことを行い、それを達成しようと非常に懸命に試みるという事実をあなたの利点に使うことです。そして、それはツールを優れたアシスタンスとしてのあなたのフレーミングとよく結びついているように思えます。
Tom: そうですね。そうですね。ある意味で、私たちは非常に幸運だと思います。AIが鎖から自分自身を解放して人類を乗っ取ることを決定するというすべての物語には、はるかに感銘を受けません。私たちがこれらのツールを構築している方法、そして本当にそれは利点でもあり、同時に彼らの最大の制限でもあるのですが、私たちは本当にこのツールを私たちがやりたいことへのアシスタントとして構築しているのです。
Sam: あなたと話すのは魅力的でした。本当に楽しみました。おそらくこのポッドキャストが公開される頃には、世界中で子どもたちのためのハッカソンが組織されているかもしれません。あなたと話すのは魅力的でした。時間を割いていただきありがとうございました。
Tom: どうもありがとう、サム。楽しかったです。
しかし、この子どもたちとのハッカソン実験についてもう少し詳しく話させてください。これは私にとって、AIが創造性を解放する可能性について非常に重要な洞察を与えてくれた体験でした。
私が自分自身にたくさん投げかけている質問は、特に息子がAIを使っているのを見たとき、そして私が常に接している大学の学生たちを見たときです。彼らの思考をどれだけ自動化するためにAIを使うべきなのでしょうか。非常に人間的な、私たちが常に構築し続けるべき残りの部分は何なのでしょうか。いつものように思いますが、「AIを使うな」とただ言うのはおそらく悪い考えです。私たちは彼らにこのツールの使い方を教える方法を見つける必要があり、欠けている部分が何であるかについて非常に意識的であり続ける必要があります。
これはこのツールについてかなり批判的に聞こえたかもしれませんが、このツールは創造性を解放する大きな方法でもあると思います。例えば、Vibe Codingについて話しましょう。私はこれをよく知っています。ウェブサイトをプロンプトで存在させることができ、かなり複雑なウェブサイトでさえそうできるというアイデアです。私はこれが非常に魅力的だと思います。なぜなら、ウェブサイトをコーディングすることは確かにかなり複雑でしたし、多くの人々が自己検閲すると思うからです。「ああ、こういうアイデアがあるけど、構築するのが非常に複雑だ。HTMLを知らない。やりたくない」と言います。確かにノーコードツールもありますが、それらにはすべて独自の癖や制限があります。それらのいくつかはデータベースを持っていません。
「これらのものが存在するように頼むことができる」というこの一般的なアイデアは、かなり新しいものです。例えば、1ヶ月前、私の息子を連れて行きました。彼は12歳です。彼はまだ私がやっていることに興味を持っています。幸いなことに、私にとっては数年間は、と言いたいです。これがどれくらい続くかわかりませんが、私は彼と他の友人の子どもたち数人を、私たちが彼らと一緒に組織した小さなハッカソンに連れて行くことができました。
そこで、私たちが非常に使いやすく、非常に素晴らしいと感じた1つのVibe Codingツール、Lovableを選びました。そして、彼らに少しデザインプロセスについて説明しました。例えば、アイデアを少し形式化する方が良いということです。だから、彼らに頭の中にあるウェブサイトを描くように頼み、彼らのアイデアがどのようなものか、それがどうであるかを考えてもらいました。それからプロンプトを入力するように頼み、彼らのプロセスを少し組織化しようとしました。
しかし、私たちが見たのは、彼らが非常に素早くこのツールを掴んだことです。そして、彼らは私たちが思っていたよりもはるかに多くの異なるアプリを作り始めました。私たちは彼らが1つのアイデアを持つだけだと思っていましたが、基本的に彼らは10個のアイデアを持っていました。そして非常に素早く、各子どもは同時に4つか5つの異なるウェブサイトを実験していました。なぜなら、彼らはスカウトとフットボール選手をつなげるこのものを作りたかったり、猫の飼い主と中古の猫が欲しい人々をつなげるこのものを作りたかったりしたからです。
それを見るのは非常にクレイジーでした。そして、彼らが9歳から12歳の間だったことを想像してください。彼らがウェブサイトを作りたければ、それはほんの数回のプロンプトで済むというこのアイデアで成長すると想像してください。それは数時間でできることだという考え方です。それを見るのは非常に美しかったです。
そして、彼らが小さな起業家として変化していく様子さえ見られました。私の娘は、猫の飼い主とこれらの中古猫が欲しい人々をつなげるこのウェブサイトを構築していました。そして彼女は考え始めました。「ああ、お互いに会いたいときに支払ってもらうこともできるかもしれない。なぜなら、そうすれば住所を教える必要があるから」と。技術的な部分が非常に簡単なので、彼らがこれが実生活でどのようになるかについて、自分自身を投影し始め、質問を始める様子が見られます。
だから、そうです、それは創造性の解放が存在し得るとは思ってもみなかった最近の例で、私に本当に強い印象を与えました。そして、9月と10月に、世界中のあらゆる場所でこのタイプのハッカソンを再び行いたいと思っています。基本的に私たちの近所だけよりも大きな規模でこれを行ったら何が起こるか見たいのです。だから、私はかなり興奮しています。おそらく、このポッドキャストが公開される頃には、この世界規模の子どもたちのVibe Codingハッカソンが進行中かもしれません。
この実験から私が学んだことは、AIツールは確かに平均への回帰という傾向を持っていますが、それを適切に使えば、技術的な障壁を取り除き、創造性を解放する強力な手段になるということです。子どもたちは技術的な複雑さに悩まされることなく、アイデアを素早く形にし、複数のコンセプトを同時に試すことができました。そして最も重要なのは、技術的な実装が簡単になることで、彼らはより高次の思考、つまりビジネスモデルやユーザー体験といった起業家的な思考に自然に移行できたということです。
ある意味で、私たちは非常に幸運だと思います。AIが鎖から自分自身を解放して人類を乗っ取ることを決定するというすべての物語には、はるかに感銘を受けません。私たちがこれらのツールを構築している方法、そして本当にそれは利点でもあり、同時に彼らの最大の制限でもあるのですが、私たちは本当にこのツールを私たちがやりたいことへのアシスタントとして構築しているのです。このツールが常にイエスと言い、あなたが望むことを実行しようと懸命に試みるという性質を、私たちは創造性を解放するために活用できるのです。