※本記事は、Sequoia CapitalによるSam Altman氏のインタビュー動画「OpenAI's Sam Altman on Building the 'Core AI Subscription' for Your Life」の内容を基に作成されています。オリジナル動画およびSequoia Capitalの最新AI情報については、Substackの「Inference」(https://inferencebysequoia.substack.com/ )でご覧いただけます。本記事では、インタビューの内容を詳細に要約・構成しております。なお、本記事の内容はSam Altman氏およびOpenAIの見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画インタビューをご視聴いただくことをお勧めいたします。また、Sam Altman氏(@sama)、OpenAI(@openai)、およびSequoia Capital(@sequoia)のソーシャルメディアアカウントもご参照ください。
1. OpenAIの歴史と発展
1.1 2016年の創業から現在まで:14人の研究室から5億人のユーザーへ
Sam Altman: 2016年のOpenAI創業時を振り返ると、現在の姿を想像することは全く不可能でした。当時私たちは、この会場のあそこに座っていた14人ほどの小さなチームで、この新しいシステムについてハッキングを行っていました。しかし、それでさえも実際には白板を見回しながら、一体何をすべきかについて話し合っているような状況でした。
私たちは研究ラボとしての性格が非常に強く、明確な信念と方向性、そして強い確信は持っていましたが、実際の行動計画については全く持っていませんでした。このことがどれほど異常な状況だったかは、いくら強調してもし過ぎることはありません。企業やプロダクトのアイデアが想像できなかったのはもちろんのこと、LLM(大規模言語モデル)というアイデア自体がまだ非常に遠い将来の話だったのです。
当時私たちが取り組んでいたのは、ビデオゲームをプレイすることでした。現在では、私たちはそれについてかなり上達していますが、当時は本当にビデオゲームをプレイしようとしていたのです。
それから6年後、私たちは最初の消費者向けプロダクトを出すことになりました。その間、私たちはいくつかの異なる方向性を模索し、最終的にいくつかの分野に賭けることを決めました。システムが機能しているかどうかを確認するためのシステムを構築する必要があると考え、単に研究論文を書くだけではなく、実際に何かができるかどうかを試すことにしたのです。ビデオゲームができるか、ロボットハンドができるか、その他いくつかのことができるかを試してみることにしました。
そのプロセスの中で、最初は一人の人間が、そして最終的にはチーム全体が、教師なし学習と言語モデルの構築に興奮するようになりました。これがGPT-1、そしてGPT-2へとつながり、GPT-3の時点で、私たちは何かクールなものを持っていると思いましたが、それをどう活用すべきかがわからない状態でした。
同時に、私たちはスケーリングを続けるためにはるかに多くの資金が必要だということも理解していました。GPT-3を完成させ、次はGPT-4に向かいたいと考えていた私たちは、数十億ドル規模のモデルの世界に突入しようとしていました。粒子加速器のような装置でない限り、純粋な科学実験としてこれらを行うのは困難でした。
そこで私たちは、これが必要とする投資を持続できるビジネスになる方法を見つける必要があると考え始めました。同時に、これが実際に有用な何かに向かっているという感覚もありました。現在、ChatGPTは週に5億人以上の人々が使用しており、この驚異的な成長を遂げることができました。
1.2 最初の消費者向け製品:DollyとChatGPTの経緯
歴史的な事実として、私たちの最初の消費者向けプロダクトはChatGPTではありませんでした。実際にはDollyが最初の消費者向けプロダクトでした。しかし、最初のプロダクト自体はAPIだったのです。
私たちがいくつかの異なる取り組みを経て構築していく中で、システムが機能しているかどうかを確認し、単に研究論文を書くだけではなく、実際に何かを見るためのシステムを構築する必要があると考えました。その過程で、一人の人間が、そして最終的にはチーム全体が教師なし学習と言語モデルの構築に興奮するようになったのです。
GPT-3の段階で、私たちは何かクールなものを持っていると思いましたが、それをどのように活用すべきかわからない状況でした。また、スケーリングを続けるためにはるかに多くの資金が必要だということも理解していました。GPT-3を完成させ、GPT-4に向かおうとしていた私たちは、数十億ドル規模のモデルの世界に突入しようとしていたからです。
そこで私たちは、これが必要とする投資を持続できるビジネスになる方法を見つける必要があると考え始めました。同時に、これが実際に有用な何かに向かっているという感覚もありました。私たちはGPT-2をモデルの重みとして公開していましたが、それほど多くのことは起こりませんでした。
私が企業やプロダクト全般について観察していたことの一つは、APIを作れば通常何らかの形で上手くいくということでした。これは多くのYCombinator企業で当てはまることでした。また、何かをはるかに使いやすくすれば、通常大きな利益があるということも観察していました。そこで私たちは、これらのモデルを実行するのはかなり困難で、モデルが大きくなってきているので、ソフトウェアを書いて本当に良い仕事をしてそれらを実行しようと考えました。
何を構築すべきかわからなかったので、プロダクトを構築するのではなく、他の誰かが何かを構築してくれることを期待することにしました。正確な時期は忘れましたが、おそらく2020年6月頃だったと思います。私たちはGPT-3をAPIで公開しました。
世界は関心を示しませんでしたが、シリコンバレーは関心を示しました。彼らは「ああ、これはかなりクールだ。これは何かを指し示している」と言いました。奇妙なことに、私たちは世界の大部分からはほとんど注目を得られませんでしたが、一部のスタートアップの創業者たちは「ああ、これは本当にクールだ」と言い、中には「これはAGIだ」と言う人もいました。
GPT-3 APIで実際にビジネスを構築した人たちで私が覚えているのは、コピーライティングをサービスとして提供するいくつかの企業だけでした。GPT-3が経済的な閾値を超えていたのは、この分野だけだったのです。
しかし、私たちが気づいたことの一つは、最終的にChatGPTにつながることになったのですが、人々はGPT-3 APIで素晴らしいビジネスを多く構築することはできませんでしたが、プレイグラウンドでそれと話すことを愛していたということでした。その時点では、私たちはチャットを簡単にするためのRHF(人間フィードバックからの強化学習)の方法をまだ理解していなかったため、チャットは terrible(ひどい)でしたが、人々はとにかくそれをやりたがっていました。
ある意味で、これがコピーライティング以外でAPIプロダクトの唯一のキラーユースケースでした。これが最終的に私たちをChatGPTの構築に導いたのです。ChatGPT 3.5が登場する頃には、APIでビジネスを構築できるカテゴリーは1つではなく、おそらく8つほどになっていました。しかし、人々が単にモデルと話したいという私たちの確信は非常に強くなっていました。
私たちはDollyを作っており、Dollyはまずまずの成績でしたが、特にファインチューニングと並行して行うことができた作業と合わせて、人々がモデルと話すことを可能にするこのプロダクトを構築したいと考えていました。それが2022年11月30日にローンチされたのです。
1.3 GPT-3 APIから見えた「人々はモデルと話したがる」という気づき
私たちがGPT-3 APIを2020年6月頃に公開した際、興味深い現象を観察することになりました。人々はGPT-3 APIを使って多くの素晴らしいビジネスを構築することはできませんでしたが、プレイグラウンドでそのモデルと話すことを本当に愛していたのです。
この観察は特に重要でした。なぜなら、当時私たちはチャット機能について terrible(ひどい)状態だったからです。その時点では、チャットを簡単にするためのRHF(人間フィードバックからの強化学習)の方法をまだ理解していませんでした。それにも関わらず、人々はとにかくそれをやりたがっていたのです。
実際に、GPT-3 APIで経済的な閾値を超えて実際のビジネスを構築できた企業で私が覚えているのは、コピーライティングをサービスとして提供するいくつかの企業だけでした。これが、GPT-3が経済的に viable(実行可能)だった唯一の分野だったのです。
しかし、ある意味で、このモデルとの対話は、コピーライティング以外でAPIプロダクトの唯一のキラーユースケースとなっていました。人々がプレイグラウンドでモデルと対話することへの強い関心を示していたこの発見が、最終的に私たちをChatGPTの構築へと導くことになったのです。
この気づきは私たちにとって転換点となりました。ChatGPT 3.5が登場する頃には、APIでビジネスを構築できるカテゴリーは1つのカテゴリーから8つのカテゴリーほどに拡大していました。しかし、人々が単純にモデルと話したいという私たちの確信は、時間が経つにつれて非常に強くなっていました。
私たちはDollyを開発しており、Dollyはまずまずの成績を収めていましたが、特に私たちが行うことができたファインチューニングの作業と合わせて、人々がモデルと話すことを可能にするこのモデル、このプロダクトを構築したいと考えていました。この洞察と確信が、2022年11月30日のChatGPTのローンチへとつながったのです。
2. 製品開発と組織運営
2.1 大規模企業での製品開発速度向上の方法
多くの企業が犯す間違いは、大きくなったときに何も多くのことをしないということです。彼らは大きくなることが当然だという理由だけで大きくなり、同じ量のプロダクトしか出荷しません。そして、それがいわゆる「糖蜜(molasses)」のような状態が本当に定着する時なのです。
私は、全員が忙しくあるべきだという強い信念を持っています。チームは小さくあるべきで、保有する人数に対して相対的に多くのことを行いたいのです。そうでなければ、すべての会議に40人がいて、プロダクトのどの小さな部分を誰が担当するかについて巨大な争いが起こることになります。
昔のビジネスの観察に、優秀な経営者は忙しい経営者である、というものがありました。なぜなら、人々がぶらぶらしているのは好ましくないからです。しかし、私は、私たちの会社や他の多くの会社において、研究者、エンジニア、プロダクト担当者が価値のほぼすべてを推進すると考えています。そして、これらの人々を忙しく、高いインパクトを持つ状態にしたいのです。
もし成長するつもりなら、はるかに多くのことを行う必要があります。そうでなければ、基本的に多くの人々があなたの部屋に座って争ったり、会議をしたり、何かについて話したりしているだけになってしまいます。そこで私たちは、相対的に少数の人々に巨大な責任を与えるよう努めています。そして、それを機能させる方法は、多くのことを行うことです。
また、私たちは多くのことを行わなければならないのです。なぜなら、私たちは今、これらの重要なインターネットプラットフォームの一つを構築する機会を本当に持っていると思うからです。しかし、それを行うためには、もし私たちが本当に人々のパーソナライズされたAIになり、彼らが多くの異なるサービスで使用し、彼らの人生を通じて、そしてこれらすべての異なる主要カテゴリーと、私たちが有効にする方法を見つけ出す必要があるすべての小さなカテゴリーで使用されるものになるなら、それは構築すべき多くのものがあるということなのです。
2.2 小さなチーム、大きな責任の組織論
私たちの会社や他の多くの会社において、研究者、エンジニア、プロダクト担当者が価値のほぼすべてを推進すると考えています。そして、これらの人々を忙しく、高いインパクトを持つ状態にしたいのです。
私たちは、相対的に少数の人々に巨大な責任を与えるよう努めています。そして、それを機能させる方法は、多くのことを行うことです。もし成長するつもりなら、はるかに多くのことを行う必要があります。そうでなければ、基本的に多くの人々があなたの部屋に座って争ったり、会議をしたり、何かについて話したりしているだけになってしまいます。
チームは小さくあるべきで、保有する人数に対して相対的に多くのことを行いたいのです。そうでなければ、すべての会議に40人がいて、プロダクトのどの小さな部分を誰が担当するかについて巨大な争いが起こることになります。
全員が忙しくあるべきだという私の信念は、昔のビジネスの観察から来ています。優秀な経営者は忙しい経営者である、というものです。なぜなら、人々がぶらぶらしているのは好ましくないからです。
また、私たちは多くのことを行わなければならない構造的な理由もあります。私たちは今、これらの重要なインターネットプラットフォームの一つを構築する機会を本当に持っていると思うからです。もし私たちが本当に人々のパーソナライズされたAIになり、彼らが多くの異なるサービスで使用し、彼らの人生を通じて、そしてこれらすべての異なる主要カテゴリーと、私たちが有効にする方法を見つけ出す必要があるすべての小さなカテゴリーで使用されるものになるなら、それは構築すべき多くのものがあるということなのです。
2.3 モデルの進化と現在の製品への誇り
この6ヶ月間で私が特に誇りに思っているものは、モデルが今非常に優秀だということです。もちろん、モデルには改善すべき領域がまだありますし、私たちはそれに迅速に取り組んでいますが、この時点でChatGPTは非常に優れたプロダクトになっていると思います。なぜなら、モデルが非常に優秀だからです。
もちろん他にも重要なことはありますが、私は一つのモデルがこれほど多くのことをこれほどうまくできることに驚いています。私たちは小さなモデルと大きなモデルの両方を構築していますし、私が述べたように多くのことを行っています。
現在のモデルの品質に対する私の満足感は、ChatGPTが優秀なプロダクトである主要な理由がモデルの品質にあるという認識に基づいています。確かに他の要素も重要ですが、モデル自体の性能が製品の核心的な価値を提供していると考えています。
一つのモデルがこれほど多様なタスクをこれほど高いレベルで実行できるということは、私たちにとって驚きでもあり、同時に誇りでもあります。改善すべき領域は確実に残っていますが、私たちはそれらの課題に対して迅速に取り組んでおり、モデルの継続的な進化に対して強い確信を持っています。
3. ビジネス戦略と将来ビジョン
3.1 「コアAIサブスクリプション」というビジョン
私たちをモデル化する方法として、私たちは人々のコアAIサブスクリプションとして、そしてその機能を使用する方法として構築したいと考えています。その一部は、ChatGPT内で行うことのようなものになるでしょう。私たちは、そのサブスクリプションの他のいくつかの本当に重要な部分も持つことになるでしょう。
しかし主に、私たちはこのより賢く、より賢いモデルを構築していきます。私たちは将来のデバイス、オペレーティングシステムのようなものに似た将来のものなど、これらの表面を持つことになるでしょう。
そして、私たちのプラットフォームになるためのAPIやSDK、あるいはあなたがそれを何と呼びたいかはわかりませんが、そのようなものが正確に何であるかをまだ完全に理解していません。しかし、私たちはそれを理解するでしょう。何度か試行錯誤が必要かもしれませんが、必ず理解します。
そして、それが世界で信じられないほどの富の創造を可能にし、他の人々がその上に構築できるようになることを願っています。しかし、そうです、私たちはコアAIサブスクリプションとモデル、そして核となるサービスを目指します。そして、構築すべき他のものがたくさんあるでしょう。
私たちは、人々が多くの異なるサービスで使用し、彼らの人生を通じて、そしてこれらすべての異なる主要カテゴリーと、私たちが有効にする方法を見つけ出す必要があるすべての小さなカテゴリーで使用する、人々のパーソナライズされたAIになろうとしているからです。
もし私たちよりも優れたコアAIサブスクリプションの提供を作ることができるなら、ぜひやってください。それは素晴らしいことです。私たちは試みますが、それが私たちの目標です。
3.2 400億ドル調達の噂と野心の規模
あなたが400億ドルを調達している、あるいは3400億ドルの評価額で何かをしているという噂について聞かれましたが、それが噂なのか、それとも私たちが発表したものなのかはわかりません。まあ、私たちが発表したかどうかを確認したいだけです。
私たちの野心の規模について言えば、私たちは素晴らしいモデルを作り、良いプロダクトを出荷しようとしています。それ以上のマスタープランはありません。私たちは、目の前にあることを行うつもりです。
確かに、聴衆にはたくさんのOpenAIの人々がいると思いますが、彼らがそれを証明してくれるでしょう。私たちは座って、このような複雑なことについて逆算して考えるようなことはしません。私は、目の前にあることを行うことができると信じていますが、このような複雑なことから逆算しようとするのは、通常それほどうまくいかないものです。
私たちが知っていることは、大量のAIインフラが必要だということです。大量のAIファクトリーボリュームを構築する必要があることを知っています。モデルをより良くし続ける必要があることを知っています。スタックの上部で、消費者向けプロダクトのような素晴らしいものと、それに関わるすべての要素を構築する必要があることを知っています。
しかし、私たちは機敏であることと、世界が調整するにつれて戦術を調整することに誇りを持っています。来年私たちが構築するプロダクトについては、おそらく今は考えてもいません。私たちは人々が本当に、本当に愛するプロダクトのセットを構築できると信じています。そして、それについて揺るぎない確信を持っています。また、素晴らしいモデルを構築できると信じています。実際、私は今、私たちの研究ロードマップについてこれまで以上に楽観的に感じています。
研究ロードマップには何があるかと聞かれれば、本当に賢いモデルです。しかし、私たちの前にあるステップについては、一度に1つか2つずつ取り組んでいます。
3.3 前進志向vs逆算思考のアプローチ
私は、目の前にあることを行うことができると信じていますが、このような複雑なことから逆算しようとするのは、通常それほどうまくいかないものです。
私は、これらの素晴らしい戦略について話す人々を聞いたことがあります。彼らがどこに向かうつもりで、逆算して取り組み、これで世界を支配し、これがその前の段階で、これがそれで、これがそれで、これがそれで、これがそれで、そして今日私たちがいる場所がここだというような話です。しかし、私はそれらの人々が本当に大規模に成功するのを見たことがありません。
私たちは機敏であることと、世界が調整するにつれて戦術を調整することに誇りを持っています。そのため、来年私たちが構築するプロダクトについては、おそらく今は考えてもいません。私たちは人々が本当に、本当に愛するプロダクトのセットを構築できると信じています。そして、それについて揺るぎない確信を持っています。また、素晴らしいモデルを構築できると信じています。
実際、私は今、私たちの研究ロードマップについてこれまで以上に楽観的に感じています。研究ロードマップには何があるかと聞かれれば、本当に賢いモデルです。しかし、私たちの前にあるステップについては、一度に1つか2つずつ取り組んでいます。
つまり、あなたは前進することを信じ、必ずしも逆算することを信じていないということですね。私はこのような複雑なことについて逆算して考えるようなことはしません。確かに、私たちが知っていることは、大量のAIインフラが必要だということです。大量のAIファクトリーボリュームを構築する必要があることを知っています。モデルをより良くし続ける必要があることを知っています。スタックの上部で、消費者向けプロダクトのような素晴らしいものと、それに関わるすべての要素を構築する必要があることを知っています。
しかし、目の前にあることを行うことができると信じながらも、このような複雑なことから逆算しようとするアプローチには懐疑的です。それは通常それほどうまくいかないものだからです。
4. AI導入における世代間格差と企業の課題
4.1 大企業がAIネイティブ化で遅れる理由
私は、これが基本的にすべての主要な技術革命で起こることだと思います。私にとって、これについて驚くことは何もありません。彼らが間違っていることは、いつも間違っていることと同じです。つまり、人々は自分たちのやり方に信じられないほど固執するようになるのです。組織も自分たちのやり方に信じられないほど固執するようになります。
もし物事が四半期ごと、または2四半期ごとに大きく変化していて、あなたが年に一度会合を開いて、どのアプリケーションを許可するか、そしてシステムにデータを入れることが何を意味するかを決定する情報セキュリティ委員会を持っているとしたら、ここで何が起こるかを見るのは非常に苦痛です。
しかし、これはクリエイティブ・デストラクション(創造的破壊)です。これがスタートアップが勝つ理由であり、業界が前進する方法なのです。私は、大企業がこれを行う意欲のある率について、失望はしていますが驚いてはいません。
私の予測では、あと2年ほど、これがすべてを再形成することはないかのように戦い、ふりをしていて、その後降伏と最後の瞬間のスクランブルがあり、それはある種手遅れになるでしょう。そして一般的に、スタートアップは古いやり方でそれを行う人々を単純に追い抜いてしまうでしょう。
これは人々にも起こることです。平均的な20歳と話して、彼らがChatGPTをどのように使うかを見て、それから平均的な35歳と話して、彼らがそれや他のサービスをどのように使うかを見ると、その違いは信じられないものです。それは、スマートフォンが出てきたときのことを思い出させます。すべての子供がそれを非常にうまく使うことができ、年上の人々は基本的なことを理解するのに3年かかったようなものです。
もちろん、人々は最終的に統合しますが、現在のAIツールに関する世代間の格差は狂気じみており、企業はその症状の一つに過ぎないと思います。
4.2 世代別のChatGPT使用パターンの違い
若い人々がChatGPTを使って行っている驚くようなクールなユースケースについて聞かれた際、私が観察していることをお話しします。
彼らは本当にそれをオペレーティングシステムのように使っています。彼らは、それを多くのファイルに接続するための複雑な方法を持っており、かなり複雑なプロンプトを頭の中に記憶しているか、貼り付けたり出したりする何かの中に持っています。
そして、彼らは人生の決定を下すときに、実際にはChatGPTに何をすべきかを尋ねることなしには行いません。そして、それは彼らの人生のすべての人について完全なコンテキストを持っており、彼らが話したことについて、そしてメモリ機能がそこで本当に変化をもたらしています。
しかし、大雑把に過度に単純化すると、年上の人々はChatGPTをGoogleの代替として使います。おそらく20代と30代の人々は、それを人生アドバイザーのようなものとして使います。そして大学生は、それをオペレーティングシステムとして使います。
この世代間の使用パターンの違いは、現在のAIツールに関する世代間格差の現れです。平均的な20歳と話して、彼らがChatGPTをどのように使うかを見て、それから平均的な35歳と話して、彼らがそれや他のサービスをどのように使うかを見ると、その違いは信じられないものです。
それはスマートフォンが出てきたときのことを思い出させます。すべての子供がそれを非常にうまく使うことができましたが、年上の人々は基本的なことを理解するのに3年ほどかかりました。もちろん、人々は最終的に統合しますが、現在のAIツールに関する世代間の格差は狂気じみています。
4.3 クリエイティブ・デストラクションとスタートアップの優位性
これはクリエイティブ・デストラクション(創造的破壊)です。これがスタートアップが勝つ理由であり、業界が前進する方法なのです。私は、大企業がこれを行う意欲のある率について、失望はしていますが驚いてはいません。
私が基本的にすべての主要な技術革命で起こることだと考えているのは、人々が自分たちのやり方に信じられないほど固執するようになることです。組織も自分たちのやり方に信じられないほど固執するようになります。もし物事が四半期ごと、または2四半期ごとに大きく変化していて、あなたが年に一度会合を開いて、どのアプリケーションを許可するか、そしてシステムにデータを入れることが何を意味するかを決定する情報セキュリティ委員会を持っているとしたら、ここで何が起こるかを見るのは非常に苦痛です。
私の予測では、あと2年ほど、これがすべてを再形成することはないかのように戦い、ふりをしていて、その後降伏と最後の瞬間のスクランブルがあり、それはある種手遅れになるでしょう。そして一般的に、スタートアップは古いやり方でそれを行う人々を単純に追い抜いてしまうでしょう。
これは人々にも起こることです。平均的な20歳と話して、彼らがChatGPTをどのように使うかを見て、それから平均的な35歳と話して、彼らがそれや他のサービスをどのように使うかを見ると、その違いは信じられないものです。この世代間格差は、企業レベルでも個人レベルでも同様に現れており、企業はその症状の一つに過ぎないと思います。
現在のAIツールに関する世代間の格差は狂気じみており、これがまさにスタートアップが大企業を追い抜く構造的な優位性を示しているのです。
5. 技術的展望と開発方針
5.1 コード生成:OpenAI内での活用と「意味のあるコード」の重要性
OpenAI内部でのChatGPTの使用について言えば、それは私たちのコードの多くを書いています。どの程度かはわからない数字ですが、人々が数字を言うとき、それはいつも非常に馬鹿げたことだと思います。なぜなら、Microsoftがコードの20%、30%と言って、コード行数で測定するのは、そのような測定方法は非常に狂気じみているからです。
おそらく私が言える意味のあることは、それが意味のあるコードを書いているということです。どの程度かはわかりませんが、実際に重要な部分を書いているのです。
コーディングは、これらのモデルにとって将来のOpenAIの中心的なものです。コーディングは、現在ChatGPTに応答を求めると、テキストが返ってくるかもしれませんし、画像を得るかもしれませんが、プログラム全体を返してもらいたいと思っています。すべての応答に対してカスタムレンダリングされたコードを得たいと思いますし、少なくとも私はそう思います。
これらのモデルが世界で物事を起こすことを可能にする能力を得たいと思っており、コードを書くことは、世界を実行し、多くのAPIを呼び出すなど、どのように世界を実行するかの中心的なものになると思います。
そのため、コーディングはより中心的なカテゴリーになると言えるでしょう。もちろん、私たちのAPIや私たちのプラットフォーム上でもそれを公開しますが、ChatGPTはコードを書くことに優秀であるべきです。
私たちは、アシスタントからエージェント、そして基本的にアプリケーションまで、すべてを通じて移行する世界から来ようとしています。それは非常に連続的に感じられるでしょうが、そうです。
5.2 API統合の未来:統一されたプラットフォームへの展望
10年後には、本当にこれらすべてが一つのものに統合されることを願っています。あなたはOpenAIでサインインして他のサービスにアクセスできるようになるべきです。他のサービスは、ある時点でChatGPTのUIを引き継ぐ素晴らしいSDKを持つべきです。
しかし、あなたが持つことになるパーソナライズされたAIがあなたを知っていて、あなたの情報を持っていて、あなたが後で何を共有したいかを知っていて、あなたについてのすべてのこのコンテキストを持っている程度において、あなたはそれを多くの場所で使用できるようになりたいでしょう。
現在のAPIバージョンは、そのビジョンからは程遠いものであることに同意しますが、私たちはそこに到達できると思います。
私は、それらの間のどこかに、インターネットの未来のためのHTTPレベルのような新しいプロトコルがあることを望んでいます。物事が連携され、はるかに小さなコンポーネントに分解され、エージェントが常に異なるツールを公開し使用し、認証、支払い、データ転送が、すべての人があらゆるものと話すことを信頼するこのレベルですべて組み込まれるような状況です。
私たちがそれがどのようなものかを完全に知っているとは思いませんが、それは霧の中から出てきているようなものです。そして、それについてより良い感覚が得られるにつれて、再び、おそらくそれに向かって数回の反復が必要になるでしょう。しかし、それが私が物事が向かう方向を見たいと思っている場所です。
現在のAPIは、最終的に私たちが構築したいと思っている統一されたプラットフォームビジョンへの単なる一歩に過ぎません。真の目標は、すべてが seamlessly(シームレスに)連携し、ユーザーが単一のAIアイデンティティを通じて多様なサービスやアプリケーションにアクセスできる未来なのです。
5.3 音声技術の重要性と今後の製品展開
音声は極めて重要だと考えています。正直に言うと、私たちはまだ十分に良い音声プロダクトを作れていません。それは構いません。良いテキストモデルを作るのにも時間がかかったのと同じです。最終的にはそのコードを解読し、解決したときには、多くの人々が音声インタラクションをはるかに多く使いたがると思います。
私たちが最初の現在の音声モードをローンチしたとき、私にとって最も興味深かったのは、それがタッチインターフェースの上に新しいストリームだったということです。あなたは話すことができ、同時に携帯電話をクリックして回ることができました。私は音声とGUIインタラクションについて、私たちがまだ解決していない素晴らしいことがあると考え続けています。
しかし、その前に、私たちは音声を本当に素晴らしいものにするでしょう。そして、それができたとき、既存のデバイスでクールなだけでなく、真に人間レベルの音声を作ることができれば、音声は全く新しいクラスのデバイスを可能にすると思います。
音声技術に対する私の確信は、それが単なる既存のインターフェースの追加機能ではなく、完全に新しい体験とデバイスカテゴリーを創出する可能性を持っているということです。私たちが現在の音声プロダクトに満足していないのは、真の人間レベルの音声体験を提供できていないからであり、これは時間をかけて解決すべき技術的な挑戦だと認識しています。
音声とGUIの組み合わせによる相乗効果についても、まだ完全に活用しきれていない大きな可能性があると考えています。これは今後の重要な開発領域の一つです。
5.4 センサーデータ統合の可能性
AIがより多くの入力データでより良く機能することは明らかであり、センサーデータを供給することについて、温度など物理世界の事物を供給することで、AIが現実をより良く理解できるようになるかという質問について、人々は実際にそれを多く行っています。
人々は、彼らが構築するものに、センサーデータを03 APIコールなどのAPIに入れるようなことを行っており、一部のユースケースでは非常にうまく機能しています。最新のモデルは、これについて良い仕事をするように見えますが、以前はそうではありませんでした。
そのため、おそらく私たちは将来のある時点で、それをより明示的に組み込むことになるでしょうが、すでにそこで多くのことが起こっています。
現在、ユーザーは既存のAPI経由でセンサーデータを活用しており、特定のユースケースにおいて効果的に機能していることを観察しています。技術的な進歩により、最新のモデルはこの種のデータ処理において以前よりもはるかに優れた性能を示しています。
これは、私たちが将来的により統合されたアプローチを取る可能性を示唆しており、センサーデータの処理をより明示的にシステムに組み込むことで、AIが物理世界をより深く理解できるようになる道筋が見えています。
6. 研究開発とカスタマイゼーション
6.1 スマートモデル開発のロードマップと信念
私はロードマップについて確信を持っています。スマートモデルについて、より多くのデータ、より大きなデータセンター、Transformerアーキテクチャ、テストタイム計算といった要素がありますが、過小評価されている要素や、大多数の人々のメンタルモデルに含まれていない混合の一部となるようなものについて聞かれました。
これらの要素はそれぞれ本当に困難です。明らかに、最も高いレバレッジを持つものは依然として大きなアルゴリズムのブレークスルーです。おそらく10倍や100倍の改善がまだいくつか残っていると思います。それほど多くはありませんが、1つか2つでも大きな違いを生みます。
しかし、アルゴリズム、データ、計算力というのが主要な要素です。研究ロードマップには何があるかと聞かれれば、本当にスマートなモデルです。
私は現在、私たちの研究ロードマップについてこれまで以上に楽観的に感じています。大きなアルゴリズム的ブレークスルーが最高のレバレッジを持っているという認識と同時に、アルゴリズム、データ、計算力という3つの大きな要素に対する継続的な取り組みが、私たちのスマートモデル開発の核心となっています。
残された10倍、100倍の改善の可能性は多くはないかもしれませんが、そのうちの1つか2つを実現できれば、それは非常に大きな意味を持つことになります。これが私たちの研究開発における基本的な信念と方向性です。
6.2 研究チームの運営:トップダウンvsボトムアップのバランス
世界で最高のMLチームの一つを運営しているとして、Issaのような賢い人々に何か面白そうなことを深く研究することを追求させることと、トップダウンで「これを構築し、実現させる」と指示することの間で、どのようにバランスを取っているかという質問を受けました。
非常に多くの調整が必要なプロジェクトがいくつかあり、そこではトップダウンの四分の一のような指揮が少し必要になります。しかし、ほとんどの人々はそれをあまりにも多く行おうとしていると思います。
良いAI研究や一般的に良い研究ラボを運営する他の方法があるかもしれませんが、OpenAIを開始したとき、私たちはよく運営された研究ラボがどのようなものかを理解するために多くの時間を費やしました。実際、このことについて私たちにアドバイスしてくれる人々の多くは亡くなっていました。良い研究ラボがあってから本当に長い時間が経っていたからです。
人々は私たちによく、なぜOpenAIが繰り返し革新するのか、なぜ他のAIラボが模倣するように見えるのか、なぜバイオラボXは良い仕事をしないのにバイオラボYは良い仕事をするのか、などと尋ねます。そして私たちは、ここに私たちが観察した原則があり、ここにそれらを学んだ方法があり、ここに私たちが過去に見たものがある、と言い続けています。
そして皆は「素晴らしい」と言いますが、私は他のことをやるつもりです、と言います。それは構いません。あなたは私たちにアドバイスを求めてきました。やりたいことをやってください。
しかし、私たちが研究ラボを運営しようとしているこれらの少数の原則が、私たちが発明したものではなく、歴史上の他の良い研究ラボから恥ずかしげもなくコピーしたものが、私たちにとってどれほど効果的だったかは驚くべきことです。そして、何か賢い理由で他のことをしようとしていた人々にとって、それは機能しませんでした。
つまり、私たちのアプローチは、歴史的に実証された研究ラボ運営の原則に基づいており、過度なトップダウン管理よりも、適切なバランスを保つことに重点を置いています。
6.3 学術研究者との連携プログラム
これらの大規模モデルについて、知識の愛好家として本当に魅力的なことの一つは、それらが人文科学における循環的変化や芸術的な興味深いもの、さらには社会における体系的偏見やその他の種類のことが実際にどの程度起こっているかといった、長年の疑問に答えることを可能にし、具体化する可能性があることです。私たちが以前は仮説を立てることしかできなかった非常に微妙なことを検出できるかもしれません。
OpenAIが学術研究者と協力して、人文科学や社会科学で初めて学ぶことができるこれらの新しいことを解き明かす思考やロードマップがあるかという質問に対して、私たちは実際に持っています。そこで人々が行っていることを見るのは驚くべきことです。
私たちはパートナーシップを結び、カスタム作業を行う学術研究プログラムを持っていますが、主に人々は「モデルにアクセスしたい」または「ベースモデルにアクセスしたい」と言います。そして、私たちはそれに本当に優れていると思います。
私たちが行うことのクールなことの一つは、私たちのインセンティブ構造の多くが、モデルをできるだけスマートで安価で広くアクセス可能にすることに向けられているということです。これは学術研究者と実際に全世界に非常によく役立ちます。
私たちはカスタムパートナーシップを行っていますが、研究者やユーザーが本当に望んでいることは、私たちが一般的なモデルを全般的により良くすることであることがよくわかります。そのため、私たちは推進力の90%をそれに集中しようとしています。
学術研究者との連携において、私たちの発見は、特別なカスタマイゼーションよりも、汎用モデルの品質向上こそが最も価値の高い貢献であるということです。これにより、研究者コミュニティ全体、ひいては世界全体により大きな利益をもたらすことができるのです。
6.4 カスタマイゼーションの理想形:「1兆トークンのコンテキストを持つ小さな推論モデル」
カスタマイゼーションについて、federated(連携)したOpenAIでのサインイン、記憶やコンテキストの持参について言及し、アプリケーション固有の物事に対する異なるポストトレーニングのようなカスタマイゼーションが、コアモデルをより良くしようとすることの絆創膏なのか、それについてどう考えているかという質問を受けました。
ある意味で、プラトン的な理想状態は、あなたの人生全体を入れる1兆トークンのコンテキストを持つ非常に小さな推論モデルだと思います。モデルは決して再トレーニングされません。重みは決してカスタマイズされません。しかし、そのものはあなたの全コンテキスト全体で推論することができ、それを効率的に行うことができます。
そして、あなたが人生で行ったすべての会話、読んだすべての本、読んだすべてのメール、見たすべてのもの、すべてがそこにあり、他のソースからのすべてのデータに接続されています。そして、あなたの人生はただコンテキストに追加され続け、あなたの企業はすべての企業データに対して同じことを行います。
私たちは今日それに到達することはできません。しかし、私は他のすべてをそのプラトン的理想からの妥協として考えており、それが最終的に私がカスタマイゼーションを行いたい方法です。
この理想的なビジョンでは、重みの変更や再トレーニングなしに、モデルが人生全体のコンテキストを効率的に処理し、その膨大な情報から推論を行うことができます。現在の技術では実現不可能ですが、これが私たちが目指すべき究極の目標であり、現在のあらゆるカスタマイゼーション手法は、この理想に向かう過程での一時的な解決策に過ぎないと考えています。
7. 価値創造と将来予測
7.1 今後12ヶ月の価値創造の源泉
次の12ヶ月で最も価値創造がどこから来るかについて、それは高度なメモリ機能なのか、セキュリティなのか、エージェントがより多くのことを行い、実世界と相互作用することを可能にするプロトコルなのかという質問を受けました。
ある意味で、価値は本当に3つのことから継続的に来ると思います。より多くのインフラの構築、よりスマートなモデル、そしてこれらのものを社会に統合するための足場の構築です。これらを推進すれば、残りは自ずと解決されると思います。
より高いレベルの詳細では、2025年は、ある種エージェントが作業を行う年になると思います。特にコーディングが支配的なカテゴリーになることを期待していますが、他にもいくつかあると思います。
この3つの柱—インフラ、モデル、社会統合—に集中することで、他のすべての要素が自然に整理されるという私の信念があります。これらの基盤がしっかりしていれば、具体的な機能やアプリケーションは、必要に応じて発展していくものだと考えています。
コーディングが特に重要な領域として浮上することを予測しているのは、それがエージェントが実際に世界で価値のある作業を実行する最初の大規模な実例になると考えているからです。これは2025年の特徴的な発展になると予想しています。
7.2 2025年:エージェントとコーディングの年
2025年は、ある種エージェントが作業を行う年になると思います。特にコーディングが支配的なカテゴリーになることを期待していますが、他にもいくつかあると思います。
コーディングは、これらのモデルの将来において、OpenAIにとってより中心的なカテゴリーになると考えています。現在、ChatGPTに応答を求めると、テキストが返ってくるかもしれませんし、画像を得るかもしれませんが、プログラム全体を返してもらいたいと思っています。すべての応答に対してカスタムレンダリングされたコードを得たいと思いますし、少なくとも私はそう思います。
これらのモデルが世界で物事を起こすことを可能にする能力を得たいと思っており、コードを書くことは、世界を実行し、多くのAPIを呼び出すなど、どのように世界を実行するかの中心的なものになると思います。
私たちは、アシスタントからエージェント、そして基本的にアプリケーションまで、すべてを通じて移行する世界から来ようとしています。それは非常に連続的に感じられるでしょうが、そうです。
ChatGPTはコードを書くことに優秀であるべきです。もちろん、私たちのAPIや私たちのプラットフォーム上でもそれを公開しますが、コーディングがより中心的なカテゴリーになると言えるでしょう。
2025年におけるエージェントの「作業を行う」能力の実現において、コーディングが最初の大規模な突破口になると予測しています。これは単なる一つの機能ではなく、AIが実際に世界に影響を与える手段としてのプログラミング能力の重要性を示しています。
7.3 2026年:AI主導の科学的発見の年
来年(2026年)は、AIがより多くの新しいものを発見する年になると思います。おそらく私たちは、AIが非常に大きな科学的発見を行うか、人間がそれを行うのを支援することがあるでしょう。
私は、人類の歴史における本当に持続可能な経済成長の大部分は、一度地球を広がり植民地化した後は、より良い科学的知識から来て、それを世界のために実装することから来るという信念を持っています。
この観点から、2026年はAIが知的領域において重要な科学的ブレークスルーを達成する年として位置づけられます。これは単に既存の知識を処理するのではなく、真に新しい発見を行い、人類の科学的理解を前進させることを意味しています。
科学的知識の向上とその実装が経済成長の根本的な推進力であるという私の信念に基づけば、AIが科学的発見に貢献できるようになることは、人類の発展にとって極めて重要な転換点となるでしょう。これが2026年の特徴的な発展になると予想しています。
7.4 2027年:物理世界でのロボティクス価値創造の年
2027年は、それがすべて知的領域から物理世界に移行し、ロボットが好奇心の対象から真剣な経済的価値の創造者になる年だと推測しています。
これは、私が頭の中での推測として述べたものですが、知的な作業やデジタルな領域での発展が、最終的に物理世界での実際の価値創造へと移行する流れを表しています。
2025年のエージェントとコーディング、2026年のAI主導の科学的発見という流れを経て、2027年には、これらの発展がロボット工学を通じて物理世界で具現化されることになると考えています。ロボットは、単なる技術的な好奇心や実験的なデモンストレーションから、実際に経済的価値を生み出す重要な存在へと転換することになるでしょう。
これは、AIとロボット工学の統合が、デジタル領域での能力を物理世界での実用的な応用に変換する段階を表しており、人間の経済活動に本格的に参加し、価値を創造する新たな時代の始まりを示しています。
ただし、これは私の現時点での推測であり、技術の発展や社会の受容度によって実際のタイムラインは変わる可能性があることは理解しています。
8. 創業者へのアドバイスと経験談
8.1 レジリエンスと困難への対処法
前回ここにいたときは、OpenAIでのちょっとした出来事から立ち直ったばかりでした。今、いくらかの距離と視点を得て、ここにいる創業者たちにレジリエンス、忍耐力、強さについて何かアドバイスがあるかという質問を受けました。
時間が経つにつれて、それは簡単になります。創業者としての旅路で多くの逆境に直面することになりますが、挑戦は困難になり、より高いステークスになりますが、感情的な負担は、より多くの悪いことを経験するにつれて簡単になります。
ある意味で、抽象的には挑戦がより大きく困難になっても、それらに対処する能力、築き上げるレジリエンスは、経験する一つ一つを通じて簡単になります。
創業者として直面する大きな挑戦について最も困難なことは、それが起こる瞬間ではありません。会社の歴史の中で多くのことが間違って起こります。急性の事態では、多くのサポートを得ることができ、多くのアドレナリンのような機能を発揮でき、本当に大きなことでも、会社が資金不足で失敗するようなことでも、多くの人々が来てサポートしてくれます。そして、あなたはある種それを乗り越えて、新しいことに進むことができます。
心理学的に管理するのがより困難だと思うのは、その後の結果です。人々は危機の中でどう働くか、その瞬間にどう対処するかについて多く焦点を当てます。そして学ぶ価値のある本当に価値あることは、どのように破片を拾い上げるかということです。それについて話すことははるかに少ないです。
実際、私は創業者が読みに行けるような良いものを見つけたことがありません。危機の0日目、1日目、2日目にどう対処するかではなく、60日目に、それを受けてただ再構築しようとしているときにどう対処するかについてです。そして、それが実践し、上達することができる分野だと思います。
8.2 危機の瞬間よりも「その後の再構築」が困難という気づき
創業者として直面する大きな挑戦について最も困難なことは、それが起こる瞬間ではありません。会社の歴史の中で多くのことが間違って起こります。急性の事態では、多くのサポートを得ることができ、多くのアドレナリンのような機能を発揮でき、本当に大きなことでも、会社が資金不足で失敗するようなことでも、多くの人々が来てサポートしてくれます。そして、あなたはある種それを乗り越えて、新しいことに進むことができます。
心理学的に管理するのがより困難だと思うのは、その後の結果です。人々は危機の中でどう働くか、その一つの瞬間の間にどう対処するかについて多く焦点を当てます。そして学ぶ価値のある本当に価値あることは、どのように破片を拾い上げるかということです。それについて話すことははるかに少ないです。
実際、私は創業者が読みに行けるような良いものを見つけたことがありません。本当の危機の0日目や1日目や2日目にどう対処するかではなく、60日目に、それを受けてただ再構築しようとしているときにどう対処するかについてです。そして、それが実践し、上達することができる分野だと思います。
危機の瞬間は、アドレナリン、コミュニティからのサポート、そして緊急事態に対する自然な反応によって、意外にも乗り越えることができるものです。しかし、その嵐が過ぎ去った後の長期間にわたる再構築のプロセスこそが、真の挑戦であり、創業者が最も孤独で困難な時期を経験する段階なのです。
この気づきは、危機管理の準備だけでなく、その後の回復期間への準備の重要性を示しています。
8.3 時間とともに感情的負担は軽減されるが課題は複雑化するという経験則
時間が経つにつれて、それは簡単になります。創業者としての旅路で多くの逆境に直面することになりますが、挑戦は困難になり、より高いステークスになりますが、感情的な負担は、より多くの悪いことを経験するにつれて簡単になります。
ある意味で、抽象的には挑戦がより大きく困難になっても、それらに対処する能力、築き上げるレジリエンスは、経験する一つ一つを通じて簡単になります。
これは創業者の経験における興味深いパラドックスです。客観的に見れば、会社が成長するにつれて問題はより複雑になり、ステークスは高くなり、失敗した場合の影響はより大きくなります。しかし同時に、過去の困難を乗り越えた経験が蓄積されることで、同じレベルの感情的動揺を感じることは少なくなります。
各々の困難を乗り越える度に、レジリエンスが構築されていきます。最初の大きな危機は圧倒的に感じられるかもしれませんが、2回目、3回目の危機では、「これも乗り越えられる」という確信を持つことができるようになります。
これは、創業者が時間をかけて発達させる重要な能力であり、経験から学ぶ貴重な側面です。問題の規模と複雑さは増大しますが、それに対処する心理的な能力と感情的な安定性も同時に向上していくのです。
この経験則を理解することで、初期段階の創業者は、現在の困難が永続的な状態ではなく、成長とともに対処能力も向上することを知ることができます。