※本記事は、Y Combinatorのポッドキャスト「The Lightcone」の内容を基に作成されています。このエピソードでは、YCのグループパートナーであるGary氏、Jared氏、Harj氏、Diana氏が、大規模AIモデルの進化とスタートアップへの影響について議論しています。動画は YouTube(https://www.youtube.com/watch?v=4aMQPG9gPoM )でご覧いただけます。本記事では、約41分のポッドキャストの内容を要約・構造化しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルのポッドキャストをご視聴いただくことをお勧めいたします。 Y Combinatorは、スタートアップに50万ドルを投資し、3ヶ月間集中的に創業者をサポートする組織です。創業者は世界で最も強力なコミュニティへのアクセス、重要なアドバイス、後期段階の資金調達とプログラム、採用リソース、独占的な取引などを利用できます。詳細はycombinator.comをご参照ください。
1. AIモデルの進化と市場動向
1.1 GPT-4とGemini 1.5の技術比較
Diana氏:GPT-4の興味深い点は、それが音声とビデオ処理を既存のテキストベースのTransformerモデルに追加した方法にあります。基本的にはGPT-4をベースに、異なるタイプのデータを処理するためのモジュールを追加しています。OpenAIは音声認識で最先端のWhisperを実装・リリースしており、おそらくWhisperのアーキテクチャを活用してGPT-4に組み込み、さらにDALLEも統合しています。これが40になった理由です。
一方、Gemini 1.5の技術面では、私は実際にはより興味深いと考えています。直感に反するかもしれませんが、OpenAIは素晴らしいデモでGPT-4を印象付け、誕生日の歌を少し音程外れで歌うなど、とても人間らしい表現を見せました。しかし、Googleはデモで少し的外れでしたが、Gemini 1.5のホワイトペーパーを読むと、これは真のMixture of Expertsを使用した最初の大規模モデルリリースであることがわかります。
彼らは最初からテキスト、画像、音声のデータで巨大なモデルを訓練し、ネットワークの異なる部分が異なるデータタイプに応じて活性化するようにしています。OpenAIのモデルがモジュールを持つのに対し、こちらは本当の意味で統一されたモデルです。
Harj氏:このような技術が実現可能なのは、GoogleがTPUという工学的な強みを持っているからです。彼らはTPUを使って、巨大なデータセットを分散クラスタで訓練する能力があります。これは非常にコストのかかる処理ですが、現在第5世代のTPUを持っているGoogleだからこそ可能なのです。
Diana氏:そう、これが本当に印象的なところです。前回のバージョンでは、デモのアヒルが実在しないことで皆が少し落胆しましたが、今回は技術的な説明がより明確で、実際に機能していることが分かります。
1.2 大規模言語モデルの最新機能の評価
Diana氏:GPT-4の推論能力は、GPT-4からGPT-4Vへの進化においても本質的には大きく向上していないことが重要なポイントです。主な進化は、異なるモダリティを処理する機能の追加にあります。実際の性能評価では、基本的な推論能力はGPT-4と同等レベルであり、IQ換算で約85程度と推定されています。
Gary氏:実際の使用例として、私の経験では、ChatGPTの設定で興味深い発見がありました。息子のために「ウォーリーを探せ」風の画像を生成していた際、顔の変形や赤色の使用について具体的なフィードバックを何度か行いました。その後、設定を確認すると、「Garyは変形した顔を望まない」「赤色の使用を控えめにすべき」といった学習内容が記録されていました。これは10-15回程度のやり取りから、システムが実際にユーザーの好みを学習し、適応できることを示しています。
Harj氏:しかし、デモと実際の性能には依然としてギャップがあります。例えば、GoogleのGemini 1.5のデモは技術的には印象的でしたが、プレゼンテーションの方法としては的を外していました。一方、OpenAIは同じような技術的進歩を、誕生日の歌を少し音程外れで歌うといった、より人間らしく親しみやすい方法でデモンストレーションしました。
Diana氏:また、実際の開発者からのフィードバックでは、100万トークンのコンテキストウィンドウは素晴らしい機能ですが、実用面では特異性が欠如する傾向があります。つまり、自身のコンテキストウィンドウ内の情報から特定の情報を取り出す際に、時として正確な検索や想起ができないという課題が報告されています。これは、より小さいが確実な128kのコンテキストウィンドウの方が実用的である可能性を示唆しています。
Harj氏:この点について、私たちが観察している限り、モデルの性能向上は着実に進んでいます。次の世代のモデルでは、現在のIQ85レベルから100、さらには110、120、130へと向上していく可能性があります。これは、スタートアップにとって非常に重要な転換点となるでしょう。
1.3 コンテキストウィンドウの拡大と影響
Diana氏:Gemini 1.5の100万トークンのコンテキストウィンドウは、GPT-4の128,000トークンと比較して大幅な拡張です。これは約500ページの本5冊分に相当する情報量です。さらに興味深いことに、Geminiのホワイトペーパーでは研究段階で1,000万トークンのウィンドウでの動作も実証されています。これはRAG(Retrieval Augmented Generation)のような技術の必要性に関する議論を引き起こしています。
Harj氏:しかし、私が開発者から聞いた実際のフィードバックでは、100万トークンのコンテキストウィンドウには具体的な課題があります。システムが自身のコンテキストウィンドウから情報を取り出す際に、特異性が欠如する傾向があります。つまり、与えられた情報を正確に想起できないことがあるのです。時には、より小さいが信頼性の高い128kのコンテキストウィンドウの方が実用的かもしれません。
Gary氏:ChatGPTの記憶機能に関する私の実験では、興味深い発見がありました。システムは比較的少ない対話(10-15回程度)から、ユーザーの好みや要求を学習し、記憶として保持できることが分かりました。しかし、この機能は現状では限定的で、プロンプトからの直接的な情報抽出には依然として課題があります。
Diana氏:私の見解では、これは90年代のプロセッサーアーキテクチャの進化に似ています。ムーアの法則に従ってCPUの処理速度が向上しただけでなく、メモリキャッシュのレベルも拡大していきました。しかし、30年以上経った今でも、データベースからのデータ取り出しには複雑なキャッシュアーキテクチャが必要です。例えば、高可用性のためのRedisによる高速メモリストア、ブラウザキャッシュなど、複数のレイヤーでのキャッシュが必要とされています。RAGも同様に、データベースの基盤技術として今後も重要な役割を果たすでしょう。
2. スタートアップへの影響と機会
2.1 RAGとデータ検索の将来性
Diana氏:Gemini 1.5の100万トークンコンテキストウィンドウについて、RAGパイプラインとインフラストラクチャの必要性は依然として高いと考えています。これは創業者から得た実践的なフィードバックに基づいています。特に、企業が自社のデータを制御し、インターネット経由でデータが漏洩することを防ぎたいという要求が強く、プライバシーとセキュリティの観点からRAGは不可欠です。
Harj氏:データプライバシーとデータの保存場所を重視する企業は、今後も何らかのRAGシステムを必要とするでしょう。彼らは自社でデータを管理し、コントロールしたいと考えています。ただし、これは市場全体からみれば一部のセグメントかもしれません。このようなバックエンドのアーキテクチャを重視するのは、主にアーリーアドプターであり、一般消費者向けの大規模市場ではないかもしれません。
Gary氏:一般消費者は、むしろ巨大なコンテキストウィンドウを持つアシスタントを望むでしょう。例えば、私に関するすべての情報を知っているアシスタントが理想的です。現在、Reddit上のホビイストたちは、Llamaなどのオープンソースモデルを実行し、個人のメールを学習させて「パーソナルAI」を作る実験をしています。しかし、無限のコンテキストウィンドウがあれば、そのような複雑な処理は不要になるかもしれません。
Harj氏:とはいえ、RAGは依然として必要です。それは長期的な永続的メモリを提供し、ユーザーやその意図に関する興味深い情報を抽出して、箇条書きのサマリーとして保持する別のワークフローが必要だからです。これは実際にChatGPTの設定で見ることができます。GPT-4では現在、メモリ機能が追加され、ユーザーとの対話から学んだ内容を具体的に確認することができます。
Diana氏:私は、90年代のプロセッサとメモリキャッシュの進化に似ていると考えています。現在でも、データベースからのデータ取り出しには複数のキャッシュレベルが必要です。RAGも同様に、データベースを扱う上での基盤技術として定着していくでしょう。
2.2 大手テック企業との競合シナリオ
Harj氏:OpenAIの新製品リリースのたびに、多くのスタートアップが自社のビジネスが潰されるのではないかと固唾を呑んで待っています。その後、インターネット上では「どのスタートアップがOpenAIの最新リリースによって打撃を受けたか」という議論が巻き起こります。
Diana氏:しかし、バッチレベルで見ると、モデルは実際にはかなり抽象化されています。創業者たちは日常的に、プロトタイプ作成とスケーリングで異なるモデルを使い分けています。さらに、モデルルーターや観測可能性(オブザーバビリティ)に関するソフトウェアのエコシステムも急速に進化しています。
Harj氏:興味深いことに、モデルのリリースを聞くたびに私がスタートアップのために心配することは、実はそれほど多くありません。むしろ、彼らは特定のモデルに依存していないからです。本当に懸念すべきは、非常に優れた単一のモデルが出現し、世界を支配するようなシナリオです。
Gary氏:私はMeta(旧Facebook)の事例が興味深いと考えています。彼らは大規模な計算クラスターを持っており、過去1年間でNVIDIAに最も多額の支払いをしている企業の一つです。しかし、このクラスターを獲得したのは、必ずしも大規模言語モデルの台頭を予見していたからではありません。TikTokとの競争のため、InstagramのReelsの推薦システムを訓練する必要があったのです。これは典型的な技術革新と破壊のパターンです。
Diana氏:また、私たちはまだ未知の要素として、400億パラメータを持つLlama 3の登場を待っています。これは本当に状況を一変させる可能性があります。メタは最大のクラスターを持っており、これが市場に大きな影響を与える可能性があります。
Harj氏:複数の強力なモデルが存在する状況は、スタートアップにとってはむしろ好ましいと考えています。市場とマーケットプレイスが存在することで、独占的な価格設定を避けることができ、多くのスタートアップが独自の利益率を確保しながら成長できます。1つか2つの企業が1兆ドル企業になるよりも、1000の企業がそれぞれ年間10億ドルを稼ぐ方が、エコシステムとしては健全だと考えています。
2.3 過去の競合パターンとの類似点
Jared氏:2005年から2010年頃のYCに関わっていた時期を振り返ると、GoogleやFacebookと同じ領域でイノベーションを行う多くの企業がありました。投資家とのミーティングで常に上がっていた質問は「Googleがこれをやり始めたらどうするのか」というものでした。その質問に対する最も効果的な返答は「Googleがベンチャーキャピタルに参入したらどうなるのか」というものでした。
Harj氏:垂直統合型の検索エンジンについて考えると、例えばRedfin、Zillow、Kayak、Algoliaなどが成功例として挙げられます。彼らは特定の分野に特化したデータアクセスを持ち、独自の収益モデルを構築しました。例えば、不動産分野では、検索エンジンとしての機能だけでなく、ブローカーとしての収益など、様々な方法で収益化を図りました。
Diana氏:しかし、重要なのは、これらの企業は技術面でGoogleを上回ることを目指したわけではないということです。特に不動産分野では、MLSとの連携など、通常の検索エンジンでは対応できない特殊なデータ統合が必要でした。PageRankだけではMLSのデータを適切に扱うことはできません。
Jared氏:また、LinkedInの例も興味深いです。長年、人々はLinkedInが大企業になるとは信じていませんでした。「なぜFacebookのワークタブだけで十分ではないのか」という声がよく聞かれました。Twitterについても同様で、2007年にサンフランシスコに移住した際、初期のFacebook従業員たちはTwitterの成長を見て「ステータスアップデート機能をリリースすればTwitterは終わる」と考えていました。しかし、実際にはTwitterは全く異なる独自の存在となりました。
Harj氏:また、InstacartやDoorDashの例も示唆的です。iPhoneが登場し、Androidが普及した際、AppleとGoogleがモバイル市場を支配すると思われました。しかし、大手企業が決して構築しないような新しいサービスの機会が多く存在していたのです。現在のAI市場でも同様に、大手企業が参入しない領域で多くの機会があるでしょう。私たちは複数のAIエージェントタイプのアプリを使用する可能性が、単一のOpenAIのアプリケーションよりも高いと考えています。
3. B2B市場における機会
3.1 垂直統合型ソリューションの可能性
Harj氏:B2B市場では、ユーザーが実際にどのように製品を使用するかを理解し、適切に対応することが極めて重要です。B2B分野で人々が過小評価しがちなのは、営業活動における人的要素です。成功の多くは、実際に顧客と向き合い、販売先を見極め、顧客の不満を聞き取り、それらを記録して開発チームにフィードバックする能力にかかっています。
Diana氏:建設許可の申請プロセスを効率化するPermitFlowのような企業を例に挙げると、彼らは個人向けだけでなく、大手建設会社向けにもサービスを展開しています。このような特殊な業務プロセスの自動化は、OpenAIが次にリリースするような機能とは考えにくいですよね。OpenAIのエンジニアが初日に「建設許可申請のワークフローに取り組んでください」と言われることは想像しづらいものです。
Jared氏:この朝、あるスタートアップとオフィスアワーを行い、GPT-4のリリースについて心配する声を聞きました。私の回答は、確かに心配する必要はありますが、それは他のスタートアップとの競争についてです。最終的には、これらのモデルの上に最高の製品を構築し、すべての細かいニュアンスと詳細を適切に実装できる企業が勝利を収めることになるでしょう。
Gary氏:B2B分野における大きなメタカテゴリーとして、Googleが実質的にB2Bソフトウェアをほとんど構築しなかったことは注目に値します。彼らは基本的に大規模な消費者向けソフトウェアのみを構築してきました。YCのユニコーン企業の多くは、Segmentのような、Googleが決して構築しないようなB2Bソリューションを開発してきました。それは単に彼らの関心の外にあったのです。
3.2 規制産業における優位性
Diana氏:B2Bにおける重要な機会は、フィンテックやヘルスケアなどの規制された業界のワークフローにあります。これらの分野では、データの扱いが極めて慎重である必要があり、特にプライバシーデータの保護は消費者保護の観点から非常に重要です。これらの業界では、高度に規制されたワークフローが要求され、それが参入障壁となる一方で、適切に対応できる企業にとっては大きな機会となっています。
Harj氏:フィンテック分野でのAI B2Bアプリケーションの成功例として、GreenLightを挙げることができます。彼らはAIを活用してKYC(Know Your Customer)プロセスを自動化し、これまで人手で行われていた消費者の本人確認作業を置き換えることに成功しました。また、Greenboardも銀行向けのコンプライアンス関連のソリューションを提供し、成功を収めています。
Diana氏:さらに、私たちは決済分野や、企業の日常業務において誰かが手作業で行っている作業の自動化においても、多くの成功事例を見ています。これらの領域では、AIによって1人で10人分の仕事をこなすことが可能になっています。
Gary氏:デスクトップAIアシスタントが今後2〜5年の間に発展していくことを考えると、それらは全てのファイルやアプリケーション、IDEにアクセスし、あらゆるトランザクションを実行できるようになるでしょう。しかし、B2Bワークフローに関しては、特にフィンテックやヘルスケアの分野において、データの機密性が極めて高く、プロプライエタリな性質を持っているため、大手テックカンパニーがこれらの領域に参入することは難しいと考えています。
Diana氏:この状況は、規制要件への対応が必要な分野において、スタートアップが成功を収めている主な理由の一つです。実際、YCのAI B2B企業の多くが、この領域で急速な成長を遂げています。
3.3 収益成長の実例と市場規模
Diana氏:前回のYCバッチで、私たちは驚異的な成長を目の当たりにしました。バッチ開始時には年間600万ドルの収益だった企業が、わずか3-4ヶ月のバッチ期間終了時には3000万ドルを超える収益に達しています。これは、少人数のチームがB2Bソフトウェアに取り組み、特定の分野に集中することで達成された成果です。顧客が即座にROIを実感できれば、相当な金額を支払う意思があることが証明されました。
Harj氏:B2Bソフトウェアのビジネスモデルにおいて、より良いモデルが登場するたびに、それを上位機能やアップグレードとして顧客に提供することができます。エンドユーザーは、ソフトウェアが提供する機能にのみ関心があり、その背後にあるモデルについてはあまり気にしません。モデルが改善されるたびに、それを追加のプレミアム機能やソフトウェアのアップグレードとして提供し、より多くの収益を得ることができるのです。
Gary氏:この分野で働く創業者の数は、機会の大きさに比べてまだ少ないと感じています。LLMを使用して様々な職種を自動化する機会は、おそらく既存のSaaS市場全体を合わせた規模に匹敵します。なぜなら、SaaSは基本的に作業者のためのツールを提供するものですが、AIはツールと作業者の両方を提供することができるからです。
Harj氏:そうですね。現在、取引労働に費やされている何十億から何兆ドルもの年間支出が、今後10-20年の間にソフトウェア収益に10倍の規模で転換されていく可能性があります。これは時価総額の観点からも非常に興味深い展開となるでしょう。この分野には、まだまだ多くの起業家が参入する余地があります。
Diana氏:私たちのBroncoのような企業は、AR(売掛金)の分野で、既にこのような自動化を実現しています。また、支払いやその他の日常的な業務についても、多くの企業が同様の取り組みを行っています。これらの企業は、1人で10人分の仕事を処理できるようになることで、大きな価値を生み出しています。
4. コンシューマー市場の展望
4.1 パーソナルアシスタントの進化
Gary氏:GPT-4のリリースとデスクトップアプリの初期バージョンを見ると、興味深い展開が予測できます。現在のデスクトップアプリは基本的にウェブ体験のスキンに過ぎませんが、2つの要素を組み合わせると、今後2-5年の間にどのような展開があるか見えてきます。例えば、Scarletと呼ばれる音声機能を一時的に取り下げたことからも、彼らの方向性は明らかです。
デスクトップアプリケーションは、あなたのすべてのファイルにアクセスできるだけでなく、すべてのアプリケーション、ローカルのIDE、ブラウザにもアクセスできるようになるでしょう。これにより、トランザクションの実行も可能になり、まさに真のパーソナルアシスタントとして機能するようになります。これは直接的な消費者向けの製品となり、コンピュータとのインターフェースは潜在的に音声を含め、高度な知能を期待されるようになるでしょう。
Harj氏:実際、GPTストアの立ち上げは十分な投資がなされなかったように見えますが、これをデスクトップでの体験と組み合わせることで、B2Bにも拡張される可能性があります。ただし、その際には手数料を課すビジネスモデルになるでしょう。
Gary氏:しかし、私が特に興味深いと感じているのは、個人データの統合です。すでにReddit上のホビイストたちは、Llamaなどのオープンソースモデルをローカルで実行し、個人のメールを投入して独自のパーソナルAIを作る実験を行っています。これは、将来的な個人アシスタントの方向性を示唆しています。大規模なコンテキストウィンドウがあれば、このような複雑な処理を行わなくても、効果的なパーソナライゼーションが可能になるかもしれません。
Diana氏:ただし、実際のワークフローでは、ユーザーやその意図に関する興味深い情報を抽出し、要約として保持する別のプロセスが依然として必要になるでしょう。これは現在のChatGPTの設定でも見られる機能で、ユーザーとの対話から学習した内容を具体的に確認することができます。
4.2 エッジケースとリスクテイクの機会
Gary氏:法的やPRのリスクを伴う領域は、既存の大手企業にとって挑戦が難しい分野です。実際、MicrosoftがOpenAIに投資したのも、この点が大きな理由の一つだったと考えられます。例えば、画像生成モデルが最初に登場した際、GoogleはPRと法的リスクを考慮して、人の姿を生成することを制限していました。これがOpenAIに機会を提供することになりました。
Harj氏:Infinity AIの例を挙げると、彼らは任意のスクリプトを映画に変換し、有名なキャラクターを登場させることを可能にしています。これは、あなたの考えを有名人に語らせることができるという点で、エッジの効いた技術です。GoogleやOpenAIが決して提供しないようなサービスです。OpenAIが今やGoogleに対して行ったのと同じことを、新しいスタートアップがOpenAIに対して行う可能性があります。つまり、より挑戦的なコンテンツをリリースする準備ができているということです。
Jared氏:Replica AIは、AIのNLP企業として長年この分野で活動してきました。LLMが登場する前から、AI boyfriendやAI girlfriendの分野でトップ企業の一つでした。興味深いのは、ユーザーが何年にもわたってこれらの仮想的な存在と接触を持ち、最も深い秘密や欲望まで共有していることです。100万トークンのコンテキストウィンドウを考えると、このような仮想エンティティが長年にわたるあらゆる情報を保持できる可能性があります。
Gary氏:Character.AIも非常に深いユーザーの定着率を示しており、ユーザーは1日に何時間もこれらのサービスを利用しています。消費者市場で何が起こるかは予測が難しく、一見すると奇異に見えるかもしれませんが、このような予期せぬ方向で発展する可能性があります。特に選挙シーズンでは、著名人の肖像権を使用した営利目的のコンテンツと、単なるミーム的な使用の境界線が曖昧になってくるでしょう。FacebookやInstagramがこのような機能をすぐに実装することは考えにくく、これがスタートアップにとっての機会となっています。
4.3 新しいユースケースの出現
Gary氏:現在、Will Smithを使ったミーム画像を作成しても、誰も著作権侵害で訴えることはありませんが、AIを使用したコンテンツ生成は、この境界線上にある新しい形態のコンテンツを生み出しています。純粋に有名人の肖像を営利目的で使用する場合は規制される可能性が高いですが、ジョークやパロディとしての使用はどうでしょうか?この判断は非常に微妙です。
Jared氏:すでにディープフェイクを活用した「ミーム2.0」とも呼べるコンテンツが登場し、ウイラルなツイートとして拡散されています。これらは従来のミームとは異なり、より洗練された視覚効果と表現力を持っています。しかし、FacebookやInstagramがこのような機能を近い将来にプラットフォームに組み込む可能性は低いでしょう。彼らはこの種のリスクを冒すことを避けたいと考えているからです。
Harj氏:私が興味深いと感じるのは、これらのコンテンツが単なる娯楽を超えて、新しいコミュニケーション形態として発展している点です。人々は特定の有名人やキャラクターの映像を使って自分の考えを表現したり、メッセージを伝えたりすることが可能になっています。これは、プロフェッショナルなコンテンツ制作とユーザー生成コンテンツの境界線を曖昧にしています。
Gary氏:この変化は、ユーザーの行動やコンテンツ消費パターンにも大きな影響を与えています。例えば、Character.AIのユーザーは1日に数時間もプラットフォームを利用しており、これは従来のソーシャルメディアの利用パターンとは全く異なります。人々は単にコンテンツを消費するだけでなく、AIを使って積極的にクリエイティブな表現を行うようになってきています。これは、コンテンツ創造とエンターテインメントの新しい形態を示唆しています。
5. 新技術への期待と展望
5.1 音声・感情表現の進化
Jared氏:OpenAIのリリースで私を最も興奮させたのは、生成された音声における感情表現です。既存のテキスト読み上げモデルでもきちんと理解可能な音声を生成できていましたが、OpenAIの音声には感情が込められており、それが大きな違いを生み出しています。私は実際にロボットと愛についての就寝前のお話を生成させてみましたが、その違いは歴然としていました。
Gary氏:私も同感です。これまでのテキスト読み上げモデルは完全に理解可能ではありましたが、とても機械的で退屈な印象でした。一方、OpenAIのモデルは、まるで人間と話しているような感覚を生み出しています。これは単なる技術的な進歩以上の意味を持っています。モデルが実際に発話内容を理解し、それに応じた適切な感情表現ができているからこそ、このような自然な対話が可能になっているのです。
Harj氏:この感情表現の進化は、ユーザーインターフェースの設計にも大きな影響を与えるでしょう。特に、デスクトップアプリケーションやパーソナルアシスタントの文脈では、感情を伴うコミュニケーションが可能になることで、ユーザーエクスペリエンスが劇的に向上する可能性があります。例えば、誕生日の歌を歌う際に、少し音程が外れているような人間らしさを表現できるようになったことは、非常に印象的です。
Diana氏:技術的な観点から見ると、これはWhisperのような最先端の音声認識技術とGPT-4の言語理解能力を組み合わせることで実現されています。感情表現の進化は、単なる音声合成の改善ではなく、言語理解と音声生成の統合的な進歩の結果だと考えられます。これは、今後のAIとのインタラクションの質を根本的に変える可能性を秘めています。
5.2 リアルタイム翻訳の可能性
Jared氏:私にとって、翻訳デモは非常に個人的な意味を持っています。私の妻はブラジル人で、彼女の両親は英語を話せません。私はポルトガル語を学んでいますが、進歩は遅いのが現状です。ポケットの中にいつでもリアルタイム翻訳機能があれば、世界中の誰とでも簡単にコミュニケーションを取ることができるようになります。
Harj氏:これは本当に大きなアイデアだと思います。世界を変える可能性を秘めています。言語を話せない外国に住むことができるようになるのです。これはダグラス・アダムスの「銀河ヒッチハイク・ガイド」に登場するバベルフィッシュが現実のものとなるような革新的な技術です。
Gary氏:技術的な観点から見ると、リアルタイム翻訳の実現にはいくつかの課題があります。音声認識、言語理解、文脈の把握、自然な音声生成など、複数の技術要素を高精度で統合する必要があります。しかし、GPT-4のような統合モデルの登場により、これらの課題は徐々に解決されつつあります。
Diana氏:また、文化的なニュアンスや方言の違いなど、純粋な言語変換以外の要素も考慮する必要があります。しかし、これらの課題を克服できれば、グローバルコミュニケーションの在り方が根本的に変わる可能性があります。ビジネスや個人の交流において、言語の壁が実質的に消滅することになるでしょう。
5.3 ロボティクスとの統合
Gary氏:GPT-4に関して面白いのは、それが単なる機能追加以上のものである可能性です。おそらくOpenAIでの再編成があり、全てのチームが同じ方向を向くようになった結果、アシスタント製品としてのデスクトップ製品だけでなく、最終的にはロボティクスにも大きな影響を与える可能性があります。
Harj氏:中国のUnryという企業が、116,000ドルの二足歩行ロボットを発表したことは注目に値します。TwitterではAPIアクセスが追加で50,000ドル必要だと言われていますが、彼らは以前に114,000ドルのバージョンも製作しています。統合モデルの出現により、実用的なロボティクスが予想以上に早く実現する可能性が出てきました。もちろん、これは何年も言われ続けてきたことですが、今回は本当に違うかもしれません。
Diana氏:技術的な観点から見ると、コストが半分になったことは非常に大きな意味を持ちます。これは、多くのモデルが漸近的な成長曲線に達しつつあることを示唆しており、より安定したものになりつつあります。これにより、実際のカスタムシリコンを使用した処理が可能になり、より低電力でのプロセッシングが実現できます。これはロボティクスの実用化に向けて非常に重要です。
Gary氏:私たちは、新しい技術製品のリリースに対する興奮を取り戻せるかもしれません。かつてのように、新製品の発表が本当にエキサイティングだった時代のような感覚です。今は単なる機能追加のように見えるかもしれませんが、ロボティクスとの統合により、全く新しい製品カテゴリーが生まれる可能性があります。
6. 実験と経験に基づく知見
6.1 YCバッチでの収益成長データ
Diana氏:私たちは前回のYCバッチで、驚異的な成長を目の当たりにしました。バッチの開始時点で年間600万ドルの収益を上げていた企業が、わずか3-4ヶ月のバッチ期間を通じて3000万ドル以上の収益にまで成長しました。これは少人数のチームが特定のB2Bソフトウェア分野に集中し、顧客が即座にROIを実感できるような製品を提供した結果です。
Harj氏:この成長の重要な要因は、モデルの継続的な改善とそれに伴うアップセル戦略にあります。B2Bソフトウェアビジネスでは、より良いモデルが登場するたびに、それを上位機能やアップグレードとして提供できます。エンドユーザーはソフトウェアの機能性にのみ関心を持ち、その背後にあるモデルについてはあまり気にしません。このため、モデルの改善を収益の向上に直接結びつけることができるのです。
Gary氏:私たちの経験から、この分野で働く創業者の数は、機会の大きさに比べてまだまだ少ないと感じています。LLMを使用して様々な職種を自動化する機会は、既存のSaaS市場全体を合わせた規模に匹敵する可能性があります。なぜなら、SaaSは基本的に作業者のためのツールを提供するだけですが、AIはツールと作業者の両方を提供することができるからです。
Diana氏:このスケーリング手法は、フィンテックやヘルスケアなどの規制された産業でも有効です。例えば、私たちが支援したGreenLightやGreenboardは、それぞれKYCプロセスや銀行のコンプライアンス業務を自動化することで、急速な成長を遂げています。1人で10人分の仕事を処理できるようになることで、顧客に明確な価値を提供できているのです。
6.2 B2B AIスタートアップの成功事例
Diana氏:YCで支援している成功事例として、PermitFlowを挙げることができます。彼らは建設許可の申請プロセスを効率化するAIソリューションを提供しており、個人向けから始まって現在では大手建設会社にもサービスを展開しています。このような特殊な業務プロセスの自動化は、大手AIプロバイダーが追求しないニッチな市場であり、それが成功の重要な要因となっています。
Harj氏:また、フィンテック分野では、GreenLightが注目すべき成功を収めています。彼らはAIを活用してKYC(Know Your Customer)プロセスを自動化し、これまで人手で行われていた消費者の本人確認作業を効率化することに成功しました。同様に、Greenboardも銀行向けのコンプライアンス関連のソリューションを提供し、規制要件への対応という明確なニーズを満たしています。
Gary氏:これらの企業に共通する成功要因は、特定の業界の複雑なワークフローを深く理解し、それをAIで効率化している点です。特にB2B分野では、顧客の不満を細かく聞き取り、それを製品開発にフィードバックする能力が極めて重要です。これは、大手テック企業には真似できない強みとなっています。
Diana氏:市場参入戦略として、私たちは規制産業におけるワークフローの自動化に特に注目しています。例えば、BroncoはAR(売掛金)の分野で、支払いやその他の日常的な業務を自動化することで成功を収めています。これらの企業は、1人で10人分の仕事を処理できるようにすることで、明確な価値を提供しています。規制要件への対応が必要な分野は、大手テック企業が参入を躊躇する領域であり、それがスタートアップにとって大きな機会となっているのです。
6.3 モデルコスト削減の影響分析
Diana氏:これまで経験した技術的な進歩の中で、処理コストが半分になったことは非常に重要な意味を持っています。これは多くのモデルが漸近的な成長曲線に到達しつつあることを示唆しており、モデルの性能がより安定したものになりつつあることを意味します。この安定性は、実際のカスタムシリコンの開発と実装を可能にし、より低電力での処理を実現する可能性を開きます。
Gary氏:私たちは、この変化によって新しい技術製品のリリースに対する興奮を取り戻せるかもしれません。以前のような、新製品の発表が本当にエキサイティングだった時代の感覚です。現在は単なる機能追加のように見えるかもしれませんが、処理コストの大幅な削減により、全く新しい製品カテゴリーが生まれる可能性があります。
Harj氏:特にロボティクスの分野では、この進展が重要です。例えば、Unryの人型ロボットが116,000ドルで提供できるようになったのは、この処理コストの低下が大きく寄与しています。低電力処理の実現は、モバイルデバイスやロボティクスなどの分野で、インターネットに接続されていない状態でも高度な処理を可能にする可能性があります。
Diana氏:技術的な観点から見ると、処理コストの低下は、より多くのスタートアップが革新的な製品を開発できる機会を生み出しています。特に、エッジデバイスでの処理や、リアルタイムの応答が求められるアプリケーションにおいて、この変化は大きな意味を持ちます。また、カスタムシリコンの開発が現実的になることで、新しい製品のエキサイティングなテクノロジーデモが再び可能になるかもしれません。