2025-10-28 デモでは売れない——信頼されるAI製品の作り方

出展元

https://www.youtube.com/watch?v=l0h3nAW13ao

初回調査日

Mar 24, 2026 1:09 PM

キーワード

生成AIAIスタートアッププロダクト品質エグジット戦略

※本記事は、Jake Heller氏によるY Combinator「AIスタートアップスクール」（2025年6月17日開催）での講演「アイデアから6億5000万ドルの出口まで：AIスタートアップ構築の教訓」の内容を基に作成されています。講演の詳細およびチャプター情報は https://www.youtube.com/watch?v=l0h3nAW13ao でご覧いただけます。本記事では講演の内容を要約しております。

Jake Heller氏は、AIリーガルスタートアップ企業Casetextの共同創業者兼CEOです。同社が開発した弁護士向けAIアシスタント「CoCounsel」はトムソン・ロイターに6億5000万ドルで買収されました。本講演では、適切なアイデアの選定から実際に機能するAI製品の構築まで、自身のチームが歩んだ実践的なプロセスが語られています。また、創業者が魅力的なデモを実際の顧客に利用される信頼性の高いツールへと変えるための具体的な方法についても解説されています。

なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講演動画をご視聴いただくことをお勧めいたします。また、Jake Heller氏のソーシャルメディアアカウント（@jakeheller）およびY Combinator（@ycombinator）もご参照ください。

1. 6億5000万ドル規模のAI企業をいかに構築したか

1-1. 発表者の自己紹介

Jake： 私はもともとコーダーとして育ちました。物心ついた頃からずっと何かを作り続けてきましたが、途中で法律と政策に惹かれ、弁護士になるという寄り道をしました。ロースクール、クラークシップ、大手法律事務所と、いわゆる王道のキャリアを歩んだわけですが、ものを作る人間が法律や会計や金融といった古い業界に足を踏み入れると、まず最初に気づくことがあります。「なぜ、いまだにこんなやり方をしているのか」という驚きです。その感覚が私を突き動かし、すぐに業界を飛び出しました。

1-2. Casetextの歩みとThomson Reutersへの売却

Jake： 私が2013年に創業したのがCasetextです。おそらく今ここにいる皆さんの多くが8歳くらいの頃の話です。そして、これはひとつの示唆でもあります。スタートアップが成功するまでには、それくらいの時間がかかることもある。今18歳でも19歳でも20歳でも、スタートアップを始めることは人生最高の冒険のひとつになりますが、時間がかかるということを覚悟しておいてください。

Casetextでは創業当初から、AIを法律に適用することで大きな変革をもたらせるという確信を持ち続けてきました。創業当時は「AI」とすら呼ばれていなくて、自然言語処理（NLP）とか機械学習と呼ばれていた技術です。私たちのAI研究者であるJaveedは、「Attention Is All You Need」などのBERTの論文が出た直後に、AIが弁護士の仕事、たとえば検索を劇的に改善できるという応用可能性をいち早く見出しました。私たちは大規模言語モデルの研究に深く取り組んでいたため、2022年の夏という非常に早い段階でGPT-4へのアクセスを得ることができました。当時すでに売上は約2,000万ドル、社員も100人ほどいて、会社としては好調でした。しかしGPT-4に触れた瞬間、私たちはそれまで取り組んでいたすべてを止めて、この新技術を基盤にまったく新しいものを作ると決断しました。それが「Co-Counsel」です。弁護士向けのAIアシスタントとして史上初めてリリースされた製品であり、今もなお最高のものだと私は信じています。その理由はこれ以降の話の中で説明します。約2年前、Thompson Reutersに6億5000万ドルの現金で買収されました。大きな数字に聞こえるかもしれませんが、この部屋にいる皆さんが将来振り返ったとき、「あの頃はそれが大きな数字だったのか」と思うはずです。AIが皆さんに与える可能性は、それをはるかに超えるものだと本気で思っています。

1-3. LLM登場前後での方針転換

Jake： 私たちがGPT-4に早期アクセスできたのは、大規模言語モデルの研究に真剣に向き合っていたからです。そして実際にGPT-4を触ったとき、私たちは「これは既存の製品を改良するレベルの話ではない」と直感しました。当時の売上2,000万ドル、100人の組織、積み上げてきたすべてのものを一度置いて、ゼロから新しい製品を作る。それだけの決断を一瞬でさせるほどの技術的インパクトがありました。LLM以前の私たちの製品は、弁護士の仕事に対して漸進的な改善しかもたらせていませんでした。しかしLLM、とりわけGPT-4の登場によって、より多くの弁護士をより劇的に効率化し、より多くの人の人生を変えることができるようになりました。この転換点を見極め、躊躇なく動いたことが、今回の結果につながっています。

1-4. 本発表の3つの主題

Jake： 今日お話しすることは大きく3つです。第一に、どんなアイデアを選ぶべきか。何を追いかけるかをどう決めるかということです。第二に、実際にどうやって作るか。そして第三に、そして正直これが最もないがしろにされがちなのですが、作ったものをどうやって市場で正しくマーケティングし、販売するか。この3点を順番に話していきます。

2. AI時代における適切なアイデアの選び方と3つのスタートアップ類型

2-1. 「人々が望むもの」を特定することが簡単になった理由

Jake： Y Combinatorの言葉に「Make something people want（人々が望むものを作れ）」というものがあります。この言葉が生まれた背景には、人々が本当に望むものを知ることが genuinely 難しかったという現実があります。従来のソフトウェア開発では、何かを作ってユーザーの手に渡し、何度も試行錯誤を繰り返して、ようやく「これが人々の求めるものだ」と気づくプロセスが必要でした。しかし今、この問いに答えることが劇的に簡単になりました。

なぜか。人々が望むものは何か、と考えてみてください。答えはシンプルです。人々がすでにお金を払って他の人にやらせていることです。カスタマーサポートの担当者、保険の査定員、パラリーガル、あるいは個人的な領域でいえばパーソナルトレーナーやエグゼクティブアシスタント。こうした仕事に人々はすでにお金を払っています。つまり、私たちはすでに「人々が何を望んでいるか」を知っているのです。人がお金を払って人にやらせているタスクの多くは、LLMをはじめとする従来型AIで解決できるものが多く、物理的な作業であればロボティクスが解決できます。アイデアを選ぶ問題は、「何を作ればいいかわからない」から「人が人にお金を払ってやらせていることを探す」という、はるかに具体的な問いに変わったのです。

2-2. AIスタートアップの3類型：支援型・代替型・新領域型

Jake： 何を作るか決めるとき、ターゲットとする領域はおおよそ3つのカテゴリーに分類できます。

第一は「支援型」です。専門家が仕事を遂行するのを助けるカテゴリーです。私たちがCo-Counselで作ったのがまさにこれです。弁護士は大量の文書を読み、リサーチをし、契約書をレビューし、修正を加え、相手方の弁護士に送るという作業を日々こなしています。そうした作業を支援するAIです。

第二は「代替型」です。人間がやっている仕事そのものをAIが完全に置き換えるカテゴリーです。現在、人々は弁護士を雇っています。では、AIを活用した法律事務所を作ってしまえばどうでしょうか。会計士や、ファイナンシャルアドバイザーや、理学療法士や、洗濯をたたむ人でも同じことが言えます。そのタスクをAIで丸ごと代替してしまうのです。

第三は「新領域型」、すなわち以前は考えられなかったことを可能にするカテゴリーです。たとえば法律事務所には数億件もの文書があります。しかし人間がすべての文書を読んで分類・要約・索引付けをするなど、コスト的にあり得ない話でした。何百万ドルもかかってしまいます。しかし今、Gemini 2.0 Flashなどのモデルのインスタンスを何千と立ち上げて、すべての文書を読み込ませることができます。かつては想像もできなかったことが、今は実行可能になっているのです。

2-3. 総市場規模（TAM）の構造変化：SaaSの月額から職種の年収総額へ

Jake： この3つのカテゴリーそれぞれで、得られるお金の規模が劇的に変わりました。従来のソフトウェアビジネスにおける総市場規模（TAM）の考え方は、「専門家の人数×月額20ドル」といった計算でした。もちろん、そのモデルで数十億ドル規模の企業が生まれてきたのも事実です。しかし今日、私たちがすでに知っている「人々や企業が喜んで払う金額」の上限は、その仕事をこなす人間に支払われている給与の総額です。そしてその数字は、月額20ドルの1,000倍にもなります。

具体的に考えてみましょう。ある問題を解決するためにSaaSを使えば月20ドルを払います。しかし同じ問題を解決するために専門家を雇えば、月5,000ドル、1万ドル、あるいは2万ドルを払うことになります。つまり、AIを使った新しいアプリケーションで得られる収益のポテンシャルは、従来と比べて10倍、100倍、あるいは1,000倍にまで拡大しているのです。

2-4. 「仕事の置き換え」はディストピアではなくユートピアである理由

Jake： ここで少し立ち止まって考えてほしいことがあります。「人々の給与総額を市場として捉える」という話をすると、ディストピア的に聞こえるかもしれません。しかし私はむしろ逆だと思っています。未来は美しい。その理由は2つあります。

Sam Altmanが最近のエッセイで書いていましたが、かつて「ランプ灯し係」という仕事がありました。電気がない時代、夜になると街灯に火をつけて回り、朝になると消して回る仕事です。電気の発明でその仕事はなくなりましたが、その代わりに私たちは今日の文明を手に入れました。今の私たちには、電気以降の世界を生きた人々が想像もできなかったことが当たり前になっています。皆さんが今取り組んでいる仕事も同じです。現在私たちがしている仕事は、10年後、15年後、あるいは100年後には時代遅れに見えるかもしれない。しかし、それによって私たちは次の時代の可能性を解放できるのです。

もうひとつ、多くの人が見落としているポイントがあります。AIは専門サービスへのアクセスを民主化します。法律の分野でいえば、低所得者の85%以上が弁護士サービスを受けられていません。人間の弁護士を使うのは時間もかかり、費用もかかりすぎるからです。しかし弁護士をAIで100倍速く、10倍安くできれば、あるいはAIを活用した新しい法律事務所そのものを作れば、これまで断られていたクライアントに「はい」と言えるようになります。同じことはあらゆる分野に当てはまります。世界中の誰もが最高の金融アシスタントを持てる。世界中の誰もが最高のエグゼクティブアシスタントや、CursorやWindsurfのような最高のコーディングアシスタントを持てる時代が来ます。仕事を置き換えることは、これまで富裕層にしかアクセスできなかったものを、すべての人に届けることでもあるのです。

3. 信頼性の高いAI製品の構築方法：設計思想と実装アプローチ

3-1. デモ品質と実運用品質のギャップという壁

Jake： これから話すことは、聞けば非常にシンプルで当たり前に聞こえるかもしれません。もしかしたら「そんなことは知っている」と思う人もいるでしょう。しかし本当に驚くべきことは、誰もそれをやっていないという現実です。私がアイデア選びのところで話したような「職種カテゴリーから考える」というアプローチをとっている会社は、今の市場にほとんど存在しません。そして、これから話す「信頼性の高いAIを作るための当たり前のこと」を実践している会社も、驚くほど少ないのです。

ここで私が「信頼性（reliable）」という言葉にあえて下線を引いているのには理由があります。クールなデモを作ることと、実際に現場で機能するものを作ることの間には、埋めなければならない巨大なギャップがあるからです。今日の話の核心はそこにあります。

3-2. ステップ1：専門家が実際に何をしているかを徹底的に把握する

Jake： 最初のステップは、対象とする職種の専門家が「実際に何をしているか」を具体的に把握することです。AIアシスタントを作るにしても、AIによる代替を作るにしても、まず「その仕事は具体的に何をする仕事なのか」を正確に理解しなければなりません。パーソナルトレーナーやフィットネスコーチ向けのアプリを作るなら、彼らが実際に何をしているかを知る必要があります。金融アナリスト向けのアプリを作るなら、金融アナリストが日々どんな判断をどんな手順でしているかを知る必要があります。「なんとなくこういう仕事だろう」という思い込みで進めてはいけません。

これを実践する上で、私たちが有利だったのは、私自身が弁護士であり、共同創業者たちも弁護士であり、エンジニアも含めて社員の30〜40%が弁護士だったことです。私たちは対象とする仕事を実際に生きていました。もしあなたがその領域の専門家でないなら、現場に潜り込んでください。まるでスパイのように、その仕事を徹底的に観察し、理解してください。あるいは、あなたが技術的な才能を持っているなら、深い専門知識を持つ共同創業者を探す方法もあります。いずれにせよ、盲目的に進んではいけません。「この分野の専門家はこういう仕事をしているはずだ」という思い込みで作ったものは、現実とかけ離れたものになります。

3-3. ステップ2：最良のプロフェッショナルの思考プロセスから逆算する

Jake： 対象職種の仕事内容を把握したら、次に自分自身に問いかけてください。「もし最高の専門家が、無制限の時間と無制限のリソース、たとえば並列で動く1,000体のAIを自由に使えるとしたら、どうやってこのタスクを解決するだろうか」と。そこから逆算して、実際に踏むべきステップを書き出すのです。

私たちの法律分野での実例をお話しします。GPT-4へのアクセスを得た直後、私たちが最初に取り組んだのが、「ディープリサーチ」の先駆けとも言えるものでした。今から約2年半前のことです。そのとき私たちが問いかけたのは「最高の弁護士なら、このリサーチの依頼をどう処理するか」でした。「なんとなくリサーチする」ではありません。具体的なステップに分解したのです。

まず、リサーチの依頼を受けたとき、優秀な弁護士は「この依頼は本当に何を求めているのか」を理解しようとします。今日のDeep Researchがやっているように、明確化のための質問をすることもあります。次に、リサーチ計画を立てます。そして数十回の検索を実行し、何百もの結果を取得します。その結果を一つひとつ丁寧に読み込み、関連性のないものは除外し、関連性のあるものを取り込みます。読みながらメモを取ります。「なぜこれは関連しているのか」「このケースは自分の回答のどこに位置づけられるのか」といった思考を記録します。そうしたメモをもとに、最終的なエッセイをまとめ上げます。そして最後に、エッセイが正確であるか、引用元が正しいかを自己チェックするステップを踏みます。これが実際に優秀な弁護士がリサーチをするときに踏む手順です。私たちはこれを書き出しました。

3-4. ステップ3：各ステップをプロンプトまたはコードに変換する

Jake： ステップを書き出したら、次はそれをコードに変換する作業です。こうしたステップの多くは、最終的に「プロンプト」になります。なぜなら、それらは人間レベルの判断を必要とするタスクだからです。そうしたタスクをソフトウェアアプリケーションに組み込むために、今や私たちはプロンプトという手段を持っています。つまり、人間レベルの知性が必要だったものをプロンプトとして実装できるようになったのです。

具体例を挙げましょう。「この法的意見書を読んで、問われている質問に対する関連度を0から7のスケールで評価してください」というプロンプトがひとつ。「これまでに読んだすべてのケースについて取ったメモをもとに、エッセイを書いてください」というプロンプトがひとつ。「このエッセイの脚注と元の資料を照らし合わせて、正しく引用されているか確認してください」というプロンプトがひとつ。このように、各ステップが独立したプロンプトになります。

一方で、もしプロンプトを使わずに済むなら、そのほうが望ましいケースもあります。決定論的な処理や、数値計算のような処理であれば、通常のコードで実装したほうが速く、安価です。トークンはまだコストがかかります。ですから、ステップを分解するときに「これは本当にプロンプトが必要か、それとも普通のコードで書けるか」を常に判断することが重要です。

3-5. ステップ4：固定ワークフロー型かエージェント型かを判断する

Jake： ステップを洗い出した後に、もうひとつ重要な判断があります。そのタスクは毎回同じ手順で処理できるか、それとも状況によって手順が変わるかという判断です。

もし専門家が取るアプローチが毎回ほぼ同じ5〜6ステップである場合、答えはシンプルです。固定ワークフローとして実装すればよい。実際、私たちがCo-Counselで作ったものの多くはこのパターンでした。このタスクをやるときは、常にこの6〜7ステップを踏む。そうであれば、LangChainのような複雑なフレームワークは必要ありません。Pythonのコードで、この関数の出力を次の関数の入力に渡し、またその出力を次の関数に渡す、というシンプルな構造で十分です。

一方で、状況によってアプローチが大きく変わる場合、たとえば異なるリサーチ計画を立てる必要があり、異なるリソースを参照し、異なる種類の検索を実行し、異なる文書を読む必要があるような場合、それはよりエージェント的なアプローチが必要になります。これは実装が難しく、品質の担保もより難しくなります。しかしそれが必要なケースもあります。

いずれのアプローチをとるにせよ、ここで改めて強調したいのが、ドメイン専門知識の重要性です。「この分野の専門家はこういうふうに仕事をしている」という確かな理解なしに、ワークフローを設計することはできません。多くの人を実際に訪ねて話を聞くことでもその理解は得られます。しかし、盲目的に設計を進めることだけは避けてください。

4. 評価（Eval）とテストの重要性：デモから実運用品質へ

4-1. なぜほとんどのAI製品が「デモ止まり」で終わるのか

Jake： 正直に言います。作ることそのものは、実はそれほど難しくありません。本当に難しいのは、それを「正しく動かすこと」です。リサーチが正しく行われたかどうか、どうやって知りますか。文書を正しく読めたかどうか、どうやって確認しますか。保険の査定が正確にできたかどうか、どうやって判断しますか。株の売買判断が正しかったかどうか、どうやって検証しますか。ここに評価（Eval）が極めて重要な役割を果たします。そしてこれこそが、ほとんどの人がやっていないことです。

多くの人はデモレベル、つまり正答率60〜70%程度のものを作って満足してしまいます。正直に言えば、そのレベルのデモでもVCのパートナーに見せれば、それなりの資金調達ができてしまいます。最初の数社のパイロット契約を取ることもできてしまいます。しかし、実際に現場で使い始めると、それは機能しません。そして、せっかく積み上げてきた興奮も、調達した資金も、パイロットの期待も、すべてが崩れ落ちます。

LLMは人間と同じで、調子のいい日もあれば、調子の悪い日もあります。ChatGPTを使っていて、あるときはその賢さに驚き、別のときはあまりにひどい間違いに唖然とした経験が皆さんにもあるはずです。コードを書かせたとき、あるいは何かを調べさせたとき、あるいはGeorge Washingtonの誕生日をハルシネーションされたとき。LLMはそういうものです。ではどう対処するのか。私たちがとったアプローチの大きな柱が、評価です。

4-2. 評価設計の基本：「良いアウトプット」をドメイン専門家の視点で定義する

Jake： 評価の設計はすべて、ドメイン専門知識から始まります。「良いアウトプットとはどういうものか」を定義できなければ、評価は作れません。リサーチタスクであれば、ある問いに対する正しい回答には何が含まれていなければならないか。文書から情報を抽出するタスクであれば、その文書のどのページに情報があり、何を引き出すべきか。これがタスク全体レベルの評価です。

しかしそれだけでは不十分です。タスク全体だけでなく、そのタスクを構成するマイクロタスクひとつひとつについても、評価基準を設ける必要があります。たとえば「どの検索クエリが良い検索クエリで、どれが悪い検索クエリか」という基準も必要です。ここでも、実際の専門家が何を良しとするかを知っていることが、評価設計の精度に直結します。

評価を設計するうえで私が特に好む工夫は、アウトプットをできる限り客観的に採点しやすい形式に変換することです。たとえば、「この法的意見書は問いに対してどれだけ関連しているか」を評価するなら、AIにtrue/falseや0から7の数値で出力させます。「7ではなく5だった」という評価が明確に得られるからです。これによって評価の自動化が可能になります。ツールとしてはPromptFooというオープンソースのフレームワークが使いやすく、コマンドラインで動作し、プロンプトに対してテストを実行できます。ただし、最終的にどのフレームワークを使うかよりも、「この入力とこのプロンプトに対して、答えは6であるべき」というテストを作り続けることのほうがはるかに重要です。

4-3. 評価の運用ガイドライン（実験から得た知見）

Jake： 実際にどう運用するかについて、私たちの経験から得た具体的なガイドラインをお伝えします。まず、顧客が実際に投げかけてくるものに近いテストケースを10〜12件作ることから始めます。そのすべてでパスすることを目指します。パスしたら50件に増やし、次に100件に増やしていきます。

重要なのは、ホールドアウトセットを用意することです。テストケースを見ながらプロンプトを書いていると、そのテストだけに最適化された、いわば「カンニングペーパー」のようなプロンプトができあがってしまいます。それを防ぐために、プロンプトを書く際には見ないテストケースのセットを別に持っておき、プロンプトが本当に汎化できているかを確認します。

ベータ段階に入る前の目安として、1プロンプトあたり・タスク全体あたり100件のテストで99件パスできていれば、本番環境でも概ね信頼できる品質と言えます。1,000件でテストできればさらに良い。ただし、良質なテストケースを作ること自体が本当に難しい作業です。ですからまず100件を目標にして、ベータに入り、顧客の手に渡した後に学びを重ねていく姿勢が現実的です。ベータに入る際には「まだ完璧ではない、だからベータなのです」と顧客に正直に伝えてください。

4-4. プロンプト改善の実態と心構え

Jake： プロンプトを改善し続けることの大変さについて、正直にお伝えします。最初、評価を回すと正答率は60%程度です。そしてここで、ほとんどの人が諦めます。「AIにはこのタスクは無理だ」と結論づけてしまうのです。

一晩かけてプロンプトを改善すると、61%になります。ここでまた大勢の人が諦めます。しかし私が声を大にして伝えたいのは、ここで諦めないでほしいということです。もし本気で2週間、プロンプトの改善と評価の追加を繰り返し続けることができれば、97%の正答率に到達できます。残りの3%は、人間が判断しても意見が分かれるような、ほとんど判断の難しいケースです。そこまで到達すれば、本番環境での動作について、かなりの自信を持てるようになります。

また、1単語を加えるだけ、あるいは1単語を削るだけで正答率が1%動くこともあります。1%の改善など微々たるものに聞こえるかもしれませんが、医療、法律、金融のように精度が命の分野では、1%の改善は顧客にとって非常に大きな意味を持ちます。プロンプトの改善に2週間眠れぬ夜を費やす覚悟があるかどうか。それがこの分野で成功する最大の資格だと私は思っています。なぜなら、その忍耐と執念を持てる人が、圧倒的に少ないからです。

4-5. プロンプト改善は継続的なプロセスである

Jake： プロンプトの改善は、一度やって終わりではありません。静的なものではなく、継続的なプロセスです。新しいモデルが出るたびに試してください。PromptFooのようなフレームワークを使えば、新しいモデルを追加するだけで、既存のテストセットに対するパフォーマンスを自動的に計算できます。プロンプトへの改善プルリクエストは、毎日、あるいは2日に1回は出し続けるべきです。

そして、本番投入後に最も価値のあるテストケースが生まれます。顧客が実際に使い始めると、私たちがラボで考えもしなかった使い方をしてきます。実際のユーザーのGoogle検索クエリを見たことがありますか。ほとんど読めないようなものも多い。「burrito me how ouch」みたいな、何を聞きたいのかわからないクエリでも、AIは正しく答えを返さなければなりません。顧客はそういう使い方をするのです。顧客が失敗事例を報告してきたとき、そのデータを持っているなら分析し、持っていないなら「その文書とその質問を共有してもらえますか」と聞く。それが新しいテストケースになります。私たちが今持っている評価セットの多くは、ラボで作ったものではなく、実際の顧客が経験した失敗から生まれたものです。

最後にもう一度まとめます。「専門家が実際にどうやって仕事をするかを理解してステップに分解すること」と「各ステップとタスク全体を徹底的にテストし続けること」、この2つをやるだけで、世の中に出回っているAIアプリの90%より優れたものを作れます。なぜならほとんどの人は評価をせず、専門家が実際にどう仕事をするかを調べようともしないからです。Twitterでバズるデモを作り、資金を調達し、一時的に注目を集める人たちに惑わされないでください。本当に優れた人たちは、表に出ることなく、毎日静かに自分たちのプロダクトを改善し続けています。

5. 製品品質・価格設定・顧客信頼の構築：マーケティングと販売の本質

5-1. 製品品質がマーケティングに勝る理由

Jake： 正直に言うと、マーケティングと販売の話は、私が最も苦労してきた領域であり、今もなお試行錯誤し続けている領域です。Thomson Reutersによる買収後、数十億ドル規模の会社に入った今でも、まだ答えを探し続けています。ただ、私たちが学んできたことをお伝えします。

まず言いたいのは、シリーズAやシリーズBの投資家の中には、「製品の品質よりもマーケティングと販売が重要だ」と言う人たちがいるということです。そしてその主張を裏付けるような事例も、実際に存在します。しかし私は、それは間違いだと思っています。

私たちCasetextの10年間がその証拠です。LLMベースの新製品を出す前、私たちはそれなりの製品を持っていました。優秀なマーケティングリーダーや営業リーダーも何人か採用しました。彼らはそれなりの成果を出しました。しかし「それなり」止まりでした。ところがLLMをベースにしたCo-Counselをリリースした瞬間、状況が変わりました。口コミが自然に広がり始め、メディアが自ら取材に来るようになりました。口コミもメディア報道も、タダです。そして既存の営業担当者たちは、積極的に売り込む必要がなくなりました。注文を受けるだけでよくなったのです。

製品が本当に優れていれば、マーケティングと販売のコストは劇的に下がります。逆に製品が凡庸であれば、どれだけ優秀な営業チームを揃えても、どれだけ広告費をかけても、限界があります。もちろん、「素晴らしい製品を作って誰にも見せない」では意味がありません。森の中で木が倒れても、誰も聞いていなければ音は存在しないのと同じです。製品の質が最重要で、それを世に知らしめることも必要。この順番を間違えないでください。将来、シリーズAやBの投資家が「製品よりマーケティングが大事だ」と言い始めたら、この話を思い出して反論してください。

5-2. AI製品の価格設定：価値から逆算し顧客の声を聞く

Jake： マーケティングと販売において、まず考えてほしいのが「自分たちは何を売っているのか」という問いです。多くのAIスタートアップは、気づかないうちに従来のSaaSのフレームで自分たちの製品を捉えてしまっています。しかし今、最も面白いことをしている会社は、ソフトウェアを売るのではなく、サービスそのものを売っています。

具体的な例を挙げます。契約書のレビューを行うある会社は、ツールを提供するのではなく、契約書のレビューというサービスを丸ごと提供しています。場合によっては人間をループに組み込みながら、1件の契約書レビューに対して500ドルを請求しています。従来のSaaSの感覚なら月額20ドルで提供するような仕事です。月20ドルと1件500ドル。この差を見てください。価格設定は、自分たちが提供する価値に見合ったものにしなければなりません。自分を安売りしてはいけません。

価格をどう設定するかの基本原則は、顧客にとっての価値から逆算することです。もし顧客がこのサービスによって1億ドルのコストを削減できるなら、あるいは従来5,000万ドルかけていた作業をAIで代替できるなら、その10〜20%を価格の出発点として顧客と対話してください。「この問題を解決するためにいくらまで払えますか」と直接聞くことが、最も確実なアプローチです。

そして、支払い方法についても顧客に直接聞くことをお勧めします。私たちは最初、従量課金制を検討していました。使った分だけ払う、というモデルです。しかし顧客に聞いてみると、意外な答えが返ってきました。「多少高くなっても、年間を通じて一定の金額を払う定額制のほうがいい」というのです。予算の予測可能性を重視していたのです。結果として私たちは、1シートあたり年間6,000ドル、月500ドルの定額制を採用しました。顧客が望む支払い方法を尊重することで、長期的な関係が築きやすくなります。

5-3. 顧客との信頼関係の構築と「パイロット止まり」リスク

Jake： AI製品の販売において、もうひとつ直視しなければならない問題があります。それは「信頼のギャップ」です。AIはまだ新しく、多くの企業にとって未知のものです。Fortune 500企業のCEOは取締役会から「AIについてどんな取り組みをしているのか」と問われています。そのCEOが2万人の社員を抱える組織に戻って「誰かのAI製品を試している」と答える。つまり大企業はAIに取り組みたいという動機は持っています。しかし同時に、大きな不安も抱えています。

人間のサービスプロバイダーとの違いを考えてみてください。人間であれば、うまくいかなければ指導できますし、解雇もできます。人間は慣れ親しんだ存在です。一方、AIプロダクトは何を期待していいかわからない。その不確実性が信頼のギャップを生んでいます。

この信頼のギャップを埋めるために、賢い会社がとっているアプローチがあります。ヘッドトゥヘッド比較です。「今の法律事務所はそのまま使い続けてください。その横で私たちのAIを並行して走らせてみてください。スピードはどうか、品質はどうか、結果はどれだけ違うか、比べてみてください」というアプローチです。会計事務所との比較でも同じことができます。こうした比較、パイロットプログラム、独立した調査や研究。信頼を築く方法はいくらでもあります。重要なのは、「どうすれば顧客が私たちを信頼できるようになるか」を常に考え続けることです。

ただし、パイロットには大きな落とし穴があります。私は今、エグジット後のエンジェル投資家として多くのスタートアップを見ていますが、「ARRが1,000万ドルです」という会社の内訳を見ると、その多くがパイロット収益であるケースが目立ちます。6ヶ月間のパイロットで多額の報酬を得ているが、それが本物の継続的な収益に転換できていない。私はこれを「PR（パイロット・リカーリング）収益」と呼んでいますが、これは本物のARRではありません。今後、この種のパイロット収益が実収益に転換できないスタートアップが大量に淘汰される「大量絶滅イベント」が起きると、私は本気で警告しています。

5-4. 製品はピクセルだけではなく、その周辺すべてが製品である

Jake： 私が自分の会社でずっと言い続けてきたことがあります。それは「製品とは、画面上のピクセルだけではない」ということです。ボタンをクリックしたときに何が起きるか、それだけが製品ではありません。サポートとのやり取り、カスタマーサクセスとの関係、創業者との人的な接点、トレーニング、オンボーディング、そのすべてが製品の一部です。

もし画面上のピクセルは最高でも、その周辺に投資していなければ、顧客への寄り添いに力を入れている競合に負けます。逆に、顧客が製品を本当に理解して、本当に使いこなせるように投資した会社が、長期的に勝ちます。

今日のSatya（Nadellaの発言を引用して）が少し触れていましたが、スタートアップで急速に増えている職種として「フィールドデプロイドエンジニア」というものがあります。聞こえはかっこいいですが、要するに「顧客のそばに座って、製品が実際に機能しているかを確認する人」です。アプリのオンボーディングフローで丁寧に案内するのかもしれない。実際に顧客のオフィスに出向いて隣に座るのかもしれない。手段は何であれ、顧客が製品を正しく理解し、正しく使えるようにすること。それがパイロットを本物の収益に転換するための鍵であり、製品の真の価値を顧客に届けるための最後の一マイルです。

これが、6億5000万ドルを超えるAIアプリを作るために必要なすべてです。そしてこれを実践すれば、私たちの6億5000万ドルという数字を軽く超えることができると、本気で思っています。

6. Q&A：創業者が注力すべきこと・市場選定・防御力の構築

6-1. 創業者が各ステージで真に注力すべきこと

Michael（聴衆）： 成功した創業者として聞かせてください。シードステージ、シリーズA、シリーズC、そしてエグジットに至るまで、各ステージでフォーカスの置き方はどう変わりましたか。そして、どのステージが一番楽しかったですか。

Jake： 良い質問です。「本来こうすべきだったこと」と「実際にやってしまったこと」の両方をお話しします。本来すべきだったことは、シードステージではプロダクトマーケットフィットする製品を作ること、シリーズAでもプロダクトマーケットフィットする製品を作ること、シリーズBでもプロダクトマーケットフィットする製品を作ること、シリーズCでも同じです。パターンが見えてきましたか。どのステージでも答えは同じなのです。

実際にやってしまったことは、本来重要でない様々なことに時間を使ってしまったということです。会社とは突き詰めれば、顧客に提供するサービスそのものです。そのサービスは製品を通じて届けられます。だとすれば、製品に対してほぼすべての注意を向け、製品に対して執念を持ち続けることが、創業者の本質的な仕事のはずです。そこから出発すれば、他のことは自然と答えが見えてきます。「どんな人材が必要か」という問いも、「プロダクトマーケットフィットする製品を作るために何が必要か」という問いに変換できます。採用やHRも、その答えに従えばいい。「どうやって人々に知ってもらうか」という問いも、「この素晴らしい製品を世に知らしめるにはどうすればいいか」という問いになります。それがマーケティングと販売です。「どんな組織文化が必要か」という問いも、「人々が愛して使い続ける製品を生み出すために、どんな文化が必要か」という問いになります。

CEOとして様々な側面に関わることは避けられません。しかしそのすべては、「優れた製品を作る」というひとつの目的に向かっているべきです。多くの創業者が陥る罠は、Medium記事やブログを読んだり、シリーズAやBの投資家と話したりするうちに、採用、財務、資金調達、あるいは組織文化といったことが「手段」ではなく「目的」になってしまうことです。「素晴らしい文化を持つこと自体が目標」になってしまう。「マーケティングと営業の人材を揃えること自体が目標」になってしまう。私自身もそのトラップに落ちました。大きな失敗でした。

6-2. 市場選定と競合への向き合い方

聴衆（自動化分野への参入を検討中）： 参入しようとしている分野にすでに競合がいる場合、別の分野を探すべきでしょうか。それとも同じ分野のニッチを深掘りすべきでしょうか。

Jake： 競合のことは、まったく気にしなくていいと思います。理由は2つあります。まず、私たちが話している市場の多くは兆ドル規模です。マーケティング担当者、サポート担当者、その他あらゆるナレッジワーカーへの支出を合計すれば、どれも天文学的な数字になります。そんな市場を1社が独占することはあり得ません。

次に、競合を実際に見てみると、最初は怖く見えても、自分たちで作り始めると「こんなにひどかったのか」と驚くことがほとんどです。競合を圧倒することは、思っているよりずっと簡単なことが多い。重要なのは競合ではなく、どの市場を選ぶかです。

良い市場を選ぶ際に私が注目するポイントをいくつかお伝えします。まず、すでに外部委託（アウトソーシング）されている業務に注目することです。企業が他国に仕事を委託しているということは、その仕事は「外に出せる仕事」だという証拠です。外に出せる仕事はAIが代替できる可能性が高い。一方、「それは自分たちのアイデンティティだ」と感じている業務は難しい。たとえばPixarは映画のストーリーテリングを外部委託しません。それが彼らの存在意義だからです。2年後にはAIがPixar以上のストーリーを作れるかもしれませんが、Pixarの人々はそこに強いこだわりを持っています。そういう領域は避けるべきです。

次に、多くの企業が共通して抱えている痛点を探すことです。そして自分が詳しい、あるいは詳しくなれる領域を選ぶことです。しかし正直に言えば、ナレッジワーク全体に向けてダーツを投げても、ほぼ確実に兆ドル市場に当たります。それほど市場は広大なのです。競合を心配するより、とにかく走り始めることのほうがはるかに重要です。

6-3. 「前例なき新領域」の価格設定と競争の行方

Sabo（聴衆）： AIが支援型や代替型であれば、人間のコストをベースに価格を設定できます。しかし、人間には不可能だったこと、たとえば何十万件もの法律文書を全件読み込むような新領域の場合、どうやって価格を設定すればいいのでしょうか。

Jake： 少し丁寧に答えさせてください。まず最初は、人間が同等のことをやっていた場合のコストをベースに価格設定することから始めるのが現実的です。しかしその後、競合が参入してきます。彼らは少し安く設定します。さらに別の競合が入ってきて、また少し安くします。これが資本主義の美しい仕組みです。価格はどんどん下がっていきます。非常に参入障壁の高い特殊な領域でない限り、最終的には人間がやっていたときよりもはるかに安い価格に収束していくでしょう。社会にとってはとても良いことです。弁護士サービスが10分の1、100分の1の価格で誰でも使えるようになる。しかしビジネスとしては難しくなります。

ですから「前例なき新領域」であっても、価格設定の基本原則は変わりません。顧客にとっての価値から出発することです。そのサービスによって顧客が1億ドルを節約できるなら、あるいは従来5,000万ドルかけていた作業が代替されるなら、その10〜20%を出発点として顧客と直接対話してください。「この問題を解決するためにいくら払えますか」と聞くことが、最も誠実で確実なアプローチです。

6-4. 「GPTラッパー」にならないための防御力の築き方

聴衆： プロンプトベースのAIアプリは、独自モデルを持つわけでもないのに、どうやって差別化と防御力を持てるのでしょうか。いわゆる「GPTラッパー」で終わらないためには何が必要ですか。

Jake： 最も速い答えはこうです。とにかく作ってみてください。作り始めた瞬間に、どれほど難しいかがわかります。データインテグレーションをいくつ作らなければならないか。どれだけ細かくチェックを積み上げなければならないか。プロンプトをどれほど精緻に調整しなければならないか。どのモデルを選ぶかをどれほど慎重に判断しなければならないか。そのすべてを2年間ひたすらやり続けた結果、他の誰にも作れないものができあがります。なぜなら、あなたは2年間それだけをやり続けたからです。

表面から見れば、プロンプトを使ったシンプルなアプリに見えるかもしれません。しかしその裏側には、膨大な試行錯誤と積み上げがあります。それが本質的な差別化です。「GPTラッパーになってしまうのではないか」という恐れは理解できます。しかし私は、それを恐れる必要はないと思っています。皆さんも恐れないでください。