※本記事は、Gary Tan氏、Harj Taggar氏、Diana Hu氏、Jared Friedman氏がホストを務めるY CombinatorのポッドキャストシリーズLightconeにて、Playground創業者のSuhail Doshi氏へのインタビューを基に作成されています。ポッドキャストはY Combinatorの公式YouTubeチャンネル(https://www.youtube.com/watch?v=VyIOoqjm8HA )でご覧いただけます。 本記事では、世界最高峰の画像生成AIモデルの開発過程、プロダクト開発の戦略、そしてビジネスの展望について、インタビューの内容を要約しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルのポッドキャストをご視聴いただくことをお勧めいたします。 また、Playgroundの最新情報については、公式サイト(https://playground.com/design )をご参照ください。技術的な詳細については、Playground V3の論文(https://arxiv.org/pdf/2409.10695 )もご確認いただけます。
1. Playgroundの開発背景と特徴
1.1 開発における転換点
Suhail Doshi:私たちは、製品がある方向に進むと考えていましたが、リリースの約1.5ヶ月前に、完全に設計を見直すという大きな決断を下しました。当時、私たちはまるでジャングルで迷子になったような状態で、パニックに陥っていました。多くの未解決の問題が山積していたのです。
実際、現在のバージョンでさえ、ユーザーが試してみて感動するかもしれませんが、次のバージョンはさらに驚くべきものになるでしょう。SOTAレベルに到達するには、あらゆる細部に対して徹底的なこだわりが必要でした。
一つの例を挙げると、テキスト生成における正確性の問題がありました。私たちのチームは、テキストのカーニング(文字間隔)の精度にまでこだわりました。他のモデルを使用する人々は、テキスト生成はできても、カーニングが適切でないことがあります。しかし、私たちはそういった細部まで気にかける必要があると考えました。
Gary Tan:Suhailの言う通り、その結果は明らかでした。私がY Combinatorのグループパートナーとして、夏のバッチで約15社に投資しましたが、その中でPlaygroundを使って作成したTシャツデザインの品質は際立っていました。私はGPUをモチーフにしたメタル調のデザインを作成しましたが、テンプレートを基に、自然な対話でデザインを修正できる体験は、これまでにない革新的なものでした。
Suhail Doshi:この大きな方向転換は、ユーザーの実際の使用状況を18ヶ月にわたって観察した結果でした。AIには現在、大きな目新しさの要因があり、簡単に何百万人ものユーザーを獲得できます。これは私たちにも起こりました。そのため、製品が完成したように感じることもありましたが、実際にデータを見て、人々がどのように使用しているかを観察すると、常に失敗が発生していることがわかりました。
この観察から、私たちは製品を根本的に見直し、テキスト精度の向上とプロンプト理解の改善を最優先事項としました。これは単なる機能の追加ではなく、ユーザーが本当に必要としている機能を提供するための戦略的な判断でした。
1.2 製品の差別化要因
Suhail Doshi:私たちの最大の差別化要因は、テキスト生成の正確性にあります。これは私たちが最も注力した部分の一つでした。グラフィックスとデザインの実用性において、テキストは不可欠な要素です。テキストがない画像は、単なるアートとして認識されがちですが、実用的なグラフィックデザインには正確なテキスト表現が必要不可欠だと考えました。
実際、開発初期の段階では、テキストの精度は45%程度でした。その時は本当にジャングルで迷子になったような感覚でしたが、諦めずに改善を続けました。現在では、テキストの正確性において業界最高水準を達成しています。
Gary Tan:実際に使用してみて、最も印象的だったのは、デザイナーと会話しているような自然な対話性です。私がPlaygroundを使用してハウスタンのTシャツをデザインした際、テンプレートを基に「リボンにHouse Tanと入れて、2つのファンを持つGPUを追加して」というような自然な指示で、望んだデザインを作成することができました。
Jared Friedman:これは本当に革新的です。従来のモデルでは、テキストが歪んだり、文字化けしたりする問題が頻繁に発生していましたが、Playgroundではテキストが完璧に表示され、さらに望む位置に正確に配置できます。
Suhail Doshi:私たちのモデルは、最大8,000トークンという長いプロンプトを処理することができます。これは競合製品の多くが75トークン程度しか扱えないことと比較すると、大きな違いです。この拡張された容量により、テクスチャーやテーブルの肌理、空間的な配置など、非常に詳細な指示を出すことが可能になりました。
特筆すべきは、ユーザーは実際にはそこまで長いプロンプトを必要としないということです。現在のところ、1,000トークンを超えるプロンプトを使用する必要性はほとんどありません。しかし、この大きな容量を確保することで、モデルの理解力と表現力を大幅に向上させることができました。
また、私たちは即時展開を実現するため、ウェイトリストなしでの公開を選択しました。これは技術的な準備が十分に整っていたからこそ可能だった決断です。競合他社と異なり、私たちのモデルは初日からフルアクセスで利用可能な状態でリリースされました。
1.3 初期のユースケース
Suhail Doshi:私たちがグラフィックデザインに注目したのは、実世界での具体的なインパクトを重視したからです。最近、Outside Landsフェスティバルに行った際に、参加者たちのTシャツを観察する機会がありました。特に印象的だったのは、多くの女性が着ていた「I feel like 2007 Britney」というTシャツでした。このような実際の市場ニーズを見て、私たちはすぐにそのデザインをテンプレートとして製品に組み込みました。
人々は深い表現欲求を持っています。私は時々、MySpaceがもう存在しないことを残念に思います。なぜなら、MySpaceは非常に表現力豊かなソーシャルネットワークでした。人間は本質的にこの形の自己表現を深く求めているのです。このような観察から、私たちは表現のためのツールとしてのモデル開発に焦点を当てることを決めました。
Gary Tan:私がY Combinatorのパートナーとして実際に試用した例を共有したいと思います。私は夏のバッチで約15社に投資していますが、その中でPlaygroundを使用してハウスタンのTシャツデザインを作成しました。特に印象的だったのは、GPUと2つのファンを組み込んだメタル調のデザインです。また、別のバージョンでは日本のアート風のデザインも作成しました。波や太陽のモチーフを追加する際も、自然な会話のように指示を出すことができました。
Jared Friedman:これらのデザインの特筆すべき点は、その実用性の高さです。Mid Journeyなどの他のツールで作成した画像は楽しいものの、どちらかというとおもちゃのような、アート寄りの結果になりがちです。しかし、Playgroundで作成したデザインは、ロゴ、Tシャツ、フォントサイズなど、実際の商業利用に耐える品質を持っています。私はこれがAdobe Illustratorの代替になり得ると確信しています。
Suhail Doshi:この方向性の選択には個人的な背景もありました。高校生の時、私はsite pointでロゴコンテストに参加して小遣いを稼ごうとしていました。その経験から、私たちのモデルをロゴデザイン用にテストした際、自分が作れる以上の品質のロゴを生成できることに気づきました。これは、少なくとも中級レベルのデザイナーの能力を超える可能性を示唆しています。そして、時間とともに90パーセンタイルのグラフィックデザイナーレベルまで到達できる可能性があると考えています。
2. 技術的イノベーション
2.1 新アーキテクチャの開発
Suhail Doshi:私たちは、モデルのアーキテクチャを完全に刷新する必要がありました。一般的に知られているStable Diffusionのアーキテクチャは、VAE(Variational AutoEncoder)、CLIP、そしてUNetアーキテクチャで構成されています。その後、より多くのTransformerを使用する方向に進化し、例えばWilliam PeeblesのDITのような優れた論文も出てきました。これはSoraのベースにもなっていると考えられています。
しかし、私たちはこれらの新しいアーキテクチャも採用せず、完全にゼロから作り直すことを選択しました。その主な理由は、CLIPを使用している限り、私たちが目指すレベルのプロンプト理解を達成することが不可能だからです。CLIPには本質的にノイズが多く含まれており、そのアーキテクチャ自体が制限要因となっていました。
また、既存のStable DiffusionのVAEでは、小さなディテールを正確に再構築することができません。これは手や顔のクローズアップ、ロゴなどの細部表現で特に顕著でした。従来のVAEは4チャンネルしかないため、私たちはより高性能なVAEの開発が必要でした。
約4ヶ月前、研究チームとホワイトボードを前に重要な決断を迫られました。私たちには2つの選択肢がありました。1つは比較的リスクの低い、最新のオープンソースモデル(Floxなど)に近いアーキテクチャを採用する道。もう1つは、名前も明かせないような非常にリスクの高い新しいアーキテクチャを採用する道でした。
後者を選択した場合、2-3ヶ月の計算リソースを無駄にする可能性があり、失敗すれば大きく後れを取ることになります。しかし、私たちは結局、その挑戦的な選択をせざるを得ないという結論に達しました。現状のままでは、どのみち失敗する可能性が高いと考えたからです。
Diana Hu:その決断は、技術的な観点から見ても非常に興味深いものでした。特に、モデルがテキストの空間的な配置や感情表現まで理解できるようになった点は、アーキテクチャの革新性を示しています。
Suhail Doshi:これらのコンポーネントは相互に影響し合い、モデル全体のパフォーマンスを決定づけています。私たちは各要素を詳細に検討し、それぞれがモデルの性能を制限する要因とならないよう慎重に設計を進めました。これは非常にリスクの高いアプローチでしたが、結果的に私たちが目指していたブレークスルーを実現することができました。
2.2 テキスト処理の進化
Suhail Doshi:テキスト処理の改善において、私たちは言語モデルの進歩を最大限に活用するアプローチを取りました。言語モデルは現在、非常に深いテキスト理解を実現しています。例えば、T5 XXLのような言語モデルを活用することで、より豊かな言語理解を持つ埋め込みを実現できます。
私たちのアプローチの特徴は、オープンソースの言語モデルの進歩を活用しながら、独自の改良を加えていく点です。Google、Meta、その他の企業が言語処理の分野で達成している進歩を基盤として、私たちは画像生成に特化した言語理解を構築しています。プロンプト理解において、私たちは最先端の言語モデルよりもやや遅れを取っているかもしれませんが、それでも十分な性能を実現できています。
Jared Friedman:興味深い点は、これがNLPの歴史的な進化と似ているということです。現在の標準的な安定拡散モデルの言語理解は、2013年にGoogleが発表したWord2Vecのようなものです。Word2Vecは「王様」から「男性」を引いて「女性」を足すと「女王」になるという、単純だが画期的な言語理解を示しました。Playgroundは、その理解レベルからGPT-3レベルの言語理解への飛躍を実現したと言えます。
Suhail Doshi:はい、その通りです。私たちのモデルは、現在GPT-3レベルのプロンプト理解を実現していますが、これはまだ始まりに過ぎません。さらなる進化の余地が大きく残されています。例えば、フィルムグレインのような概念の理解や、空間的な位置関係の理解においてまだ改善の余地があります。
特に重要な技術的進歩は、8,000トークンまでの長文プロンプトを処理できる能力です。これは従来の75トークン程度という制限を大きく超えています。しかし、興味深いことに、実際のユーザーは1,000トークンを超えるプロンプトを必要とすることはめったにありません。この拡張された容量は、より詳細な指示や複雑な要求を処理するための余裕を提供しています。
テキスト精度に関しては、開発初期の45%という精度から大幅な改善を達成しました。この改善は、プロンプトの詳細な理解と、生成される画像におけるテキストの正確な表現の両方に及びます。これは特に、ロゴデザインやブランディング素材の作成において重要な進歩となっています。
2.3 空間認識と表現力
Suhail Doshi:私たちのモデルは、空間認識と感情表現において大きな進歩を遂げましたが、同時にいくつかの興味深い課題も明らかになっています。例えば、「左」や「右」という概念の理解において、まだ改善の余地があります。「クマを左に配置する」という指示を与えた場合、「左」が視聴者から見た左なのか、クマから見た左なのかという問題が生じます。これは一見単純な概念のように思えますが、実際には非常に複雑な空間認識を必要とします。
感情表現に関しては、私たちは具体的な実験を行いました。例えば、イーロン・マスクの表情を「嫌悪感」「不安」「幸せ」「悲しみ」「自信」など、様々な感情で表現するテストを実施しました。これらの感情表現の正確な再現は、次のモデルでさらに改善される予定の重要な機能の一つです。
Diana Hu:特に印象的なのは、モデルが空間的な配置や複雑な構図の指示を理解できる点です。例えば、「緑の三角形をオレンジ色の立方体の隣に配置する」といった空間パズルのような指示でも、正確に実行することができます。これは以前の世代のモデルでは実現できなかった機能です。
Suhail Doshi:しかし、まだ改善が必要な領域もあります。例えば、フィルムグレインのような微細なテクスチャの表現や、より複雑な空間的関係の理解などです。私たちのチームは、これらの課題に日々取り組んでいます。肌のテクスチャの細かな違いや、微妙な質感の表現など、私の目は何度も確認作業で疲れ果てるほど、細部にこだわっています。
テキスト配置の制御に関しては、ユーザーが自然な言語で「中央に配置して」「上部に移動して」「フォントを大きくして」といった指示を出すことができ、モデルがそれを正確に理解して実行できるようになっています。これは他のモデルにはない特徴で、特にグラフィックデザインの実用的なユースケースにおいて重要な進歩です。
結論として、これらの機能は現在のバージョンで十分な実用性を持っていますが、これは私たちのモデルが達成できる最低限のレベルに過ぎないと考えています。次のバージョンでは、さらに驚くべき進化を遂げることができると確信しています。
3. ユーザーエクスペリエンスの革新
3.1 ビジュアルファースト設計
Suhail Doshi:私たちは、18ヶ月にわたるユーザー観察を通じて、多くのユーザーが失敗を繰り返している状況を目の当たりにしました。その結果、プロンプトの使い方を教えることは非常に困難だという結論に達しました。実際、モデルの仕組みは私たち開発者自身にもまだ完全には理解できていない部分があり、コミュニティとともに発見を続けている状態です。
この洞察から、私たちは製品がビジュアルファーストであるべきだと考えました。チャットGPTや言語モデルとは異なり、私たちの製品は本質的にビジュアルなものです。そこで、テンプレートベースのアプローチを採用しました。これはCanvaのような既存のツールでユーザーが既に慣れ親しんでいる概念です。
私とデザイナーは、製品の核となる信念として、ビジュアルファーストでありプロンプトファーストではないことを決めました。ユーザーがプロンプトエンジニアになる必要はないと考えたのです。テンプレートから始めて、それを修正する方が、ユーザーの目的達成までの道のりの80%を簡単にカバーできます。
Jared Friedman:このアプローチは革新的です。これまでのモデルは、SSHでコンピュータにアクセスするような原始的なインターフェースでした。しかし、Playgroundは完全に新しいブラウザのような体験を作り出しています。
Gary Tan:実際に使用してみて、その効果は明らかでした。例えば、私がTシャツデザインを作成した際、好みのテンプレートを選び、「背景を白にして」「このテキストを追加して」といった自然な対話で修正できました。これは従来のMid Journeyなどでの体験とは全く異なります。
Suhail Doshi:このビジュアルファーストの設計を実現するには、研究面での革新も必要でした。変更をどのように実装するか、一貫性をどう保つか、といった課題に直面しましたが、これは既存のオープンソースモデルでは実現できないレベルの要求でした。プロダクトとしての良い体験と、それを可能にする研究の結婚が必要だったのです。
この過程で重要だったのは、ユーザーテストから学んだ教訓です。人々は長いプロンプトを書きたがらない、むしろビジュアル的な開始点から編集を始めたがる、という傾向が明確になりました。この観察に基づき、インターフェースを継続的に改善し、より直感的な操作が可能になるよう進化させています。
3.2 プロンプト支援システム
Suhail Doshi:プロンプト支援システムの開発において、私たちは最初にデータの質の向上に焦点を当てました。モデルのプロンプト理解力を向上させるために、トレーニング時に極めて詳細なプロンプトを使用しました。しかし同時に、ユーザーが「自然の風景」のような簡単な指示でも使えるようにすることを目指しました。
プロンプトの階層化という興味深いアプローチを採用しています。例えば、キャプション1は非常に詳細な記述、キャプション2はやや簡略化された記述、というように段階的に簡略化していきます。実際のユーザーの多くはキャプション5や6程度の簡潔な指示しか入力しません。ハードコアなプロンプターでもキャプション1ほどの詳細さには達しませんが、それでも私たちのモデルは適切に対応できます。
背景にある技術的なメカニズムとして、プロンプトの「lossy」な特性を活用しています。これにより、ユーザーの簡潔な指示から、より詳細な内部表現への拡張が可能になります。また、プロンプトが詳細になりすぎると画像の多様性が失われる傾向があるため、この特性は実際には有利に働いています。
Jared Friedman:このアプローチは革新的です。実質的に、プロンプトエンジニアリングの作業をすべてバックエンドで行い、ユーザーには見せないようにしているわけですね。これは、かつてウェブサイトへのアクセスにコマンドラインを使用していた時代から、ブラウザによる直感的なインターフェースへと進化したような変化に似ています。
Suhail Doshi:その通りです。私はチームに対して、プロンプトエンジニアリングはユーザーの仕事ではなく、私たちの仕事だと強調しました。マニュアルを書いて、人類の1%だけが理解できるような仕組みにするのではなく、私たちがモデルの動作を深く理解し、その知見をシステムに組み込むべきだと考えています。
また、現在はクリエイターと協力して、様々なテンプレートやプロンプトの構築を行っています。彼らは人類の1%に属する人々かもしれませんが、何十億人ものユーザーのために働いてくれています。これはYCの理念とも一致しており、優れた企業を作り、多くの人々がその恩恵を受けられるようにするという考え方です。
このシステムは継続的に改善を重ねており、ユーザーからのフィードバックを基に、プロンプト理解と拡張の精度を向上させています。私たちの目標は、ユーザーが考えることと、モデルが理解することの間のギャップを可能な限り小さくすることです。
3.3 クリエイターエコシステム
Suhail Doshi:私たちは現在、クリエイタープログラムを立ち上げようとしています。このプログラムの核心は、優れた感性を持つクリエイターを見出し、雇用することです。AIの時代においても、人間のセンスの重要性は変わっていないと考えています。例えば、カボチャの画像を生成する場合でも、美しい画像とそうでない画像の違いは明確です。
デザインの世界では、時代とともに美的感覚は進化し続けています。10年前のデザインは、Dieter Ramsのような永遠の価値を持つものを除けば、今では古く感じられることが多いです。そのため、私たちは常に最新のトレンドを理解し、それを反映できるクリエイターとの協業が不可欠だと考えています。
現在、クリエイターたちと協力して、他のユーザーが利用できるグラフィックを作成しています。彼らは人類の1%に属する、プロンプトエンジニアリングを理解できる特別な才能を持つ人々かもしれません。しかし、その1%の人々が何十億人ものユーザーのために働くことで、より大きな価値を生み出すことができます。
Gary Tan:その効果は既に見えています。例えば、私がPlaygroundで作成したTシャツデザインは、「Mythic Inc」というプリセットを基に作られました。このプリセットは約1.5ヶ月前に作成されたものですが、日本のアート風のデザインを簡単にカスタマイズすることができました。
Suhail Doshi:私たちのアプローチの特徴は、単にテンプレートを提供するだけでなく、そのテンプレートの「雰囲気」を抽出し、新しいバリエーションを生成できる点です。これはただのコピーではなく、創造的なリミックスを可能にします。この機能により、クリエイターたちは自分のスタイルを他のユーザーと共有し、それを基に新しい創造を生み出すことができます。
私たちは現在、このクリエイターエコシステムを支えるための報酬システムを構築しています。クリエイターたちが適切な報酬を得られるようにすることで、持続可能なエコシステムを作り出すことを目指しています。これは、クリエイティブな才能への投資であり、同時にユーザーに高品質なコンテンツを提供するための重要な基盤となります。
4. 評価指標の課題と発見
4.1 既存評価手法の限界
Suhail Doshi:最近、私たちは評価方法に関する非常に興味深い発見をしました。美的評価のためにABテストを実施する際、ユーザーに私たちのモデルと競合モデルの画像を見せて比較評価を行っています。しかし、この過程で予期せぬ問題に直面しました。
私たちは画像の審美性を評価する際、これまで語られてこなかった重要な課題を発見しました。それは「エンタングルメント(絡み合い)」の問題です。モデルがプロンプトに忠実であればあるほど、それが審美性の評価にネガティブな影響を与える可能性があるということです。
例えば、女性の画像を2つのパネルに分割して表示するようなプロンプトがあった場合、Mid Journeyは分割を無視して1つのフレームに女性を表示します。ユーザーは composition の観点から、単一フレームの方が美しく見えるため、その画像を選びがちです。しかし、これは実際にはプロンプトの要求を無視した結果です。
Diana Hu:もう一つの例として、手描き風のヤシの木を生成するケースがありました。ユーザーは、より写実的な他のモデルの出力を選びましたが、これは私たちのモデルが「手描き風」という指示に忠実に従った結果、あえて写実性を下げていたためです。
Suhail Doshi:このような状況により、私たちは美的評価の方法を根本的に見直す必要性を感じています。現時点では、プロンプトへの忠実度と審美性を同時に評価する適切な方法について、私の知る限り、まだ学術文献も存在していません。もし関連する研究をご存知の方がいれば、ぜひ共有していただきたいと思います。
Jared Friedman:これは実に興味深い問題ですね。つまり、モデルが高度すぎるために従来の評価基準が機能しなくなっているということですね。既存のテストを「破った」とも言えます。
Suhail Doshi:はい、その通りです。このため、外部に対して私たちの成果を適切に伝えることが難しくなっています。「この分野では負けているように見えるかもしれませんが、実際にはそうではない」という説明が必要になっています。私たちは新しい評価システムを構築する必要があります。これは単なる技術的な課題ではなく、ユーザーが本当に求めているものを正確に測定するための本質的な課題だと考えています。
4.2 新たな課題の発見
Suhail Doshi:評価プロセスを進めていく中で、プロンプト忠実度が高いモデルを評価する際の独特な課題が次々と浮かび上がってきました。特に興味深い発見は、分割画面の評価における問題です。例えば、プロンプトで2分割の画像を要求した場合、私たちのモデルは忠実にその要求を実行します。しかし、Mid Journeyなどの競合モデルは分割を無視して単一の画像を生成します。皮肉なことに、ユーザーは見た目の美しさから単一画像の方を好む傾向があります。
また、スタイル指定における評価も新たな課題となっています。私たちのモデルが「手描き風」などのスタイル指示に忠実に従った場合、結果として写実的な表現よりも評価が下がることがあります。これは、モデルの技術的な優位性が逆に評価を下げる要因となるという、パラドックスを生み出しています。
Diana Hu:このような発見は、現在の評価システムが高度な言語理解と画像生成能力を持つモデルの評価に適していないことを示唆しています。特に、モデルがプロンプトの意図を正確に理解し、忠実に実行する場合、従来の評価基準では適切に評価できないという問題が顕著になっています。
Suhail Doshi:私たちは、これらの課題を以下のように体系化しています:
- プロンプト忠実度と審美性のトレードオフ
- スタイル指示の正確な実行による見かけ上の品質低下
- ユーザーの主観的評価と技術的完成度の乖離
- 従来の評価基準では捉えきれない新しい能力の測定方法
これらの課題は、より優れたモデルを開発すればするほど顕著になっていきます。特に、プロンプトの理解力が向上するにつれて、評価方法との不整合が大きくなっていくという皮肉な状況に直面しています。
Jared Friedman:つまり、モデルがある意味で「優秀すぎる」ために、従来の評価方法が機能しなくなっているということですね。これは技術の進歩が評価システムを追い越してしまった典型的な例と言えます。
Suhail Doshi:その通りです。私たちは現在、これらの課題に対処するための新しい評価フレームワークの構築を進めています。特に、プロンプト忠実度と審美性を適切にバランスさせた評価方法の開発が急務となっています。これは単なる技術的な課題ではなく、AIモデルの進化に合わせて評価システム自体も進化させていく必要があることを示しています。
4.3 評価システムの再構築
Suhail Doshi:私たちは現在、従来の評価システムの限界を克服するための新しい評価フレームワークの構築に取り組んでいます。既存の評価方法では、プロンプトへの忠実度が高いモデルが不当に低い評価を受けてしまう問題があります。そのため、プロンプト忠実度と審美性を適切にバランスさせた新しい評価基準の開発が必要不可欠となっています。
特に重要なのは、ユーザーからのフィードバック収集の方法です。私たちは常にユーザーに対してABテストを実施し、彼らの意見を積極的に求めています。これにより、モデルの改善点を継続的に把握することができます。しかし、単純なABテストでは、モデルの本当の性能を測定することができないことも分かってきました。
Diana Hu:例えば、私たちは美的評価において、単純な「どちらが好みですか?」という質問から、より詳細な評価基準を含む質問へと移行しています。プロンプトの要求に対する忠実度、表現の一貫性、技術的な完成度など、複数の観点からの評価を組み合わせる必要があります。
Suhail Doshi:評価指標の妥当性を検証する過程で、私たちは興味深い発見をしました。従来のモデルが無視してしまうような細かい指示に対する忠実度が、実際のユーザーの満足度と強い相関関係を持っていることが分かったのです。これは、モデルの技術的な優位性が、必ずしも従来の評価方法では適切に反映されていないことを示しています。
また、継続的な改善プロセスとして、私たちは研究チームとユーザーフィードバックチャンネルを直接結びつけています。研究者たちは失敗事例を詳細に分析し、その原因が何であるかを自ら判断し、改善の方向性を決定することができます。このアプローチにより、研究と実際のユーザーニーズとの間のギャップを埋めることができています。
これらの取り組みを通じて、私たちは従来の研究室ベースの評価方法から、より実用的で包括的な評価システムへの移行を目指しています。ただし、この分野はまだ発展途上であり、評価システム自体も継続的な改善が必要です。今後も、ユーザーの実際の使用体験とモデルの技術的な進歩の両方を適切に評価できる新しい指標の開発を続けていく予定です。
5. ビジネス戦略とピボット
5.1 初期の課題
Suhail Doshi:我々は初期段階で、非常に困難な状況に直面しました。特に深刻だったのは不適切なコンテンツの問題です。私たちは多くのニアポルノや実際のポルノコンテンツの生成リクエストに直面しました。これは私たちだけでなく、画像生成モデルを提供する全ての企業が直面している問題です。
この状況に対して、私はCOOと真剣な議論を行いました。もしユーザーの要望に忠実に従うなら、実質的にポルノ関連の企業になってしまう可能性がありました。これは私の妻も母も喜ばない選択でしょう。また、それ以外の用途についても検討しましたが、その時点では大きな商業的価値を見出すことができませんでした。せいぜいクールなウェブサイトを作れる程度で、それ以上の可能性が見えていませんでした。
Harj Taggar:これは多くのスタートアップが直面する典型的な問題ですね。ユーザーの声を聞けと言われますが、時にはそのユーザーが望むものが、自社が目指す方向性と一致しない場合があります。
Suhail Doshi:その通りです。この経験から、私たちは12-18ヶ月の開発期間を経て、根本的な方向転換を決断しました。私たちは、単にユーザーの要望に従うのではなく、より建設的で価値のある用途を探す必要があると考えました。
その過程で、テキストを含むすべての実用的なユースケース、つまりロゴ、ポスター、Tシャツ、ステッカーなどに大きな可能性があることに気づきました。テキストが人間とのコミュニケーションの重要な手段である以上、これらの用途には大きな価値があると確信しました。これが、テキスト精度を最優先事項とした理由です。
リスク管理の観点からも、この方向転換は理にかなっていました。不適切なコンテンツは大きな法的・倫理的リスクを伴いますが、グラフィックデザイン市場は確立された健全な市場であり、持続可能なビジネスモデルを構築できる可能性が高いと判断しました。
この経験から、私たちは製品の方向性を決める際に、単にユーザーの現在の要望だけでなく、長期的な価値創造の可能性を重視することを学びました。時には、既存のユーザーベースを失うリスクを取ってでも、より大きな可能性に賭けることが必要だという教訓を得ました。
5.2 市場戦略の転換
Suhail Doshi:私たちは市場分析を行う中で、グラフィックデザイン市場、特にCanvaが持つ潜在的な可能性に注目しました。シリコンバレーではFigmaがよく知られていますが、実はCanvaの方が圧倒的に大きな収益を上げています。これは、より広い市場へのアクセスを持っているためです。
Mid Journeyが2-3億ドルの収益を上げているのに対し、Canvaは23億ドルの規模を持っています。この差は、実用的なグラフィックデザイン市場の大きさを示しています。私たちはこの市場規模の違いを見て、グラフィックデザイン市場への注力を決定しました。
Jared Friedman:Playgroundのアプローチは、これまでの画像生成モデルとは全く異なりますね。他のモデルが主にアート作品の生成に焦点を当てているのに対し、Playgroundは実用的なグラフィックデザインツールとしての位置づけを明確にしています。
Suhail Doshi:その通りです。私たちは最大の市場を狙うべきだと考えました。画像生成の新規性だけに頼るのではなく、実際のビジネスニーズに応える方向性を選択しました。特に、テキストとグラフィックスの組み合わせが必要な用途、例えばロゴ、ポスター、Tシャツなど、実世界での具体的なインパクトを持つ領域に注目しています。
私たちの展開戦略の核心は、プロフェッショナルなデザインツールとしての位置づけです。例えば、音楽制作をする人が自分のアルバムアートを作る際、デザイナーに依頼して4つのバリエーションしか得られないのではなく、自分で無限の可能性を探求できるようにすることを目指しています。
また、MySpaceの例からも分かるように、人々は深い表現欲求を持っています。この自己表現の欲求に応えることができれば、より大きな市場機会が開けると考えています。現在のグラフィックデザイン市場は、プロフェッショナルなデザイナーによる独占状態から、AIによって民主化される過渡期にあります。
この市場転換において、私たちは中級レベルのデザイナーの能力を超えることを当面の目標とし、最終的には90パーセンタイルのグラフィックデザイナーレベルまで到達することを目指しています。これは野心的な目標ですが、市場規模を考えれば、その価値は十分にあると考えています。
5.3 収益モデル
Suhail Doshi:私たちの収益モデルの核心は、クリエイターとユーザーを結ぶマーケットプレイスの構築です。Playgroundで作成されたすべてのデザイン、例えばステッカーやTシャツなどを、実際に購入可能な商品として提供できる仕組みを整えています。これにより、デザインから商品化までのシームレスな体験を提供することが可能になります。
また、創造的な才能への投資という観点から、クリエイターへの報酬システムを構築しています。優れたテンプレートを作成するクリエイターたちに適切な報酬を提供することで、持続可能なエコシステムの確立を目指しています。これは単なる取引の場ではなく、クリエイティブ経済の新しいモデルとなることを目指しています。
Jared Friedman:このアプローチは、Adobe Illustratorの代替となる可能性を秘めていますね。実用的なデザインツールとしての価値提案は、サブスクリプションモデルなど、様々な収益化の可能性を示唆しています。
Suhail Doshi:はい、その通りです。私たちは段階的なアプローチを取っています。まず、プロフェッショナルなデザインツールとしての基盤を確立し、その上でマーケットプレイスを通じた収益化を進めています。特に重要なのは、スケーラビリティです。クリエイターが作成したテンプレートは、何百万人ものユーザーによって利用され、カスタマイズされる可能性があります。
収益化までのロードマップにおいて、私たちは慎重にバランスを取っています。初期段階では、製品の価値を十分に証明し、ユーザーベースを確立することを優先しました。その上で、マーケットプレイスを通じた収益化を段階的に導入しています。これは、プロダクトマーケットフィットを確実にしながら、持続可能なビジネスモデルを構築するためのアプローチです。
今後は、クリエイターエコシステムの拡大とともに、収益モデルもさらに進化させていく予定です。特に、プロフェッショナルユースケースに対応した高度な機能の提供や、エンタープライズ向けのソリューションなど、様々な収益化の機会を探っています。
6. 研究開発とプロダクト開発の両立
6.1 研究チームのマネジメント
Suhail Doshi:研究チームのマネジメントについて、私は一度Sam Altmanに、OpenAIの研究者たちにどの程度の「さまよい」を許容しているのかを尋ねました。これは非常に重要な質問でした。通常、研究やエンジニアリングチームには特定のタスクが与えられ、それを実行することが求められます。しかし、探索的な「さまよい」をどの程度許容すべきか、それは常に難しい判断です。
Samから、かなりの程度の「さまよい」を許容しているという回答を得て、私たちもそのアプローチを採用することにしました。研究チームには、印象的な結果を示すことができるまで、ある程度自由に探索することを許可しています。そして、有望な成果が見えた時点で、その方向性を加速させる方針を取っています。
実際の例として、約4ヶ月前のケースを挙げることができます。研究チームとホワイトボードの前で、2つのアーキテクチャの選択について議論しました。1つは比較的リスクの低い、既存のオープンソースモデルに近いアプローチ。もう1つは、名前さえ明かせないような非常にリスクの高い新しいアプローチでした。
Diana Hu:私たちのチーム構成の特徴は、研究者たちが実際のユーザーフィードバックに直接アクセスできる点です。これにより、研究の方向性を実際のニーズに合わせて調整することが可能になっています。
Suhail Doshi:はい、その通りです。私たちは研究者たちに専用のフィードバックチャンネルを提供しています。彼らは失敗事例を詳細に分析し、その原因を自ら判断し、改善の方向性を決定することができます。これは研究所ベースの研究とは大きく異なるアプローチです。
リソース配分に関しては、時として大きな賭けも必要です。例えば、新しいアーキテクチャの開発に2-3ヶ月の計算リソースを投資することを決めた際は、失敗すれば大きく後れを取るリスクがありました。しかし、私たちは現状に留まることも一種の失敗だと考え、その挑戦を選択しました。
このように、私たちの研究チームマネジメントは、自由度の高い探索と実用的な成果のバランスを重視しています。研究者たちの創造性を最大限に活かしながら、実際のプロダクトの改善につなげていく、という難しいバランスを取ることを心がけています。
6.2 ユーザーフィードバックの活用
Suhail Doshi:私たちは、研究チームとユーザーフィードバックを直接結びつける独自のチャンネルを確立しています。これは従来の研究所ベースのアプローチとは大きく異なります。多くの研究機関では、研究者たちが実際のユーザーの声から遮断されていますが、私たちは意図的にその壁を取り除きました。
具体的には、研究チームのメンバーが直接ユーザーの失敗事例を観察し、分析できる仕組みを構築しています。研究者たちは、自分たちで問題を特定し、その解決方法を考え、どの課題に取り組むべきかを主体的に判断することができます。これにより、研究の方向性がユーザーの実際のニーズと密接に結びついています。
Diana Hu:このアプローチの効果は顕著です。研究者たちが実際のユーザーの課題に直接触れることで、論文の評価指標だけでは見えてこない実践的な改善点が明確になっています。例えば、テキストの正確性や空間的な配置の問題など、実用面での課題が研究の優先順位に直接反映されています。
Suhail Doshi:フィードバックの分析において特に重視しているのは、ユーザーの製品使用パターンです。18ヶ月にわたる観察から、ユーザーが頻繁に同じ操作を繰り返している場合、それは必ずしも製品の成功を意味するわけではないことを学びました。むしろ、望む結果を得るために何度も試行錯誤を強いられている可能性があります。
この洞察に基づき、私たちは改善の優先順位を決定しています。例えば、ユーザーが特定の機能で繰り返し失敗している場合、それは高優先度で対処すべき問題として認識されます。私たちの目標は、Googleのように、ユーザーが必要最小限の操作で目的を達成し、すぐにサイトを離れられるような製品を作ることです。
また、フィードバックループの構築において、私たちは定量的なデータと定性的なフィードバックの両方を重視しています。ABテストのような定量的な評価に加えて、ユーザーの具体的な使用体験や感想を収集し、それらを総合的に分析することで、より深い洞察を得ることができています。
6.3 開発サイクル
Suhail Doshi:研究開発と製品開発のサイクルを両立させることは、非常に難しい課題です。研究においては、急いで進めることができない本質的な性質があります。スタートアップの世界では、すべてを素早く進め、バグをすぐに修正し、機能を迅速にリリースすることが求められますが、研究開発では同じペースで進めることができません。例えば、新しいモデルを1週間で構築してリリースすることは不可能なのです。
私たちは研究チームと製品チームで異なる開発サイクルを採用し、それぞれのチームの特性に合わせた進め方を実践しています。研究チームには、より長期的な視点での探索を許容し、製品チームは迅速なイテレーションを行うという形で、異なるリズムを両立させています。
Diana Hu:特に重要なのは、研究成果を製品に統合するプロセスです。研究チームが発見した改善点を、実際のユーザー体験の向上につなげるためには、慎重なバランスが必要です。
Suhail Doshi:その通りです。成功指標の設定においても、研究面と製品面で異なるアプローチを取っています。例えば、研究面では技術的な進歩や精度の向上を重視しますが、製品面ではユーザーの実際の使用体験や満足度を重視します。
私たちの経験から、最も効果的だったのは、研究チームに独自のフィードバックチャンネルを提供し、彼らが直接ユーザーの反応を見ることができる環境を整えることでした。これにより、研究者たちは自分たちの成果が実際のユーザー体験にどのように影響しているかを理解し、次の研究の方向性を決定する際の判断材料とすることができます。
イテレーションの頻度については、製品の改善サイクルは比較的早いペースで進められますが、モデルの改善サイクルはより慎重なペースで進める必要があります。この異なるスピードの開発サイクルを調整し、全体として一貫した製品の進化を実現することが、私たちのマネジメントの重要な課題となっています。
7. SOTAモデル達成への洞察
7.1 品質へのこだわり
Suhail Doshi:SOTAモデルを達成するためには、あらゆる細部に対して徹底的なこだわりが必要です。例えば、テキスト生成においては、カーニングの精度まで厳密にチェックしています。他のモデルを使用する人々は、テキストを生成できても、文字間隔が適切でないことがありますが、それを気にしない人もいれば、気づかない人もいます。しかし、私たちはそういった微細な部分まで完璧を期すことが、真のSOTAモデルを実現する唯一の道だと考えています。
肌のテクスチャ表現においても、同様の姿勢で取り組んでいます。私の目は、細かなテクスチャの違いを確認する作業で何度も疲れ果てるほど、徹底的なチェックを行っています。わずかなフィルムグレインの有無でさえ、それが欠けていれば、キャプショニングモデルに問題があると判断し、改善を要求します。
Diana Hu:このような細部へのこだわりは、特に感情表現の正確さにも表れています。例えば、イーロン・マスクの表情を「嫌悪感」「不安」「幸せ」「悲しみ」「自信」など、様々な感情で表現する際の微細な違いを正確に再現することに注力しています。
Suhail Doshi:品質評価のプロセスでは、厳格な基準を設けています。例えば、分割画面での評価やスタイル指定時の評価など、従来のモデルでは見過ごされがちな細かな要求に対しても、完璧な対応を目指しています。時にはこの厳格さが、従来の評価基準では適切に評価されないというジレンマを生むこともありますが、それでも私たちはこの方針を貫いています。
テクスチャ表現の改善においては、単に見た目の美しさだけでなく、プロンプトで指定された細かな要求との整合性も重視しています。例えば、「手描き風」という指示が与えられた場合、より写実的な表現を選択するのではなく、意図的に手描き風の質感を忠実に再現することを選びます。
このような細部へのこだわりは、時として開発スピードの低下を招く要因となりますが、これこそがSOTAモデルを他と差別化する本質的な要素だと考えています。私たちは、現在のバージョンが最高の品質であると誇れますが、それでも次のバージョンではさらなる改善が可能だと確信しています。
7.2 モデルの改善領域
Suhail Doshi:現在のモデルには、まだいくつかの技術的な限界があります。例えば、「左」や「右」といった基本的な空間概念の理解において、改善の余地があります。「クマを左に配置する」という指示を与えられた時、「左」が視聴者から見た左なのか、クマから見た左なのかという問題が依然として残っています。
また、フィルムグレインのような微細なテクスチャ表現についても、さらなる改善が必要です。現在のモデルでも十分な表現は可能ですが、より繊細な質感の表現や、意図的なテクスチャの制御については、まだ改善の余地があると考えています。
Diana Hu:空間的な位置関係の理解も、重要な改善項目の一つですね。特に複雑な構図や多層的な空間配置の指示において、より正確な理解と表現が求められています。
Suhail Doshi:その通りです。優先的な改善項目として、私たちは以下の領域に注力しています:
- 空間概念の明確な理解と表現
- テクスチャの精密な制御
- より複雑な構図の理解
- 感情表現のさらなる洗練
改善へのアプローチとして、私たちは常に細部へのこだわりを持ち続けています。例えば、肌のテクスチャの違いや、微妙な質感の表現など、私の目は確認作業で何度も疲れ果てるほど、細かな部分まで注意を払っています。これは一見過剰に見えるかもしれませんが、SOTAモデルを達成するためには不可欠なプロセスだと考えています。
技術的なロードマップにおいて、現在のバージョンは決して最終形ではありません。次のバージョンではさらに驚くべき進化を遂げることができると確信しています。私たちは、これらの改善を段階的に実装していく計画を立てており、各ステップでユーザーフィードバックを収集し、それを基に次の改善へとつなげていく予定です。
これらの改善は単なる技術的な進歩ではなく、実際のユーザーの使用体験の向上に直接つながるものでなければならないと考えています。そのため、私たちは常にユーザーフィードバックチャンネルを通じて得られる実際の使用事例や課題を参考にしながら、改善の優先順位を決定しています。
7.3 将来への展望
Suhail Doshi:現在のバージョンは、私たちのモデルが達成できる最低限のレベルに過ぎないと考えています。次世代モデルでは、現在の課題をさらに克服し、より驚くべき進化を遂げることができると確信しています。特に、プロンプト理解力と表現力の両面で、大きな飛躍を計画しています。
技術的な挑戦課題として、現在直面している「左」「右」などの空間的な概念の完全な理解や、フィルムグレインのような繊細なテクスチャ表現の向上があります。また、空間的な位置関係のより正確な理解も重要な課題です。これらは単純に見える概念かもしれませんが、AIモデルにとっては非常に複雑な課題であり、解決には革新的なアプローチが必要です。
Jared Friedman:市場の観点から見ると、Playgroundは実質的にAdobe Illustratorの代替となる可能性を秘めていますね。これは非常に大きな市場機会を示唆しています。
Suhail Doshi:はい、その通りです。私たちは、グラフィックデザイン市場全体の変革を目指しています。現在、中級レベルのデザイナーの能力を超えることを目標としていますが、最終的には90パーセンタイルのグラフィックデザイナーのレベルまで到達することを目指しています。
製品進化の面では、より自然な対話型インターフェースの実現を目指しています。現在でもデザイナーとの対話を模倣した操作が可能ですが、さらにこれを発展させ、よりシームレスで直感的な体験を提供したいと考えています。
長期的なビジョンとして、私たちはAIによるクリエイティブ表現の民主化を目指しています。MySpaceの例が示すように、人々には深い表現欲求があります。この欲求に応える手段を、高度なAIテクノロジーによって提供することで、クリエイティブ表現の新時代を切り開きたいと考えています。
同時に、私たちはクリエイターエコシステムの発展にも注力しています。AIによる自動化は、人間のクリエイティビティを置き換えるのではなく、それを増幅し、新たな可能性を開くものであるべきです。そのため、クリエイターとAIが共生する持続可能なエコシステムの構築を長期的な目標としています。
これらの目標は野心的かもしれませんが、現在の技術的進歩の速度を考えると、十分に達成可能だと考えています。私たちは常に最先端の研究成果を取り入れながら、実用的で革新的な製品を提供し続けることを約束します。