※本記事は、2024年5月9日に開催されたGLOCOM六本木会議オンライン#78「2024年の生成AIの技術動向」の内容を基に作成されています。本セッションは、元東京大学大学院工学系研究科の今井翔太氏による講演と、東京通信大学教授/GLOCOM主幹研究員の前川徹氏との対談により構成されています。 このウェビナーは、国際大学グローバル・コミュニケーション・センター(GLOCOM)が主催し、約200名のリモート参加者にライブ配信されました。GLOCOM六本木会議は、情報通信分野における革新的な技術や概念に適切に対処し、日本の新しい社会への移行を支援するための議論の場として2017年9月に設立された組織です。 本記事では、ウェビナーの内容を要約しております。なお、本記事の内容は登壇者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、GLOCOMの公式ウェブサイト(https://roppongi-kaigi.org/ )をご参照ください。 また、本セッションの詳細情報は、YouTube(https://www.youtube.com/watch?v=9UyqXT-DNAQ )でもご覧いただけます。
登壇者プロフィール:
【講演者】 今井翔太 元 東京大学 大学院工学系研究科 技術経営戦略学専攻 松尾研究室 1994年、石川県金沢市生まれ。2024年に東京大学大学院で博士(工学)を取得。人工知能分野、特にマルチエージェント強化学習の研究に従事。ChatGPT以降は生成AIにおける強化学習の活用に注力。著書に『生成AIで世界はこう変わる』(SBクリエイティブ)、『深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版』(翔泳社)、『AI白書2022』(角川アスキー総合研究所)など。また、R. Sutton著『強化学習(第2版)』(森北出版)の訳者としても知られる。
【モデレーター】 前川徹 東京通信大学 情報マネジメント学部 教授/GLOCOM主幹研究員 1978年通商産業省入省。機械情報産業局情報政策企画室長、JETRO NYセンター産業用電子機器部長、IPAセキュリティセンター所長などを歴任。早稲田大学大学院、富士通総研経済研究所、サイバー大学を経て、2018年4月より現職。一般社団法人コンピュータソフトウェア協会専務理事、国際大学GLOCOM所長なども務める。
【進行】 小林奈穂 GLOCOM六本木会議 事務局/国際大学GLOCOM 主幹研究員/研究プロデューサー
1. 講演の背景と概要
1.1. 生成AI研究の加速度的な発展、2023年後半から2024年にかけての主要な出来事のタイムライン
小林奈穂(事務局):本日は第78回グローコム六本木会議オンラインとして、2024年の生成AIの技術動向をテーマにお届けいたします。前回の10月の講演から半年が経過し、多くの方々から今井さんの話をまた聞きたいというご要望をいただき、本日の開催となりました。
前川徹(教授):今井さんには昨年10月に生成AIをテーマにご講演いただき、その後1月には著書も出版されて大変お忙しい中、本日の登壇をご快諾いただきました。
今井翔太:2023年後半から2024年にかけて、生成AI分野では非常に大きな出来事が相次ぎました。特に注目すべき出来事として、11月にはOpenAIのSam Altman氏の解任と復帰という騒動があり、12月にはGoogleがGeminiを公開しました。続いて音楽生成AI「Suno」が話題となり、2024年に入ってからは私の著書「生成AIで世界はこう変わる」の出版、動画生成AI「Sora」の登場、GPT4の転換期、オープンモデルの進展、AIエージェントの発展と、まさにカオスな状況が続いています。
研究の発展が非常に早く、もはや研究者であっても言語生成以外の分野を完全に追いきれない状況になってきています。そのため、本日は主に言語生成AIに焦点を当てて、2023年12月までの内容は私の著書をご参照いただき、それ以降の最新動向についてお話しさせていただきます。なお、Amazonでの評価数では生成AI関連書籍の中で最も評価を得ている状況です。
今回の講演では、これまでの生成AI初心者向けの整理された内容とは異なり、タイムライン順に主要な出来事とその技術的背景を詳しく解説し、最近の研究トレンドや今後の展望についてもお話しさせていただきます。
1.2. 今井翔太氏の東京大学での研究背景、博士号取得、著書「生成AIで世界はこう変わる」について
小林奈穂(事務局):本日のご登壇者をご紹介させていただきます。元東京大学大学院工学系研究科技術経営戦略学専攻松尾研究室の今井翔太さんです。
前川徹(教授):今井さんは昨年10月の講演以降、著書の出版など大変ご活躍されています。特に1月に出版された生成AI関連の著書は大きな反響を呼んでいると伺っています。
今井翔太:ご紹介ありがとうございます。私は前回の講演時点では東京大学の松尾研究室に所属しており、博士研究を行っていました。その後、博士号を取得して研究室を修了し、現在は起業準備を進めている段階です。
私の研究背景としては、1994年石川県金沢市生まれで、人工知能分野における強化学習、特にマルチエージェント強化学習の研究に従事してきました。ChatGPTの登場以降は、大規模言語モデル等の生成AIにおける強化学習の活用に興味を持って研究を進めてきました。
著書に関しては、「生成AIで世界はこう変わる」(SBクリエイティブ)を2024年1月に出版させていただき、おかげさまでAmazonでの評価数では生成AI関連書籍の中で最も多くの評価をいただいている状況です。その他の著書として、「深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版」(翔泳社)、「AI白書2022」(角川アスキー総合研究所)、また訳書としてR. Sutton著「強化学習(第2版)」(森北出版)などがあります。
前川徹(教授):今井さんの著書は、生成AI技術の最新動向を分かりやすく解説されており、多くの読者から高い評価を得ています。特に2023年12月までの生成AI技術の発展について、体系的にまとめられている点が特徴的です。
2. 生成AIの性能進化の実例
2.1. 2023年10月時点と現在のチャットボットアリーナでのモデル性能比較、顔ぶれの大幅な変更
今井翔太:生成AIの急速な進化を端的に示すため、チャットボットアリーナでの性能比較の変化についてお話しします。昨年10月の講演時点と現在を比較すると、わずか半年でモデルの顔ぶれが劇的に変化しています。
前川徹:具体的にはどのような変化が見られたのでしょうか?
今井翔太:最も顕著な変化は、GPT-4以外のモデルが完全に入れ替わっていることです。2023年10月時点では、GPT-4を筆頭に、その他の様々なモデルが性能を競っていましたが、現在ではそれらのモデルはランキングから姿を消し、新しいモデルに置き換わっています。
特に注目すべき点は性能指標の変化です。2023年10月時点では、GPT-4のアリーナスコアが1,181で、2位のモデルとは20ポイント以上の差がありました。2位は1,155程度でした。しかし、現在ではGPT-4は依然としてトップを維持しているものの、Gemini Proとの差はわずか3ポイント程度にまで縮まっています。その直後にはClaude 3 Opusが続いており、OpenAIの絶対的な優位性が揺らぎ始めています。
前川徹:その変化は、業界にどのような影響を与えているのでしょうか?
今井翔太:これは非常に重要な転換点だと考えています。OpenAIが「無敵」と思われていた状況から、GoogleやAnthropicといったビッグテック企業が本格的に追随し始め、まさに戦国時代の様相を呈しています。実際、1ヶ月後にはOpenAIの独走体制が完全に終わる可能性すら出てきている状況です。この変化は、生成AI市場の競争が本格化し、技術革新がさらに加速する可能性を示唆しています。
2.2. GPT-4のスコア優位性の縮小、Google GeminiやClaude 3など競合モデルの台頭
今井翔太:チャットボットアリーナのスコア推移を見ると、GPT-4の優位性が急速に縮小していることが分かります。昨年まではGPT-4が圧倒的な性能差を見せていましたが、現在ではGemini Proとの差がわずか3ポイント程度にまで縮まっています。その直後にはClaude 3 Opusが続いており、新しいGPT-4の派生モデルも登場しています。
前川徹:この変化は、生成AI市場にどのような影響を与えているのでしょうか?
今井翔太:最も重要な点は、OpenAIの絶対的優位性が崩れ始めていることです。以前は、研究者も含めて「OpenAIが秘密の、いわゆる秘伝のソースのようなものを持っていて、それで学習されたモデルでなければ絶対にOpenAIには敵わない」と考えられていました。しかし、GoogleのGeminiやAnthropicのClaude 3の台頭により、その常識が覆されつつあります。
前川徹:具体的にはどのような技術的進展があったのでしょうか?
今井翔太:特筆すべきは、Gemini 1.5の登場です。このモデルは、GPT-4には性能面でまだ劇的には及ばないものの、100万トークンという圧倒的な入力容量を実現しました。通常のチャットGPTなどは8,000から3万、良くても20万トークン程度が限界です。また、動画認識能力も備えており、最近のリアルタイムな改善により、アリーナスコアでGPT-4と互角の性能を示すようになっています。
前川徹:そうなると、今後の展開はどのように予想されますか?
今井翔太:Geminiの100万トークン対応や動画入力機能を考慮すると、総合的にはもうGPT-4を超えている可能性も否定できません。さらに、Googleが開発を継続することで、近い将来にはGPT-4を完全に超える可能性が高いと考えています。まさに、生成AI業界は戦国時代に突入したと言えるでしょう。
3. Google Gemini
3.1. 言語・画像・音声・動画の入力に対応するマルチモーダルモデルの特徴、各サイズの用途
今井翔太:2023年12月6日に公開されたGoogle Geminiは、言語生成はもちろん、画像、音声、動画も入力として処理できる、トランスフォーマーベースのマルチモーダルモデルです。既存のモデルと比較して、特に音声や動画の入力処理において最先端の性能を実現しています。
前川徹:具体的にはどのようなサイズのバリエーションがあるのでしょうか?
今井翔太:Geminiには主に3つのサイズが用意されています。最も大規模なUltra、一般利用者向けのPro、そしてデバイス向けの小型モデルNanoです。Googleの主張によると、UltraとProはそれぞれGPT-4とChatGPT(GPT-3.5)を超える性能を持つとされています。
前川徹:実際の性能はどうだったのでしょうか?
今井翔太:論文の性能評価では、特にMMLUという言語生成AIの主要なベンチマークにおいて、確かにGemini Ultraが高いスコアを記録しています。画像認識能力も非常に優れており、例えば人工知能に関する教科書の文字を正確に読み取り、内容を理解することができます。これは、Googleが長年培ってきたGoogleレンズなどのOCR技術の蓄積が活きている部分です。
特に印象的なのは動画認識能力です。例えば、AIで生成されたモナリザの動画を分析させると、「これはモナリザである」という認識だけでなく、「ディープラーニング技術で作られた動画である」というメタ的な理解まで示すことができます。これは、現在公開されているモデルの中でも特筆すべき能力です。
前川徹:無料で利用できるProモデルの位置づけはどのようになっていますか?
今井翔太:Proモデルは、ブラウザから一般ユーザーが利用できる版として提供されています。ただし、後ほど詳しくお話ししますが、ハルシネーション(誤った情報の生成)の問題が指摘されており、この点は今後の改善が期待される部分です。なお、Nanoについては、現時点では一般公開されていない状況です。
3.2. 論文での主張とユーザー評価の齟齬、特にハルシネーションの問題
今井翔太:Geminiの論文における主張と実際のユーザー評価の間には、かなり大きな齟齬が見られました。特に注目すべき点は、性能評価の詳細な分析結果です。
前川徹:具体的にどのような違いがあったのでしょうか?
今井翔太:まず、モデルサイズごとの性能比較を見てみましょう。論文では、Proモデルを基準値1.0として比較した場合、Ultraモデルは大幅な性能向上を示していると主張されています。しかし、事実性(Factuality)のスコアを見ると、Ultraはほとんど改善が見られません。これは深刻な問題です。なぜなら、Proモデルは非常に多くのハルシネーション(誤った情報の生成)を引き起こすことで知られているからです。
前川徹:それは実際のユーザー評価でも確認されたのでしょうか?
今井翔太:はい。詳細な分析の結果、残念ながらGoogleの論文の主張とは異なり、Gemini Proはチャットモデルとしてはまだまだ不完全です。実際、GPT-3.5にすら性能が及ばない可能性が指摘されています。さらに、より高性能とされるUltraモデルについても、事実性の面での大きな改善が見られないことから、同様のハルシネーション問題を抱えている可能性が高いと考えられます。
前川徹:ただ、全ての面で問題があるわけではないのですよね?
今井翔太:その通りです。例えば、哲学的な質問に対する回答など、事実確認が比較的重要でない場面では、GPT-3.5に匹敵する質の高い応答を示します。「人間の脳のニューロンは機械に完全に置き換えられると思うか」といった問いに対して、妥当な議論を展開できることが確認されています。しかし、事実に基づく正確な情報提供が求められる場面では、現状では注意が必要だと言えます。
3.3. コンテキストウィンドウの大幅な拡大、動画認識能力の向上、性能改善の詳細
今井翔太:Gemini 1.5の登場により、生成AIの性能は新たな段階に入りました。最も注目すべき革新は、100万トークンという圧倒的な入力容量の実現です。従来のモデルと比較すると、その差は歴然としています。
前川徹:具体的にはどの程度の差があるのでしょうか?
今井翔太:従来のチャットGPTなどは8,000から3万トークン程度、最大でも20万トークンが限界でした。それに対して、Gemini 1.5は100万トークンという、桁違いの入力容量を実現しています。この特徴は、現時点で他のモデルには見られない圧倒的な強みとなっています。
前川徹:その大容量入力は実際の性能にどのような影響を与えているのでしょうか?
今井翔太:確かに、公開当初のGemini ProはGPT-4には及ばない性能でしたが、Gemini 1.5では状況が大きく変わっています。まだGPT-4には若干劣るものの、その差は急速に縮まっています。特に注目すべきは、長い動画の認識・理解能力です。また、Googleは継続的に改善を重ねており、最近のllmアリーナのスコアではGPT-4とほぼ互角の性能を示すまでに至っています。
前川徹:今後の展開についてはどのように予測されますか?
今井翔太:100万トークンという圧倒的な入力容量に加えて、動画入力機能も備えていることを考慮すると、総合的な性能ではすでにGPT-4を超えている可能性も否定できません。Googleが開発を続けることで、近い将来、確実にGPT-4を超えると予測しています。これは、生成AI業界における大きなパラダイムシフトになると考えています。
4. 音楽生成AI「Suno」
4.1. 歌詞入力から歌唱・伴奏を含めた完全な楽曲生成の実現方法
今井翔太:2023年12月頃に大きな注目を集めた音楽生成AI「Suno」について説明させていただきます。これは生成AIの中でも特に難しいとされてきた領域での breakthrough(画期的進歩)です。
前川徹:音楽生成が特に難しいとされる理由は何でしょうか?
今井翔太:生成AIにとって、系列データの処理は本質的に困難な課題なのです。文字データの場合、1つの時点T=1、T=2、T=3での情報は単なる1文字程度の情報量です。しかし、音声波形の場合、1秒間の生成でも周波数によって膨大な情報量が必要になります。さらに、人間が作り出したような質の高いコンテンツを長時間にわたって生成し続けることは、技術的に非常に困難だと考えられてきました。
前川徹:それをSunoはどのように克服したのでしょうか?
今井翔太:Suno(正確にはSuno)は、歌詞を入力するだけで、歌唱と伴奏を含めた完全な楽曲を生成することができます。私も実際に試してみましたが、興味深いことにチャットGPTで生成した歌詞を入力しても、人間が作ったような質の高い音楽を生成することができました。この技術的成果は、音楽関連の専門家からも「画像生成AIで起きたような革命的な波が、音楽の分野にも到来した」と評価されています。
前川徹:具体的な仕組みについて、もう少し詳しく説明していただけますか?
今井翔太:Sunoは以前から存在していたモデルですが、継続的な改良を重ねることで、ついに人間が作った音楽レベルの品質に到達しました。特筆すべきは、歌詞だけを入力として、メロディー、ハーモニー、リズム、歌唱表現などの要素を統合的に生成できる点です。これは、音楽生成における複数の技術的課題を同時に解決したことを意味しています。
4.2. 現状ではネタ的な利用が主流、音楽家の代替には至っていない現状分析
今井翔太:Sunoの現状の利用状況について、興味深い傾向が見られています。技術的には画期的な進歩を遂げているにもかかわらず、その実際の活用は予想とは異なる方向に進んでいます。
前川徹:具体的にはどのような使われ方をしているのでしょうか?
今井翔太:現時点では、プロフェッショナルな音楽制作というよりも、主にインターネット文化に根ざしたネタ的な利用が中心となっています。例えば、TwitterなどのSNSで昔から共有されてきたコピペ文をSunoに入力して音楽化し、その面白さを楽しむような使われ方が主流です。
前川徹:画像生成AIの場合は、アーティストの代替や既存の創作活動への影響が大きな話題になりましたが、音楽の分野ではそうした影響は見られないのでしょうか?
今井翔太:その通りです。画像生成AIでは、プロフェッショナルなアーティストの仕事を代替する可能性が現実的な議論として浮上しましたが、Sunoの場合、まだそのレベルには達していません。技術的には人間レベルの音楽を生成できるものの、プロフェッショナルな音楽制作の文脈での活用はあまり見られていません。これは興味深い現象で、技術の進歩が必ずしも既存の創作活動の直接的な代替につながるわけではないことを示唆しています。
前川徹:今後の展開について、どのように予測されていますか?
今井翔太:現状では主にネット文化の中での娯楽的な利用に留まっていますが、技術自体は確実に進歩しています。ただし、音楽制作の分野では、技術的な完成度以外の要素、例えば創作の文脈や音楽家の個性なども重要な要素となるため、単純な代替というよりも、新しい創作ツールとしての発展が期待されます。
5. OpenAI Sora
5.1. 水面反射など物理現象の正確な表現、数分単位の長時間動画生成能力
今井翔太:OpenAIが突然公開したSoraは、動画生成AIの分野で革命的なbreakthroughを達成しました。特筆すべきは、物理法則の理解と表現の正確さです。
前川徹:具体的にどのような点が革新的だったのでしょうか?
今井翔太:最も印象的なのは、物理法則の正確な反映です。例えば、街中を歩く女性の動画を生成した際、路上の水たまりに女性の姿が正確に反射されるのです。これは工学的な光の反射の原理を、AIが正確に理解して表現できていることを示しています。従来の動画生成AIでは、このような細かい物理現象は無視されるか、不正確な表現に留まっていました。
前川徹:生成できる動画の長さについてはいかがでしょうか?
今井翔太:これも画期的で、数分単位の動画をほぼ現実と見分けがつかないクオリティで生成できます。従来の動画生成AIは、せいぜい数秒程度の生成が限界で、しかもその品質は研究者が「よくやっている」と評価する程度でした。しかしSoraは、長時間の動画を驚くべき品質で生成できます。
前川徹:研究者の視点から見て、特に革新的な点は何でしょうか?
今井翔太:従来のAIモデルでは、個々の時刻の画像を独立して生成し、それを繋ぎ合わせるような処理をしていました。しかしSoraは、物理法則に基づいた現象をシミュレーションするかのように、一貫性のある動画を生成できます。これは、AIが物理世界の基本的な法則を理解し、それを動画生成に反映できているということで、技術的に非常に大きな進歩だと評価しています。
5.2. 人物や物体の一貫性維持、遮蔽物による隠れと再出現時の整合性
今井翔太:Soraの技術的な革新性を示す重要な特徴として、生成される動画内での一貫性の維持があります。これは従来の動画生成AIが抱えていた大きな課題を克服したものです。
前川徹:具体的にはどのような課題があったのでしょうか?
今井翔太:従来の動画生成AIでは、たとえば帽子をかぶった女性が5秒間歩くという単純な動画でも、その間に顔が変わり、帽子が変わり、服装が変わり、色まで変わってしまうという問題がありました。これは基盤技術である拡散モデルの性質上、各時刻の画像を独立して生成するため、ある意味で当然の結果でした。AIは女性という概念的な理解はできても、時間経過による同一性を維持する仕組みを持っていなかったのです。
前川徹:Soraではその問題をどのように解決したのですか?
今井翔太:Soraでは、人物の一貫性を完璧に保つことに成功しています。例えば、1分間の動画でも、登場する女性の姿、服装が全く変わらないのです。さらに驚くべきは、より細かい一貫性の維持です。
具体例をお見せしたいのですが、Soraの生成動画の一部に、矢印と文字が書かれた看板が登場するシーンがあります。この看板は、上向きの矢印と右方向にカーブした矢印が描かれているのですが、女性が歩いて看板を一時的に隠してしまった後、再び看板が見える場合でも、完全に同じデザインの看板として表示されるのです。これは非常に高度な一貫性の維持で、一度隠れた物体の情報を記憶し、適切なタイミングで正確に再現できることを示しています。
前川徹:それは従来の技術では実現できなかったことなのですね。
今井翔太:その通りです。従来のモデルでは、物体が一旦隠れてしまうと、次の時刻にその物体があったという情報自体が失われてしまい、再び表示される際には全く異なるものになってしまうことが一般的でした。Soraのこの能力は、空間と時間の連続性を深く理解していることを示す重要な証拠だと考えています。
5.3. 既存手法の大規模化による breakthrough、計算量の重要性
今井翔太:Soraの技術について、研究者の立場から見て最も驚いたのは、実は使用されている技術自体には大きな革新がなかったという点です。
前川徹:それは意外ですね。あれほどの性能向上が、既存技術の応用だけで実現できたのでしょうか?
今井翔太:はい。Soraは拡散トランスフォーマーという、拡散モデルと言語モデルで使用されているトランスフォーマーを組み合わせた手法を使用しています。この手法自体は、以前から学会等で発表されていた既存の技術でした。OpenAI以外の研究機関が発表した際には、さほど圧倒的な性能は示されていませんでした。
前川徹:では、なぜSoraはこれほどの性能を実現できたのでしょうか?
今井翔太:OpenAIの主張によると、決定的な違いは計算量にあります。これは非常に興味深い点です。言語生成AIの分野では「スケーリング則」という現象が知られていて、難しいアルゴリズムの調整よりも、単純にデータ量とモデルサイズを大きくし、十分な時間をかけて学習させれば性能が向上するという法則があります。
前川徹:その法則が動画生成にも適用できたということですか?
今井翔太:その通りです。従来、画像や動画の生成では、このようなスケーリング則が適用できるかどうか不明でした。しかしSoraの成果は、動画生成でも同様の現象が起こることを示しています。つまり、特別なアルゴリズムの革新ではなく、既存手法を膨大なデータで長時間学習させることで、物理法則の理解や一貫性の維持といった高度な能力が自然に獲得されるということです。
OpenAIはこれを「ワールドシミュレーター」と呼んでおり、今後もSoraの技術を改良して、プロンプトだけで世界のあらゆる現象をコンピューター動画として表現できるような技術を目指していると考えられます。
6. Claude 3
6.1. ユーザー評価でもGPT-4を超えた初のモデル、性能の詳細
今井翔太:Claude 3は、元OpenAI社員が立ち上げたAnthropic社から登場したモデルで、非常に重要な転換点となる製品です。特筆すべきは、このモデルがGPT-4を超える性能を持つと評価された最初のケースだという点です。
前川徹:それは論文上での評価なのでしょうか、それとも実際のユーザー評価でもそうなのでしょうか?
今井翔太:両方です。これが重要なポイントなのですが、Claude 3、特にOpusモデルは、論文での定量的な評価だけでなく、実際のユーザーが使用してみても、GPT-4を上回っているという評価を得ました。これは画期的な出来事です。
前川徹:以前のGeminiの例では、論文と実際の評価に齟齬があったと伺いましたが、Claude 3の場合は違うのですね。
今井翔太:その通りです。Geminiの場合、論文上はGPT-4を超えているという主張でしたが、ユーザーが実際に使用してみると「うーん」という評価でした。一方、Claude 3は、ユーザーが実際に使用しても「確かにGPT-4より優れている」という評価を得ています。これは、ずっとGPT-4が独走していた状況に初めて変化をもたらした出来事として、非常に重要な意味を持っています。
前川徹:研究者にとってはどのような意味を持つ出来事だったのでしょうか?
今井翔太:私たち研究者にとって、これは非常に大きな意味を持つ出来事でした。というのも、これまでGPT-4の性能は、OpenAIが持つ何らかの「秘伝のソース」によるものだと考えられており、それなしには到達できないと思われていたからです。Claude 3の成功は、その常識を覆し、OpenAI以外の企業でも最高峰の性能を実現できることを示した重要な事例となりました。
6.2. 長文読解や文脈理解における優位性の具体例
今井翔太:Claude 3の特筆すべき優位性として、プロンプトの読解力の高さがあります。私も日常的に使用していますが、論文やコードを入力してその解説を求めた際の理解度が非常に高いことを実感しています。
前川徹:具体的にどのような点で優れているのでしょうか?
今井翔太:GPT-4は時として、文章の中間部分を読み飛ばしたり、文脈を完全に理解していないような回答をすることがありました。一方、Claude 3は、長い文章であっても全体を正確に読み取り、的確な解説や回答を提供します。実際、Claude 3のテクニカルレポートでも、この点を特に重視して開発を行ったと述べられています。
前川徹:実際の使用例を挙げていただけますか?
今井翔太:私の経験では、研究論文の解説を依頼した際に顕著な差が現れます。GPT-4は「それらしい」回答はするものの、時として論文の重要な部分を見落としたり、解釈を間違えたりすることがありました。一方、Claude 3は論文の細部まで正確に理解し、主張の根拠となるデータや実験結果まで適切に参照しながら解説してくれます。また、プログラミングコードの解説においても、コードの全体構造を把握した上で、関数間の関係性や実装の意図まで正確に説明できます。
前川徹:その優れた読解力は、どのように実現されているのでしょうか?
今井翔太:Anthropic社は、長文の理解力を向上させるための特別な学習方法を採用したと報告しています。具体的な手法の詳細は明かされていませんが、プロンプトの完全な理解を重視した学習プロセスを経ていることが、この優れた読解力につながっているものと考えられます。
7. ハードウェアの革新
7.1. LPUによる高速推論の実現、具体的な速度向上の例
今井翔太:ハードウェアの革新として、Groq社の開発したLPUについてお話しします。この企業は2016年にGoogleのAIチップエンジニアが創業した会社で、従来のNVIDIAのGPUとは全く異なる設計思想のハードウェアを開発しています。
前川徹:具体的にどのような違いがあるのでしょうか?
今井翔太:最も顕著な違いは推論速度です。皆さんもGPT-4を使用した経験があると思いますが、通常は1秒間に3文字程度しか生成されず、長い回答を待つ間に別のことをしなければならないほど遅いですよね。しかし、Groqの LPUを使用すると、1秒間に数十文字を生成できるほど高速です。実質的に待ち時間がないと感じられるレベルまで高速化されています。
前川徹:その性能は実際に検証されているのでしょうか?
今井翔太:はい、Groqのウェブサイトで実際に試すことができます。ただし、GPT-4自体を動かせるわけではありませんが、オープンモデルの中でも大規模なものを動かすことができ、GPT-3.5相当の質の回答を驚異的な速度で得ることができます。これは生成AI市場において、特にハードウェア面での大きな転換点となる可能性を秘めています。
前川徹:この技術は今後どのような影響を与えると考えられますか?
今井翔太:この革新は、NVIDIAのハードウェア独占に対する重要な挑戦となっています。従来のGPU設計とは異なるアプローチで高速化を実現したことで、生成AI向けハードウェアの新しい可能性を示しました。これは、後ほどお話しする各社の独自ハードウェア開発の流れにも大きな影響を与えていると考えています。
7.2. GPU依存からの脱却、新しいハードウェアアーキテクチャの可能性
今井翔太:GroqのLPUの成功は、より大きな技術的転換の始まりを示唆しています。これまでNVIDIAのGPUに依存してきた状況から、各社が独自のハードウェアアーキテクチャを開発する流れが加速しています。
前川徹:具体的にどのような企業が独自開発を進めているのでしょうか?
今井翔太:主要なプレイヤーとしては、まずMetaが挙げられます。Metaは従来からGPUへの依存度を下げるための独自ハードウェア開発を進めています。GoogleもTPU(Tensor Processing Unit)という独自チップを開発していますし、Appleも現在、独自のAI処理用チップの開発に注力していると言われています。
前川徹:このような動きは業界にどのような影響を与えると予想されますか?
今井翔太:これは生成AI業界における勢力図を大きく変える可能性があります。従来は、NVIDIAのGPUの供給状況が各社の開発速度を左右していましたが、独自ハードウェアの開発により、この制約から解放される可能性があります。
ただし、注意が必要なのは、これらの動きにはイロン・マスクが開発を進めている「Grok」という別のAIプロジェクトと混同されやすい点です。特に日本では発音が似ているため、混乱を招きやすいのですが、GroqとGrokは全く異なるプロジェクトです。Grokの方はイーロン・マスクが好きなSFから取られた名前で、ハードウェアではなくAIモデルの開発プロジェクトです。
8. オープンモデルの進展
8.1. Metaの新モデルの特徴と性能
今井翔太:2024年の3月から4月にかけて、オープンモデルの分野で重要な進展がありました。特に注目すべきは、MetaがLlama 3として公開した最新モデルです。これは、これまでのLlamaシリーズの集大成とも言えるモデルとなっています。
前川徹:Llama 3の具体的な特徴について教えていただけますか?
今井翔太:はい。Llama 3の最大の特徴は、これまでの商用モデルの性能に近づいているという点です。特に、300億パラメータ(300 billion parameters)のモデルの公開が予告されており、これはGPT-3.5に匹敵する、あるいはそれを超える可能性のある規模です。
前川徹:オープンモデルとして公開されることの意義はどのようなところにありますか?
今井翔太:最大の意義は、高性能な言語モデルが研究者やデベロッパーに広く利用可能になることです。これまでGPTシリーズのような高性能モデルは、API経由でしか利用できませんでしたが、オープンモデルとして公開されることで、より自由な実験や改良が可能になります。また、商用利用の制限も緩和されることで、より幅広いアプリケーション開発が期待できます。
前川徹:この動きは業界にどのような影響を与えそうですか?
今井翔太:これは生成AI業界における民主化の重要な一歩だと考えています。特に、大手企業だけでなく、中小企業や個人開発者でも高性能なAIモデルを利用できるようになることで、イノベーションの可能性が大きく広がると期待されます。
8.2. Cohereの企業向けソリューションの詳細
今井翔太:同じ時期に注目を集めたのが、Cohereという企業が発表したCommand-Rです。Cohereは主にエンタープライズ向けのLLMソリューションを提供している企業として知られています。
前川徹:どのような特徴を持つモデルなのでしょうか?
今井翔太:Command-Rの最も注目すべき点は、GPT-3.5を確実に超える性能を実現していることです。これは、エンタープライズ向けのソリューションとしては画期的な成果です。
前川徹:性能面での具体的な評価はどうなっていますか?
今井翔太:Command-Rは、もう少し改良を重ねればGPT-4に匹敵する可能性も示唆されています。特に企業での実用面において、高い信頼性と安定した性能を示しているのが特徴です。これは、Cohereが企業向けのソリューションとして開発を進めてきた経験が活かされている結果だと考えられます。
前川徹:この進展は業界全体にどのような影響を与えそうですか?
今井翔太:この動きは、高性能な言語モデルが特定の企業の独占物ではなくなりつつあることを示しています。特に、エンタープライズ市場において、より多様な選択肢が生まれつつあるということは、市場の健全な発展という観点から非常に重要だと考えています。Meta、Cohere両社の進展は、オープンモデルの時代が本格的に始まりつつあることを示唆していると言えるでしょう。
8.3. オープンモデルによるGPT-3.5レベルの性能実現の意義
今井翔太:最近のオープンモデルの発展には、非常に大きな意義があります。もはやインターネット上に公開されているモデルを活用するだけで、かつてのチャットGPTに匹敵する、あるいはそれ以上の性能を実現できる段階に入っています。
前川徹:それは具体的にどのような影響をもたらすのでしょうか?
今井翔太:最も重要な点は、開発者や研究者が自由にモデルを改良できるようになったことです。これまではGPT-3.5クラスの性能を得るには、APIを通じて各社のサービスを利用する必要がありました。しかし今では、オープンモデルを手元で改良し、場合によってはGPT-4レベルの性能を目指すことも現実的な選択肢となっています。
前川徹:オープンモデルの発展は、今後の生成AI業界にどのような変化をもたらすと予想されますか?
今井翔太:近い将来、我々がローカルコンピュータ上で動作させられるモデルが、現在のGPT-4と同等かそれ以上の性能を持つ可能性が出てきています。これは、生成AI技術の民主化という観点から、非常に重要な転換点になると考えています。大手企業による独占的な状況から、より多様な主体が参入できる環境へと変化しつつあるのです。
前川徹:その変化は技術開発のあり方自体にも影響を与えそうですね。
今井翔太:はい。これまでは特定の企業の技術力や計算資源が決定的な優位性を持っていましたが、今後はより多様なアプローチでの技術革新が期待できます。これは、生成AI技術の健全な発展という観点からも非常に重要な変化だと考えています。
9. 謎のGPT-2チャットボット
9.1. GPT-4を超える性能の実証例、開発元不明の経緯
今井翔太:4月29日に出現したGPT-2チャットボットについてお話しします。この出来事は生成AI業界に大きな衝撃を与えました。
前川徹:GPT-2というのは、少し古いモデルではないのでしょうか?
今井翔太:その通りです。にもかかわらず、このチャットボットは驚くべき性能を示しました。少なくとも私が試した限りでは、日本語の一般的なユーザーの視点から見ても、明らかにGPT-4を超える性能を示していました。実際、「これはもしかしたらGPT-5なのではないか」「あるいはGPT-4.5ではないか」という声が多数上がるほどの高性能さでした。
前川徹:開発元は判明しているのでしょうか?
今井翔太:興味深いことに、このモデルの詳細は現在も不明なままです。どの企業や研究機関が開発したのかも分かっていません。ただし、一つの手がかりとして、このGPT-2チャットボットが出現した際に、OpenAIのCEOであるサム・アルトマン氏が反応を示していたことから、OpenAI製である可能性が指摘されています。しかし、これも確定的な情報ではありません。
前川徹:利用方法についても特殊なものだったそうですね。
今井翔太:はい。このモデルを利用するには、まるでゲームの隠しコマンドのような特殊な手順が必要でした。具体的には、チャットボットアリーナという、LLM同士を対戦させるプラットフォームで、対戦相手として時々出現する仕組みになっています。モデル名が隠された状態で現れ、その後継続的にチャットができるようになるのですが、出現を待つには数分から数時間かかることもあり、まさに「レアキャラクター」のような扱いになっています。しかし、有料サービスではなく、根気強く待てば誰でも利用できる点が特徴的です。
9.2. GPTシリーズの世代交代に関する仮説の根拠
今井翔太:なぜ新しいモデルが「GPT-2」と名付けられたのかについて、私なりの解釈をお話しさせていただきます。
前川徹:OpenAIは既にGPT-2を持っているはずですが、その点についてはどのようにお考えですか?
今井翔太:これは現時点では推測の域を出ませんが、私の考えでは、これまでのGPTシリーズは実は「GPT1」のシリーズだったのではないかと思います。つまり、GPT-1、GPT-1.2、GPT-1.3、GPT-1.4という具合に発展してきて、今回のGPT-2は完全に新しい世代の始まりを示唆しているのかもしれません。
前川徹:そうすると、今後の展開についても推測できそうですね。
今井翔太:はい。この仮説が正しければ、今後はGPT-2.1、GPT-2.2というように、新しい世代の中での進化が続いていく可能性があります。これは単なる命名規則の問題ではなく、モデルアーキテクチャの根本的な刷新を示唆している可能性があります。ただし、これはあくまでも私個人の予想であり、OpenAIからの公式な説明はまだありません。
前川徹:こうした解釈が出てくる背景には、このモデルの特異な性能の高さがあるわけですね。
今井翔太:その通りです。従来のGPTシリーズの延長線上には見えないほどの性能向上が見られたことが、この解釈を支持する一つの根拠となっています。しかし、まだ開発元すら確定していない状況ですので、今後の展開を注意深く見守る必要があります。
10. 最新の研究トレンド
10.1. パラメータの量子化による効率化の仕組みと効果
今井翔太:最近の研究トレンドとして、モデルを扱いやすくするための小型化・高速化の取り組みが注目されています。特に「BitNet」という手法は、今年初めに登場して大きな反響を呼びました。
前川徹:具体的にはどのような技術なのでしょうか?
今井翔太:従来の大規模言語モデルのパラメータは連続値で、例えば0から1の間で0.001、0.23、0.89のように細かい値を取っていました。BitNetはこれを大胆に-1か0か1のように、非常に限られた値に制限することで、計算を劇的に効率化する手法です。
前川徹:そのような単純化で性能は維持できるのでしょうか?
今井翔太:実は研究者の間でも驚きだったのですが、BitNet 1.5(正確には1.8ビット程度)では、予想に反して性能がほとんど低下しませんでした。通常、このような量子化を行うと性能は大きく低下するはずなのですが、BitNetではそれを回避しながら超高速な処理を実現しています。これは、パラメータの持つ情報を効率的に圧縮する新しい方法を示唆する重要な発見だと考えられています。
前川徹:この技術は今後どのような影響を与えそうですか?
今井翔太:この技術は、大規模言語モデルの実用化における重要なブレークスルーになる可能性があります。計算効率の大幅な向上により、より少ない計算資源でモデルを動作させることが可能になり、生成AIの普及に大きく貢献すると期待されています。
10.2. 14億パラメータでの高性能実現の技術詳細
今井翔太:Microsoftが約2週間前に発表したPhi-3について、注目すべき成果をお話しします。このモデルは14ビリオン(140億)パラメータという、比較的小規模なサイズながら、驚くべき性能を実現しています。
前川徹:従来のモデルと比べるとかなり小さいサイズですね。
今井翔太:その通りです。現在の大規模言語モデルは数千億パラメータ規模が一般的です。しかし、Phi-3は140億パラメータという比較的小規模なサイズでありながら、GPT-3.5やその他の大規模オープンモデルに匹敵する性能を示しています。
前川徹:実際の使用状況はどうなっているのでしょうか?
今井翔太:既に多くの研究者や開発者が自身のMacやPCで動作させることに成功しています。これは画期的な成果です。なぜなら、従来の高性能モデルは大規模なコンピューティングリソースが必要で、個人のコンピュータでの実行は現実的ではありませんでした。
前川徹:この成果は今後の開発にどのような影響を与えそうですか?
今井翔太:この技術は、生成AIの民主化に大きく貢献する可能性があります。大規模な計算資源を持たない組織や個人でも、高性能なAIモデルを直接利用・改良できるようになれば、より多様なイノベーションが期待できます。また、モデルの小型化技術は、モバイルデバイスでの実装など、新しい応用の可能性も開くでしょう。
10.3. データ品質とベンチマーク評価の新たな課題
今井翔太:最近の研究で、データセットの品質がモデルの性能に与える影響について、非常に興味深い発見がありました。具体的には、「FAWB」という新しいデータセットを用いた研究結果をご紹介したいと思います。
前川徹:データセットの品質とは、具体的にどのような観点で評価されるのでしょうか?
今井翔太:この研究では、同じモデルを異なるデータセットで同じ時間学習させた場合の性能差を比較しています。結果を示すグラフを見ると、FAWBデータセットを使用した場合、他のデータセットと比較して明らかに高いスコアを達成しています。これは、データの細かいフィルタリングと整理が、モデルの性能向上に直接的な影響を与えることを示しています。
前川徹:一方で、ベンチマーク評価にも課題があるとお聞きしましたが。
今井翔太:はい、深刻な問題が明らかになっています。最近の研究で、多くのモデルが実は評価用データセットの「カンニング」をしている可能性が指摘されました。インターネット上のデータを広く学習に使用する現在のアプローチでは、評価に使用されるはずのデータが学習時に含まれてしまう可能性が高いのです。
前川徹:その問題はどのように検証されたのでしょうか?
今井翔太:研究者たちは、インターネット上に存在しない全く新しいベンチマークを作成して評価を行いました。その結果、ほとんどのモデルで性能が大幅に低下しました。これは、既存のモデルが評価データを事実上「暗記」していた可能性を示唆しています。極端な例では、評価データだけを学習すれば、すべてのベンチマークで100%のスコアを達成できてしまうわけです。このような状況では、モデルの真の性能を正確に評価することが困難になります。
前川徹:これらの課題に対する解決策は検討されているのでしょうか?
今井翔太:現在、より厳密なベンチマーク評価手法の開発が進められています。また、学習データとベンチマークデータの重複を避けるための新しい方法論も提案されています。これは生成AI分野の健全な発展のために、非常に重要な課題となっています。
10.4. 複数タスクの自律的実行における進展
今井翔太:生成AIの次のトレンドとして、AIエージェントの研究が非常に活発に行われています。先ほどお話したDevinのような成果は、この分野における重要なブレークスルーの一つです。
前川徹:具体的にはどのような進展が見られているのでしょうか?
今井翔太:例えば、作業全体を完全に自動化できるエージェントが登場しています。これらのエージェントは、検索を行い、ブラウザを操作し、ドキュメントを参照し、プログラムのエラーを修正するといった一連の作業を、人間の介入なしに実行できます。
前川徹:それは従来のAIとどのように異なるのでしょうか?
今井翔太:最も大きな違いは自律性です。従来のAIは個別のタスクを実行することはできましたが、これらのエージェントは複数のツールを使いこなしながら、目的達成まで自律的に作業を進めることができます。私の専門分野に近い例で言えば、複数のエージェントに役割を割り振り、協調して目的を達成するようなシステムも登場しています。
前川徹:このような技術は実用化されているのでしょうか?
今井翔太:はい。例えば、Devinは「AIソフトウェアエンジニア」として実際に機能しており、開発者のCognition社は既に実用段階にあると発表しています。エージェントがブラウザを参照し、ドキュメントを読み込み、コードを書き、エラーが出れば自分で原因を特定して改善し、さらに実行して確認するという一連の作業を完全に自動化できています。これは、生成AIの応用が個別のタスクから、より複雑な作業の自律的な実行へと進化していることを示す重要な例といえます。
11. 今後の展望
11.1. GPT-5の開発状況と予測される影響
今井翔太:今年の技術動向を踏まえて、特に注目すべき将来展望についてお話しします。まず、GPT-5の登場が噂されており、夏頃の公開が取り沙汰されています。
前川徹:その情報の確度はどの程度でしょうか?
今井翔太:商標登録などの動きが確認されており、今年中の登場はほぼ確実と見られています。ただし、夏という時期については確度が低く、現時点での予測では秋から冬にかけての発表がより現実的だと考えています。
前川徹:研究者コミュニティではどのような反応が見られていますか?
今井翔太:スタートアップ企業やアカデミアの研究者たちの間で、かなりの緊張感が広がっています。これまでの研究や開発の成果が、GPT-5の登場によって一気に陳腐化してしまう可能性を危惧しているのです。私たち研究者は、いわば「震えている」状態です。
前川徹:それほどの影響力が予想されるということですね。
今井翔太:はい。これまでの経験から、OpenAIの新モデル登場は、しばしば既存の技術体系を根本から覆すような革新をもたらしてきました。GPT-5についても同様の、あるいはそれ以上のインパクトが予想されます。特に気がかりなのは、現在進行中の研究プロジェクトや開発中の技術が、発表時点で既に時代遅れになっている可能性があることです。このような状況は、生成AI分野の研究開発において大きな課題となっています。
11.2. 各社独自ハードウェア開発の動向
今井翔太:生成AI開発のローカル化という大きな流れの中で、ハードウェアの開発動向にも重要な変化が見られています。特に、これまでNVIDIAのGPUに依存していた状況から、各社が独自のハードウェア開発に乗り出している点が注目されます。
前川徹:具体的にはどのような企業が動きを見せているのでしょうか?
今井翔太:まず、Metaが独自のGPU開発を進めています。GoogleもTPU(Tensor Processing Unit)という独自チップの開発を続けていますし、Appleも精力的にAI処理用チップの開発を進めていると言われています。これは、従来のNVIDIAへの依存から脱却しようとする明確な動きです。
前川徹:この傾向は今後も続くと予想されますか?
今井翔太:はい。各社がハードウェアを自社開発するトレンドは、今後さらに加速すると考えています。例えば、Metaが非常に大規模な300億パラメータのLlama 3を発表すると予告していますし、他社も同様の動きを見せています。
この背景には、基盤技術レベルでの収束が起きつつあるという状況があります。つまり、モデルのサイズがほぼ同じになり、インターネット上のデータもほぼ出尽くしてくると、各社の差別化要因として、独自ハードウェアの開発が重要性を増してくるのです。これは、生成AI開発における新しい競争軸の形成を示唆しています。
前川徹:そうなると、業界の勢力図にも大きな変化が起きそうですね。
今井翔太:その通りです。特に既存の高品質データを持つ企業や、独自のハードウェア技術を持つ企業が、新たな競争優位性を築く可能性が出てきています。これは、生成AI業界における「第二幕」の始まりと言えるかもしれません。
11.3. 日本企業の競争力、UI/UX面での逆転可能性
今井翔太:日本の生成AI分野における競争力について、私は非常に前向きな見方をしています。例えば、Stability AIの日本法人であるPreferredやその他の日本企業が、最先端の技術開発で成果を上げています。
前川徹:これまでの日本のIT分野での実績を考えると、意外な評価に聞こえますが。
今井翔太:確かに日本は、GAAFAと呼ばれる企業との競争で後れを取り続けてきた歴史があります。しかし、現在の生成AI市場は非常に興味深い状況にあります。基盤技術のレベルで収束が起きつつあり、各社のモデルサイズが同じような規模になり、利用できるインターネット上のデータもほぼ出尽くしてきている状況です。
前川徹:そうした状況が、日本企業にとってチャンスになるということでしょうか?
今井翔太:はい。この状況下では、純粋な技術力による差別化が難しくなってきています。代わりに重要になってくるのが、UI/UXの質や、文化的な要素を含めたサービスの総合的な完成度です。この領域こそ、日本企業が得意としてきた分野です。緻密なUI/UXの設計や、きめ細かいサービス品質の追求といった日本の強みが、大きな意味を持つ可能性があります。
前川徹:具体的にはどのような逆転シナリオが考えられますか?
今井翔太:例えば、日本特有の高品質なデータ、具体的には国会図書館の書籍データなどを活用した独自モデルの開発や、日本の文化的背景を活かしたUI/UXの設計などが考えられます。基盤技術の収束という状況は、むしろ日本企業にとって、これまでの遅れを取り戻すチャンスになる可能性があると考えています。