※本記事は、2024年独日仏AIカンファレンスの基調講演「持続可能な生成AI」の内容を基に作成されています。講演の詳細情報は https://www.dwih-tokyo.org/ja/event/ai4/ でご覧いただけます。本記事では講演内容を要約しております。
登壇者は以下の通りです:
- Dr. Florence Ho (Chair, NEC Corporation)
- Dr. Johannes Leon Kirnberger (OECD)
- Dr. Marc Duranton (CEA)
- Prof. Rio Yokota (Institute of Science Tokyo)
なお、本記事の内容は登壇者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講演動画(https://youtube.com/live/Vf3xL1c9mIA )をご覧いただくことをお勧めいたします。 本カンファレンスは、日独の科学・イノベーションに関する情報提供を目的としており、独日仏三カ国における最新の研究開発動向をお届けしています。(Informing about research and innovation from Germany & Japan.)
1. セッション概要 (Dr. Florence Ho, Chair)
1.1. 持続可能な生成AIの重要性
今回の基調講演セッションでは、生成AIの持続可能性というきわめて重要なテーマについて議論します。生成AIのプラネタリーバウンダリーへの環境的影響に関する懸念が高まっている一方で、生成AIが環境問題の解決に貢献できる可能性も指摘されています。このような二面性を持つ生成AIの持続可能性について、政策、ハードウェア、実装の3つの異なる視点から総合的に検討することが本セッションの目的です。
生成AIの環境影響を低減することは喫緊の課題となっており、特に以下の3つの観点からの議論が重要です:
- 政策的観点:AIの環境影響を評価・制御するための国際的な枠組みの構築
- ハードウェア的観点:エネルギー効率の改善とグリーンコンピューティングの実現
- 実装的観点:効率的な学習手法の開発と計算リソースの最適活用
本セッションでは、これらの課題について、それぞれの分野の専門家が最新の知見と実践例を共有します。特に注目すべき点として、生成AIの学習に必要な計算能力が指数関数的に増大している現状があり、この傾向が持続可能性の観点から大きな課題となっています。また、各国・地域での取り組みの違いや、文化的な差異への対応も重要なトピックとして取り上げられます。
持続可能な生成AIの実現は、技術開発のみならず、国際協力や標準化、そして効果的な政策立案を必要とする複合的な課題です。本セッションを通じて、この課題に対する包括的な理解と、具体的な解決策の方向性を示すことを目指しています。
1.2. 登壇者と専門分野の紹介
本セッションでは、持続可能な生成AIについて、政策、ハードウェア、実装の3つの専門的な視点から議論を展開します。それぞれの分野を代表する登壇者をご紹介します。
まず、OECDからDr. Johannes Leon Kirnbergerをお迎えします。彼はOECDの科学技術イノベーション部門AI課で政策アドバイザーを務めており、人工知能と持続可能性を専門としています。以前は、モントリオールのAI国際専門センターとグローバル・パートナーシップ・オン・AI(GPIA)で気候変動対策と生物多様性保護プログラムを主導していました。また、国連環境計画(UNEP)の循環経済に関するデジタル技術専門家グループのメンバーであり、気候変動に関する政府間パネル(IPCC)にもアドバイザーとして参加しています。
次に、CEAからDr. Marc Durantonをお迎えします。彼は人工知能、エッジからクラウドまでのコンピューティング、およびサイバーフィジカルシステムの実現に携わっています。以前はPhilips SemiconductorsとNXPで、人工ニューラルネットワーク用デジタルプロセッサーであるneurochipsファミリーの開発をリードしました。現在は、欧州のハイパフォーマンスエッジおコンピューティングのロードマップ活動を担当しています。
最後に、Tokyo Institute of Science(旧東京工業大学)からProf. Rio Yokotaをお迎えします。彼は高性能コンピューティング、線形代数、機械学習の分野で研究を行っています。高速多重極法(EXA-FMM)、階層的低ランクアルゴリズム(H-matrices)、ディープラーニング(HDL)のライブラリ開発者として知られています。2006年からGPUでのアルゴリズム最適化に取り組んでおり、2009年には初のGPUスーパーコンピュータを用いた研究でGordon Bell賞を受賞しています。
セッションの司会は、2023年からNEC Corporationでシニアリサーチャーを務めるDr. Florence Hoが務めます。彼女は最適化手法を用いた産業問題の解決に取り組んでおり、マルチエージェントシステム、最適化、メタヒューリスティック、交通管理などを研究分野としています。
これらの専門家による多角的な議論を通じて、持続可能な生成AIの実現に向けた課題と解決策を探っていきます。
2. AIの持続可能性と政策課題 (Dr. Johannes Leon Kirnberger, OECD)
2.1. 地球規模の課題とAIの可能性
近年の出来事を踏まえると、持続可能性について議論を継続し、特にAIなどの新技術との関係性を検討することが、これまで以上に重要になっています。世界の一部で逆風が見られるものの、この議論を継続する必要があります。
現在、私たちは深刻な地球規模の課題に直面しています。プラネタリーバウンダリーフレームワークを見ると、人類が長期的に安全に活動できる領域(グリーンゾーン)を、すでに複数の側面で超えてしまっています。気候変動だけでなく、新規物質による汚染、生物圏の完全性(生物多様性)、土地利用システムの変化、海洋システムの変化、生化学的循環など、多くの領域で安全な活動範囲を逸脱しています。
G7のヒロシマAIプロセスにおいて、OECDがG7メンバーに対して実施した調査では、生成AIの最大のインパクトとして以下の順で回答がありました:
- 生産性の向上
- 起業家精神の促進、科学技術イノベーションの推進
- 気候危機の解決への貢献
気候危機の解決が3番目に挙げられたことは、政策立案者の間でこの課題の重要性が認識されていることを示しています。しかし、本当にAIは気候危機の解決に貢献できるのでしょうか?
一方で、AIが地球環境を破壊する可能性を指摘する声も多くあります。「生成AIレースには隠された問題がある」「ディープラーニングの炭素排出問題」といった懸念が指摘され、「1つのAIモデルが車5台分のライフタイムの炭素を排出する」といった数字も示されています。自動運転車へのAI応用など、将来的な排出増加への懸念も存在します。
このような状況を受け、OECDでは加盟国からの要請に基づき、AIの環境影響について詳細な調査を開始しました。その結果、AIには持続可能な開発目標(SDGs)の達成を促進する可能性(イネーブラー)と阻害する可能性(インヒビター)の両方があることが明確になってきました。特に、気候変動、海洋生態系、陸上生態系に関するSDGsについては、大きな可能性と同時に重大なリスクも存在することが分かってきています。
2.2. AIの環境影響評価フレームワーク
OECDでは、AIの環境影響を適切に評価するためのフレームワーク開発に取り組んでいます。このイニシアチブは、約2-3年前にグローバル・パートナーシップ・オン・AI(GPIA)と共同で開始しました。開発の主な目的は、AIの環境影響に関する様々な懸念や騒音に対して、体系的な評価方法を確立することでした。
OECDは、問題を理解する上で体系的なフレームワークを用いることを重視しています。一見すると退屈に感じるかもしれませんが、この方法は複雑な問題を整理し、評価する上で非常に効果的です。開発されたフレームワークでは、AIの環境影響を主に2つの側面から捉えています:
- 直接的な環境影響:AIシステムを稼働させるための物理的インフラに関連する影響
- 間接的な環境影響:AIの応用によって生じる環境への影響
このフレームワークの重要な特徴は、AIを単なる抽象的な概念や「クラウド上の魔法のような何か」としてではなく、具体的な物理インフラストラクチャーに基づくシステムとして捉えている点です。AIに詳しくない人々は、AIを無形のものと捉えがちですが、実際には重要な物理的インフラストラクチャーに依存しています。
このフレームワークは、環境影響を測定・評価するための共通基準を提供し、各国や組織がAIの環境影響を理解し、適切な対策を講じるための基盤となることを目指しています。特に、生成AIの急速な発展に伴い、このような体系的な評価の重要性は増しています。
このフレームワークの開発と適用を通じて、私たちはAIの環境影響に関する理解を深め、より持続可能なAI開発への道筋を示すことができると考えています。
2.3. 直接的・間接的な環境影響
AIの環境影響を評価する際、直接的影響と間接的影響の両方を考慮することが重要です。
直接的な環境影響は、主にAIシステムを支える物理的インフラストラクチャーに関連しています。これは製品のライフサイクル全体にわたって発生します。まず、原材料の採掘から部品の製造、組み立てまでの生産段階での環境影響があります。次に、データセンターの建設と運用段階では、最も大きな環境影響として、大量のエネルギー消費と水の使用が挙げられます。これらは同時に大きな炭素排出量にも繋がります。さらに、製品のライフサイクル末期の廃棄段階でも深刻な環境影響が発生します。現実には、電子機器廃棄物の約85%が適切にリサイクルされることなく、主に発展途上国の埋立地に廃棄されているという深刻な問題があります。
一方、間接的な環境影響はAIの応用によって生じる影響を指し、その潜在的影響は直接的影響よりもさらに大きい可能性がありますが、測定はより困難です。プラスの影響としては、以下の3つの主要な貢献が挙げられます:
- 既存システムの最適化:AIは、エネルギー、輸送、農業、産業など、大量のデータが利用可能な分野で既存システムの効率を向上させることができます。これは結果としてエネルギー消費や排出量の削減につながります。
- 環境モデリングと予測:AIは高性能コンピューティングインフラ上で実行される既存モデルを改善し、災害予防などに貢献できます。
- 緩和と適応:AIは科学的発見を促進し、再生可能エネルギー技術の開発や新しい緩和・適応戦略の開発に貢献できます。
しかし、AIの応用には負の影響も存在します。多くの議論では、インフラ側の負の影響と応用側の正の影響という二分法で語られがちですが、実際には応用面での負の影響も重要です。例えば、AIは石油・ガス探査の効率化や、不必要な消費を促進する消費パターンの最適化にも使用できます。つまり、AIは必ずしも環境に有益な用途だけでなく、本質的に持続不可能なビジネスモデルを促進する可能性もあるのです。
2.4. 生成AIによる新たな課題
生成AIは、既存のAIの環境影響に関する分析に新たな視点と課題をもたらしています。特に重要な課題は、高度なAIモデルの計算需要が指数関数的に増加していることです。この傾向は、ディープラーニング以前の時代から存在していましたが、2012-2015年頃のディープラーニング時代の到来以降、さらなる加速を見せています。このエネルギー消費の増加傾向を示すグラフを見れば、大きな懸念が生じるのは当然です。
この問題の複雑さを示す例として、2019年に発表された研究があります。この研究では、1つのAIモデルの学習に、平均的な米国の自動車の生涯排出量の約5倍のCO2が排出されると結論付けられました。この研究は広く報道され、大きな反響を呼びました。
しかし、Googleが同じ計算を自社のデータセンターで検証したところ、驚くべき結果が明らかになりました。研究者らが推定した実行時間は実際の177,000倍、コストは50,000倍も過大評価されており、結果としてCO2排出量の推定値は120,000倍も過大でした。つまり、実際の排出量は自動車1台の生涯排出量の約0.00004倍だったのです。
この大きな差異は、左側の研究が間違っていたというわけではありません。研究者たちは、この分野の透明性の欠如により、平均的な計算インフラストラクチャーと電力構成を使用せざるを得なかったのです。このように、現在のAI産業の不透明性が、AIの環境影響に関する正確な議論を困難にしています。
さらに、生成AIの台頭により、私たちの分析全体を見直す必要が生じています。国際エネルギー機関の予測によると、データセンターの温室効果ガス排出量は今後数年で大幅に増加すると見込まれています。これに加えて、AI専用のデータセンターやAIファクトリーが新たに建設され、全く新しいアーキテクチャで運用されることで、さらなるエネルギー消費の増加が予想されます。
また、トレーニングと推論のどちらがエネルギー消費の主要因となるかも重要な問題です。現時点では企業秘密となっているため正確な比率は不明ですが、おおよそ40:60から50:50の比率と推定されています。しかし、生成AIが検索エンジンなどに統合されると、推論のエネルギーコストが劇的に増加する可能性があります。
根本的な問題は、コンピューティングの効率改善が計算需要の増加に追いつけるかどうかです。過去15年間、データセンター全体のエネルギー消費は、インターネットユーザー数やトラフィック、計算負荷が数桁増加したにもかかわらず、ほぼ横ばいを維持してきました。しかし、生成AIがこの傾向を変える可能性があり、効率改善の継続的な革新が可能かどうかが重要な課題となっています。
2.5. 国際的なAIガバナンスの現状
国際的なAIガバナンスの現状について、私の日常業務である政策立案と統治の観点から説明させていただきます。現在の国際的なAIガバナンスの状況は非常に複雑で、多くの異なるプレイヤーや形式が存在します。OECDやGPIAをはじめ、G7、G20、さらにUNESCOなどの国連レベルでの取り組みなど、様々なイニシアチブが進行しています。
持続可能性に関して、これらすべてのイニシアチブにおいて、初期段階ではありますが、その重要性が認識され始めています。具体的な例として、以下の4つの主要な取り組みを挙げることができます:
- AI法:持続可能なAIの開発、KPI、SDGsへの言及が含まれ、環境に配慮したAI開発を促進する具体的な mandate(権限)が示されています。
- 広島AIプロセス:気候危機などの課題に対するAIの活用について言及されています。
- 米国大統領令:気候変動や資源に焦点を当てたAI研究の促進が明記されています。
- Bletchley宣言:中国も含めた合意として、クリーンエネルギー、生物多様性、気候変動、国連SDGsへの言及がなされています。
しかし、率直に申し上げると、これらの取り組みは現時点では非常にハイレベルなものにとどまっています。最も野心的なEU AI法でさえ、AI開発者に対する要件の多くは任意のものとなっています。高リスクシステムについてはエネルギーコストへの対応が求められていますが、具体的なKPIはまだ設定されていません。
現在、ISO、IEE、ETSI(欧州)、AFNORなどの機関で、標準化や測定方法の開発が進められています。フランス政府も積極的に取り組んでおり、2024年2月に予定されているAIサミットでも、持続可能性と透明性が主要議題の一つとなっています。
しかし、これはまだ初期段階です。透明性が欠如していると、データの恣意的な選択や逸話的な証拠に頼らざるを得ない状況が続きます。問題を真に理解し、政策立案者、技術企業、意思決定者にAIをより持続可能にする方法について適切な助言を行うためには、標準化、測定可能性、システム間の比較可能性が不可欠です。この分野での取り組みを加速させる必要があります。
3. AIハードウェアの持続可能性への取り組み (Dr. Marc Duranton, CEA)
3.1. ニューラルネットワークハードウェアの進化
まず、ニューラルネットワークの歴史的な進化についてお話しします。2012年、Hintonのチーム(最近ノーベル賞を受賞)が画期的な出来事を起こしました。彼らはCNN(畳み込みニューラルネットワーク)アーキテクチャを開発し、画像認識の記録を塗り替えました。このネットワークは6,000万個のシナプスを持ち、大きなブレークスルーとなりました。
私自身、1990年代にニューラルネットワーク用のハードウェアを開発していましたが、当時のハードウェアではこのような規模のネットワークを実現することはできませんでした。Hintonのチームは学習にNVIDIAのGPUを使用し、これが現在のNVIDIAのAIハードウェア分野でのリーダーシップにつながっています。
このAlexNetの学習には、262ペタフロップス(1ペタフロップスは1秒間に10の15乗の浮動小数点演算)の計算能力が必要でした。
次の重要な転換点は、2017年のGoogleによるTransformerの論文発表です。この論文は現在の生成AIブームの出発点となりました。注目すべきは、並列化と学習時間の削減が彼らの主要な動機の一つだったことです。つまり、ハードウェアの制約が、このアーキテクチャの発明を促したのです。
その後の進化は急速でした。2018年、当時スタートアップだったOpenAIがGPT-1(Generative Pre-trained Transformer)を発表し、8個のGPUで1か月の学習を要しました。翌年のGPT-2は88倍の計算能力を必要とし、GPT-3ではさらに213倍の計算能力が必要となりました。GPT-3は後のChatGPTの基礎となり、GPT-3からGPT-4への進化ではさらに65倍の計算能力の増加が必要でした。
わずか5年間で、必要な計算能力は約120万倍に増加しました。具体的な数字で見ると、最初のAlexNetの6,100万パラメータから、GPT-3の1,740億パラメータへと進化し、必要な演算量は262ペタフロップスから320ゼタフロップス(10の21乗の浮動小数点演算)へと、約100万倍に増加しました。
このような進化が可能になったのは、ハードウェアの性能向上があったからこそです。特に、エネルギー効率の劇的な改善がこの進化を支えてきました。これについては次のセクションで詳しく説明させていただきます。
3.2. 学習に必要な計算能力の増大と省エネ化の取り組み
この8年間で、GPUのエネルギー効率は劇的に向上しました。ニューラルネットワークの学習に必要なエネルギー消費量は、350分の1にまで削減されています。2018年以前は、大規模なニューラルネットワークの学習は、エネルギー消費の観点から現実的に不可能でした。この効率改善により、2020年にGPT-3のような大規模モデルの学習が実現可能になりました。
具体的な例として、GPT-4相当のモデルの学習には約40ギガワット時の計算能力が必要です。大手企業は環境への配慮を主張していますが、実際にはこの電力コストが生成AIの主要な制限要因となっています。
2019年のMIT論文で示された「AIモデルの学習に米国の自動車5台分のCO2を排出する」という推計について、具体的な数字で検証してみましょう。この推計によると、2020年5月時点でのGPT-3(1,740億パラメータ)の学習には52トンのCO2排出が必要でした。しかし、わずか2年後の2022年、Metaは同じサイズのモデル(OPT、1,750億パラメータ)の学習時のCO2排出量を7.2分の1に削減しました。さらに、同年のBLOOM(1,760億パラメータ)では、同じ測定基準で約3分の1の削減を達成しました。
BLOOMの事例は特に注目に値します。このモデルは、欧州の科学者たちの大規模な共同プロジェクトとして、フランスのJean Zayスーパーコンピュータを使用して学習されました。CO2排出量の大幅な削減は、主に原子力発電による電力供給と、生成された熱をキャンパスの暖房に利用するという工夫によって実現されました。興味深いことに、BLOOMはChatGPTによるブーム以前に公開されていました。
このように、ハードウェアの進化とエネルギー効率の改善により、大規模モデルの学習は徐々に持続可能なものになりつつあります。しかし、計算需要の増大に対して、効率改善をさらに加速させる必要があります。
3.3. エネルギー効率を高める専門化されたハードウェア
エネルギー効率を向上させる重要な方法の一つは、ハードウェアの専門化です。同じ演算を実行する場合、ハードウェアが専門化されるほどエネルギー効率が向上します。具体的な例を挙げると、CPUとGPUを比較した場合、同じ演算に対してGPUは約10倍のエネルギー効率を実現します。GPUはCPUよりも汎用性が低い一方で、得意とする演算に対してはより効率的な処理が可能です。さらに専門化されたハードウェアを使用すると、CPUと比較して150倍ものエネルギー効率の向上が達成できます。
この専門化の重要性を示す具体例として、2017年のGoogleの事例があります。当時、Googleは音声認識機能の利用が1日3分を超えると、データセンターを倍増させる必要があるという試算に直面しました。これは現実的には不可能であり、そこでGoogleは専門化されたアーキテクチャの開発を決断しました。これが、TPU(Tensor Processing Unit)の開発につながりました。
現在、TPUは第6世代まで進化しており、一例として紹介する第1世代のTPUは、12ペタフロップスの性能を400キロワット以上の電力で実現していました。これを2022年時点の技術と比較すると、同じ性能を実現するのにH100チップ5個で済むようになり、消費電力も大幅に削減されています。
世代間の進化を示す具体例として、A100からH100への進化があります。A100では7日かかっていた学習が、H100では20時間で完了するようになりました。これは約10倍の性能向上を意味します。
しかし、このような効率向上にはリバウンド効果があることも認識しておく必要があります。計算能力が向上するほど、研究者や企業はさらに大規模なシステムを構築しようとします。そのため、私たちアーキテクトはエネルギー効率の改善にさらに注力する必要があります。
最近では、GPT-4のような巨大モデルに代わって、特定の用途に特化した小規模モデルの使用も増えています。例えば、100億パラメータ規模のモデルで、2年前のChatGPTと同等の性能を実現できるようになっています。これらの小規模モデルは、クラウドやサーバーだけでなく、個人のデバイスでも実行可能です。これはAppleのオンデバイスAIなどで実践されている重要なアプローチです。
3.4. エッジデバイスでの実装と低電力化
エッジでの処理がますます低消費電力で実現できるようになってきています。具体例として、13億パラメータ、あるいは圧縮技術を使用すると70億パラメータまでのニューラルネットワークを実行できる中国のスマートフォン用チップがあります。このチップの特筆すべき点は、デバイス上でニューラルネットワークのファインチューニングが可能なことです。つまり、ユーザーの個別のデータセットに合わせてモデルを調整できるのです。
大規模言語モデルもパーソナルコンピュータ上で実行可能になってきています。私自身、24億パラメータのモデルをMac Mini上で実行していますが、消費電力はわずか20ワット程度です。Appleは新世代のMac Miniをカーボンニュートラルと主張していますが、これはある種のグリーンウォッシングかもしれません。しかし、エネルギー消費、パッケージング、輸送など、あらゆる面で環境負荷の削減に取り組んでいることは事実です。
より専門化された家庭用デバイスでは、消費電力は3-5ワット程度にまで低下します。さらに、ホームオートメーション向けの100-200のコマンドや文章を理解できる超特化型デバイスでは、消費電力はミリワット単位にまで低減できます。
CEAでは、超低消費電力AIチップの開発に取り組んでいます。例えば、キーワード認識用のチップを開発しました。Alexaのような装置では、「Alexa」という呼びかけを常時待ち受ける必要があり、この部分の省電力化が重要です。私たちのシステムは、わずか12マイクロジュールのエネルギーで動作し、ボタン電池で1年間稼働させることができます。このシステムは視覚認識にも対応しており、人や猫の検出など、より大きなAIシステムを起動するためのトリガーとして機能します。
この技術は2023年のEmbedded Worldで賞を受賞し、CES 2023でも展示されました。最新のデバイスは、CES 2024でも展示されており、より専門化された処理を実現しています。画像の特徴抽出には5-10%のプログラマブルな部分を残し、それ以外は特定の機能に完全に特化させることで、自律除草システムやトマトの病害検出、ドローン制御、物体の3D再構成などの高度な処理を、わずか23ミリワットで実現しています。これは高解像度画像の処理としては驚異的な低消費電力です。
3.5. エージェントAIの分散処理による効率化
次世代のAI技術として、エージェントAIの重要性が高まっています。OpenAIによると、推論に必要なGPUは学習用の約7倍必要とされています。これは週間アクティブユーザーが2億人に達しているためです。この課題に対応するため、各社は推論専用チップの開発を進めています。例えば、GoogleはTPU(Tensor Processing Unit)の推論版であるInferenciaや、学習用のCitrinium等を開発しています。
さらに、ニューラルネットワークのアルゴリズム自体も専門化が進んでいます。その第一歩が「Mixture of Experts」で、大規模なネットワーク内で特定の部分を専門化し、質問に関連する部分のみを活性化させる手法です。さらに進化した形として、特定の機能に特化した小規模なネットワークを使用する「エージェントAI」があります。
エージェントAIは、次世代の重要な技術として注目されています。Eric Schmidtをはじめ、Mark Zuckerbergなど多くの業界リーダーがこの技術の重要性を指摘しています。エージェントAIの特徴は、処理を分散できることです。例えば、あなたのスマートフォンで処理能力が不足した場合、配偶者のスマートフォンやラップトップに処理を依頼することができます。
このエージェントネットワークによる協調は、持続可能性の観点から重要な意味を持ちます。大規模なデータセンターに依存せず、既存のデバイスを効率的に活用することで、全体のエネルギー消費を抑制できるからです。
過去には全ての処理がクラウドで行われていましたが、現在では学習はクラウドで行い、推論は自動運転車のような局所的なデバイスで行うハイブリッドな approach が採用されています。将来的には、より小規模なエージェントが協調して複雑なタスクを実行する分散型のアプローチが主流になると考えています。
これはAIに限らない、より大きなアーキテクチャの変革の一部です。ECSビジョンでも提唱しているように、より分散化・連邦化された処理が、持続可能なコンピューティングの未来を形作ることになるでしょう。
4. 日本の生成AI開発における持続可能性への挑戦 (Prof. Rio Yokota, IST)
4.1. 大規模モデル学習の計算コストと持続可能性の課題
大規模言語モデルの学習に必要な計算資源の増加率は、持続可能な水準を大きく超えています。ディープラーニング時代(2012年以降)のトレーニング計算量の増加を分析すると、平均して2年で約10倍のペースで増加しています。一方、ハードウェアの進化は、ムーアの法則に従って2年で約2倍の改善にとどまっています。この差分である5倍の増加は、単にハードウェアの規模を拡大し、より多くのエネルギーを消費することで対応されています。
具体的な数字で見ると、2024年時点での最大規模のモデルの学習コストは約10億米ドルに達しています。この5倍という増加率を維持すると仮定した場合、2030年には学習コストが1,250億米ドルに達することになります。このような成長率は明らかに持続不可能であり、どこかで頭打ちになることは確実です。
特に注目すべき点は、これらの大規模な学習は、ごく少数の大手企業によってのみ実施されているという現状です。では、それ以外の多くの組織は何をすべきでしょうか。これは日本において特に重要な問題となっています。
ハードウェアの観点からは、大手クラウドプロバイダーによる大規模な投資が日本でも始まっています。例えば、AWSは2027年までに2.26兆円、Microsoftは29億米ドルをAIクラウドインフラに投資する計画を発表しています。また、OpenAIはアジアで初めてとなる日本支社を設立し、ソフトバンクもAIに約10億米ドルを投資しています。現在開催中のNVIDIAのイベントでも、ソフトバンクのCEOである孫正義氏がJensen Huang氏とファイアサイドチャットを行っています。
このような状況の中で、持続可能な形で日本の生成AI開発を進めていくためには、効率的な学習方法の開発や、計算資源の最適な活用方法の確立が不可欠です。単純な規模の拡大ではなく、より賢明なアプローチを見出す必要があります。
4.2. 日本のAIインフラ投資状況
日本では最近、AIインフラへの大規模な投資が相次いで発表されています。これらの投資は、日本のAI開発能力を大きく変える可能性を持っています。
中でも注目すべきは、グローバル企業による大規模投資です。AWSは2027年までに2.26兆円を日本のクラウドインフラに投資する計画を発表しました。また、Microsoftも29億米ドルをAIクラウドインフラに投資することを表明しています。
さらに、AI技術のリーディングカンパニーであるOpenAIがアジアで初めての拠点を日本に設立することを決定しました。国内企業では、ソフトバンクが約10億米ドルのAI投資を計画しています。
特筆すべき動きとして、元Google研究者による新しいスタートアップ「Sakana AI」の設立があります。創業者の一人は、生成AIの基礎となったTransformerアーキテクチャを提案した論文「Attention is all you need」の著者の一人です。このスタートアップは、米国から多額の投資を受けており、日本のAI開発において重要な役割を果たすことが期待されています。
しかし、日本語での大規模言語モデル開発には特有の課題があります。日本語のインターネットコンテンツは、インターネット全体の5%程度に留まっています。日本語を使用するインターネットユーザーの割合が4%であることを考えると、これは妥当な比率かもしれません。
これは中国語の状況と対照的です。中国語を使用するインターネットユーザーは23%を占めているにもかかわらず、中国語のコンテンツは全体の3%に留まっています。英語が依然としてインターネット上で支配的な言語であることから、OpenAIのような企業は主に英語でモデルを学習させています。
このような状況は、日本の文化的・歴史的文脈に関する深い理解が必要な場合に、英語中心のモデルの有用性を制限する要因となっています。そのため、日本独自のAIインフラ整備と、日本語に特化したモデル開発の重要性が増しているのです。
4.3. LLM-JPプロジェクトの取り組みと課題
LLM-JPは、2023年5月に開始された日本の大規模な研究コンソーシアムです。多数の大学、研究機関、企業が参加し、GPT-3規模の1,700億パラメータを持つ大規模言語モデルの開発に取り組んでいます。英語と日本語の両方での学習を行っており、英語データは公開されているクリーンなデータを使用できますが、日本語データの収集と整備が大きな課題となっています。
プロジェクトでは、データクロール、データクリーニング、アーキテクチャ開発、事前学習など、様々なグループが並行して活動しています。特に、インターネットからのデータ収集とクリーニング、論文や書籍からの自然にクリーンなデータの収集に重点を置いています。
しかし、このプロジェクトを通じて、大規模モデルの学習における重大な課題が明らかになりました。以下に、私たちが直面した2つの重要な問題を説明します。
第一の問題は、大規模モデルの学習の不安定性です。最初の試みでは、13億と130億パラメータの小・中規模モデルの学習は安定していました。学習損失は期待通りに減少し、チェックポイントからの再開も問題なく機能しました。しかし、1,750億パラメータの大規模モデルの学習では、損失値が突然増加し始め、学習率を下げて再開を試みても改善しませんでした。これは、大量のエネルギーと計算資源を消費したにもかかわらず、有用なモデルを得られないという深刻な問題です。
第二の問題は、パラメータ設定の誤りによる学習の失敗です。1,720億パラメータモデルの二度目の挑戦では、学習損失は順調に減少しましたが、翻訳や人間の理解、数学など様々なベンチマークでの評価時に、このモデルが小規模モデルよりも低い性能しか示さないことが判明しました。原因を調査したところ、最適化手法Adamのパラメータεの値が問題でした。Llama 2の論文に従って1e-5に設定していましたが、これが誤りであることが判明しました。1e-8が正しい値でした。この設定ミスにより、13億、700億、1,720億パラメータのすべてのモデルで性能が大きく低下していました。
特に深刻なのは、この論文は多くの研究者が参照する有名な論文であり、著者に連絡を試みても返答がなかったことです。同様の問題が世界中の多くの場所で発生している可能性がありますが、失敗事例は公開されないため、多くの組織が同じ失敗を繰り返し、大量のエネルギーを無駄にしている可能性があります。これは持続可能性の観点から深刻な問題です。
4.4. Swallowモデルの開発
私たちはIST(東京科学大学)とAISTの協力のもと、AISTのABCIスーパーコンピュータを活用して、より効率的なアプローチである継続的事前学習(Continual Pre-training)に取り組んでいます。この手法の特徴は、Metaが公開したLlamaのような既存の事前学習済みモデルを活用し、そこからさらに学習を継続することです。
継続的事前学習アプローチには、大きな利点があります。すでに巨大な計算資源とエネルギーを投資して学習されたモデルを基盤として利用できるため、はるかに効率的です。例えば、日本語能力を向上させたい場合、日本語データで追加学習を行うだけで済みます。
しかし、このアプローチにも課題があります。最大の欠点は、元のモデルがどのようなデータで学習されたのか完全には把握できないことです。これは透明性とトレーサビリティの観点から問題となります。つまり、「グリーン」か「透明性」のどちらかを選ばなければならないというジレンマに直面します。
このアプローチは現在、世界的なトレンドとなっています。Metaのllama以外にも、フランスのMistralや中国のQwen(現在最強のオープンモデルの一つ)など、多くの組織が事前学習済みの重みを公開しています。特にQwenは、OpenAIやGoogleのモデルと競争できるレベルに達しており、オープンコミュニティが閉鎖的な企業に追いつきつつあることを示しています。
私たちのSwallowモデル開発では、特に日本語処理の効率化に注力しています。現在の問題の一つは、トークン効率の著しい差です。例えば、「Characters not in the vocabulary are broken down into UTF-8 bytes consuming as many as three tokens per character」という英文は比較的少ないトークン数で処理できますが、同じ意味の日本語文では約60トークンが必要となり、約3倍のコストがかかります。これは、OpenAIやGoogleが提供するAPIでは、同じ質問に対して日本語ユーザーが3倍の料金を支払わなければならないことを意味します。
この問題に対処するため、私たちは独自のトークナイザーを開発し、日本語のトークン効率を3倍向上させることに成功しました。このために、約630億ページのインターネットデータから高品質な日本語テキストを抽出し、言語フィルタリングや品質基準に基づく選別を行いました。
その結果、Tokyo Tech-AIST Swallowモデル(AIが生成したLlamaとツバメの相互作用をイメージしたネーミング)は、日本語ベンチマークで他のモデルを上回る性能を達成し、同時に英語の性能低下も最小限に抑えることができました。現在、タスクに応じて1位か2位の性能を示しており、中国のQwenモデルと比較しても、特定のタスクでは優位性を示しています。
5. ディスカッションとQ&A (進行:Dr. Florence Ho, Axel Karpenstein)
5.1. 文化的差異への適応
Dr. Florence Ho:生成AIの文化的差異への適応について、具体的な議論を始めたいと思います。特に、横田先生が発表された日本語モデルの開発経験から、この課題についてご意見をお聞かせください。
Prof. Rio Yokota:私の発表で示したように、言語の問題だけでなく、文化的な規範の違いも重要な課題です。生成AIモデルには、質問に対する「正しい」応答方法を学ばせるために、人間が作成した質問と回答のペアを追加で学習させる段階があります。この段階は各国で異なる方法で行われており、それぞれの文化的規範を反映しています。米国の単一企業が人間の価値観への適合方法を決定するのではなく、各国がこのプロセスを担う必要があります。
Dr. Johannes Kirnberger:そうですね。しかし、この「Sovereign AI(主権的AI)」の考え方には、計算資源へのアクセスという別の課題があります。OECDの調査では、国々の間に大きな「計算格差」が存在することが分かっています。オックスフォード大学の用語を借りれば、「計算機の南北問題」や「計算機砂漠」と呼べる状況です。文化や言語の問題以前に、多くの国々は最先端のチップへのアクセスすら持っていないのです。
Dr. Marc Duranton:私からは、より技術的な解決策を提案したいと思います。文化や地域社会への適応には、エージェントAIの分散アプローチが有効かもしれません。異なる文化を持つコミュニティごとに、小規模な特化型モデルを開発し、それらを協調させることができます。私の発表で示したように、個人のコンピュータやスマートフォンでも、小規模なモデルのファインチューニングは可能です。これにより、各コミュニティが独自のモデルを開発・適応させることができます。
Prof. Rio Yokota:その通りです。日本での我々の経験からも、文化的適応には小規模でも的確にチューニングされたモデルの方が、巨大で汎用的なモデルよりも効果的な場合が多いことが分かっています。ただし、このアプローチを実現するためには、基盤となる技術やリソースへのアクセスが必要です。
Dr. Florence Ho:これらの議論から、文化的差異への適応には、技術的なソリューションと同時に、計算資源へのアクセスの公平性を確保する政策的な取り組みも必要だということが分かりました。
5.2. 電力コストと競争力の課題
Dr. Florence Ho:日本、ドイツ、フランスは比較的高い電力コストに直面しており、さらに再生可能エネルギーへの移行も推進しています。これらの要因が各国のAI開発の競争力にどのように影響するか、議論したいと思います。
Dr. Johannes Kirnberger:確かにコスト面での課題は深刻です。しかし、私の視点からは、まず各国がAIインフラのニーズを戦略的に把握することが重要です。実際には、自国のコンピューティング資源の現状を詳細に把握している国はごくわずかです。アイルランドやシンガポールの例を見ると、電力供給の限界によってデータセンターの新設を一時停止せざるを得なくなった事例があります。
Dr. Marc Duranton:ハードウェアの観点から、より実践的な解決策を提案させていただきます。ドイツ、フランス、日本のような国々では、大規模なデータセンターに依存するのではなく、より専門化された効率的なハードウェアの開発に注力すべきです。例えば、米国のGroが推論専用アクセラレータで成功を収めているように、GPUほど複雑ではない特化型ハードウェアの市場が存在します。これは中規模企業でも参入可能な分野です。
Prof. Rio Yokota:私たちの経験からも、電力コストの課題に対する一つの解決策として、継続的事前学習アプローチが有効だと考えています。既存の事前学習済みモデルを活用することで、必要な計算資源とエネルギーを大幅に削減できます。
Dr. Marc Duranton:その通りです。また、欧州と日本の協力により、推論に特化したハードウェア開発を進めることも有効な戦略となるでしょう。ただし、これには政策的な支援と意志決定が必要です。
Dr. Johannes Kirnberger:重要な点は、インフラ整備を国家レベル、さらには欧州レベルで戦略的に計画することです。電力供給、再生可能エネルギーの利用可能性、そして必要なインフラの規模を包括的に検討する必要があります。これは重要インフラとして捉えるべき問題です。
Dr. Florence Ho:この議論から、高い電力コストという課題に対して、ハードウェアの専門化、効率的な学習手法の採用、そして戦略的なインフラ計画という複数のアプローチを組み合わせることが重要だということが分かりました。
5.3. マルチモーダルモデルのエネルギー消費
Axel Karpenstein:マルチモーダルモデルが一般化しつつある中で、テキスト、画像、動画など複数のモダリティを処理することによるエネルギー消費への影響について、ご意見をお聞かせください。
Dr. Marc Duranton:マルチモダリティの処理には確かに異なる種類の処理が必要ですが、実際にはかなり効率的に実現できます。例えば、ここで実演している動画処理システムは、非常に低い消費電力で実時間処理を実現しています。私が考えるのは、自動運転車やロボットでLLMを使用する次世代のアプリケーションです。画像の前処理を専用チップで効率的に行い、その結果をクラウドに送信するというアプローチが有効でしょう。
Prof. Rio Yokota:私も同意見です。マルチモーダル処理の効率化には、処理の分散化が鍵となります。私たちの研究では、ローカルでの効率的な前処理と、必要な場合のみクラウドでの高度な処理を組み合わせることで、全体のエネルギー効率を大きく改善できることが分かっています。
Dr. Marc Duranton:その通りです。研究所では既にこの方向での開発が進んでいます。従来のような処理をすべてクラウドで行うのではなく、エッジデバイスでの実時間処理とクラウドでの高度な処理を組み合わせるハイブリッドなアプローチが、次世代のAIシステムの標準になるでしょう。
Dr. Johannes Kirnberger:政策的な観点からも、このようなハイブリッドアプローチは興味深いものです。データセンターへの負荷集中を分散させることで、環境への影響を軽減できる可能性があります。ただし、このアプローチを実現するためには、適切な規制フレームワークと標準化が必要になるでしょう。
Dr. Florence Ho:つまり、マルチモーダルモデルのエネルギー消費の課題に対しては、処理の分散化と専門化が重要な解決策となりそうですね。これは本日の議論全体を通じて見えてきた方向性とも一致しています。
5.4. 研究の重複を防ぐための国際協力
Axel Karpenstein:研究の重複を避け、効率的な開発を進めるための国際協力について、具体的な提案をお聞かせください。
Prof. Rio Yokota:私たちの経験から、情報共有の最も容易な方法は、失敗事例の共有だと考えています。これは機密データや重要な技術の共有を必要とせず、単に私たちの経験を共有するだけです。例えば、私たちが発見したLlama 2の論文におけるパラメータ設定の問題のような事例は、すぐにでも共有できるはずです。各コンソーシアムは頻繁には会合を持てていませんが、一定規模以上のモデルを訓練する全ての組織が基本的な情報を共有できるプラットフォームがあれば有益でしょう。
Dr. Marc Duranton:個人的な意見として、科学界では成功事例を発表することは容易ですが、失敗事例を発表することは困難です。しかし、産業界では「失敗は成功よりも重要」という認識があります。なぜなら、将来繰り返してはいけないことを学べるからです。私は、ニューラルネットワークの「うまくいかないこと」に焦点を当てた会議を開催することを提案したいと思います。これは非常に有用な知見共有の機会となるでしょう。
Dr. Johannes Kirnberger:特に民間セクターからの透明性の確保が重要です。企業秘密や知的財産の保護は理解できますが、最先端の計算能力へのアクセスが民間セクターにシフトしている現状を考えると、どのようにモデルが持続可能なのかを判断するための透明性と比較可能性が緊急に必要です。
Prof. Rio Yokota:幸いにも、アカデミアの研究者の多くはこの情報を公開する意思があります。しかし、産業界は設定や訓練構成でさえ開示を躊躇することがあります。ここに、共有可能な中間地点を見出す必要があります。
Dr. Florence Ho:この議論から、失敗事例の共有から始めて、徐々により包括的な情報共有の枠組みを構築していくというアプローチが現実的かもしれませんね。特に、重複した失敗による資源の無駄遣いを防ぐという観点は、持続可能性に直接関わる重要な課題です。