※本記事は、Stanford大学が2024年4月2日に公開したErik Brynjolfsson教授による講義「The AI Awakening (ECON295/CS323)」の内容を基に作成されています。講義の詳細情報は https://stanford.io/ai でご覧いただけます。 本記事では、講義の内容を要約・構造化しております。なお、本記事の内容は原講義の内容を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、Stanford Onlineが提供するオリジナルの講義映像をご視聴いただくことをお勧めいたします。 Stanford Onlineは、Stanford工学部のグローバル・オンライン教育センター(CGOE)が運営・管理しており、Stanford大学の各学部・部門が提供する学術・専門教育へのポータルとして機能しています。学位プログラム、単位取得可能な教育、専門認定プログラム、無料のオープンコンテンツなど、Stanford大学の教員が開発した豊富なカタログを提供しています。詳細は https://online.stanford.edu/ をご参照ください。
1. 講義の概要と背景
1.1. 講義の目的と共創の場としての位置づけ
この「The AI Awakening (ECON295/CS323)」は、共創の場として位置づけられています。私はエリック・ブリニョルフソンとして、この講義の教授を務めていますが、最も重要な知識は皆さんから生まれると考えています。素晴らしいスピーカーたちの話を聞き、毎週の読み物に取り組み、演習に参加することで、皆さんが主体的に学びを深めていくことを期待しています。
1.2. AIの進化に関する現状認識
クラスの冒頭で、私は学生たちにAIの進歩とその経済・社会への影響が加速しているという印象があるかを尋ねました。多くの学生が手を挚げ、その理由として以下のような観点が示されました:
- 大規模言語モデルに関する話題の増加
- Pew Researchの調査による米国労働者の18%がすでにChatGPTを職場で使用しているという事実
- NVIDIAの株価上昇に見られる実体経済への影響
- コンピューティング能力とインフラストラクチャーへのアクセス向上
- より多くのデータと計算能力を投入することで、実用的なシステムが構築可能になったという認識
1.3. 技術進歩と経済的影響のギャップ
しかし、この印象と実際の経済的影響には大きな隔たりがあります。2023年の生成AIソフトウェアの収益は約30億ドルに留まっており、GoogleやMetaがAIを使用して既存のアルゴリズムを改善することで得た利益を除けば、実際の経済効果はまだ限定的です。実世界での仕事の方法は根本的には変化していません。
しかし、この状況は急速に変化しつつあります。私は議会でAIについて証言する機会が多くありますが、以前は技術の話題に関心を示さなかった議員たちが、今では私の論文を事前に読み、熱心に話を聞くようになっています。ホワイトハウスでも同様の変化が見られます。
現在、技術の潜在力と経済的変化の間には大きなギャップが存在しています。仮に何か terrible な出来事が起きて、今後5年から10年、あるいは20年以上にわたってAIの技術進歩が完全に停止したとしても、既存の技術の実装によって、ビジネスイノベーションと経済的生産性の向上は継続するでしょう。これは現在利用可能な技術の潜在的な影響力の大きさを示しています。
このような状況において、スタンフォードという場所は特別な意味を持ちます。私がMITからスタンフォードに移ってきた理由の一つは、AIを発明している人々により近い場所で研究と教育を行いたいと考えたからです。revealed preferenceによって示されるように、私たちはこの時代、この場所にいることの意義を共有しています。
2. AI技術の進化
2.1. 技術進歩を支える3つの主要素
AI技術の革命を牽引している要因として、私は3つの重要な要素を強調したいと思います。第一に計算能力の向上、第二により豊富なデジタルデータの利用可能性、そして第三にアルゴリズムの進歩、特によりパラメータ数の多いモデルの開発です。私が子供の頃と比べると、ほとんどの作業がデジタル化され、写真やメッセージはすべてデジタル形式で保存されるようになりました。1970年代や80年代、90年代と比較しても、デジタルデータの量は桁違いに増加しており、これが機械学習の基盤となっています。
2.2. AIの発展:シンボリック手法から機械学習へ
AIの歴史を振り返ると、1956年にダートマスでAIという用語が生まれ、研究が始まりました。当初は主にシンボリックな方法に焦点が当てられ、ニューラルネットワークも研究されていましたが、計算能力の制限により単層のネットワークに限られていました。
私が1985年にハーバード・エクステンションスクールで最初のAIクラスを教えた際には、エキスパートシステムを構築していました。これは専門家から「もし〜ならば」のルールを収集し、手作業でコード化するシステムでした。発熱の診断方法やワインの選び方などのルールを連鎖させることで、時には良い回答を得ることができました。しかし、Richard Suttonの「bitter lesson(苦い教訓)」が示すように、このアプローチは十分にスケールせず、エラーも多く含まれていました。80年代にはAIバブルが起き、人々は熱狂しましたが、その後のAIの冬を迎えることになりました。
2.3. GPT (General Purpose Technology)としてのAI
歴史的に見ると、1775-1776年頃の産業革命、特にスコットランドのジェームズ・ワットによる蒸気機関の改良と実用化が、人類の生活水準を大きく変えた転換点となりました。蒸気機関は最初のGPT(General Purpose Technology:汎用技術)となり、それ以来、人々の生活水準は年間数パーセントの複利で成長し、現在では200年前の祖先と比べて30倍から50倍の豊かさを実現しています。
Tim BresnahanとManuel Trajtenbergによれば、GPTには3つの重要な特徴があります。経済の広範なセクターに影響を与える「浸透性」、時間とともに改良される能力、そして最も重要な特徴として、補完的なイノベーションを生み出す能力です。AIはこれらすべての特徴を備えており、むしろ史上最も「汎用的な」汎用技術かもしれません。
2.4. ImageNetと深層学習のブレークスルー
技術進歩の具体例として、ImageNetの成果があります。スタンフォードのFei-Fei Liと共同研究者たちは、約1,400万枚の画像にラベルを付与しました。2010年から始まった画像認識コンテストでは、2012年に重要な転換点が訪れました。Jeff Hintonのチームが深層学習技術を導入し、これが非常に効果的であることが判明しました。翌年からはほぼすべてのチームが深層学習を採用し、急速な進歩が始まりました。多くの指標で機械は人間の能力を上回るようになり、私が以前著書で述べた「機械は画像認識が不得意」という評価は完全に覆されることになりました。
AI Indexの新しいレポートには、このような進歩を示す数百のグラフが含まれる予定です。昨年この教室でJack Clarkが指摘したように、現在の課題は、すぐに突破されてしまうベンチマークに代わる、より長期的で堅固な評価基準の確立です。
3. 現在のAI能力の具体例と制限
3.1. GPT-4の法律試験での飛躍的な性能向上
昨年、MicrosoftのEric Horvitzとそのチームが「Sparks of AGI」という論文を発表しました。この研究では、GPT-3.5とGPT-4の性能を様々な分野で比較しました。多くの分野ではそれほど大きな改善は見られませんでしたが、統一司法試験(Uniform Bar Exam)での成績は劇的に向上しました。GPT-3.5は人間の受験者の約10%より良い成績でしたが、GPT-4は約90%の受験者を上回る成績を達成しました。ただし、重要な注意点として、司法試験に合格することと実際の弁護士として働くことの間には大きな違いがあります。この結果は、具体的な能力指標としては意味がありますが、実務能力を直接示すものではありません。
3.2. スケーリング則と大規模計算の課題
Dario Amodiらの研究は、LLMの進歩に関する重要なスケーリング則を明らかにしました。計算能力、データセットのサイズ、パラメータ数を比例して増やすと、次の単語を予測する能力が対数的に向上することが示されています。このスケーリング則は、LLMの性能予測において高い精度を示してきました。
このスケーリング則に基づき、MicrosoftとOpenAIは「Stargate」と呼ばれる1000億ドル規模のデータセンターの建設を計画しています。しかし、このグラフの下部にある数値を詳しく見ると、各目盛りの間で100倍の増加が必要とされています。現在のモデルがすでに5000億ドル規模のコストを必要としている状況で、さらに100倍のスケールアップを続けることは、世界のGDPでさえ賄えない規模になってしまいます。したがって、単純な計算能力の投入以外のアプローチが必要となるでしょう。
3.3. データの質と量に関する制約
現在のAIシステムの主要な制限の一つは、膨大な量のデータを必要とすることです。人間の2歳児は象の写真を1枚見ただけで翌日にも象を認識できますが、AIシステムにはそのような一般化能力はありません。さらに、トレーニングデータと出力の関係を追跡することが非常に困難であり、これはデータ提供者への補償という問題を提起しています。
3.4. 合成データの可能性と限界
AIの発展における重要な課題の一つは、トレーニングデータの制約です。最新のモデルはインターネット上のほぼすべてのデータを学習に使用しており、新たなデータをどこから得るかが問題となっています。
この課題に対する一つの解決策として、合成データの活用があります。その成功例としてAlphaZeroが挙げられます。従来のAlphaGoが人間の棋譜から学習していたのに対し、AlphaZeroはゲームのルールのみを与えられ、自己対戦を通じて学習を行いました。これを数十億回、数兆回と繰り返すことで、高い能力を獲得しました。
明確なルールが存在する領域では、このアプローチが有効である可能性があります。しかし、現在のウェブ上のコンテンツには新たな問題も生じています。例えば、私がTwitterを使用していると、多くのボットがフォローし、応答してきますが、それらの質は明らかに不十分です。将来的にTwitterのデータをスクレイピングする際、LLMが生成した低品質なデータを学習データとして使用してしまう可能性があり、これは深刻な問題となり得ます。これらの課題に関しては、今後の講演者たちがより専門的な知見を共有してくれるでしょう。
4. AIの経済的・社会的影響
4.1. コールセンターでの実証研究
私たちがスタンフォードのSebastian ThrunとZade Enamとともに行った研究について説明したいと思います。彼らは、コールセンターの通話記録を分析し、自己教師あり学習システムを用いて、良い結果につながる応対を特定しました。そして、チャットボットを導入するのではなく、人間のオペレーターに提案を行うLLMを開発しました。
分析の結果、AIシステムを利用可能なオペレーターは、そうでないオペレーターと比較して約14%高い精度で質問に回答できることが判明しました。特筆すべきは、この向上が4-5ヶ月という短期間で達成されたことです。さらに興味深いことに、スキルレベルによって効果に大きな差が見られました。最も経験の浅い、スキルの低いオペレーターは約35%の生産性向上を示した一方で、最も熟練したオペレーターはほとんど改善を示しませんでした。これは、システムが成功しているコールセンターオペレーターの暗黙知を取り込み、それを経験の浅いオペレーターが活用できるようにした結果だと考えられます。
4.2. 実証研究におけるステークホルダーへの影響
この研究では、生産性の向上だけでなく、顧客満足度の改善も確認されました。Net Promoter Scoreと感情分析を用いて数百万の発話を分析したところ、AIシステムを利用したオペレーターとの会話では、よりポジティブな感情が表現されていることが分かりました。
さらに、オペレーター自身の満足度も向上し、離職率も低下しました。つまり、株主と企業、顧客、従業員という全てのステークホルダーにおいて、測定可能な改善が確認されたのです。
4.3. タスクの頻度と自然な分業
私たちの研究では、タスクの頻度による自然な分業が発生することが明らかになりました。例えば、パスワードの変更やシステムのロックアウトなど、頻繁に発生する問題がある一方で、データセットに1回しか現れないような複雑な税務質問などもあります。
機械学習システムは、より多くの事例が存在する一般的な問題により効果的に対応できます。これはRichard Suttonの「bitter lesson」が示す通りです。新規の問題や珍しい事例に対しては、データが不足しているため、人間のオペレーターが対応する必要があります。また、電話がかかってきた時点では質問の内容が不明なため、初期対応には人間が必要となります。
4.4. 人間とAIの協業の展望
この分業の境界線は徐々に右に移動しており、より多くのタスクが自動化可能になっています。また、質問の構造化によって、より効率的な振り分けが可能になるかもしれません。人々はこの方向性に確実に取り組んでいますが、現時点では、人間とAIの協業が最も効果的なアプローチとなっています。
同様の課題は自動運転車の開発でも見られます。エッジケースの処理が予想以上に困難であり、これが開発の遅延につながっている一因となっています。しかし、この状況は徐々に改善されており、人間とAIの協業モデルは進化を続けています。
5. AIと人間の補完性と代替性
5.1. チューリングテストの限界と人間の代替・補完
Alan Turingのアプローチは、当初私も素晴らしいと考えていました。カーテンの後ろで人間と機械に質問を投げかけ、その回答から区別できないレベルに達することを人工知能の目標とする考え方です。しかし現在では、これは本当に愚かな定義だと考えています。
私の見解では、これは単に私たちがどれだけ簡単に騙されるかを測定しているに過ぎません。経済学者として、より重要な問題は技術が代替的になるか補完的になるかということです。代替とは、一方が他方を置き換えることを意味し、これにより他方の価値は低下します。例えば、機械が人間の労働を代替すると、人間の労働の価値は低下します。一方、補完とは、一方が他方の価値を高めることを意味します。左右の靴、ソフトウェアとハードウェア、ボトルとボトルキャップのような関係です。
歴史的に見ると、ほとんどの技術は代替ではなく補完として機能してきました。多くの技術は人間労働の価値を低下させるのではなく、むしろ増加させてきました。現代の労働の価値は200年前と比べて30倍から50倍になっているのは、機械が人間の能力を増幅させてきたからです。ブルドーザーを操作する人間はより多くの仕事ができ、コンピュータを使用する人間はより多くの価値を生み出すことができます。
5.2. 自動運転車の6段階レベル
私は2012年にAndy McAfeeとともにGoogleの自動運転車に乗り、101号線をサンフランシスロまで往復しました。高速道路では自動運転でしたが、クローバーリーフ(立体交差)では人間のドライバーに切り替わり、その後再び高速道路に戻ると自動運転に戻りました。現在は私はテスラを所有していますが、University Avenueでは何度か事故寸前の経験があり、常に警戒して運転しています。テスラ自身も運転者の警戒が必要だと言っています。
自動運転には6つのレベルがありますが、この考え方は自動運転車だけでなく、経済におけるほとんどのタスク、おそらくすべてのタスクに適用できると考えています。
5.3. チェスにおける人間とAIの進化
約10年前、私はAIに関するTEDトークを行いました。その中で、Deep Blueに敗れたGarry Kasparovの例を挙げました。当時は「フリースタイルチェス」や「アドバンストチェス」と呼ばれる時期があり、人間とコンピュータが協力することで、最強のコンピュータや最高のチェスプレイヤーよりも強くなれました。しかし、現在ではAlpha Zeroなどの登場により、チェスにおいて人間は付加価値をほとんど、あるいはまったく提供できなくなっています。人間の存在はむしろ機械にとって邪魔になるほどです。
5.4. タスクの進化レベルと将来展望
現在、最も重要な問題は、どのような課題がこれらの異なるレベルを素早く進むことができ、どのような課題が時間をかけて進む必要があるのか、あるいは多くの問題が中間的なレベルに留まり続けるのかということです。自動運転車はまだ完全自律のレベルには達していませんが、これは各分野で直面している課題を象徴的に表しています。みなさんにはこの問題について、私とともに考えていただきたいと思います。
6. 講義の構成と課題
6.1. 講義の基本構成と課題
毎週、必須文献として2〜4本の読み物があります。これらの文献を十分に読み込むことで、より効果的な学習が可能になります。講演者の多くは自身の論文について話すため、事前に読んでおくことで、より良い質問ができるようになります。
質問はslidoシステムを通じて提出することができ、他の学生が投票することで重要性を評価できます。私は人間の判断として、最も人気のある質問を選ぶこともあれば、それ以外の質問を取り上げることもあります。もちろん、従来通り手を挚げての質問も歓迎します。
6.2. チームプロジェクトのスケジュール
チーム形成は4月12日までに完了する必要があります。プロジェクトの成功のために、授業後の時間を活用して他の学生の関心事を聞くことを強く推奨します。チーム形成のためのGoogleドキュメントがあり、そこに興味のあるトピックを記入することができます。私が最後に確認した時点で、半数以上の学生がすでにトピックを記入していました。
最終プレゼンテーションは6月4日と7日に予定されています。6月4日は政策提案または研究提案を、6月7日はビジネスプランの発表を行います。6月7日は金曜日で、午後7時から10時までの時間帯となりますので、スケジュールの調整をお願いします。
6.3. チーム構成における多様性の重要性
このクラスには何百人もの応募者の中から、慎重に選ばれた学生が集まっています。コンピュータサイエンス、経済学、ビジネス、工学など、様々なプログラムからの参加者で構成されています。ほとんどが大学院生ですが、非常に優秀な学部生も含まれています。
チームの最小人数は1人です。数年後にはゼロになるかもしれませんが、現時点では1人です。特に研究提案については個人での取り組みが適している場合もありますが、ビジネスプランについてはチームでの取り組みをお勧めします。チーム編成では、同じプログラムの学生だけで構成することは避けてください。異なるプログラムの学生が集まることで、より豊かな学びが期待できます。
6.4. 授業後のディスカッション
本日の授業後、6時から7時まで、上階で円になって座り、それぞれのAIへの関心事や期待、懸念について共有する時間を設けています。これは任意参加ですが、チーム形成にも役立つ機会となります。シラバスには各セッションのトピックが記載されており、優れたTAや外部の講師が一部のセッションを担当します。
この講義は、2024年の今、スタンフォードでしか実現できない内容となっています。素晴らしい講師陣をお迎えし、質問を通じて最大限の学びを得ることができます。