※本稿は、2023年に開催されたGenerative AI Innovation Incubatorでの「Hackathon Demo Session, Closing Ceremony, Awards」というセッションをAIにて取りまとめたものです。スピード重視で作りましたが、2~3日以内にハルシネーションは解決する予定です。
1. イントロダクション
1.1 イベントの概要
2023年8月21日、Generative AI Innovation Incubatorの夏季プログラムの締めくくりとして、「Generative AI: Hackathon Demo Session, Closing Ceremony, Awards」と題されたイベントが開催されました。カーネギーメロン大学のキャロリン・ローズ教授による開会の辞で、このイベントが一連の活動の集大成であることが述べられました。
イベントの構成は以下の通りでした:
- Jamie Teevin氏(マイクロソフトの主任科学者兼テクニカルフェロー、コア製品における研究のイノベーション推進担当)による基調講演:「文書から対話へ - LLMが仕事の未来を形作る方法」
- 3つのハッカソン優勝チームによるプレゼンテーション
- Mona Diab氏(CMU の言語技術研究所の新所長)による基調講演:「実践における責任ある生成AI」
- 質疑応答セッション
1.2 目的と背景
Generative AI Innovation Incubatorの主な目的は、生成AIに関する対話を開始し、多様な視点を一堂に集め、メディアでよく見られる誇大広告や恐怖心を払拭することでした。この取り組みは、専門家と疑問を持つ人々を結びつけ、理性的な議論を促進することを目指しました。
夏季プログラムは、以下のような段階的なアプローチで構成されていました:
- パネルディスカッション:異なる影響領域の専門家を集め、長時間のQ&Aセッションを含む議論を行いました。
- 招待講演
- チュートリアル
- ハッカソン:コミュニティメンバーが協力してプロジェクトに取り組み、生成AIの可能性と課題を探究しました。
3つのハッカソンは以下の重要な領域に焦点を当てて実施されました:
- 教育と仕事の未来
- 医療と公衆衛生
- 金融と経済
ハッカソンの評価基準は、Roni Rosenfeld氏の基調講演で提示された5つの原則に基づいていました:
- 安全性
- 社会への積極的な影響
- 生活の質への潜在的な影響
- 技術的進歩
- 創造性
これらの基準に基づいて、審査員と一般聴衆による投票が行われ、各ハッカソンの優勝チームが選ばれました。
キャロリン・ローズ教授は、このイベントが夏季プログラムの終了を意味するものではなく、10月以降も新たなイベントを開催する計画があることを発表しました。Generative AI Innovation Incubatorは休止期間を経て、秋に新しいイベントを開始する予定です。
このイントロダクションは、イベントの全体像を提供し、その目的と背景を明確にすることで、以降の詳細な内容の文脈を設定しています。生成AIの潜在的な影響と、それに伴う責任ある開発の必要性が強調されており、これは本イベント全体を通じて繰り返し触れられるテーマとなっています。
2. Jamie Teevin氏による基調講演: 「文書から対話へ - LLMが仕事の未来を形作る方法」
2.1 AIの歴史的展望
私、Jamie Teevinは、AIの歴史的展望から講演を始めました。技術が経済成長に与えた影響は計り知れません。19世紀には4倍の成長を、そして前世紀には20倍もの成長を遂げました。この成長は今も加速し続けています。Shopifyの CEOの言葉を借りれば、「今日はAIにとって素晴らしい一年でした」と言えるほど、AIの進歩は日進月歩です。
過去10年間、テクノロジー関連の支出はGDPの成長を上回っており、AIは次のステップアップの要因となるでしょう。私たちは今、技術の進歩を単に観察するだけでなく、その影響を積極的に形作る責任があります。
私個人の経験を交えて話すと、私の子どもたちが生まれた2004年から2008年の間に、技術的に大きな変化がありました。iPhoneの登場、クラウドコンピューティングの発展、そしてFacebookやTwitterなどのソーシャルメディアの台頭です。これらの変化は、大規模AIを実現する上で非常に重要でした。
さらに、Amazon Mechanical Turkの登場も重要です。これにより、クラウドから小さな作業を行い、それらを大きなタスクに組み合わせることが可能になりました。この時期には、より多くのデータをより豊かに捉え、推論することが可能になり、深層学習の大きな進歩がありました。例えば、ImageNetに関する最初の論文が発表されたのもこの頃です。
2.2 現在のAI技術の状況
現在のAI技術、特に大規模言語モデル(LLM)の状況は驚くべきものです。例えば、PaLMは5400億パラメータを持ち、Meta社のLlama 2は700億パラメータを持つモデルがあります。これらは膨大な計算力を必要とします。
普及率と収束率も驚異的です。Netflixが1億ユーザーに到達するのに10年かかったのに対し、ChatGPTはわずか2ヶ月でその数字を達成しました。しかし、この急速な発展には環境への影響も懸念されます。
この状況は、技術を持つ者と持たざる者の格差を浮き彫りにしています。学術界や非西洋、非米国、非シリコンバレーの声はどこにあるのでしょうか。これは重要な問いかけです。
約1年前、私はOpenAIのCEOであるSam AltmanとMicrosoftのCTOであるKevin Scottらと会い、GPT-4の初期バージョンを試す機会がありました。私の役割は、このモデルを大規模に製品に組み込む方法を見つけることでした。最初は懐疑的でしたが、モデルと対話し、その創発的な特性を目の当たりにして、驚きを隠せませんでした。
その後の数ヶ月間、私たちは前例のないスピードでこの技術を製品に組み込みました。Bing ChatやM365 Copilotなどがその例です。M365 Copilotは2023年3月に発表され、現在は一部の企業ユーザーが利用可能です。これにより、Word、Outlook、PowerPoint、Teamsなどのツールで大規模言語モデルを活用できるようになります。
例えば、Teamsでは会議中にリアルタイムで質問をし、次に議論すべきトピックを提案してもらうことができます。これらの機能は、仕事の方法を根本的に変えつつあります。
2.3 エンタープライズグレードAIの4つの主要な要素
基盤モデルが仕事に影響を与えるためには、広範なエコシステムが必要です。私たちはこれを「エンタープライズグレードAI」と呼んでいます。このエンタープライズグレードAIには、4つの主要な要素があります。
2.3.1 グローバルスケール
エンタープライズグレードAIは、世界中の何十億もの人々に、あらゆる国や地域で、効率的かつ低レイテンシーでサービスを提供する必要があります。そして、各国の法律や規制を遵守しなければなりません。
例えば、言語の問題があります。現在の生成AIは、多言語での対応が非常に優れています。M365 CopilotやBing Chatの場合、非英語圏でも同時にリリースすることができました。
効率性の問題もあります。計算能力やメモリ、帯域幅には制限があります。言語モデルは大規模で、新しいシナリオに対応する必要があり、何十億ものユーザーに低レイテンシーで信頼性の高いサービスを提供しなければなりません。
2.3.2 データに基づいた基盤
これは主に検索拡張生成(Retrieval Augmented Generation、RAG)に関連しています。大規模言語モデルの訓練は大規模で高コストですが、その結果として得られるのは、データに対する推論能力です。しかし、モデルのデータは古くなり、個人に合わせたものではありません。
RAGは、アクセス制御のインフラストラクチャを活用し、プライバシーを言語モデルの運用の基本的な部分にすることを可能にします。
2.3.3 信頼性
プライベートデータを訓練に使用することを検討する場合、プライバシー保護機械学習など、他のアプローチも考慮する必要があります。
責任あるAIも信頼性の一部です。これには、プライバシーとセキュリティだけでなく、モデルが与える影響全般を考慮する必要があります。言語モデルは新たな問題も提起しています。例えば、幻覚や誤情報の問題、新たなプライバシーとセキュリティの課題、ジェイルブレイクの回避、プロンプトインジェクション攻撃などです。
2.3.4 既存のワークフローへの組み込み
これは、ユーザーが実際に使用しているアプリケーションに直接AIを組み込むことを意味します。例えば、GitHub Copilotは良い例です。開発者はGitHub Copilotを使用すると56%速く作業ができ、生産性が大幅に向上したと報告しています。
私たちは、特に製品に大規模言語モデルを組み込むための多くの作業を行っています。例えば、私たちは標準オフィススティックイン固有言語(ODSL)を開発しました。これにより、言語モデルが製品の深い機能にアクセスできるようになりました。
これらの4つの要素を組み合わせることで、エンタープライズグレードAIが実現します。しかし、これらの問題を解決することは重要ですが、それだけでは不十分です。仕事がどのように変化しているかを本当に理解するためには、さらに深く掘り下げる必要があります。
2.4 対話型AIによる仕事の変革
私たちが目にしている最も大きな変化の一つは、コンピューティング体験の中心が文書から対話へと移行していることです。個人用コンピュータでの情報処理の多くは、これまで文書を中心に行われてきました。しかし今、知識が存在する場所が対話へと大きくシフトしています。
心理言語学者が「グラウンディング」と呼ぶプロセスが、あらゆる会話の大部分を占めています。グラウンディングとは、会話の参加者が相互理解に至るプロセスのことです。大規模言語モデル(LLM)のコンテキストでは、これは反復を通じて行われます。
従来、このグラウンディングの後に作成される具体的なコンテンツ(文書など)の方が、グラウンディングのプロセス自体よりも有用でした。つまり、素晴らしいブレインストーミングセッションを行った後、後で参照するのは会話そのものではなく、そこから生み出された文書や記録でした。
しかし、大規模言語モデルは会話自体を有用なものにします。なぜなら、会話に埋め込まれた情報を解き放つことができるからです。そのため、優れた文書を作成することよりも、優れた会話を支援することが重要になります。言語モデルや他の人々との会話の中で、最高のアイデアを生み出すことが重要になるのです。
さらに、言語モデルはこの情報を抽出し、ユーザーが置かれているコンテキストに応じて動的に提示することができます。文書を読む代わりに、言語モデルがその知識を取り出し、ユーザーがどこにいても提供することができるのです。
これは、地図アプリの例で考えるとわかりやすいかもしれません。私の子どもたちは地図の読み方を知りませんが、それは地図に含まれる知識が動的に提供されるからです。次にどの曲がり角を曲がればいいか、最寄りのガソリンスタンドはどこかなど、必要な情報がその場で提供されるのです。
私たちは、こうした会話を理解するための研究を多く行っています。会話に埋め込まれた知識を持つということがどういうことなのか、それを理解し、活用する方法を探っています。例えば、人々が言語モデルと行った成功した会話を分析し、言語モデルに成功したパターンを特定してもらうことができます。これにより、モデルをうまくプロンプトする方法についての優れたアドバイスを自動的に抽出できます。同様に、うまくいかなかった会話も分析できます。
会話が前面に出てくると、プロンプトエンジニアリングや成功した会話の設定方法についての考察がより重要になります。これは非常にエキサイティングな分野です。
2.5 将来の展望と課題
私たちは、仕事の長期的な影響を理解し始めたばかりです。ここで行われている教育に関する作業は特に関連性が高いと思います。なぜなら、教育の本質は、人々が会話や知識の生産、世界との相互作用において成功するための準備をすることだからです。
これが私たちの目の前にある仕事です。世界は多くの新しいものを生み出す必要があり、新しいものを生み出すためのパラダイムは科学です。AIの新時代に向けて、私たち全員が科学者のようにアプローチすることが求められています。
これは、仮説を立て、それをテストすることを意味します。最先端の技術を基に構築し、すべてを自分たちで考え出す必要はありません。学んだことを共有し、他の人々が私たちの考えに挑戦し、議論し、検証できるようにすることも重要です。そして、長期的な外部性を考慮し、私たちがどこに向かっているのかを考える必要があります。
3. 教育と仕事の未来 - ハッカソン優勝チーム: ChatTA
3.1 プロジェクトの概要と目的
私たちChatTAチームは、5つの異なる機関から集まった多様な背景を持つメンバーで構成されています。私たちは、大規模言語モデルを基盤とした独自のティーチングアシスタントを構築することに取り組みました。
私たちは、教育における深刻な問題に着目しました。一つの授業に7,000ドルもの費用がかかるにもかかわらず、TA(ティーチングアシスタント)と学生の比率は1:10程度です。一方、MOOCのような有名なCS50コースでは、無料または200ドルで受講できますが、TAと学生の比率は1:400にもなります。
従来のAIソリューション(例:Jill Watson)はルールベースのシステムに依存しており、複雑なクエリを処理する能力に制限がありました。ChatGPTのようなツールは特定の知識ベースで訓練することができません。Comingoのようなソリューションは継続的な改善の側面をサポートしていません。そこで私たちのChatTAは、これらの課題に対処することを目指しています。
3.2 ChatTAのアーキテクチャと機能
私たちのシステムは以下のようなパイプラインで構成されています:
- コースの教材収集: まず、コースからの教材を収集してデータベースを構築します。このハッカソンでは、入門コースと上級CSコースの2つのコースから教材を収集しました。これには講義スライド、テキスト、動画などが含まれます。
- 質問の埋め込み: 学生が質問応答プラットフォーム(例えば、Piazzaなど)で質問すると、その質問はクエリとしてデータベースに埋め込まれます。
- 関連文書の取得: 埋め込まれた質問に基づいて、最も関連性の高い文書を取得し、プロンプトを拡張します。これにより、モデルに適切なコンテキストが提供されます。
- モデルへの送信: 拡張されたクエリを私たちのモデルに送信します。私たちはLlama 2を使用しています。これは最先端のオープンソースモデルで、独自のサーバーでホストできます。これにより、学生の個人データをOpenAIに送信するリスクを避けることができます。
- モデルのファインチューニング: 収集した質問応答データで事前訓練されたLlamaをファインチューニングします。これにより、モデルをよりカスタマイズし、回答の質を向上させることができます。
- 継続的な改善: ChatGPTやその他の多くのモデルと同様に、人間のフィードバックによる強化学習(RLHF)を使用して継続的に改善します。学期が進むにつれて、TAにモデルの回答を提示し、受け入れ、拒否、または編集してもらいます。また、学生の選好データを収集することもできます。このフィードバックを使用してモデルを継続的に改善します。
- ガードレールの設定: 講師が学生をAI生成の回答に直接さらすことに不安を感じる場合、TAに回答を承認してもらってから学生に届けるというガードレールを設けることができます。これにより、モデルはTAの回答を下書きし、TAが時間を節約しながら学生の質問により迅速に答えるのを助けることができます。
このアーキテクチャにより、ChatTAは単なる質問応答システムではなく、教育環境に特化した、継続的に学習し改善する動的なシステムとなっています。人間の教育者とAIの協力により、学生への支援を最適化することを目指しています。
3.3 実装の詳細と技術的特徴
私たちのモデルのパフォーマンスについて、より詳細に説明します。学生からの質問に対する回答は、コースの参考教科書、講義スライド、講義動画、課題のPDFなど、さまざまなソースに見られます。そこで、これらの知識ソース自体を使用してベクトルDBを作成しました。
LLMをベクトルDBにリンクすることで、以下の3つの主な利点がありました:
- コストのかかるファインチューニングのステップなしに、新しい情報を追加したり、既存の情報を更新したりすることができます。
- エージェントの回答のソースを引用することができます。これにより、ユーザーはモデルの幻覚をある程度検出できます。
- モデルは、初期の事前訓練コーパスには存在しなかった外部文書にアクセスすることができます。これは現在のネイティブChatGPTにはできないことです。
これらの技術的特徴により、私たちのモデルはより正確で信頼性の高い回答を提供し、特定のコースや教育環境に適応したティーチングアシスタントとして機能することができます。
3.4 デモンストレーション
このハッカソンのために、私たちはChrome拡張機能を構築しました。この拡張機能を使用すると、任意の質問応答プラットフォームで質問を選択し、私たちのモデルに回答を生成させることができます。
私たちのモデルのパフォーマンスについて、いくつかの定性的な例を紹介します:
- 「L2ダイバージェンスとは何ですか?」という単純な概念的質問に対して、Piazzaでの実際のTAの回答は「講義を参照してください」でした。私たちのモデルとLlama 2の両方が、ほぼ正確に質問に答えることができました。しかし、私たちのモデルは、回答を生成するために使用した対応する講義動画を引用することができました。
- 「あるコースの課題3のパート2の提出形式について」という質問に対して、この情報が含まれている文書が初期のLLMの訓練コーパスに存在していた可能性は非常に低いです。そのため、ベースラインモデルはこのクエリに答えることができませんでした。しかし、情報検索により、私たちのモデルは課題のPDFにアクセスして、クエリに正確に答えることができ、さらに生成のソースを引用することもできました。
- 「月曜日のオフィスアワーについて教えてください」といった事務的な質問に対して、ベースラインモデルは単に幻覚を起こしましたが、私たちのモデルは正確な回答を提供しました。さらに、オフィスアワーのスケジュール文書を知識ベースで更新すると(例えば、月曜日のすべてのオフィスアワーを削除すると)、モデルはこの情報の変更に適応し、再度クエリされると、「月曜日にはオフィスアワーが見当たりません」と回答することができました。
これらの例は、私たちのモデルが正確な情報提供、情報源の引用、コース固有の質問への対応、最新の情報への適応能力において優れていることを示しています。
3.5 今後の展開と課題
この短いハッカソン期間中に私たちは多くのことを学びました。しかし、まだ学ぶべきこと、実行すべきことがたくさんあります。今後の展開と課題について、以下のように考えています。
- 情報検索の重要性: 情報検索は事実の正確性を促進し、生成された回答が事実に基づいていることを確保するのに役立ちます。しかし、これだけで十分でしょうか?私たちは、ChatTAが個人データに対するGoogle検索と同じくらい正確であることだけでなく、優れた教育者であることも望んでいます。
- Llama 2の可能性: Llama 2を制御できる利点を活かし、GPT-4 APIを呼び出す人々にはできないことを実現できないでしょうか。例えば、Llama 2を教育学のマスターにすることは可能でしょうか?
- 監督付きファインチューニング(SFT): 私たちは、Piazzaデータなどの実際のデータと合成データの両方を含む、学生の質問と質の高いTAの回答の明確な例を含むデータセットを構築しました。これらの例は、アラインメントのための練習テストとなります。私たちのLLMは回答を生成し、それを実際の回答と比較します。これを教師強制と呼びます。モデルは徐々に専門家データをエミュレートすることに近づいていきます。一部の研究コミュニティはこれを行動クローニングと呼んでいます。
- 強化学習(RL): RLコミュニティは、GPT-4が今日の姿になった主な理由の1つです。基本的に、RLは犬の訓練のようなものです。モデルが良い行動を示したときに褒美を与え、そうでないときには与えません。課題は、褒美を与えたり与えなかったりする存在をどのように作るかです。比較的単純なヒューリスティックの1つは、選好データを使用することです。これは部分的にGPT-4が構築された方法です。
- 報酬モデリング: TAや学生が回答を受け入れたり拒否したりする場合を見て、別の機械学習モデル(生成器とは異なる)が回答をいつ拒否または受け入れるかを理解しようとします。これは報酬モデリングと呼ばれます。
- 教育学のための報酬: 良い教育学のための報酬は何であるべきかを理解することを主要な焦点の1つとして、この作業を進めていきたいと考えています。
- その他の課題:
- データの利用可能性による制限
- 独自のインフラストラクチャを所有することによる制約
- モデルのファインチューニングの重い計算要件
- 現在のアラインメントでのコーディング回答の生成の難しさ
これらの観察結果と、私たちが学んだ教訓は、今後のプロジェクトの発展に活かしていきたいと考えています。ChatTAをさらに改善し、より効果的な教育支援ツールにしていくためには、これらの課題に一つずつ取り組んでいく必要があります。
4. 医療と公衆衛生 - ハッカソン優勝チーム: Health Advisor
私の名前はAnshul Madanです。同僚のSoneshと共にHealth Advisorプロジェクトについて発表します。私たちは学際的なチームを結成しました。
4.1 プロジェクトの背景と目的
Health Advisorは、一般の人々の行動変容を支援する個別化されたAIウェルビーイングアドバイザーで、メンタルヘルスの洞察に焦点を当てています。メンタルヘルスは現在、世界で最も重要な公衆衛生上の懸念事項の1つです。うつ病、不安症、ストレス関連障害などの状態が蔓延しています。例えば、大学院生の50%が在学中に何らかの形でうつ症状を示しているというデータがあります。ほとんどの人が、特にCOVID-19パンデミック中に、重度のメンタルヘルスの問題を抱えた人を知っているでしょう。
しかし、個別化されたヘルスケアアドバイスは高額で、人間の専門家へのアクセスが必要です。そこで私たちのソリューションは、個人の状況に基づいて、パーソナライズされた実行可能な計画を提供します。これは、ウェアラブルデバイス(Apple WatchやFitbitなど)を通じて得られる生理学的状態、行動、個人プロフィール、健康目標に関する知識を活用して実現します。
私たちは、ユーザーの人口統計情報、医療履歴、健康目標に関する個人データを収集し、文脈を豊かにして、メンタルヘルスを改善し、ウェルネス目標を達成するための実行可能な推奨事項を提供します。私たちの仮説は、生成AIによってパーソナライズされた計画が、人間が生成した一般的なベストプラクティスソリューションを上回る可能性があるというものです。
4.2 Health Advisorのシステム設計
Health Advisorのシステム設計は以下の通りです:
- ユーザーのオンボーディングを行い、個人データと健康目標を収集して文脈を豊かにします。
- 心拍数などの生理学的条件を使用して、ストレス状態を継続的に評価します。
- プロアクティブな通知と介入を生成します。
- ユーザーは介入に対して「いいね」や「よくない」を選択したり、フォローアップの会話を開始したりすることができます。
- ユーザーはチャットを行い、実行可能な計画に到達することができます。
将来的には、心拍数由来のメトリクスやその他のメトリクスに基づく回帰モデルなどを構築する必要があります。また、ユーザーの生理学的状態や時間経過によるストレス履歴などのプロフィール履歴も追跡します。
データのセキュリティとプライバシーを確保するため、モデルで使用する前にデータを匿名化します。また、ユーザー同意を得て、データを収集できるようにしています。
効果的な領域固有の介入タイプ(行動変容のメカニズム)を選択するために、系統的レビューとメタ分析を行いました。この豊かな文脈を用いて、GPT-3.5モデルにプロンプトを生成します。そして、ユーザーにプロアクティブな通知を生成する前に、品質と安全性の分析を行い、介入を生成することが安全かどうかを判断します。
さらに、初期の介入後のフォローアップ会話のためのチャットコンソールをサポートし、ユーザーが実行可能な計画に到達できるようにしています。
4.3 個人データの活用とプライバシー保護
私たちのHealth Advisorシステムでは、ユーザーの個人データを効果的に活用しています。具体的には、ユーザーの人口統計情報、医療履歴、健康目標に関するデータを収集しています。これらのデータは、より効果的で個別化された介入を生成するための文脈情報として利用されます。
プライバシー保護は私たちにとって極めて重要な課題です。そのため、以下の措置を講じています:
- ユーザー同意:データ収集に際しては、必ずユーザーの同意を得ています。これは、ユーザー契約の一部として明確に示されています。
- データの匿名化:収集したデータは、モデルで使用する前に匿名化処理を行います。これにより、個人を特定できる情報を取り除き、プライバシーを保護しています。
将来的には、ユーザーの生理学的状態や時間経過によるストレス履歴などのプロフィール履歴も追跡する予定です。また、ウェアラブルデバイス(Apple WatchやFitbitなど)から得られる心拍数などの生理学的データの活用も計画しています。これらのデータは、ユーザーのストレス状態をより正確に評価し、適切なタイミングで介入を行うために活用されます。
4.4 AIによる介入生成と品質保証
AIによる介入生成は、私たちのシステムの中核を成す機能です。このプロセスは以下の手順で行われます:
- 系統的レビューとメタ分析:効果的な領域固有の介入タイプ(行動変容のメカニズム)を選択するために、科学的な文献のレビューとメタ分析を実施しました。これにより、エビデンスに基づいた介入方法を選定しています。
- プロンプト生成:収集した個人データと文脈情報を用いて、GPT-3.5モデルへのプロンプトを生成します。
- 介入案の生成:GPT-3.5モデルが、与えられたプロンプトに基づいて介入案を生成します。
- 品質と安全性の分析:生成された介入案に対して、品質と安全性の分析を行います。
- 安全性の判断:分析結果に基づいて、介入を生成することが安全かどうかを判断します。
- プロアクティブな通知:安全と判断された場合のみ、ユーザーにプロアクティブな通知として介入を提供します。
品質保証のため、私たちは拡張された安全システムであるQAエージェントを導入しています。このQAエージェントは、介入生成モデルとは別のモデルに基づいています。具体的には、Flan T5モデルを使用し、これを攻撃的な対話分類データセットでファインチューニングしています。
QAエージェントの導入により、システムの性能が向上し、不適切な介入や攻撃的な会話の提案を効果的に回避できることが実証されました。介入生成とチャットシステム全体はGPT-3.5をベースにしていますが、他のモデルでも実験を行い、最適なパフォーマンスを追求しています。
さらに、私たちのシステムは初期の介入後のフォローアップ会話のためのチャットコンソールをサポートしています。これにより、ユーザーは介入に基づいて対話を進め、最終的に実行可能な計画に到達することができます。このインタラクティブな要素は、ユーザーが自身の健康目標に向けて継続的に取り組むためのサポートとなります。
これらの機能と安全対策により、Health Advisorは高品質で安全、かつ個別化された健康アドバイスを提供することができます。私たちは常にシステムの改善と最適化を行い、ユーザーにより効果的な支援を提供できるよう努めています。
4.5 ユースケースと具体例
私たちのHealth Advisorシステムの有効性を示すため、いくつかの具体的なユースケースを紹介したいと思います。これらの例は、私たちのシステムがどのように個別化されたアドバイスを提供し、ユーザーの健康状態を改善できるかを示しています。
ユーザー1の例: このユーザーは非常にストレスを感じていました。私たちのモデルは「より良い睡眠」という介入を提案しました。システムは、ユーザーデータに基づいて、仕事量の増加や技術関連のストレスがその理由であると推論しました。スクリーンショットでは、ユーザーが介入に基づいてフォローアップの会話を開始し、睡眠サイクルの管理方法について質問している様子が示されています。システムは、ユーザーデータに基づいてより個別化された会話を生成し、具体的な睡眠改善策を提案しました。
ユーザー2の例: このケースでは、システムが健康的な栄養摂取と集中力の向上を提案しました。具体的には、脳機能を高める食品を食事に取り入れることを推奨しました。ユーザーが脳機能を高める食品について知識がなかったため、モデルは具体的にホウレンソウを提案しました。さらに、ホウレンソウをどのように食事に取り入れるかについて詳細なアドバイスを提供しました。これにより、ユーザーは具体的な行動計画を立てることができました。
これらの例は、私たちのシステムが単なる一般的なアドバイスを超えて、ユーザーの個別の状況や知識レベルに合わせた具体的で実行可能な提案を行えることを示しています。また、ユーザーとの対話を通じて、より深い理解と支援を提供できる柔軟性も示されています。
4.6 今後の計画と拡張可能性
Health Advisorの将来の発展と拡張可能性について、いくつかの重要な計画があります。
- 外部データソースによる知識ベースの強化: WebMD、Reddit、Ask Doctor、Stack Overflowなどの外部ソースからデータを取り込むことを計画しています。これにより、システムの知識ベースを拡大し、より幅広い健康関連の質問に対応できるようになることを期待しています。ただし、私たちの初期の結果では大きな違いは見られませんでしたが、今後さらに探求していく予定です。
- 研究論文に基づくモデルのファインチューニング: PubMedやWebMDの研究論文を用いてモデルをファインチューニングすることを検討しています。これにより、最新の医学的知見をシステムに反映させ、より信頼性の高いアドバイスを提供できるようになると期待しています。
- ユーザー評価とフィードバック: 実際のユーザーデータの収集とフィードバックを通じて、システムの評価を行う予定です。特に以下の領域に焦点を当てています:
- 人間の介入が必要な深刻なケースの特定
- 過度のスクリーンタイムの管理
- 医療ミス情報の防止 これらの領域について、より質的なフィードバックを得ることで、システムの安全性と有効性を向上させたいと考えています。
- コンテキスト強化: 電子健康記録や視覚情報などを活用して、システムのコンテキスト理解をさらに強化することを検討しています。これにより、ユーザーの健康状態をより総合的に把握し、より適切なアドバイスを提供できる可能性があります。
- 対象範囲の拡大: 現在はメンタルヘルスに焦点を当てていますが、将来的には一般的な健康全般に拡大することを計画しています。具体的には以下の介入クラスを探索していきたいと考えています:
- 栄養
- 身体活動
- 睡眠
- 習慣形成
- AIと人間のハイブリッドアプローチ: 将来的には、AIと人間のソリューションを組み合わせたアプローチも検討しています。これにより、AIの効率性と人間の専門知識や判断力を最適に組み合わせ、より包括的で効果的な健康支援システムを構築することができると考えています。
これらの計画を通じて、Health Advisorをより強力で、より広範囲な健康問題に対応できるシステムへと発展させていきたいと考えています。私たちの目標は、誰もがアクセス可能な、個別化された高品質な健康アドバイスを提供することです。
5. 金融と経済 - ハッカソン優勝チーム: Sustainable Investor AI
私の名前はAijanです。私たちの学際的なチームには、AcatとMandyも含まれています。Sustainable Investor AIプロジェクトについて発表いたします。
5.1 プロジェクトの概要とESGへの焦点
私たちのアプリは、ESG(環境・社会・ガバナンス)に焦点を当てた投資家向けのAIアドバイザーです。このアプリは、投資家が企業のパフォーマンスを判断する際に、収益成長や収益性などの従来の財務指標と、炭素排出量や社会的影響などの持続可能性指標を組み合わせて、より包括的な理解を得られるようにしています。
ESGは投資決定の重要な基準として、ますます重要性を増しています。投資家は、環境や社会的リスクが企業の財務パフォーマンスに与える影響を認識しています。しかし、多くの投資家がESGを投資決定に効果的に組み込むことができないと訴えています。その理由として、データの品質、グリーンウォッシング(環境責任のイリュージョンを作り出すための誤解を招くラベルや広告の使用)、一貫性のある信頼できる報告の問題が挙げられています。
また、投資家は、必要な情報を抽出するために多数の複雑な持続可能性報告書を読むことが、時間がかかり労力を要すると指摘しています。
私たちのソリューションは、信頼性の高いESG情報を対話型インターフェースで提供し、提供された情報の信頼性を示す指標と共に、ユーザーが情報に基づいた投資決定を行えるよう支援するインベスターアドバイザーを構築することです。
最終的な目標は、生成AIを活用して10-KやQ-10などの財務報告書や持続可能性報告書を要約・分析することです。このハッカソンでは、持続可能性報告書の分析と、これらの報告書におけるグリーンウォッシングの程度をユーザーに警告する方法の検討に焦点を当てました。
5.2 システムアーキテクチャと機能
ここで、私たちのアプリのデモを共有したいと思います。システムの機能を以下に説明します:
- アナリストは業界セクターを選択します。
- 「送信」をクリックします。
- 選択されたセクターから企業のリストが表示されます。
- アナリストは特定の企業を選択し、「調査」をクリックします。
- 選択された企業の要約が信頼性スコアと共に表示されます。
- ユーザーは分析したい質問を選択できます。
- 質問に対する結果が返されます。すべての回答には、データソースの信頼性とデータソースへのリンクが含まれます。
- ユーザーは、回答のソースを理解し、情報に基づいた決定を行うために、抜粋を確認することもできます。
このシステムのバックエンドでは、以下のプロセスが行われています:
- アナリストが選択したセクターから企業を要約・分析する際に、対応するプロンプトが生成され、CloudLLMに送信されます。
- バックエンドシステムは対応する持続可能性報告書と企業のメタデータでコンテキストを強化します。
- CloudLLMを通じてデータソースの信頼性を測定するためのプロンプトを生成します。
この技術は一般に検索拡張生成(RAG)と呼ばれています。
私たちは、プロンプトにおいて安全性を考慮しています。生成AIからのすべての回答には、データソースの信頼性と報告書への深いリンク、および回答に使用されたソースの抜粋が含まれます。
将来的には、報告書の履歴的傾向分析を行い、レッドフラグを特定することや、Corporate Register.comのような機関から報告書を自動収集すること、外部データソースでの評価を行うことなどを計画しています。
5.3 プロンプトエンジニアリングとモデルの最適化
より正確な結果を得るために、新たに作成されたESG基準を使用してプロンプトを作成しました。私たちは異なるプロンプトチューニング技術を試しました:
- ロールベースのプロンプティング:Claudeに持続可能性の専門知識を持つシニアエクイティアナリストとして行動するよう指示しました。
- 幻覚防止:Claudeに回答の作成に使用した報告書からの抜粋を出力するよう要求しました。
- 焦点を絞った質問:一度に1つの質問を行い、それぞれに対して別々のプロンプトを使用しました。
- メタデータの包含:企業に関するメタデータをプロンプトに含めました。
- 明確な指示:Claudeに明確で具体的な指示とスコアリング基準を提供しました。
これらの技術の効果を示すために、プロンプトチューニングを行わなかった場合と行った場合の結果を比較しました。左側はプロンプトチューニングを行わず、すべての質問を一度に尋ねた場合の結果です。この場合、Claudeは非常に浅い回答を提供しました。右側は、すべてのファインチューニング技術を適用し、別々のプロンプトで個別の質問を行った場合の結果です。この場合、回答はより正確になり、ドメイン専門家が提供するものに近くなりました。
全体として、報告書が長い(約100ページ)ため、メモリと最新性の利点からGPT-4よりもClaude 2を選択しました。信頼性については、明確で具体的なプロンプトガイドラインの重要性と、Claudeに回答への道筋をたどらせることの重要性に気づきました。また、ドメイン固有の知識がプロンプトエンジニアリングに大きく役立つことも分かりました。
これらのプロンプトエンジニアリングとモデル最適化の技術により、私たちのSustainable Investor AIは、より正確で信頼性の高いESG関連の情報を投資家に提供することができます。
5.4 デモンストレーションと具体的な使用例
私たちのSustainable Investor AIの機能をより具体的に示すために、いくつかの使用例を紹介しました。
まず、インターネット接続の問題があり、デモの画面共有が一時的にできなくなりましたが、その後、画面共有を再開しました。
デモでは、アナリストが業界セクターを選択し、「送信」をクリックする過程を示しました。次に、選択されたセクターから企業のリストが表示され、アナリストが特定の企業を選択して「調査」をクリックする様子を紹介しました。
システムは選択された企業の要約を信頼性スコアと共に表示します。ユーザーは分析したい質問を選択でき、その質問に対する結果が返されます。すべての回答には、データソースの信頼性とデータソースへのリンクが含まれています。
さらに、ユーザーは回答のソースを理解し、情報に基づいた決定を行うために、抜粋を確認することができます。
これらのデモンストレーションを通じて、私たちのシステムが投資家に求められる具体的なESG情報を、信頼性の高い形で提供できることを示しました。
5.5 将来の計画と拡張性
Sustainable Investor AIの将来の発展と拡張性について、以下のような計画があります:
- ドメイン専門家として金融アナリストや持続可能性の専門家をプロンプト開発のループに組み込むことを計画しています。
- ライブの財務報告書にも対応できるようにシステムを拡張する予定です。
- 業界固有のガイドラインへの対応も計画しています。
- 規制当局向けに、コンプライアンスのモニタリングを支援する偏りのない透明性の高いソリューションを提供することも検討しています。
- グリーンウォッシングの実践を特定するためのビッグデータ形成も重要な計画の一つです。
- 格付け機関への依存を軽減するため、独立した情報源、第三者の評価、公開の世論調査、専門家の評価などを取り入れた補完的な分析を行うことも計画しています。
- 企業の視点に対するバイアスを緩和するため、スコアの経年変化を判断し、レッドフラグを理解することを目指しています。
これらの計画を通じて、Sustainable Investor AIをより強力で、より広範囲なESG投資の課題に対応できるシステムへと発展させていきたいと考えています。
6. Mona Diab氏による基調講演: 「実践における責任ある生成AI」
6.1 AIの現状と課題
私はMona Diabです。最近、メタでの責任あるAI主任科学者の役割から、言語技術研究所(LTI)の所長に移行したばかりです。本日は「実践における責任ある生成AI」というテーマで講演させていただきます。
現在、生成AIの急速な普及が様々な産業や学術分野で見られます。しかし、大きな力には大きな責任が伴います。生成AIは、真に破壊的な技術による大きな進歩をもたらしています。これはNLPとAIの風景を変えつつあり、研究や製品の開発において、全体的な様相が劇的に変化しています。生成AIは非常にアクセスしやすく、流暢で直感的であり、そのため即座に信頼を獲得します。
しかし、同時にいくつかの問題も存在します。大規模言語モデル(LLM)は過度の自信、幻覚、偽情報、ディープフェイク、フェイクニュースなどの問題を引き起こす可能性があります。また、バイアスの問題や、本能的な人間化(アントロポモーフィズム)の傾向も懸念されています。
私たちは今、重要な転換点にいます。生成AIは主にLLM技術によって支えられていますが、その規模は驚異的です。例えば、PaLMは5400億のパラメータを持ち、最近リリースされたメタのLlama 2の最大モデルは700億のパラメータを持っています。これらのモデルには膨大な計算力が必要です。
AIの普及率と収束率も驚異的です。Netflixが1億ユーザーに到達するのに10年かかったのに対し、ChatGPTはわずか2ヶ月でその数字を達成しました。この急速な発展は環境にも影響を与えており、必要な計算量とそのコストは膨大です。例えば、ChatGPT-3の訓練には約450万ドルのコストがかかったとされています。
この状況は、技術を持つ者と持たざる者の間の顕著な格差を浮き彫りにしています。学術界や非西洋、非米国、非シリコンバレーの声はどこにあるのでしょうか。
こうした状況下で、いくつかの重要な課題が浮上しています:
- 規制とガードレールをどこに、どのように設けるべきか。
- 言語モデルの真実性、意見とデータの区別、出所と信頼性をどのように確保するか。
- どのような、そして誰の倫理的価値観がこれらの技術に反映されるべきか。
- 特定された場合、それをどこで、どのように組み込むことができるか。
- 文化的認識や感受性を文化間や言語間でどのように確保するか。
ここで注意すべき点は、ウェブが世界の文化的・言語的多様性を真に反映しているわけではないということです。
さらに、マルチモーダルな基盤モデルは、これらの問題を緩和するのか、それとも悪化させるのかという疑問もあります。例えば、グラウンディングやモーダル間翻訳などの課題があります。
AIの現状を自然言語処理(NLP)の視点から見ると、1950年代から2022年にかけて、パフォーマンスは向上していますが、計算量とデータ規模も大幅に増加しています。一方で、効率性、アクセシビリティ、透明性は低下しています。
NLPをAIの代表例として考えると、透明性のレベルが低下していることがわかります。規則ベースのシステムは比較的透明性が高く、古典的な統計的機械学習アプローチもある程度透明でしたが、ディープラーニングやend-to-endシステムでは透明性が大幅に低下しています。
これらの制御されていないシステムは、不透明性、予測不可能性、幻覚、プライバシー侵害、有害な出力(バイアス、誤情報、偽情報を含む)、非効率性などの症状を示しています。つまり、システムの理解と制御が低下しているのです。
私たちが目指すべきNLPとAIの未来像は、システムの理解と制御を向上させつつ、計算量とデータ規模を削減し、同時にパフォーマンスを向上させることです。これを実現するためには、基礎となる現象を理解することで得られるガードレールを導入する必要があります。
現在の絶対的な自己教師あり学習のパラダイムに過度に依存するのではなく、規範的な知識を注入し、適切な規範的知識を特定し、どの程度必要かを研究する必要があります。これは、現象や文脈のニュアンスを理解することに依存します。
このアプローチは、より説明可能で透明性の高いモデルやシステムにつながります。これこそが、次の段階の投資先となるべきです。
6.2 責任あるAI(RAI)フレームワークの提案
私は、責任あるAI(RAI)のためのフレームワークを提案したいと思います。このフレームワークは、私の視点から提案するものであり、他の人の責任を問うものではありません。ただし、このフレームワークは、メタ、マイクロソフトリサーチ、Google、Partnerships on AIなどが発表した多くの責任あるAIマニフェストに触発され、情報を得ています。
RAIフレームワークは、以下の4つの主要な次元から構成されています:
6.2.1 責任ある革新
責任ある革新は、なぜ私たちがAI技術を生み出すのかという「なぜ」に取り組みます。これは、社会的影響と人間の要求に対処し、倫理的設計を考慮することを意味します。
6.2.2 責任あるシステム
責任あるシステムは、AI技術が何になり得るかという「何」に焦点を当てます。これには、研究、エンジニアリング、製品の観点から、プライバシー、セキュリティ、安全性、公平性、堅牢性、信頼性、説明可能性、解釈可能性などの側面が含まれます。
6.2.3 責任ある研究行動
責任ある研究行動は、私たちが研究、開発、展開をどのように行うかという「どのように」に取り組みます。これには、説明責任、制度の役割、開放性が含まれます。
6.2.4 多様性と包括性
多様性と包括性は、私たちの対象ユーザー、開発者、研究者が誰であるかという「誰」に焦点を当てます。これには、チーム構成、安全な会議、アクセシビリティなどが含まれます。
これらの次元は重複する部分があります。RAIフレームワークは、AIの研究者や開発者によって実行される応答だけでなく、ユーザーによって展開される応答にも適用されます。さらに、このフレームワークは、技術活動の定義、考案、開発、普及の全段階に継承される必要があります。
責任を持って考えることは、最終段階や付加的なものではありません。むしろ、それは実践によって強化される筋肉のようなものです。現在の慣行では、多くの人々がRAIの側面に取り組んでいますが、大多分の場合、これは迅速に行われ、RAIの考慮事項は通常、事後的なものか、オプションとして扱われています。
直接この分野で働いている人々によってのみ重視され、多くの場合、論文の倫理的制限のセクションに限定されています(存在する場合)。
このRAIフレームワークを採用することで、AI技術の開発と応用がより責任ある、倫理的な、そして社会に有益なものになることを期待しています。
6.3 信頼できるNLP AIの実現
信頼できるNLP AIを実現するためには、目的、プロセス、結果の3つの側面で信頼を構築する必要があります。
まず、目的に対する信頼を確立するには、倫理的な考慮事項を念頭に置く必要があります。人間の能力を補完することを目指すべきです。センシティブな分野での自動化された意思決定支援については、慎重に再考する必要があります。
プロセスに対する信頼を構築するには、信頼できる開発と評価のフレームワークが不可欠です。現在のNLPコミュニティには、大規模なモデルやデータに対する深い理解の欠如、アノテーションプロセスや評価データにおける厳密性の欠如など、いくつかの問題があります。
結果に対する信頼を確立するには、AIの出力が安全で、信頼性が高く、堅牢であることが必要です。また、必要に応じて説明可能であることも重要です。ユーザーの期待を反映した実用的な精度指標を開発し、普及プロセスにおける完全な透明性を確保する必要があります。
これらの側面は、それぞれRAIフレームワークの責任ある革新、責任あるシステム、責任ある研究行動の次元を反映しています。
6.4 持続可能なNLP AIの構築
持続可能なNLP AIの構築は、NLPの長期的な発展と影響力を確保するために不可欠です。持続可能性には、ソリューション、システム、ユーザー、研究者、開発者の成長が含まれます。私は、多様性と包括性(DNI)がNLPの成長の礎石であると信じています。
持続可能なNLPを実現するためには、以下の側面に注目する必要があります:
- アクセシビリティ:より多くの人々に様々な言語でリーチし、分野に参入するユーザーの障壁とコストを下げる必要があります。
- 有用性:技術は関連性があり、人々の生活に影響を与える必要があります。
- 保守性:研究者や開発者のコミュニティを成長させる方法を考える必要があります。
- 透明性:説明可能性と解釈可能性の観点から、そして説明責任を通じた知識の透明な普及の観点から、透明性を確保する必要があります。
- 善意:社会に対する有害な影響を避け、倫理的な観点から善意を持つ必要があります。
- 環境への配慮:エネルギーフットプリントや使用コストを低減するなど、環境に配慮する必要があります。
これらの側面は、RAIフレームワークの様々な次元に対応しています。
6.5 多様性と包括性(DNI)の重要性
DNIは持続可能なNLPの礎石であり、その重要性は次の2つの観点から考えることができます:
道徳的観点:AI技術の有用性を考えると、すべての人々がアクセスし、採用できるようにすることが私たちの義務です。それを拒否する自由も与えられるべきですが、そうでなければ一種の権利剥奪の形態となります。
科学的観点:DNIは、リソースの少ないシナリオを考えるための強制関数として機能します。ここでリソースの少ないとは、言語のデジタルプレゼンスだけでなく、文化、ドメイン、トピック、リソースの利用可能性も指します。この観点を採用すれば、英語でさえもリソースの少ない設定があることがわかります。
DNIを実現するためには、以下のようなアプローチが必要です:
- ユーザーのアクセス増加:より効率的なシステムを開発し、より小さく安価なデバイスに搭載できるようにする。
- クロスカルチャーおよび多言語モデルへの投資:統一された基盤モデルを作成し、より効率的にする。
- チームの多様性確保:異なる視点を反映させるため。
- ローカル市場でNLP AIに取り組む地元の人材の育成:グローバルフットプリントとグローバルバランスを増やすため。
- 高校レベルでの科学の神秘性の解除:AI人材プールの拡大。
- 様々な言語での科学資料の作成:真にグローバルな方法でNLPの創造性を解き放つ。
- グローバルメディアを通じたNLPの普及:エコーチェンバーを避ける。
- 多様な場所での会議やアウトリーチプログラムの奨励:世界のより多くの地域にNLPとAIをもたらす。
DNIは企業において第一級の市民として扱われるべきです。これは単に「良いこと」をすることや贅沢品ではなく、私たち自身と分野の長期的な発展のために必要不可欠なものです。
6.6 具体的な取り組み事例
6.6.1 多言語言語モデルXGLM
DNIを実践するための具体的な取り組みの一例として、多言語言語モデルXGLMについて紹介します。XGLMは、2022年後半から2023年初頭にかけて公開されました。
XGLMは、様々な規模の4つの言語モデルからなるアーキテクチャで、最大のモデルはGPT-3と同様の75億パラメータを持っています。このモデルは、16の言語ファミリーから30の言語にわたる多言語データで訓練されています。データセットの構築には特別な注意を払い、テイラー分布からのサンプリングを多用することで、言語間のバランスを取りました。
XGLMのパフォーマンスは、ゼロショットおよび少数ショット設定において、英語中心のモデルと同等の結果を示しました。特に興味深い結果として、教師なし機械翻訳のパフォーマンスが挙げられます。XGLMはGPT-3を上回るパフォーマンスを示し、特にリソースの少ない言語で顕著な結果が見られました。
また、XGLMは教師あり機械翻訳のベースラインとも競争力があり、182言語ペアのうち45ペアでFLORES-101ベンチマークを上回りました。
XGLMのような多言語言語モデルには、以下のような利点があります:
- エネルギーと保守の効率性向上
- カーボンフットプリントの削減
- 世界の英語中心主義からのパラダイムシフト
- リソースの少ない言語に対する優れたパフォーマンス
- 希少言語での科学研究の促進
6.6.2 60-60グローバリゼーション・ローカリゼーションイニシアチブ
2022年に私がMartha Ifrouとともに立ち上げた60-60グローバリゼーション・ローカリゼーションイニシアチブについて紹介します。これは、ACL(計算言語学会)の60周年を記念した特別チャレンジです。
このチャレンジの目的は、テキスト、音声、手話などすべてのモダリティにおいて、60の言語で多言語科学コミュニケーションを可能にすることです。中核となるテーマは「ローカリゼーションを通じたグローバリゼーション」です。
60-60イニシアチブの主な目的は以下の通りです:
- CL(計算言語学)とNLPの科学を民主化する
- 科学的風景に根付いた言語バイアスを取り除く
- 言語の壁なしに創造性とイノベーションを解き放つ
- 科学者が母国語で科学的に考えることを可能にする
- 若い将来の理系科学者にインスピレーションを与える
- 多くの言語で科学的な言語と用語を作り出す
このイニシアチブは、2022年3月から実質的に開始され、6つのアクティブなワークストリームがありました:音声翻訳、テキスト翻訳、科学用語のキュレーション、音声認識、手話通訳、スライドプレゼンテーション翻訳。さらに、これらすべてをホストするためのウェブサイト作成も行いました。
このプロジェクトは、アカデミア、大手テック企業、中小テック企業、非営利団体、スタートアップなど、世界中の様々な組織の協力によって実現しました。
6.7 責任あるAIの実践に向けた提言
最後に、なぜ人々が責任あるAI(RAI)やREIF(責任あるAIフレームワーク)に関心を持つべきかについて、いくつかの推奨事項を共有したいと思います。
RAIの実践には以下のような利点があります:
- ユーザーの信頼向上:責任あるAI実践は、ユーザーの信頼を構築・維持するのに役立ちます。
- 倫理的なターゲティングとパーソナライゼーションの改善:RAIの原則に基づいて、より適切で公平なターゲティングとパーソナライゼーションが可能になります。
- レピュテーションリスクの軽減:RAIを実践することで、AIの誤用や悪用によるレピュテーションダメージのリスクを軽減できます。
- 規制遵守:将来的なAI規制に対する準備として、RAIの実践は重要です。
- データ収集実践の透明性向上:RAIの原則に従うことで、データ収集プロセスの透明性が向上します。
- より公平な意思決定:AIシステムの公平性を確保することで、より公平な意思決定プロセスを実現できます。
- 差別化と競争上の優位性:責任あるAIを独自のコンポーネントとして持つことは、競争上の優位性になり得ます。
- 長期的な持続可能性:責任あるAI実践は、単に当面の倫理的要件を満たすだけでなく、持続可能なビジネスモデルを作り出すことにも関係しています。
これらの点を踏まえ、以下の提言を行います:
- DNIを第一級の市民として扱う:NLPにおいてDNI(多様性と包括性)を最優先事項として考慮することが重要です。これは単なる「良いこと」ではなく、私たち自身と分野の長期的な利益のために必要不可欠です。
- テストと検証を開発と同程度に重要視する:開発と同様に、テストと検証のプロセスにも十分なリソースと注意を払う必要があります。これにより、AIシステムの信頼性と安全性が向上します。
- 透明性と開放性を重視する:AIの開発と応用において、透明性と開放性を最大限に確保することが重要です。これにより、ステークホルダーの信頼を得ることができ、また潜在的な問題を早期に発見し解決することができます。
- 責任あるAIを企業の最前線に据える:RAIを企業の中心的な価値観として位置づけ、すべての意思決定プロセスに組み込むべきです。これにより、AIの開発と応用が常に倫理的かつ責任ある方法で行われることを保証できます。
これらの提言を実践することで、より信頼性が高く、持続可能で、社会に有益なAI技術の開発が可能になると信じています。責任あるAIの実践は、技術の進歩と社会的責任のバランスを取る上で不可欠です。
最後に、私たちはRAIを通じて、AIの力を活用しながら、同時に潜在的な悪影響を最小限に抑える方法を見つけることができると信じています。これは簡単な課題ではありませんが、協力して取り組むことで、より良い未来を築くことができるでしょう。
7. 質疑応答セッション
7.1 Jamie Teevin氏への質問と回答
質問者: 今日の学生たちを、AIと共にある明日の仕事と生活に向けてどのように準備させるべきでしょうか?また、AIは今日、学生たちを教育するのにどのように役立つでしょうか?
Jamie Teevin: これは非常に重要な質問ですね。残念ながら、私には明確な答えはありません。ただ、科学者のパラダイムをリードすることが非常に有用だと考えています。私たちは、変化の速度がますます加速する世界に入りつつあります。このような大きな曖昧さの中で理解し、活動する能力が重要になってきます。
新しい方法で物事を考える能力も重要です。これまでの経験から、言語モデルを自分の実践に最も成功裏に統合している人々は、物事を再考し、ワークフローや作業方法を新しく考える人々です。
教育の文脈では、言語モデルが実際にかなり優れたパフォーマンスを示すことがわかっています。例えば、私は入門CSコースを言語モデルに受講させたことがあります。そのモデルは非常に良い成績を収めました。
生産性研究の初期の結果から、多くの新技術が大きな格差を生み出す傾向があるのに対し、言語モデルは、その基準品質を提供する能力のおかけで、そのような格差を生み出していないことがわかっています。
しかし、もしあなたのコースで全員がA-の成績を取るとしたら、次のステップは、人々がそれをどのように活用し、それに基づいてどのように構築するかを考えることです。これは人々が作業するための素晴らしいツールです。
私個人的には、「言語モデルを使用しないでください」とか「使用しないでください」と言うのではなく、「言語モデルから何を得たのか教えてください。そして、それが間違っているところを見つけ、それをどのように改善できるか、どのように向上させることができるかを考えてください」と言うコースが好きです。モデルをツールとして使い続けることができますが、コンテンツに対する責任は自分にあり、学習に対する責任も自分にあります。これを基準として使用し、それをツールとして使用して批判的に考え、成長するのは非常に面白いことだと思います。
ただし、これは簡単なことではありません。本当に速い変化に対処し、答えを見つけ出すのは難しいです。
質問者: 検索拡張生成において、効果的なLLMの応答のために、適切な量の文脈的または企業データを検索する最適または最もコスト効率の良い方法は何でしょうか?
Jamie Teevin: 私の背景は情報検索にあるので、このような質問はとても楽しいですね。検索拡張生成に関しては、これから多くのことが起こるでしょう。特に、私たちが異なる種類の情報を検索し始めているからです。
通常、検索は文書やウェブページ、おそらくハイパーリンクされた文書に対して行われますが、本質的には文書です。しかし、会話を検索するとはどういうことでしょうか?人の現在のコンテキストや環境で何が起こっているかを使用して、モデルが推論するのを助けるために、多くの情報を引き出すにはどうすればよいでしょうか?
一般的に、多くの検索は非常に高速で効率的です。つまり、これは実際には良い、効率的な方法です。文脈圧縮は興味深い問題になります。すべての情報を取り込んで圧縮する方法はどのようなものでしょうか。
多くの技術が出てくるでしょう。例えば、モデルを使用してクエリを開発し、ソース選択を行い、どのようなクエリを行いたいかを理解します。そして、モデルにコンテキストウィンドウ内のすべてを与える代わりに、何が利用可能かを知らせ、それを要求できるようにすることを考え始めます。
ある意味、世界は長期記憶のようなものです。短期作業記憶に一部の情報を取り込み、モデルがその短期作業記憶と長期記憶の両方にアクセスする方法を知っているようにしたいと考えています。実際、これらのドメイン固有言語が本当に興味深くなってきています。
7.2 ハッカソンチームへの質問と回答
質問者: Health Advisorチームへの質問です。良い健康アドバイスと、患者にとって聞くのが難しいかもしれないこと、あるいは患者が従わないかもしれないことの間の緊張関係をどのように扱いますか?
Health Advisorチーム: これは素晴らしい質問です。将来的な計画の中で、私たちは「AIと人間のソリューションを組み合わせる」ことを検討しています。例えば、このような場合、すぐに介入を提供するのではなく、人間の専門家にリダイレクトすることがあります。これは、患者が聞くのが難しい可能性のある介入を説明する方法の一つです。
7.3 Mona Diab氏への質問と回答
質問者: 技術がまだ十分に整っていないことを認識しつつ、RAIのすべての原則を考慮すると、私たちはまだ待つべきでしょうか?それとも、改善点を活用しないことによる機会コストの懸念はありますか?このスペクトルのどこに位置し、あなたの原則をこのような決定にどのように適用しますか?
Mona Diab: これは非常に難しい質問ですね。常にトレードオフがあります。私のスライドの1つに、「高価なのか」という質問がありました。これは正確にあなたの指摘する点、つまり市場投入までの時間に関するものです。
私たちはOPT-175Bで、これを経験しました。私たちはそれが安全性の観点からあらゆる種類の問題を抱えていることを知っていました。できる限りのテストとベッティングを行いましたが、まだいくつかの抜け穴があり、有害な行動につながる可能性がありました。しかし、私たちはそれをオープンOPTと呼んでいます。なぜなら、私たちはすべてを公開したからです。データセット、パラメータ、重み、そして訓練方法のログまでも公開しました。
私たちは、人々がテストできるようにそれを公開することにしました。ただし、いくつかの注意事項を付けました。例えば、商業利用は禁止されています。また、誰かがそれを使用する場合、これらのリスクを認識していることを認めてもらいます。
開発については心配していません。私が常に懸念しているのは、世界への展開です。世界への展開には、非常に透明性の高いガイドラインと非常に透明性の高い注意事項が必要です。「自己責任で使用してください。これが含まれていることを正確に知った上で」というようなものです。
もちろん、他の人々に不利益をもたらすために悪用する人々が常にいるでしょう。しかし、これはあらゆる種類の技術で起こり得ることです。
私は、すべてが完璧に正しくなるまで待つ必要はないと思います。だからこそ、テストと評価を重視しています。私たちの適切な注意義務を果たすことが重要です。
評価と試験に関する問題の1つは、評価科学がまだ存在していないことです。例えば、レッドチーミングの概念は非常にアドホックな方法で行われています。これが私がアカデミアに戻る理由の1つです。これらのことが規律ある方法で発展することに非常に興味があります。現在のように即興的に行うのではなく、大規模で非常に体系的に行う方法を見つけたいと考えています。
8. 結論と今後の展望
キャロリン・ローズ教授: 本日のイベントを締めくくるにあたり、この夏のイベントシリーズに参加してくださった皆様に心からお礼を申し上げます。この取り組みに関わることができて、非常に有意義でした。多くの方々の協力なしには、これほどの成功を収めることはできませんでした。
まず、マーシャル・ア・ベア学部長をはじめ、SCSの全学科長の皆様に感謝いたします。過去2年間の学科長代理の期間中、皆様との協力は本当に素晴らしいものでした。
また、パネリストや講演者の皆様にも感謝申し上げます。皆様のプレゼンテーションやコミュニティとのQ&Aでの交流は、このイベントシリーズの核心部分でした。
CMUのブロックセンターには、ハッカソンチームに賞金を提供し、アイデアを実際のエンドユーザーアプリケーションに発展させる支援をしていただき、感謝しています。これにより、ハッカソンは単なる短期間の取り組みではなく、実際の影響力を持つ可能性のあるプロジェクトとなりました。
GAI3インターン4名にも感謝します。彼らは夏中、自身の生成AI研究に取り組むとともに、ハッカソンの準備を行い、集中的な作業週末中にハッカソンチームを常にサポートしてくれました。
3つの影響領域のドメインエキスパートと技術エキスパートとして審査員を務めてくださった方々にも感謝します。選考プロセスにおいて、貴重な時間を割いていただきました。
また、このイベントがスムーズに運営されるよう尽力してくれたスタッフの皆様にも感謝します。特に、ニコール・メリット、ジェシカ・マグワイア、ダニエル・ボスラー、ジョージ・ドラコス、マーク・パワー、キャサリン・カピタスの皆様には、多大なアドバイスとサポートをいただきました。
そして、3つのハッカソンの主催者であり運営者であるアレックス・ノルテ氏に大きな感謝を捧げます。彼はハッカソン研究を行っており、正しい方法で実施する方法について素晴らしい洞察を持っています。彼と一緒に仕事ができて楽しかったです。彼の懸命な努力がなければ、ハッカソンはこれほど成功しなかったでしょう。
最後に、本日のイベントに関するフィードバックをいただければ幸いです。夏のイベントシリーズ全体に関するご意見もお待ちしています。ニコールがフィードバックフォームのURLをチャットに入力してくれると思います。皆様のフィードバックは本当に聞きたいと思っています。