※本記事は、AI for Good Global Summitにおけるハキム・ハシド氏(テクノロジー・イノベーション・インスティテュート主任研究員)の講演「AIの力を一般大衆に届ける:Falcon LLM」の内容を基に作成されています。
本講演では、AIモデルをより小規模でコスト効率の高いインフラ上で運用可能にするための継続的な取り組みについて考察し、最新の取り組みを概観し、主要な課題と機会を検証し、アクセシビリティとスケーラビリティへの幅広い影響について議論されています。Falcon LLMは、高度なAI機能の民主化に向けた進歩の顕著な例として取り上げられています。
講演者のハキム・ハシド氏は、テクノロジー・イノベーション・インスティテュート(TII)の主任研究員として、AI研究センターを率いています。
本記事では、講演の内容を要約しておりますが、発表者の見解を正確に反映するよう努めています。ただし、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画をご覧いただくことをお勧めいたします。
AI for Goodは、革新的なAIアプリケーションの特定、スキルと標準の構築、そして地球規模の課題解決に向けたパートナーシップの推進に取り組んでおり、ITUが50以上の国連姉妹機関と提携し、スイス政府との共催で開催しています。
詳細情報:https://aiforgood.itu.int/summit26/
1. 発表者紹介とTIIの概要
1.1 発表者ハキム・ハシドの紹介
ハキム・ハシド:こんにちは、良い午後です。私はハキムです。TIIのAI研究センターの主任研究員を務めています。私たちが現在進歩している状況について、少し文脈を理解していただくために説明させてください。私はアラブ首長国連邦のアブダビから来ています。
私は昨年もここに来ましたが、その時は大規模言語モデルの基本的な側面についてより多く話していました。今年は、私たちがこれらのモデルを構築するために取り組んできた旅路を皆さんにお伝えしたいと思いました。また、私たちが到達した地点、つまり実際にこのAIで現実の問題を解決する方向に向かっている点についても話したいと思います。私は、コミュニティが今日この分野で少し苦戦していると信じているからです。
1.2 Technology Innovation Institute (TII) の組織構造と役割
ハキム・ハシド:TIIはATRCの一部です。TIAはATRCの研究部門であり、私たちはアブダビ政府によって資金提供を受けている政府機関です。私たちと一緒に働いているのは、プログラム管理エンティティであるAspireと、主に私たちの技術の商業化に取り組んでいるVenture Oneです。
私たちの組織構造は明確に分離されており、研究開発から商業化まで一貫したエコシステムを形成しています。TIIは研究開発の中核を担い、Aspireがプログラム管理を行い、Venture Oneが技術の市場投入を担当するという役割分担となっています。これにより、基礎研究から実用化まで効率的に進めることができる体制を構築しています。
1.3 TIIの研究領域と政府支援体制
ハキム・ハシド:TIIはAIだけに取り組んでいるわけではありません。私たちは量子、ロボティクス、指向性エネルギー、セキュリティと暗号学、宇宙と推進など、さまざまな技術領域で多くの研究を行っています。これらはほんの一部を挙げただけです。
私たちはアブダビ政府によって資金提供を受けている政府機関として、幅広い技術分野で研究開発を推進しています。この政府支援体制により、長期的な視点での基礎研究から応用研究まで、安定した環境で取り組むことが可能になっています。特にAI分野においては、この安定した資金基盤が継続的なモデル開発と研究の推進を支えています。
2. Falconモデル開発の戦略的背景
2.1 大規模言語モデル構築の目的
ハキム・ハシド:私たちは皆と同様に、最も興味深い大規模言語モデルを構築することを目指していると言えるでしょう。私たちは毎年少なくとも2つのシリーズのモデルを構築してリリースしています。私たちがリリースした最新のシリーズは、昨年の5月のことで、これについては後ほど説明します。
今日私がファルコン言語モデルと、私たちがこれらのモデルを構築するこの分野で行っている仕事について少し議論するために来ました。私たちが到達した地点は、実際にこのAIで現実の問題を解決する方向に向かっているということです。私は、コミュニティが今日この分野で少し苦戦していると信じています。
私たちの目的は単にモデルを作ることではなく、実際に現実世界の問題解決に貢献できるAIシステムを構築することです。これまでの基礎的な大規模言語モデルの開発から、より実践的で応用可能な方向性へと移行していくことが重要だと考えています。
2.2 AI分野における地政学的ポジショニング
ハキム・ハシド:その理由は基本的に、今日AIのある種の二極化が起こっているのを私たちが見ているからです。一方では、勢いを維持するために極めて懸命に取り組んでいる米国があり、そして中国もこのAIに関して成長しています。
私は、UAEとアブダビが中間に位置しようとしており、オープンソースに関してコミュニティの一種の支援として機能しようとしていると思います。そのため、私たちは第1世代から第3世代まで、これまでのところすべての言語モデルをオープンソース化しています。
私たちの戦略的な位置づけは、米国と中国という二大勢力の間で、よりバランスの取れた第三の選択肢を提供することです。特にオープンソースコミュニティへの貢献を通じて、AI技術の民主化と広範囲な利用可能性を促進しようとしています。これにより、特定の国や企業に依存しない、より開かれたAI開発環境の構築に貢献したいと考えています。
2.3 オープンソース戦略の意義
ハキム・ハシド:私たちは第1世代から第3世代まで、これまでのところすべての言語モデルをオープンソース化しています。これは、オープンソースに関してコミュニティの一種の支援として機能するという私たちの戦略的な決定です。
私たちのオープンソース戦略の意義は、AI技術が特定の企業や国に独占されることなく、世界中の研究者や開発者がアクセスできる環境を作ることにあります。UAEとアブダビが米国と中国の間の中間的な立場として、グローバルなAIコミュニティに対してより中立的で開かれた選択肢を提供することができると考えています。
このアプローチにより、私たちは単にモデルを開発するだけでなく、AI分野全体の発展に貢献し、より多くの人々がこれらの先進的な技術にアクセスできるようになることを目指しています。オープンソース化することで、透明性を確保し、コミュニティ全体での知識共有と協力的な発展を促進できると信じています。
3. Falcon言語モデルの進化過程
3.1 第1世代(2023年):40B・180Bパラメータモデル
ハキム・ハシド:これは私たちがリリースしたモデルの一種のタイムラインです。私たちは2年前の2023年に遡って、世界中にあるほとんどのモデルと競合していた400億パラメータモデルをリリースすることから始めました。その数か月後、私たちは第1世代である180Bをオープンソース化しました。
第1世代のFalconモデルでは、まず400億パラメータという大規模なモデルから開始しました。このモデルは当時の世界標準と競合できる性能を持っていることを実証しました。続いて、さらに大規模な1800億パラメータモデルを開発し、これを第1世代として位置づけました。
この第1世代の開発を通じて、私たちは大規模言語モデルの基本的な構築方法と、世界レベルでの競争力を持つモデルを作る能力を確立しました。しかし同時に、これらの大規模モデルの運用には極めて大きなインフラストラクチャが必要であるという課題も明確になりました。この経験が、後の世代でのアプローチ変更につながる重要な学習となりました。
3.2 第2世代Falcon 2(2024年):小型化への転換とマルチモダリティ
ハキム・ハシド:2024年に私たちはFalcon 2をオープンソース化しました。私たちは実際に最初の世代の言語モデルから多くのことを学び、モデルが大きくあるべきではないということを理解しました。それらのモデルをサポートするインフラストラクチャを持つことは極めて大きな挑戦だからです。
そこで私たちはより小さなモデルを構築し始めました。これがFalcon 2に至った経緯です。これは110億パラメータモデルでした。しかし私たちはそれだけにとどまりませんでした。私たちはマルチモダリティにも取り組み始め、実際にこのモデルにビジョンレイヤーを追加しました。
第1世代の大規模モデルの運用経験から、私たちはモデルサイズとインフラストラクチャ要件のバランスが重要であることを学びました。この洞察に基づいて、Falcon 2では110億パラメータという、より管理しやすいサイズに設計を変更しました。同時に、単なるテキスト処理能力だけでなく、画像理解機能を統合したマルチモーダル機能の開発にも着手しました。これにより、より実用的で汎用性の高いAIシステムの構築を目指しました。
3.3 第3世代Falcon 3:高性能の小型モデル実現
ハキム・ハシド:私たちは作業を続け、高性能をより小さなモデルに圧縮することに再び取り組み始めました。これが昨年12月に遡って、私たちのモデルの第3世代に至った経緯です。Falcon 3は異なるサイズを持っていましたが、そこにあるすべてのモデルを上回る性能を持っていました。
しかし、その後私たちはデータに関してある種のプラトーに到達し始めました。私たちが持っていたすべてのデータを使用し始めていました。そこで私たちは、これらのモデルを改善するために、これらのものの別の側面にも取り組むことを考えました。
第3世代のFalcon 3では、小型化戦略をさらに推し進めながらも、性能の向上を同時に実現することに成功しました。様々なサイズのモデルを提供しながら、既存の競合モデルを上回る性能を達成しました。この成果は、単純にモデルサイズを大きくするのではなく、アーキテクチャの効率性と学習手法の改善によって性能向上を図るアプローチが有効であることを実証しました。
しかし、この時点で私たちは重要な課題に直面しました。利用可能なデータをほぼすべて使い切ってしまい、データ量の増加による性能向上が困難になってきたのです。この状況が、次世代モデルでの新たなアプローチ、すなわちアーキテクチャレベルでの革新へと私たちを導くことになりました。
4. アーキテクチャ革新:Falcon H1の開発
4.1 データ枯渇問題への対応
ハキム・ハシド:しかし、その後私たちはデータに関してある種のプラトーに到達し始めました。私たちが持っていたすべてのデータを使用し始めていました。そこで私たちは、これらのモデルを改善するために、これらのものの別の側面にも取り組むことを考えました。
これが実際に私たちがアーキテクチャでの作業を始めた経緯です。質問は、実際にアーキテクチャ内にアップデートや、より多くの革新を組み込むとどうなるかということでした。データに関して、私たちのモデルを訓練するために私たちが持っていたすべてのデータを使用しました。
私たちは訓練やモデルの実行に利用できるすべてのデータを消費してしまったという、データの枯渇という根本的な問題に直面しました。この状況において、従来のようにデータ量を増やすことによる性能向上は限界に達していました。そこで私たちは、データ量ではなく、モデルの基礎となるアーキテクチャそのものを革新することで、性能向上を図る新たなアプローチを模索することにしました。この認識が、アーキテクチャレベルでの根本的な変更に取り組む動機となりました。
4.2 TransformerとMamba(状態空間モデル)の融合
ハキム・ハシド:これが実際に私たちがアーキテクチャでの作業を始めた経緯です。これが私たちが実際に同じモデル内でTransformerと状態空間モデリングの組み合わせに取り組み始めた経緯です。私は皆がMamba大規模言語モデルやMambaアーキテクチャに精通していると思います。
私たちはMambaに取り組んでいました。私たちはMambaで極めて優秀なモデルを構築しました。しかし、質問は、アーキテクチャレイヤーでTransformerとMambaのような2種類のツール、モデリングを組み合わせるとどうなるかということでした。
私たちは単独でのMambaアーキテクチャでも優れた性能を達成していましたが、さらなる可能性を探求することにしました。TransformerとMambaそれぞれが持つ固有の強みを活かしながら、両者を同一のモデル内で融合させるという革新的なアプローチに挑戦しました。
Transformerは並列処理能力と長距離依存関係の捉え方に優れている一方、Mambaのような状態空間モデルは計算効率性と逐次処理に長けています。私たちは、これら異なる特性を持つアーキテクチャを組み合わせることで、両者の利点を同時に活用できるハイブリッドシステムの構築を目指しました。
4.3 ハイブリッドアーキテクチャの性能実証
ハキム・ハシド:これが実際に何が起こったかです。これが私たちが昨年5月にリリースしたものです。私たちはFalcon H1をリリースしました。私たちは再び異なるサイズを持っています:34億、70億、30億、10億、そして5億パラメータモデルです。これらのモデルの素晴らしい点は、期待通りに性能面で極めて良い性能に到達し始めたことで、数秒後にそれを示します。
私たちは様々なベンチマークで全モデルをテストしており、ほぼすべての場合において、H1のハイブリッドアーキテクチャは、同等のサイズを持つ他のアーキテクチャや他のモデルよりも常に優れた性能を発揮していることがわかります。私たちは実際に到達した点があります。最終的に見ると、私たちの34億パラメータモデルは実際に70億パラメータモデルよりも優れた性能を発揮しています。
つまり、このモデルはそのモデルの2倍のサイズのモデルよりも優れた性能を発揮することができるのです。データを消費してモデルを訓練するためのすべてのデータを使用したにもかかわらず、アーキテクチャに取り組むときには、前進するにつれてより良い性能に到達する希望がまだあります。おそらくTransformerは飽和状態にあるかもしれませんが、この知識を表現し捉える他の方法を探求すれば、前進するにつれてより良い性能に到達するでしょう。
5. モデル開発プロセスと技術的工夫
5.1 事前学習から実用化までのパイプライン
ハキム・ハシド:私たちが通常行う作業を示すために、Falcon 3の例を取り上げます。私たちは一般的に事前学習を行いますが、その後、私たちが持つ性能に到達するためにモデルに適用する他の多くのタスクプロセスがあります。私たちは蒸留に取り組みます。私たちはSFTに取り組みます。
私たちはアップスケーリングにも取り組みます。私たちが持つ100億パラメータモデルは、70億パラメータモデルからアップスケールされたモデルです。その後、私たちは量子化に移り、これは私たちがこれらのモデルを小さなデバイスで動作させたい場所です。
私たちの開発プロセスは単純な事前学習だけでは終わりません。事前学習の後に、モデルの性能を最適化するための複数の段階的なプロセスを実行します。蒸留プロセスでは大きなモデルの知識をより小さなモデルに転移させ、Supervised Fine-Tuning(SFT)では特定のタスクに対してモデルを調整します。
特に注目すべきは、70億パラメータモデルから100億パラメータモデルへのアップスケーリング技術です。これは既存のモデルをベースとして、より大きな容量のモデルを効率的に構築する手法です。そして最終的には量子化技術を適用して、これらの高性能モデルをより小さなデバイスで動作可能にします。このパイプライン全体が、研究レベルのモデルから実用的なアプリケーションへの橋渡しを可能にしています。
5.2 蒸留、SFT、量子化技術の活用
ハキム・ハシド:私たちは蒸留に取り組みます。私たちはSFTに取り組みます。私たちはアップスケーリングにも取り組みます。私たちが持つ100億パラメータモデルは、70億パラメータモデルからアップスケールされたモデルです。その後、私たちは量子化に移り、これは私たちがこれらのモデルを小さなデバイスで動作させたい場所です。
小さなデバイスについて言えば、私たちはほぼIoTのようなものまで行きます。そして後で例を示しますが、私たちは監視カメラでこのモデルを動作させることができます。このように、私たちは実際に分析されるストリームをコントロールし、中央ユニットに戻るストリームを常に共有する必要がありません。
蒸留技術では、大規模で高性能なモデルの知識をより小さく効率的なモデルに転移させることで、実用性とパフォーマンスのバランスを取ります。Supervised Fine-Tuning(SFT)では、特定のタスクや用途に応じてモデルを最適化し、実際のアプリケーション要件に合わせて調整します。
量子化技術は特に重要で、これにより高性能を維持しながらモデルサイズを大幅に削減できます。この技術により、監視カメラのような小型デバイスでも動作可能になり、エッジコンピューティング環境での直接処理が実現されます。これは、データを中央サーバーに送信する必要性を減らし、プライバシー保護と処理速度の向上を同時に達成する重要な技術的進歩です。
5.3 IoTデバイスでの動作実現
ハキム・ハシド:小さなデバイスについて言えば、私たちはほぼIoTのようなものまで行きます。そして後で例を示しますが、私たちは監視カメラでこのモデルを動作させることができます。このように、私たちは実際に分析されるストリームをコントロールし、中央ユニットに戻るストリームを常に共有する必要がありません。
私たちはこれらのモデルを小さなデバイスで動作させるためのインフラストラクチャフットプリントを削減する取り組みを多く行ってきました。私たちは通常使用する通常のインフラストラクチャの10倍少ないインフラストラクチャでこれらのモデルを動作させることができました。これはその時点で大きな成果でした。
IoTレベルのデバイスでの動作実現は、単なる技術的な挑戦以上の意味を持ちます。監視カメラという具体例では、映像ストリームを中央処理装置に送信することなく、デバイス自体で直接AI処理を行うことができます。これにより、ネットワーク帯域幅の大幅な節約、リアルタイム処理の実現、そしてプライバシー保護の強化が可能になります。
特に重要なのは、従来のインフラストラクチャ要件を10分の1に削減できたという定量的な成果です。この劇的な効率化により、これまで大規模なデータセンターでしか動作できなかった高性能AIモデルが、エッジデバイスで実用的に動作するようになりました。この技術的ブレークスルーは、AI技術の民主化と普及において極めて重要な意味を持っています。
6. マルチモーダル機能の実装と検証
6.1 視覚言語モデル(VLM)の能力
ハキム・ハシド:LLMは一般的に多くのタスクを実行できます。私たちが現在持っているLLMでサポートされているのは、すべての緑色のものです。私たちはマルチモーダル生成の生成部分では作業していません。私たちはマルチモーダル理解により焦点を当てていますが、生成は非常に近い将来の世代でやって来ることを期待しています。
ほとんどの人はテキストに関してファルコンを知っていますが、私はテキストではないデータでできることについていくつかの例を示したいと思いました。これが私たちが持っているVLMで、さまざまなモデルと比較したパフォーマンスをお見せしています。これらのことは簡単に見つけることができます。私たちはテキストを行いますが、視覚に関しても他のタスクを行います。
私たちの視覚言語モデル(VLM)は、テキスト処理能力に加えて、画像理解機能を統合したマルチモーダルシステムです。現在の焦点はマルチモーダル理解にあり、画像から情報を抽出し、理解し、それに基づいて応答する能力を重視しています。生成機能については将来の開発項目として位置づけており、理解機能の確立を優先しています。
各種ベンチマークでの性能比較では、競合するモデルと比較して優秀な結果を示しており、これらの性能指標は公開されているベンチマークで容易に確認できます。私たちのVLMは単純なテキスト処理を超えて、視覚的な情報を含む複合的なタスクに対応できる能力を持っています。
6.2 OCRと複雑文書理解の実験結果
ハキム・ハシド:OCRについて、皆がOCRについて話しています。ファルコンビジョンモデルは画像のスキャンを理解し、テキストを抽出して、異なる形式でテキストをエクスポートすることができます。最終的に抽出されたテキストについて議論したい場合、それは極めて強力で、さまざまなアプリケーションを構築するために使用できます。
このケースが十分に複雑ではないと思う方のために、次のケースがあります。実際に私の意見では、このデータやこのものからコンテンツを取得するのは極めて複雑なケースです。ファルコンは再び、スキャンされた新聞から物事を理解し、質問に答えることができます。
OCR機能においては、単純な文字認識を超えた高度な文書理解能力を実現しています。画像から抽出されたテキストは様々な形式で出力でき、さらに抽出後のテキストに対する質疑応答や議論も可能です。この機能により、文書のデジタル化だけでなく、内容の理解と分析を一体的に行うアプリケーションの構築が可能になります。
特に注目すべきは、スキャンされた新聞のような複雑で低品質な文書に対する処理能力です。新聞は複数のカラム、異なるフォントサイズ、画像の混在など、OCR処理において最も困難な文書形態の一つです。しかし、ファルコンビジョンはこうした複雑な文書構造を理解し、内容を正確に把握した上で、ユーザーの質問に対して適切な回答を提供することができます。この能力は、実際の業務環境での文書処理において極めて実用的な価値を持っています。
6.3 動画理解とシーン遷移分析
ハキム・ハシド:ファルコンは画像を理解しますが、ビデオも理解します。これらはファルコンのビデオ部分でのベンチマークです。私たちにはビデオを理解するための特定のモデルがあります。そして再び、私たちが人々と話すとき、彼らは理解しているか、少なくとも一日の終わりにビデオとは何かを解釈します。それは画像のシーケンスに過ぎませんが、ビデオははるかに複雑です。
シーンの遷移やこれらの種類のものを理解することは、私たちがビデオを分析し理解する方法の一部であり、これが私たちが内部に統合していることです。システムまたはモデルはシーケンスを理解し、ビデオが実行される方法を理解することができ、ビデオのいつでも人々は質問し、ビデオについて質問して回答を得ることができます。
最終的に、私たちには識別する必要がある非常に複雑な複雑なパターンがあります。これは視覚とビデオに関しては最も複雑なケースの一つです。そして再び、私たちはこれらの種類のものを理解し解釈するためにLLM、VLMを訓練することができました。
動画理解において、私たちは単純な画像の連続としてではなく、時間的な文脈とシーン遷移を含む複雑なメディア形式として捉えています。シーンの変化、オブジェクトの動き、時間経過に伴う状況の変化などを総合的に理解する能力を開発しました。
この技術により、ユーザーは動画の任意の時点で質問を投げかけることができ、システムは動画全体の文脈を理解した上で適切な回答を提供します。特に複雑なパターン認識が必要な場面では、視覚と動画処理において最も困難なケースの一つとされる課題に対しても、効果的に対応できることを実証しました。これらの能力は、監視、教育、エンターテインメントなど、様々な分野での応用が期待されています。
6.4 音声理解機能の統合
ハキム・ハシド:最後になりますが、音声についてはこれらよりも良いスライドを作ることができませんでしたが、私たちには音声を理解し分析することができるモデルの一部があり、少なくともベンチマーク側では、私たちがそこで持っている最高のモデルの一つです。
これらはベンチマークです。私たちには音声理解があり、そこでARベンチマークまたはベンチ基盤があります。再び、私たちがここで試みていることは、私たちは能力を構築し、テキストだけでなく理解できるツールを構築しましたが、異なるモダリティを融合または混合する能力を強化し、これらのことを理解できるようにしました。
音声理解機能の統合において、私たちは視覚やテキストと同様に、音声データに対する高度な理解能力を開発しました。ベンチマークテストでは、私たちの音声理解モデルは現在利用可能な最高水準のモデルの一つとして評価されています。
ARベンチマークやその他の標準的な評価基準において、優秀な性能を示しています。私たちの目標は単一のモダリティでの優秀性ではなく、テキスト、視覚、音声という異なるモダリティを効果的に融合し、統合的に理解できるシステムの構築です。この多様なモダリティの統合により、より人間に近い包括的な理解能力を持つAIシステムの実現を目指しています。
音声理解機能は、他のモダリティと組み合わせることで、より豊かで自然なユーザーインタラクションを可能にし、実世界のアプリケーションにおいてより実用的で汎用性の高いAIソリューションを提供します。
7. 実用アプリケーションの開発事例
7.1 モバイルデバイス上でのリアルタイム処理
ハキム・ハシド:アプリケーションの例をいくつかお見せします。3つほどお見せします。これが私が前に言ったことです。私たちは、これらのモデルがより小さなデバイスで動作するためのインフラストラクチャフットプリントを削減する多くの作業を行ってきました。
例えば、Falcon 3 ビジョン、VLMはiPhone上で動作することができます。私たちは多くの修正は行いませんが、私たちが行った様々なアーキテクチャの改善のおかげで、モデルはモバイルフォン上で直接ビデオを処理し、扱うことができます。
ビデオは少し長いですが、アイデアは私たちがモバイル上で直接、ネットワークなしでオフラインで、ビデオについて質問し、それについて回答を得ているということです。
モバイルデバイス上でのリアルタイム処理は、私たちの技術的成果の中でも特に実用的な価値を持つ分野です。Falcon 3 VisionがiPhone上で動作可能であることは、大規模なモデルの小型化と効率化が成功したことを示しています。
重要なのは、この処理が完全にオフラインで実行されることです。ネットワーク接続を必要とせず、デバイス上で直接ビデオ解析と質疑応答が可能になります。これにより、プライバシーの保護、通信コストの削減、そしてリアルタイム応答性の向上を同時に実現しています。
モバイルデバイス上での動作は、多くのアーキテクチャ改善の累積的な成果であり、単純な移植作業ではなく、根本的な効率化技術によって実現されました。この能力により、AI技術がより身近で実用的なツールとして日常的に活用できる環境が整いつつあります。
7.2 セキュリティ分野:バイナリ脆弱性検出
ハキム・ハシド:ファルコンセキュリティ、または私たちがそう呼んでいるファルコンセキュリティです。私たちは現在、これらのモーターを専門化することに取り組んでおり、これはモデル構築の分野のすべての人々が焦点を当てていることだと思います。これらのモデルをどのように専門化するかです。
ここで私たちはソフトウェアの脆弱性を理解または抽出することでファルコンを可能にすることについて良い進歩を遂げており、私たちはソースコードを扱っているのではなく、ソフトウェアに関してはバイナリを扱っており、いくつかの脆弱性を特定することができます。私たちは実際にそれをより強力にするためにその上に構築しています。
セキュリティ分野における私たちの取り組みは、従来のソースコード解析を超えて、より困難なバイナリレベルでの脆弱性検出に焦点を当てています。バイナリ解析はソースコードが利用できない状況でも脆弱性を特定できるため、実際のセキュリティ監査においてより実用的な価値を持ちます。
現在のファルコンセキュリティは、コンパイルされたバイナリファイルを直接解析し、その中に潜む脆弱性を自動的に特定する能力を持っています。これは従来の静的解析ツールや動的解析ツールとは異なるアプローチで、AIの学習能力を活用してパターンを認識し、潜在的な脆弱性を発見します。
私たちはこの基礎技術をさらに発展させており、より多様な脆弱性タイプの検出、精度の向上、そして実際のセキュリティワークフローへの統合を進めています。この技術は、サイバーセキュリティ分野において、より効率的で包括的な脆弱性評価を可能にする重要なツールとなることが期待されています。
7.3 戦術的意思決定支援システム「Tactica」
ハキム・ハシド:最後の例はTacticaです。Tacticaでは、実際に私たちは衛星画像を含む異なる情報源を集めており、例えばその上で推論を行い、オペレーターが理解し、非常に迅速にアラームを構築することができるように、推奨アクションを提供しています。
Tacticaシステムは、複数の情報源からのデータを統合し、戦術的な意思決定を支援する包括的なソリューションです。衛星画像という高度な視覚データを含む多様な情報源を活用し、それらを統合的に分析することで、現場のオペレーターに実用的な洞察を提供します。
このシステムの核心は、収集した多様なデータに対する高度な推論能力にあります。単純にデータを表示するだけでなく、AIが状況を分析し、推奨される行動方針を生成します。これにより、オペレーターは複雑な状況を迅速に理解し、適切な対応策を素早く決定できるようになります。
特に重要なのは、迅速なアラーム構築機能です。緊急事態や重要な変化が検出された際に、システムが自動的にアラートを生成し、オペレーターの注意を適切な事象に向けることができます。この能力により、時間的制約の厳しい戦術的環境において、より効果的で迅速な意思決定が可能になります。Tacticaは、AI技術が実際の作戦環境でどのように価値を提供できるかを示す具体的な事例となっています。
8. 将来展望と技術的課題
8.1 エージェント技術とLLMの関係性に関する洞察
ハキム・ハシド:次は何でしょうか?再び、現在ほとんどの人々はLLMについて話すよりもエージェントについて話します。それは公正な動きだと思います。それは普通のことだと思います。しかし、私たちが心に留めておく必要があることの一つは、LLMはまだそのすべての秘密を明かしていないということです。
私たちは、私たちが完全な能力で助けてくれるモデルを構築することに関して、まだやるべきことがたくさんあります。知性に関して言えば、私たちはまだ完全な知性を達成するには程遠いと思います。エージェントはおそらくより多くのことを自動化するためにそこにありますが、彼らは解決する必要がある問題も伴ってきます。
そして最終的には、これらのエージェントの基盤とバックボーンは、実際に私たちが構築している基盤モデルまたは基盤モデルの品質の下にあります。
エージェント技術への注目が高まっている現在の状況について、私は冷静な視点を提供したいと思います。エージェントが注目を集めることは自然な流れですが、その根底にある大規模言語モデルがまだ十分に発展していないという重要な事実を見落としてはなりません。
LLMは現在でも多くの未解決の課題を抱えており、真の知能に到達するためにはまだ長い道のりがあります。エージェント技術は確かに自動化の範囲を拡大する可能性がありますが、同時に新たな技術的課題も生み出します。信頼性、制御可能性、予測可能性など、エージェントシステム特有の問題が存在します。
最も重要なのは、エージェントの能力は結局のところ、その基盤となる言語モデルの品質に依存するという点です。どれほど洗練されたエージェントアーキテクチャを構築しても、基盤モデルが不完全であれば、エージェント全体の性能も制限されます。したがって、エージェント技術の真の発展のためには、まず基盤となるLLMの根本的な改善が不可欠です。
8.2 推論能力向上への取り組み
ハキム・ハシド:エージェントとの作業を可能にする最も重要なことの一つは、推論の部分です。私たちはこれらのモデルの推論能力の改善に取り組んでいます。私たちは、推論においてより有能で、ツールコーリングにおいてより有能で、エージェント的な種類の能力においてより有能な、近々登場するいくつかのモデルを持つべきです。
私たちの推論能力向上への取り組みは、単純な情報検索や応答生成を超えて、より高次の思考プロセスをモデルに組み込むことを目指しています。推論能力の向上は、エージェントシステムが複雑な問題を分析し、段階的に解決策を構築し、論理的な結論に到達するための基礎となります。
特にツールコーリング能力の強化は重要な焦点分野です。これにより、モデルは外部のツールやAPIを適切に選択し、使用し、その結果を統合して最終的な回答を生成できるようになります。この能力は、実際のエージェントが現実世界で効果的に機能するために不可欠です。
エージェント的な能力の向上とは、自律的な判断、計画立案、多段階のタスク実行などを含みます。私たちは近い将来、これらの領域すべてで大幅に改善されたモデルを発表予定です。これらの新しいモデルは、現在のLLMの制限を超えて、より実用的で信頼性の高いエージェントシステムの基盤として機能することが期待されます。
8.3 次世代アーキテクチャ探索の必要性
ハキム・ハシド:私たちが取り組んでいる2番目のことは、大規模言語モデルにおけるこのアーキテクチャの側面を本当に押し進めることです。私たちは再び、データに関して一定の停滞に到達し、そこで公的に利用可能なほぼすべてのデータを皆が消費したと信じています。
私たちが行う必要がある次の動きは、おそらくトランスフォーマー、トランスフォーマーパスを完全に再考し、訓練時により少ないインフラストラクチャを使用して高速に訓練でき、そして推論とこのモデルの消費に関してもより少ないインフラストラクチャを使用する新しいアーキテクチャを見つけることです。
現在の状況分析では、データ枯渇という根本的な課題に直面しています。公的に利用可能なデータがほぼ枯渇した今、従来のスケーリング法則に依存した性能向上は限界に達しています。この状況において、次のブレークスルーはアーキテクチャレベルでの根本的な革新から生まれると考えています。
Transformerアーキテクチャは過去数年間でAI分野を大きく前進させましたが、計算効率性と訓練コストの面で限界が見えてきています。私たちが探索している新しいアーキテクチャは、従来よりも高速な訓練を可能にし、同時に訓練時のインフラストラクチャ要件を大幅に削減することを目指しています。
さらに重要なのは、推論時の効率性です。実用的なAIシステムでは、訓練コストだけでなく、実際の運用時の計算コストも重要な要素です。新しいアーキテクチャは、推論時により少ないリソースで高性能を実現し、より幅広いデバイスとアプリケーションでの実用化を可能にする必要があります。これらの技術的挑戦が、次世代AI技術の鍵を握っています。
8.4 AI・ロボティクス融合の展望
ハキム・ハシド:アプリケーション側で私たちが取り組んでいることの一つは、これらのモデルをロボティクスの制御に使用する方法です。私の意見では、AIとロボティクスの融合は、アプリケーション側に関する次の動きです。来年は私と一緒にプレゼンテーションするためのロボットを持参することを期待しています。
私たちは、これらのモデルのより多くのアプリケーションを来年お見せできることを期待しています。しかし、アプリケーション側で取り組んでいることの一つは、これらのモデルをロボティクスの制御に使用する方法です。
AI技術とロボティクスの統合は、私たちの技術開発における次の重要なフロンティアです。現在までの私たちの成果は主にソフトウェア領域での知能の実現でしたが、物理世界での実体化された知能の実現こそが、真に変革的な応用につながると考えています。
ロボティクス制御への応用では、私たちの言語モデルの推論能力、マルチモーダル理解、そしてリアルタイム処理能力が統合されます。ロボットは視覚、音声、センサーデータを統合的に処理し、複雑な環境で自律的に動作する必要があります。これは、これまでの静的なAIアプリケーションとは全く異なる挑戦です。
来年のプレゼンテーションでロボットを同伴するという目標は、単なる展示以上の意味を持ちます。これは、私たちのAI技術が実際の物理的タスクを実行し、人間と自然に協働できる水準に到達したことを実証する重要なマイルストーンとなるでしょう。AIとロボティクスの融合は、製造業、サービス業、家庭用途など、あらゆる分野での応用可能性を秘めた次世代技術の核心となります。