2024-08-29 Microsoft Phi-3.5-vision および Phi-3.5-MoE 技術レポート

出展元

https://techcommunity.microsoft.com/t5/ai-azure-ai-services-blog/discover-the-new-multi-lingual-high-quality-phi-3-5-slms/ba-p/4225280

初回調査日

Aug 28, 2024 7:09 PM

キーワード

SLMPhi3.5小型AIVisonAI

1. はじめに

Microsoft の Phi-3 ファミリーは、小規模言語モデル（SLM）の分野で最も高性能かつコスト効率の高いモデル群です。言語、推論、コーディング、数学の様々なベンチマークにおいて、同サイズおよび大型モデルを上回る性能を示しています。2024年4月の初期リリース以降、顧客やコミュニティからのフィードバックを反映し、Phi-3.5-mini、Phi-3.5-vision、そして新たにPhi-3.5-MoEが開発されました。

2. Phi-3.5シリーズの概要

2.1 Phi-3.5-MoEの概要

概要

16のエキスパートモデルで構成（各3.8Bパラメータ）
総モデルサイズ：42Bパラメータ
アクティブパラメータ：6.6B（2つのエキスパート使用時）
20言語以上をサポート
コンテキスト長：128K

学習プロセス

安全性に関する堅牢な後処理戦略を採用
オープンソースおよび独自の合成指示・選好データセットを使用
教師あり微調整（SFT）と直接選好最適化（DPO）を組み合わせ
有用性、無害性、および複数の安全性カテゴリーに焦点を当てたデータセットを使用

性能

同サイズの密モデルを品質と性能の両面で上回る
言語理解と数学において、はるかに大きなモデルと同等のレベルを達成
推論能力では、より大きなモデルを上回る

多言語能力

多言語MMLU、MEGA、多言語MMLU-proデータセットで競争力のある性能を示す
6.6Bのアクティブパラメータでも、はるかに大きなアクティブパラメータを持つモデルと比較して非常に競争力がある

2.2 Phi-3.5-visionの概要

概要

マルチフレーム画像理解と推論のための最先端の機能を導入
詳細な画像比較、複数画像の要約/ストーリーテリング、ビデオ要約などが可能

性能向上

MMMU：40.4から43.0へ
MMBench：80.5から81.9へ
TextVQA（文書理解ベンチマーク）：70.9から72.0へ

主な機能

複数のスライドの要約
画像比較
マルチフレーム画像理解

注意点

多言語ユースケースに最適化されていないため、さらなる微調整なしでの多言語シナリオでの使用は推奨されない

安全性

Microsoft Responsible AI Standardに基づいて開発
多面的な安全性評価と後処理アプローチを採用
多言語機能を考慮した追加措置を実施
複数の言語とリスクカテゴリーにわたるテストを含む

最適化とデプロイメント

ONNX Runtimeを使用して様々なハードウェアターゲットで最適化可能
Azure AI StudioでのPhi-3.5-miniサーバーレスエンドポイントにGuidanceを導入
Guidanceにより、出力の予測可能性が向上し、コストとレイテンシーを30-50%削減

3. モデル性能比較

3.1 Phi-3.5-MoE 性能評価

モデル名	MMLU	HumanEval	正規化平均スコア
GPT-4o	0.887	90.2	100
Llama 3.1 (405B)	0.886	89.0	100
Claude 3.5 Sonnet	0.887	92.0	98
Llama 3.1 (70B)	0.860	80.5	95
Gemini 1.5 Pro	0.859	84.1	95
GPT-4o mini	0.820	87.2	88
Gemini 1.5 Flash	0.789	74.3	84
Phi-3.5-MoE	0.789	-	-
Llama 3.1 (8B)	0.694	-	66

Phi-3.5-MoEの性能評価：

MMLU: 0.789のスコアは、Gemini 1.5 Flashと同等の性能を示しており、大規模モデルに迫る言語理解能力を持っています。
HumanEval: 70.7のスコアは、コーディング能力が高いことを示しています。Gemini 1.5 Flashに近い性能です。
正規化平均スコア: 82は、はるかに大きなモデルと比較しても競争力のある性能を示しています。

特筆すべき点：

パラメータ効率: 6.6Bのアクティブパラメータで、100B以上のモデルに匹敵する性能を発揮しています。
多言語能力: 20言語以上をサポートしており、多言語タスクでも高い性能を示しています。
長文脈処理: 128Kのコンテキスト長をサポートし、長文書の処理に適しています。

3.1 Phi-3.5-vision 性能評価

モデル	MMMU (val)	MMBench (dev-en)	ScienceQA (img-test)	MathVista (testmini)	InterGPS (test)	AI2D (test)	ChartQA (test)	TextVQA (val)	POPE (test)	BLINK Tasks (平均)	VideoMME (平均)
Phi-3.5-vision	43.0	81.9	91.3	43.9	36.3	78.1	81.8	72.0	86.1	57.0	57.9
Phi-3-vision (前バージョン)	40.4	80.5	-	-	-	-	-	70.9	-	-	-
GPT-4o	61.78	83.8	88.4	54.4	46.9	82.8	64.0	75.6	87.0	-	-
Gemini 1.5 Pro	54.11	87.9	86.0	57.4	58.2	75.6	68.2	64.5	89.3	-	-
Claude 3.5 Sonnet	52.67	82.3	73.8	54.0	45.6	68.9	73.2	70.5	76.6	-	-
Gemini 1.5 Flash	49.33	85.7	84.5	55.3	39.4	78.4	57.6	67.4	86.1	-	-
InternVL 2 - 8B	46.33	87.0	95.9	51.1	53.2	81.4	80.4	68.8	84.2	-	-
InternVL 2 - 4B	44.22	83.4	94.9	53.7	45.6	77.3	78.8	66.2	83.3	-	-

注:

"-" はデータが提供されていないことを示します。
BLINK Tasks と VideoMME の平均スコアは、Phi-3.5-vision に特化したベンチマークであるため、他のモデルのデータが不足しています。
Phi-3-vision（前バージョン）のデータは、比較可能な項目のみ記載しています。

分析

MMMU (val):

Phi-3.5-vision は 43.0 で、前バージョンから大幅に改善しています。
ただし、GPT-4o や Gemini 1.5 Pro などの大規模モデルにはまだ及びません。

MMBench (dev-en):

81.9 のスコアは競争力があり、Claude 3.5 Sonnet を上回っています。
Gemini 1.5 Pro や InternVL 2 モデルには若干劣りますが、非常に近い性能です。

ScienceQA (img-test):

91.3 という高スコアは、このタスクでの Phi-3.5-vision の優れた能力を示しています。
InternVL 2 モデルに次ぐ高スコアで、他の大規模モデルを上回っています。

ChartQA (test):

81.8 のスコアは非常に高く、比較対象のモデルの中でトップです。
これは、グラフやチャートの理解において Phi-3.5-vision が特に強いことを示しています。

TextVQA (val):

72.0 のスコアは、前バージョンから改善しており、多くの大規模モデルと競争力があります。
GPT-4o には及びませんが、Gemini 1.5 Pro を上回っています。

POPE (test):

86.1 のスコアは非常に高く、多くの大規模モデルと同等以上の性能を示しています。

BLINK Tasks と VideoMME:

これらの新しいベンチマークでの性能は、Phi-3.5-vision のマルチフレーム画像理解とビデオ解析能力を示しています。
他のモデルとの直接比較はできませんが、これらの複雑なタスクでの性能は注目に値します。

4. コスト効率性

後日掲載予定

5. 処理速度と応答性

後日掲載予定

結論

Phi-3.5-MoEとPhi-3.5-visionは、Microsoft のPhi-3 ファミリーの中核を成す高性能モデルです。Phi-3.5-MoEは、小さなエキスパートを組み合わせることで高品質な性能と低レイテンシーを実現し、多言語サポートと強力な安全対策を備えています。一方、Phi-3.5-visionは、マルチフレーム画像理解と推論の分野で大きな進歩を遂げ、単一画像ベンチマークの性能も向上させました。

これらのモデルは、オープンソースコミュニティとAzure顧客に対して、コスト効率が高く高性能な選択肢を提供し、小規模言語モデルと生成AIの境界を押し広げています。