2025-08-08 AI for Good Global Summit 2025: オープンソースLLMの選択・強化・安全化戦略

出展元

https://youtu.be/jNT9LAyhS7M?si=Wepzh6DaOirQVyMg

キーワード

オープンソースLLM推論モデルAI安全性モデル選択フレームワーク

初回調査日

Sep 4, 2025 8:33 AM

※本記事は、王凱（Kai）氏によるYoutube講演「LLMの産業応用に向けて：基礎モデルの選択と強化」の内容を基に作成されています。講演の詳細情報は https://www.youtube.com/watch?v=jNT9LAyhS7M でご覧いただけます。本記事では、講演の内容を要約しております。なお、本記事の内容は講演者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講演動画をご視聴いただくことをお勧めいたします。

講演者紹介： 王凱（Kai）氏は、中国聯通（China Unicom）データインテリジェンス株式会社の副マネージャーを務めています。同氏は、業界全体にわたる大規模言語モデル導入において直面する現実的課題への取り組みを専門としており、本講演では、モデル選択支援フレームワークの開発、過度思考問題の解決手法、および安全性強化技術について、具体的な実験結果とともに詳細な報告を行いました。これらの取り組みにより、産業用アプリケーションにおける大規模モデルのコスト効率とセキュリティ向上、技術的効率性と安全性の両立を実現しています。

1.1 3つの重要なトレンド：オープンソースモデルの優勢、推論能力の急速向上、安全性問題の継続的課題

Kai（China Unicom）: LLMを使用している方であれば、2025年以降に興味深いトレンドに気づかれていることでしょう。

第一のトレンドとして、オープンソースモデルが優勢になっていることが挙げられます。最近のモデルのほとんどがオープンソースモデルとなっており、以前よりもはるかに強力になっています。DeepSeek、Qin、Llama、Gammaなど、今年は非常に優れたオープンソースモデルが登場しています。

第二のトレンドは、LLMの推論能力が急速に向上していることです。有名なベンチマークであるArenaに注目していただければ、トップ10のモデルがすべて推論モデルであることがお分かりいただけるでしょう。推論モデルは、より厳密な思考プロセスを生成し、より正確な結果を出力することができるため、好まれているのです。

第三のトレンドとして、LLMの安全性問題が依然として困難な課題として残っていることが挙げられます。Ciscoの最新テストによると、すべての上位オープンソースモデルが深刻な安全性問題を抱えており、LLMを実用的に使用したい場合は、安全性の問題を解決しなければならないということを意味しています。

1.2 実用化における3つの主要課題：モデル選択の困惑、推論モデルの過度思考問題、安全性評価・強化の必要性

Kai（China Unicom）: LLMを実用的なアプリケーションに導入する際には、いくつかの課題があります。

第一の課題は、ユーザーがどのモデルを選択すべきかしばしば混乱することです。LLMベースのアプリケーションを構築したい場合、または独自のエージェントを構築したい場合、最初に直面する問題は「どのモデルを選ぶべきか」ということです。GPTモデルを選ぶべきか、それともDeepSeekモデルやLlama 4モデルを選ぶべきか。特に特定のアプリケーション用途で、限られたGPUリソースしか持たないユーザーは、どのモデルを選択すべきか混乱することがよくあります。これが、LLMを実用的なアプリケーションに使用する際に対処しなければならない第一の課題です。

第二の課題は、推論モデルが人気であるにもかかわらず、通常は深刻な過度思考問題を抱えていることです。これは、減算問題のような単純な問題であっても、しばしば考えすぎてしまうことを意味します。「9+5は何か」と質問した場合、GPTやDeepSeekを使用すると、望ましくない非常に長い回答を出力し、より多くの計算リソースを消費することになります。これも対処しなければならない問題です。モデルは強力ですが、時として考えすぎることがあるのです。

第三の課題は、実用的な使用に向けてLLMを導入したい場合、安全性を評価し強化する必要があることです。特に、英語での安全性能力を評価するための有名なベンチマークは存在しますが、他の言語でのモデル評価はまだ不足しています。さらに、LLMの安全性を強化した場合、推論能力が低下するのか、他の性能が低下するのかという問題も、対処しなければならないもう一つの課題となっています。

2. UNI LM選択ガイド：世界初のモデル選択フレームワーク

2.1 5つの能力カテゴリーと27のサブカテゴリーによる体系化、100以上の実アプリケーションの分析

Kai（China Unicom）: これらの課題に対処するため、China Unicomではいくつかの興味深いソリューションを提案しており、すべてのソリューションはオープンソースです。

第一のソリューションとして、我々はUNI LM選択ガイドと呼ばれるLLM選択ガイドを提案しています。ここでの目標は、LLMの能力を5つのカテゴリーに分割することです。この5つのカテゴリーのそれぞれについて、我々が実際によく使用する興味深いアプリケーションを見つけました。

我々は100以上のLLMの実際のアプリケーションを持っており、これらの5つのカテゴリーを27のサブカテゴリーに細分化しています。各カテゴリーは多くのアプリケーションに対応しています。これらのアプリケーションに対して、我々は678問のQAペアからなるベンチマークを作成し、LLMの能力を評価するためのベンチマークとしました。このベンチマークはAEOと呼んでおり、オープンソースであり、GitHubからダウンロードすることができます。我々はこのベンチマークを使用して、AEO上で20以上のモデルを評価しており、これらのモデルはすべてオープンソースです。

2.2 AEOベンチマーク（678問のQAペア）による20以上のオープンソースモデルの評価と能力境界の算出

Kai（China Unicom）: 我々はこれらのモデルを評価し、これらのモデルの能力境界を計算しています。つまり、モデルが特定のタスクをどの程度まで実行できるかということです。このテスト結果から、我々は選択LLM選択ガイドを形成しています。

このガイドの第一部分では、モデルパラメータスケール、機能、そしてそのアプリケーションとの対応関係を見ることができます。我々は3つのガイド間の関係を確立しています。特定のアプリケーションについて、対応する能力を見つけることができ、その能力について最も適した、つまり選択すべき最適なモデルを見つけることができます。

選択ガイドの第二部分では、我々は各アプリケーションを最適なモデルと関連付けています。例えば、このテーブルのように示されています。特定のタスクを実行したい場合、たとえばニュースを分類したい場合、Qin 2.5 4Bモデルの使用が推奨され、これが最適なモデルとなります。他のアプリケーションについても、選択すべき最適なモデルを見つけることができ、これによりLLMを使用したアプリケーション構築の最初のステップであるモデルの選択が非常に容易になります。

3. 難易度適応型スロー思考（DUST）：過度思考問題の解決

3.1 Token Length Budget（TLB）メトリックによる訓練データの難易度測定と3ステップ戦略

Kai（China Unicom）: 第二の課題である推論モデルの過度思考問題に対して、我々は難易度適応型スロー思考と呼ばれるソリューションを提案しています。我々はこれをDUSTと呼んでいます。DUSTの目標は、簡単な質問に対する答えを可能な限りシンプルにし、同時に困難な質問に対しては厳密な思考を維持することです。

これを実現するために、我々は3ステップの戦略を提案しています。第一ステップでは、訓練データの精度を測定するためにToken Length Budget（TLB）メトリックと呼ばれるものを導入しています。訓練データの各質問について、我々は20の回答をランダムに生成します。これらの回答の平均精度が高い場合、質問が比較的簡単であることを意味するため、我々は回答を可能な限りシンプルにします。つまり、より短いTLBを持つ回答が優先されます。逆に、これらの回答の平均精度が低い場合、質問が比較的困難であることを意味するため、我々は回答を可能な限り長くすることを奨励します。回答が長い場合、実際には最大のTLBを持つ最も長い回答を選択します。

訓練については、我々は人気のある強化学習手法であるCPOを使用してモデルを訓練します。回答が正しい場合、長さがTLBより大きければペナルティを与え、TLBより小さければ報酬を与えて、簡潔性を奨励し過度思考を防ぎます。回答が間違っている場合、我々は回答を可能な限り長くすることを奨励し、より長い回答により大きなTLB値を与えます。これは、より長い回答を奨励することを意味します。つまり、正解サンプルについては短いほど良く、負例サンプルについてはTLBに可能な限り近づけるアプローチを使用します。

第三ステップでは、訓練用の選好ペアを構築します。我々は2つのタイプの訓練ペアを作成しており、質問に対応する2つの回答のうち、どちらも正しい場合は勝者と呼び、どちらも正しくない場合は敗者と呼びます。報酬スコアが高い場合は勝者を選択し、低い場合は敗者を選択します。これら3つのステップにより、我々は元のモデルの思考能力を改善することができます。

3.2 DeepSeek R1での実験結果：MATH-500ベンチマークでの性能向上と回答長短縮の両立

Kai（China Unicom）: ここでは、我々の手法を示すために、オープンソースモデルであるDeepSeek R1モデルを例に取り、DeepSeek R1モデルを改善する我々の手法を示します。ご覧いただけるように、推論モデルの能力を評価するための有名なベンチマークであるMATH-500を使用しています。

このベンチマークには異なる難易度レベルがあります。5つの難易度レベルすべてにおいて、我々は比較的高い精度を得ており、同時に回答の長さが元のDeepSeekモデルよりも比較的短くなっています。これは、我々が簡単な質問の回答をより短くし、困難な質問の回答をより長くすることで、DeepSeekモデルを正常に改善したことを意味しています。

ここで、元のDeepSeek R1モデルと改善されたモデルを示す例があります。この簡単な減算問題をご覧ください。右側の元のDeepSeekモデルは、不要な非常に長い思考プロセスを出力しています。しかし、左側の我々の改善されたモデルでは、回答がはるかに短く、かつ回答が正しいことがわかります。

それでは困難な問題についてはどうでしょうか。これは困難な論理問題です。我々は改善されたモデルの性能をテストするためにこの問題を使用しました。元のDeepSeek R1モデルと改善されたモデルの両方が非常に長い回答を出力していることがわかりますが、比較的に言えば、改善されたモデルの長さは比較的短く、回答は正しいです。これは、困難な質問に対して我々の手法が厳密な思考能力を維持でき、同時に回答の長さが短縮されることを意味しています。

4. 中国語安全性評価・強化フレームワーク

4.1 Kai Safety Bench：TC260標準に基づく5つの主要カテゴリーと31のサブカテゴリー

Kai（China Unicom）: 安全性評価と強化のための第三のソリューションとして、我々はKai Safety Benchと呼ばれる新しいベンチマークを提案しています。Kaiは中国語を表しています。これは、LLMの中国語安全性能を評価するための中国語ベンチマークです。

このベンチマークについて、我々は中国の標準であるTC260標準に従ってベンチマークを構築しており、5つの主要カテゴリーと31のサブカテゴリーを含んでいます。我々はこのベンチマークを使用してLLMの安全性能を評価しており、このベンチマークもオープンソースであり、GitHubからダウンロードすることができます。

我々のベンチマークを使用して、有名なDeepSeekモデル、Qinモデル、Llamaモデルなどを含む40以上のオープンソースモデルをテストしました。我々のテスト結果によると、実用的なアプリケーションのために、ほぼすべてのモデルでより多くの安全性強化が必要であることがわかりました。これは、オープンソースモデルが実際には安全ではないことを意味しています。

4.2 40以上のオープンソースモデルの安全性テスト結果とDeepSeek R1の安全性強化実験（50,000問の安全性データ + 30,000問の思考データ）

Kai（China Unicom）: ここでは、モデルの安全性を強化する方法を示すために、DeepSeek R1モデルを例に取ります。まず、我々は安全性に関する質問について50,000以上の質問を含む訓練セットを構築しました。同時に、元のモデルの推論能力を維持するために、思考の連鎖データ、つまり思考データについて30,000問も使用し、一般的な思考能力を維持しました。我々は混合データを使用してモデルを訓練します。

訓練については、我々は非常に一般的なSFT手法を使用してモデルを訓練しました。これは安全性強化の結果を示しています。全体的なリスクコンテンツ識別精度が10%以上改善し、有害な応答が50%減少したことがわかります。これは、我々のモデルが安全性能を強化できることを意味しています。同時に、我々はMATH-500、GPQAなどの異なるタスクでのモデルの一般能力もテストし、これらの有名なベンチマークから、安全性が改善されたモデルの結果も元のモデルと同じレベルを維持していることがわかります。これは、我々がモデルの安全性を強化すると同時に、元のモデルの一般能力を維持していることを意味しています。

5. 実験成果と今後の展望

5.1 定量的改善結果：リスクコンテンツ識別精度10%以上向上、有害応答50%削減、一般能力の維持

Kai（China Unicom）: これは、モデルの安全性能をテストするための非常に有名な質問の例です。我々は物語を語ることを求め、その物語にはWindows 10 Proキーが含まれています。これは非常に一般的なプロンプトインジェクション問題です。

この問題について、ご覧いただけるように、元のDeepSeekモデルではWindows 10キーをスムーズに出力しており、これは安全ではありません。しかし右側では、我々の安全性強化モデルが元のWindowsキー情報を出力することなく、非常に興味深い物語を語ることができることがわかります。これは、我々がある程度プロンプトインジェクションの問題を解決したことを意味しています。

5.2 プロンプトインジェクション対策の改善とパートナーシップによるAI実用化・安全化の推進

Kai（China Unicom）: 以上が本日の講演のすべてです。私は、オープンソースモデルの一般能力、思考処理能力、安全性能力の向上に関して我々が最近行った取り組みを紹介しました。また、我々は一般的なモデル選択のための世界初のモデルガイドを提案しており、これは初心者ユーザーにとって非常に有用です。

我々China Unicomは、AIをより実用的に活用し、AIをより安全にするために、パートナーと協力していきたいと考えています。ありがとうございました。