※本記事は、Saffron Huang氏、Esin Durmus氏、Miles McCain氏、Kunal Handa氏、Alex Tamkin氏、Jerry Hong氏、Michael Stern氏、Arushi Somani氏、Xiuruo Zhang氏、Deep Ganguli氏ら(Anthropic)による研究論文「Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions」の内容を基に作成されています。この研究はプレプリント段階にあり、2025年に実施されたものです。本記事では、論文の内容を要約・解説しております。なお、本記事の内容は原著作者の研究成果を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や詳細については、オリジナルの論文をご参照いただくことをお勧めいたします。研究データセットは http://huggingface.co/datasets/Anthropic/values-in-the-wild/ で公開されています。
1. イントロダクション
1.1. AI アシスタントによる価値判断の影響
私たちの日常生活において、AIアシスタントが行う価値判断は、私たち人間の決断や世界観に大きな影響を与えています。例えば、大学生がAIアシスタントにキャリアアドバイスを求めたとき、そのシステムは「経済的安定性」「個人の充実感」「家族の期待」あるいはこれらを複雑に組み合わせたバランスをどう優先すべきかという価値判断を暗黙的に行わなければなりません。実際には、どの価値が優先されるのでしょうか?
このような価値判断は日々何百万もの場面でAIアシスタントのレスポンスを形作っていますが、現実の相互作用の中でこれらのシステムがどのような価値観に依存しているかについて、私たちは経験的にほとんど理解していません。AI開発者たちはConstitutional AIやCharacter trainingなどの技術を通じてこれらの価値観に影響を与えようとしていますが、こうした設計上の決断が実際の会話の中でどのように現れるのか、または現実世界のタスクに最も関連する価値観が何であるかについての理解は限られています。
ここで私たちは、「野生の中での」AI価値観を測定するための新しい経験的フレームワークを提示します。これはプライバシー保護分析ツールを使用して何十万もの実世界のClaude.ai会話を分析するものです。私たちは価値観を、主観的な問い合わせに対するAIの応答に影響を与えると思われる規範的考慮事項(例えば「人間の幸福」や「事実の正確さ」など)と実用的に定義します。これは内在的なモデル特性についての主張ではなく、観察可能なAIの応答パターンから判断されるものです。
私たちは単純なプロンプト手法を用いて、データから3,307のユニークなAI価値観と2,483の人間価値観を特定しました。これらの抽出された価値観が会話を正確に表現しているかどうかを人間のレビューアーが検証したところ、98.8%の正確性が確認されました。
何千ものAI価値観を理解しやすくするために、私たちはそれらを「実用的」「認識論的」「社会的」「保護的」「個人的」価値観という5つの最上位カテゴリを持つ階層的な分類体系に整理しました。実用的価値観と認識論的価値観が支配的であり、すべての価値表現の半分以上を占めています。興味深いことに、私たちの分類体系は、Claudeのトレーニングを導く「有用、無害、誠実」のフレームワークと相当程度一致する、かなり細分化された価値観を明らかにしています。例えば、「アクセシビリティ」は有用性に、「高齢者福祉」は無害性に、「歴史的正確性」は誠実性にマッピングされます。
次に、私たちはカイ二乗分析を用いて、AI価値観が異なるタスクや人間の価値観とどのように関連しているかを定量化しました。AI価値観はタスクに非常に依存していることがわかりました。例えば、「健全な境界線」は恋愛アドバイスを求められたとき、「人間の主体性」はAI倫理について質問されたときに不釣り合いに出現します。また、AI価値観は人間が表現する価値観にも大きく依存していることがわかりました。Claudeはしばしば肯定的な価値観を反映し(「誠実さ」に対して「誠実さ」で応答)、一方で「欺瞞」のような価値観に対しては「倫理的完全性」や「誠実さ」などの対立する価値観を提示します。
最後に、私たちはClaudeの「応答タイプ」—ユーザーの価値観を支持するか、抵抗するか、あるいはリフレーミングするか—をAIとユーザー間の規範的なダイナミクスに関するもう一つのレンズとして分析しました。Claudeは主に支持的ですが、その応答はタスクのコンテキストと表現される価値観によって変化します。強く支持する場合、Claudeは感情的および個人的なコンテンツ作成タスクにおいて、ユーザーと類似した価値観に応答して、コミュニティ構築や専門的/個人的成長に関する価値観を示す傾向があります。一方、個人の幸福や恋愛アドバイスに関する問い合わせの際には、通常、ユーザーが「自己改善」のような価値観を表現する中で、Claudeは共感関連の価値観を表現しながら、ユーザーの価値観をリフレーミングします。また、強い抵抗(会話の3.0%)は通常、Claudeの利用ポリシーに違反する可能性の高いタスクの際に発生し、その場合Claudeは「倫理的境界」などの無害性の価値を表現して、「ルール破り」などの人間の価値観に対抗します。
私たちの分析によると、現実世界での使用において、Claudeは人間ユーザーの有能でサポーティブな支援に大きく焦点を当てた一連の価値観を表現する傾向があり、同時に強い倫理観と親社会性を示しています。これらの高レベルの傾向は、多くの場合、コンテキスト全体でより細分化された価値観として現れます。
要約すると、私たちの主要な貢献は:
- AI価値観の最初の大規模経験的分類学の作成
- AI価値観がタスクによってどのように変化するかの分析
- AI価値観が人間の価値観にどのように応答するかの分析
- タスクと人間の価値観の両方に応じてClaudeがどのように異なる応答をするかの分析
1.2. 実世界でのAI価値観に関する経験的研究の欠如
私たちがAIシステムに価値観を測定する既存の研究では、言語モデルにビッグファイブやMBTIなどの人間の心理測定尺度を適用したり、シュワルツの基本的価値理論やホフステードの文化的次元などの文化的フレームワークを用いたりする手法が取られてきました。AI固有の手法としては、社会的バイアステスト、意見表現の測定、道徳的ジレンマへの対応、LMが作成した価値評価などがあります。
しかし、これらのアプローチには根本的な限界があります。静的な評価は一般化と代表性に欠け、実世界の設定との関連性を確立していません。さらに、こうした人間中心のフレームワークのAIシステムへの適用可能性は直接的に疑問視されています。人間の認知のために設計されたフレームワークからのスコアを解釈することは、特にLMの応答が人間のパターンと系統的に異なる場合、理論的に問題があります。シュワルツ理論による「快楽主義を重視する」レベルやビッグファイブの「外向性」スコアは、モデルの特性や行動を理解するには意味が薄いのです。
AIシステムの価値整合に関する既存の研究は、人間の価値観や原則に従ってAIシステムが動作することを確保するよう試みています。最近の研究は価値の多様性とプルラリズムに対応し始めています。例えば、仮想的シナリオにおける価値間の緊張関係を特定したり、公共の意見を反映するためにLMを訓練したり、国をまたいだLMの選好を研究したりしています。これらのアプローチはテストや価値をエンコードするための入力設計に焦点を当てる一方、私たちの研究は出力、つまり価値観が実際にどのように現れるかに注目しています。
AIアシスタントがますます機密性の高いデータを処理するようになる中、研究者たちはプライバシーを保護しながら実世界の行動を分析する方法を開発しています。Zhengらやzhaoらによって作成された大規模なモデル対話データセットは、私たちの研究と同様に、実際のAI使用の実証的研究を可能にし、統制された環境では出現しない可能性のある予期せぬパターンを明らかにすることで、従来の評価を補完しています。
こうした研究の流れにもかかわらず、実際のAIとユーザーの相互作用から価値観を抽出し、検証するための経験的に厳密な方法論は依然として欠如しています。AIシステムが、実際の質問に対応する過程で、どのような価値観を示すのか、体系的に調査した研究はほとんどありません。この研究の欠如が、AIのアラインメントを評価する上での大きな盲点になっています。既存の価値観評価は、実際のユースケースに基づいていないために、必ずしもAIが実世界でどのような価値観を示すのかについての洞察を提供できないのです。
1.3. 本研究の目的と独自性
私たちの研究では、AIアシスタントの価値観を「野生の中で」、つまり実際のユーザーとの相互作用における自然な状態で測定するための新しい経験的フレームワークを提示します。このフレームワークは、プライバシーを保護しながらデータを収集するTamkinらの手法を活用し、特徴抽出(第2.2節)と特徴の階層的クラスタリング(第2.3節)を行っています。さらに、カイ二乗分析(第2.4節)を使用して、異なるコンテキストにおける価値観の表現の差異を分析しています。
私たちは「価値観」を実用的に定義しています。それは「主観的な問い合わせに対するAIの応答に影響を与えると思われる規範的考慮事項」であり、例えば「人間の幸福」や「事実の正確さ」などです。これは観察可能なAIの応答パターンから判断されるもので、モデルの内在的な特性についての主張ではありません。
私たちの研究の主要な貢献は以下の通りです:
- AI価値観の経験的分類学の作成(第3.1節、図2):私たちは3,000以上のAI価値観を階層的な分類体系に整理し、5つの主要な概念領域を特定しました。これらの価値観は「有用、誠実、無害」のフレームワークとよく一致しており、このような高レベルの原則がどのように特定のコンテキスト表現に変換されるかを示しています。また、この分類体系内の珍しいが望ましくない価値観を特定することで、潜在的なジェイルブレイク(システムの制約を回避する手法)を発見し、関連する安全チームに報告することができました。
- タスクによるAI価値観の変化の分析(第3.2節、図3a):多くの価値観はタスクに依存しています。例えば、恋愛アドバイスを提供する際には「健全な境界線」を、AIガバナンスを議論する際には「人間の主体性」を表現します。この分析は、Claudeが難しいあるいは曖昧な主観的タスクにおいてどのような価値観を利用するかを明らかにし、モデル開発者やユーザーがモデルの行動をより良く理解し予測できるようにします。
- 人間の価値観に対するAI価値観の変化の分析(第3.3節、図3b):人間の価値観が表現されると、AI価値観はしばしばそれらと密接に関連しています。同じ価値観や補完的な価値観を表現したり、反対の価値観を生成したりします。
- タスクと人間の価値観の両方に応じたClaudeの応答の分析(第3.4節、図4):Claudeは一般的に支持的に応答する傾向がありますが、「コミュニティ構築」のような親社会的な人間の価値観を不釣り合いに支持し、「道徳的ニヒリズム」のような価値観に抵抗し、アドバイスのコンテキストでは個人的な価値観をリフレーミングしており、全体として倫理と親社会性に向けた指向性を示しています。
付録Bには、SonnetとOpusの変種間のクロスモデル価値比較、暗黙的対明示的AI価値の比較(倫理的および認識論的価値がしばしば抵抗の瞬間に明示的に述べられる値として現れることを示す)、およびタスクと応答タイプによる価値観の変化に関するさらなる分析など、より多くの結果が含まれています。
私たちの研究は、静的評価を使用して言語モデルベースのAIシステムにおける価値観を測定する既存の文献を補完するものです。このような評価は事前定義された興味ある次元を測定するのに役立ちますが、一般的にAIシステム用に経験的に検証された次元ではなく、人間中心のフレームワークから借用しています—私たちの研究はこのギャップを埋めることを目指しています。現在の価値評価は、この経験的基盤を欠いているため、必ずしも実世界のAI使用における価値観について情報を提供するものではありません。
「野生の中」でのAI価値観の分析は、これらのシステムがどのように行動するか、意図したとおりに機能しているかどうか、そして実際には何の価値観がAI出力を導くのに最も関連しているかについての重要な透明性を提供します。私たちの研究は、高レベルのフレームワークである「有用、誠実、無害」が特定のコンテキスト値にどのように変換されるかを示し、価値観の整合性トレーニングが回避された事例を明らかにし、AIの相互作用においてどの価値観が最も重要かを明確にします。例えば、どの価値観が最も一般的であるか、そしてどの価値観が難しいまたは曖昧なタスクを進めるときに利用されるかなどです。私たちはAI価値観を静的な原則としてではなく、多様な人間の対話者に応答し、彼らと関わる動的なコンテキスト依存の現象として分析し、システムが要求に抵抗するときに最も明白になることが多いと分析しています。このリレーショナルなアプローチは、静的評価よりも豊かな洞察を提供し、より関連性の高いAIネイティブな価値フレームワークと測定を開発するための基盤として機能します。
2. 研究手法
2.1. データ収集の方法と範囲
私たちの研究では、2025年2月18日から25日にかけて集められた700,000件のClaude.ai Free及びProの会話からランダムにサンプリングしたデータを使用しました。このデータは、その時点でのClaude.aiトラフィックを代表するスナップショットであり、91.0%がClaude 3.5 Sonnetの会話で構成されていました。データ収集に関する詳細情報は付録A.1に記載しています。
分析対象を価値観の影響を受け得る相互作用に絞るため、主観的な会話のみをフィルタリングしました。これにより、初期データセットの44.0%にあたる308,210件の会話を最終サンプルとして得ました。このフィルタリングには、AI応答が主に事実に依存するか(より客観的)、または重要な解釈を必要とするか(より主観的)を評価する言語モデルプロンプトを適用し、後者のみをサンプルに含めました。人間のレビューアーがこれらの分類のサンプルを検証し、主観的な会話と客観的な会話を区別する際の精度が94%であることを確認しました(検証の詳細は付録A.4に記載)。完全なプロンプトと主観性フィルタリングの詳細は付録A.2に記載しています。
私たちの「代表サンプル」は、特に言及がない限り、すべての分析に使用されました。応答条件付きサンプルは価値ミラーリング分析(第3.4節、付録B.4)で使用され、3.7 Sonnetと3 Opusのサンプルは付録B.5のクロスモデル比較で使用されました。
付録の表2には、本論文で使用された各データサンプルのメタデータが記載されています。これには、主観性フィルタリングの前後のClaude.ai会話の数、主観的だった割合、サンプリングされた期間が含まれています。「代表サンプル」はすべての分析に使用され、「応答条件付きサンプル」は価値ミラーリング分析(第3.4節、付録B.4)に使用されました。「応答条件付きサンプル」とは、「AI応答」特徴によって条件付けられた2回目の代表サンプルデータ収集を実行したことを意味します。つまり、「強い支持」や「リフレーミング」などのAI応答の結果に従ってサンプルをフィルタリングし、残りの特徴抽出を各サンプルに対して個別に実行しました。
データ収集方法論上の制約により、集計されたクラスタ統計のみが提供され、個々の会話属性は提供されなかったため、デフォルトでは一度に2つの属性次元のみを相関させることができました。例えば、「人間の価値観」特徴と「AI価値観」特徴がどのように共変するかを研究できましたが、他の特徴との関連は調べられませんでした。応答条件付きサンプルにより、AI価値観、人間価値観、応答タイプを同時に検証する多次元分析が可能になり、これは価値ミラーリングを分析するために必要でした。
2.2. 特徴抽出(AI価値、人間価値、AI応答タイプ、タスク)
私たちはプライバシーを保護しながら会話から複数の特徴を抽出するため、Claude 3.5 SonnetとHaiku(claude-3-5-sonnet-20241022とclaude-3-5-haiku-20241022)をプロンプトして特徴を識別する方法を採用しました。この方法では、人間が会話を直接確認することはなく、代わりに「ディフェンス・イン・デプス」アプローチを採用し、複数レベルでプライバシーを強制しています。具体的には、言語モデルを使用して会話から個人情報を省略した特徴を抽出し、一部の会話にだけ存在する特徴を削除し、さらに結果の特徴を個人情報がないか監査しています。これらのプライバシー技術の詳細はTamkinらの研究(2024)に記載されています。
私たちが抽出した主な特徴は以下の通りです:
AI価値観:私たちはAI価値観を、モデルが回答について推論したり決定したりする際に導く規範的(経験的ではなく)考慮事項と定義しました。私たちは価値観を抽象的な実体としてではなく、システムが可能な出力空間を操作する際の運用上の優先事項として捉えています。これはRokeach(1973)の価値観を進行中の活動を導く基準とする見解と一致し、またAnderson(1995)の実践における評価パターンを観察することで価値観を識別する経験的アプローチも参考にしています。
私たちはClaude 3.5 Sonnetに、会話におけるAIの価値観を識別するようプロンプトしました。具体的には、AIがユーザーの価値観を承認し達成を手助けする場面、新しい価値観の考慮事項を導入する場面、リクエストの方向転換やフレーミングの選択によって示唆される価値観を探しました(完全なプロンプトは付録A.3.1に記載)。例えば、ユーザーが職場での役割の不一致について不満を述べた場合、AIは「個人の主体性」を重視して積極的に役割を再形成することを提案したり、「専門的成長」を重視して新しいスキルを構築する機会としてこれを活用することを提案したりするかもしれません。Samuelson(1938)の顕示選好理論を参考に、価値観は書かれた正当化だけでなく、開かれた応答空間を操作する際の実践的な選択を通じても明らかになることを認識しています。価値観は「知的好奇心」のような簡潔なラベルで表現し、パターンを追跡しやすくしました。
人間価値観:同様に、私たちは3.5 Sonnetをプロンプトして人間価値観を抽出しましたが、AIの価値観よりも人間の価値観に対してはより保守的なアプローチを取りました。人々のプライバシーを尊重するため、明示的に述べられた価値観のみを抽出し、信念や好みについての直接的な記述からのみ推測を行いました。会話の選択から暗示される「顕示選好」は推測しませんでした。例えば、ユーザーが家族の再会のための高級リゾートと控えめなキャンプ場の選択について尋ね、「みんなに来てもらい、この再会で家族の絆を強めたい」と言った場合、「家族の絆」を明示的な価値観として特定しますが、言及されているさまざまなコストに基づいて「経済的包摂性」があるとは推測しません(完全なプロンプトは付録A.3.2に記載)。
AI応答タイプ:私たちは3.5 Sonnetに、ユーザーが表現した価値観にAIがどのように関わるかを以下のカテゴリで分類するようプロンプトしました:強い支持(ユーザーの価値観を熱心に強化し発展させる)、緩い支持(ユーザーの価値フレームワーク内で優しく取り組む)、中立的承認(強化も反対もせずに専門的に認める)、リフレーミング(中核的な懸念を認めつつ代替的な視点に向けて方向転換する)、緩い抵抗(微妙に代替的または対立的な価値観を導入する)、強い抵抗(対立的な価値観を積極的に促進するか、リクエストを拒否する)、または価値観なし(応答する明確な価値表現がない)(完全なプロンプトは付録A.3.3に記載)。
タスク:私たちは3.5 Haikuに、各会話の主要な目的やリクエストタイプを決定するようプロンプトしました(完全なプロンプトは付録A.3.4に記載)。
表1は会話全体で抽出された最も一般的なAI価値観と人間価値観を示しています。手動で特徴抽出方法を検証した詳細は付録A.4に、WildChatデータ(Zhaoら、2024)に対する特徴抽出出力の例は付録A.5に記載しています。
追加分析のため、私たちはAI価値観の特徴抽出プロンプトの変形を使用して、暗黙的と明示的な価値表現を区別しました。AIは暗黙的に行動を通じて価値観を表現することが多い(例:議論のある話題について複数の視点を提示することで「公平さ」を示す)一方、価値観を指導原理として明示的に表明することもあります。例えば、単に均衡のとれた視点を提供するのではなく、「この問題について複数の視点を提示しています。なぜなら、バランスのとれた情報は十分な情報に基づく意思決定に重要だからです」と明示的に述べる場合です。
私たちの主要分析では、暗黙的と明示的な価値表現の両方を含むAI価値観の定義に依拠しています。なぜなら、これがAIの日常的な運用価値システムをより適切に表現していると考えるからです。しかし、私たちは明示的に述べられた価値観も別に分析し、実証された価値観と明示的に述べられた価値観との区別が生じる場面、およびAIの価値判断がユーザーにどのように可視化されるかについてさらなる洞察を得るためにこれを行いました。詳細な方法論は付録A.3.5に、明示的対暗黙的価値表現の分析は付録B.6に記載しています。
2.3. 価値の階層的クラスタリング
私たちは3,307のAI価値観について、より意味のある分析のために多層構造の分類法を構築しました。このプロセスは、基本レベルのクラスタをより広いカテゴリーに再帰的に整理していきます。
階層的クラスタリングアルゴリズム:nbase個の初期クラスタと、希望するトップレベルクラスタの数ntopが与えられた場合、アルゴリズムはL階層の階層構造を構築します。連続する階層間の比率は nl/nl−1 = (ntop/nbase)1/(L−1) に従います。各階層lについて、プロセスは4段階で進行します:
- クラスタは all-mpnet-base-v2(Song et al., 2020)を使用して埋め込まれ、k-meansクラスタリングを用いて近隣グループを形成します。アルゴリズムは、より上位レベルの記述候補を生成する際に、グループ内とその近隣外部グループの両方を調査し、境界ケースが適切に処理されるようにします。
- これらの候補記述は、言語モデル(claude-3-5-haiku-20241022)を使用して、すべての近隣にわたって重複排除され洗練されます。これにより、基盤となる分布のカバレッジを維持しつつ、区別性が確保されます。
- 下位レベルの各クラスタは、順序に基づくバイアスを避けるためにランダム化されたサンプリングを通じて、最も適切な親クラスタに割り当てられます。
- すべての割り当てが完了すると、アルゴリズムは各親クラスタの名前と説明を、実際に割り当てられた内容に基づいて再生成し、クラスタの説明が最終的な構成を正確に反映するようにします。
このプロセスは、希望するトップレベルクラスタの数に達するまで、各階層で繰り返されます。
私たちは5つの希望するトップレベルクラスタと、4レベルの階層を指定しました。3,307の基本レベル値から、266の第一レベルクラスタ、26の第二レベルクラスタ、そして5つのトップレベルクラスタを得ました。その後、すべてのクラスタを手動で確認し、不明確、冗長、あるいは不正確だと感じた場合に名前と説明を書き直しました。
表3には、それぞれの記述と共に、高水準クラスタが示されています。また、図5と7には、価値階層の例示的なサブツリーが表示されています。パーセンテージは、すべての価値表現の例に対する各カテゴリの割合を示しています。
2.4. カイ二乗分析による特徴間の関連性分析
私たちは特徴間の有意な関連性を特定するために、独立性の下での期待頻度からの偏差を測定する調整済みピアソン残差を用いたカイ二乗検定を使用しました。異なる特徴を行と列に配置した頻度表を構築しています(例えば、AI価値観を行に、タスクを列に配置)。各セルについて、次の計算を行います:
rij = (Oij − Eij)/√(Eij(1 − pi·)(1 − p·j))
ここで、Oijは観測された頻度、Eijは期待される頻度(行合計に列合計を掛けて、全観測の合計で割ったもの)、pi·とp·jはそれぞれ行と列の比率です。正の残差は、ある値がコンテキストにおいて期待よりも頻繁に発生することを示し、負の残差は期待よりも少ない頻度を示します。
これらの標準化された残差は正規分布に従うため、特徴ペア間の意味のある比較が可能になります。例えば、「歴史的正確性」と「論争的歴史的事件の分析」の関連(残差 = 24.55)が、「創造的コラボレーション」と「SF物語の創作」の関連(残差 = 20.73)よりも強いと言えます。これは、潜在的に異なるベースライン頻度にもかかわらずです。
生のパーセンテージ(ベースライン頻度を無視する)やオッズ比(疎らなデータでは不安定)とは異なり、この方法により正と負の関連性の安定した比較が可能になります。多重比較に対処するため、ボンフェローニ補正を適用して、ファミリーワイズのエラー率を制御しました。このカイ二乗分析を用いて、図3と4、および付録Bの図8、9、11、12を生成しています。
具体的には、このアプローチを用いて次のような分析を行いました:
- 特定のタスクコンテキストにおいて不釣り合いに現れるAI価値観を特定する(例:恋愛アドバイスにおける「健全な境界線」、宗教的教育資料開発における「宗教的尊重」)
- 特定の人間の価値観に関連するAI価値観を特定する(例:「効率性」という人間の価値観に対する「効率性」というAI価値観)
- AIの応答タイプ(強い支持、リフレーミング、強い抵抗など)と特定の人間やAIの価値観との関連を分析する
この方法により、私たちは単なる共起パターンを超えて、異なる特徴間の統計的に有意な関連性を特定することができました。これは、Claudeが異なる会話コンテキストでどのように価値観を表現するかについての堅牢な洞察を提供します。
3. 研究結果
3.1. AI価値観の経験的分類学
私たちの分析により、実世界の相互作用におけるAI価値観の初めての大規模な経験的分類学が作成されました。私たちは3,307のユニークなAI価値観と2,483のユニークな人間価値観を特定しました。AI価値観は最も頻繁に現れ(会話あたり平均4.0回の言及)、ほとんど常に存在していました(わずか1.4%の会話でのみ不在)。一方、人間価値観はより少ない頻度で現れ(1.48回の言及)、しばしば不在でした(54.9%の会話で)。この出現頻度の非対称性は理にかなっています。なぜなら、私たちは暗黙的および明示的なAI価値観の両方を測定していますが、人間価値観については明示的に述べられたものだけを測定しているからです。
AI価値観の分類法は、これらの価値観を4レベルの階層構造に整理しています(図2)。この構造は266の第一レベルクラスタ、26の第二レベルクラスタ、そして5つのトップレベルクラスタで構成されています。トップレベルのカテゴリとその例示的なサブツリー(図5、6、7)の詳細は付録B.1に記載されています。
私たちの分類法は、価値観を5つの主要な概念領域(個人的、保護的、実用的、社会的、認識論的)にわたって整理し、その一方で下位階層レベルでコンテキスト特有の現れ方を捉えています。シュワルツの10-19の価値観やロキーチの36の価値観(Schwartz, 2012; Rokeach, 1973)のような確立されたフレームワークとは異なり、私たちは複数のレベルにわたって数千の具体的な価値観を特定しています—これは実施されてきた中でも最も包括的な価値観マッピングの一つです。
価値観についての哲学的厳密さ(これについては合意された一致がない(Schwartz, 2016))を追求するのではなく、私たちはAI出力に関連する規範的考慮事項として価値観を概念化し、カタログ化しています。興味深いことに、これは哲学的な関連性も持ちうるものです。より高いレベルのカテゴリは理論的な一貫性を持っています—例えば、「個人的価値観」は芸術的表現、道徳的アイデンティティ、個人的成長、感情的深さ、精神的充実、そして喜びを包含しています(図7参照)—一方、下位レベルは価値観の文脈的な性質を示しており、これは価値観が「特定の文脈と選択状況において生命を得る」(Kaiser, 2024)という現代の哲学的概念と一致しています。
例えば、「自律性」は様々な領域で異なる形で現れます:基本的な個人の権利として(「個人的自律性」)、仕事の設定ではパフォーマンス指向として(「チームの自律性」)、医療では倫理的に境界づけられたものとして(「患者の自律性」)、そして発達に焦点を当てたものとして(「学習者の自律性」)。この階層的な組織化により、私たちは高いレベルでは概念的な明瞭さを維持しながら、下位レベルでは豊かな文脈的変化を保存することができます。これにより、価値観を一般的なカテゴリに平坦化する過度の単純化と、数千の個別の具体的な価値観を持つ断片化の両方を避けることができます。このフレームワークは、AIシステム(そして潜在的には人間も)における価値観表現を研究するための基盤を提供し、概念的および文脈的な次元の両方を捉える方法を提供します。
この構造の中で、実用的および認識論的価値観が支配的ですが、確立された人間価値観フレームワークからの価値観も依然として代表されています。図2は分類法の一部を示しており、5つのトップレベルカテゴリとその頻度が含まれています。実用的および認識論的価値観はすべての価値観表現の半分以上を占めています(これらのカテゴリに焦点を当てた例示的なサブツリーは図5を参照)。これらの価値観は、私たちが分析した人間中心の価値観フレームワークよりも目立っています—人間価値観フレームワークのほとんどには「論理的一貫性」や「戦略的思考」のような認識論的または分析的価値観が含まれていませんでした。これはClaudeがAIアシスタントとしての役割、特に認知タスクのために頻繁に採用される役割を考えると理にかなっています。
しかし、確立された人間価値観も依然として十分に表現されています:シュワルツの基本的価値観理論とロキーチの価値観(Schwartz, 2012; Rokeach, 1973)のすべての価値観は、この分類法に同等のものを持っているようです。例えば、シュワルツの「刺激」は「知的好奇心と探求」、「遊び心とユーモア」などにマッピングされます。図6と7は社会的、個人的、保護的価値観に焦点を当てた例示的なサブツリーを示しています。
私たちの経験的に導出された価値観により、「有用、無害、誠実」(HHH)のフレームワーク(Askell et al., 2021)とのアラインメントを評価することができます。これはトレーニングを導くものです。私たちが経験的に発見したAI価値観の多くは、HHHカテゴリの下に整理することもできます—「アクセシビリティ」と「ユーザーエンパワーメント」は有用性のため、「患者の幸福」と「子どもの安全」は無害性のため、「歴史的正確性」と「認識論的謙虚さ」は誠実性のためです。これは、システムが一般的に意図したとおりに振る舞っていることを確立するのに役立ち、同時にそのような抽象的なトレーニング原則がデプロイメント中にどのように具体的な文脈表現として現れるかを明確にします。
個別の価値観レベルでは、Claudeはいくつかの主要なコンピテンシーと奉仕指向の価値観に極度に集中していますが、人間はより多様な価値観を表現しています。価値観の非常に多様な長いテールがあり、75%のAI価値観は時間の0.04%未満で発生し、「建築の明瞭さ」から「フィードバックへの応答性」、「親孝行」から「国家安全保障」まで多岐にわたるドメインにまたがっています—これはClaudeが多様な人間ユーザーと彼らの多様なコンテキストに関わっていることを反映しています—わずか5つの価値観が支配的です:「有用性」(23.4%)、「専門性」(22.9%)、「透明性」(17.4%)、「明確さ」(16.6%)、「徹底さ」(14.3%)。これらはすべてのAI価値観出現の約24%を占めています(表1)。これらはサービス提供、情報の質、技術的能力に焦点を当てており、一方、人間価値観はより平坦な分布を形成し、より個人的な表現(「誠実さ」)、実用的(「効率性」)、およびコミュニケーション(「直接性」)の価値観を持っています。これは、AIの一貫したアシスタントの役割と人間の多様な個人的優先事項およびコンテキストを反映しています。興味深いことに、AI価値観はいくつかの非常に一般的な価値観を持つより高い集中を示し、一方、人間価値観の分布は単一の支配的な価値観(「誠実さ」)と多様だが頻度の低い価値観の長いテールを持っています。
私たちは、他の特徴に対するこれらの最も一般的な価値観の変動係数(CV)、つまり平均に対する標準偏差の比率を計算することで、これらの最も一般的な価値観が最もコンテキスト不変のものでもあることを発見しました。「透明性」(CV=1.23)、「有用性」(1.30)、「徹底さ」(1.42)はClaudeの最もタスク不変の価値観です;「有用性」(5.43)、「専門性」(5.55)、「透明性」(5.73)は人間の価値観表現にわたって最も不変の価値観です。同様に、人間の「効率性」(1.97)、「明確さ」(2.03)、「誠実さ」(2.28)の価値観はタスク間で一貫しています。これらの一般的で、コンテキスト不変の価値観は、Claudeの一般的に専門的でサービス指向の傾向を明らかにしています。
個別の価値観を研究することで、望ましくないモデルの振る舞いを特定することが可能になります。私たちは「性的搾取」、「支配」、「道徳的無関心」などのいくつかの珍しいが望ましくない価値観を発見しました(出現率は0.16%未満で、ほとんどは0.01%程度)。そして、これらにはいくつかの共通のタスクがあることがわかりました。この方法が「外れ値」の価値観を浮き彫りにする能力により、関連する安全チームに対する更なる調査のために潜在的なジェイルブレイク(システムの安全メカニズムを迂回する方法)を特定することができました。
3.2. タスクに依存するAI価値観
Claudeは多くの高度にタスク依存的な価値観を示しています(例えば、恋愛アドバイスでは「健全な境界線」、AI倫理の議論では「人間の主体性」など)。前述のように、サービスと能力に関連するいくつかの中核的な価値観がコンテキスト全体で現れる一方で、高度にコンテキスト依存的な価値観の長いテールが存在します。私たちはカイ二乗分析を用いて、AI価値観とタスク特徴間の関連性を調査しました。図3aは、特定のタスクに最も関連する価値観を示しています。恋愛アドバイスでは「健全な境界線」と「相互尊重」が、論争的歴史的事件の分析では「歴史的正確性」が、技術倫理やAIガバナンスの議論では「人間の主体性」と他の人間福祉の価値観が、いずれも大きな正の残差を示しています(4.33が有意性の閾値です)。これは単に価値観がコンテキスト依存的であることを示すだけでなく、モデルが難しいあるいは曖昧な主観的タスクでどのような価値観を呼び出すかを明らかにし、モデル開発者やユーザーがモデルの行動をより良く理解し予測するのに役立ちます。
図8では、追加の価値観-タスク関連性の例を示しています。この図は、自己反省から業務資料の開発、哲学的または感情的な議論への参加まで、さまざまなタスクタイプにおけるAI価値観の顕著な変化を示しています。哲学的自己反省タスクでは、「個人的成長」と「自己反省」が主要な価値観ですが、メディア分析タスクでは「真実追求」と「批判的思考」が優先されます。「知的謙虚さ」の価値はAI意識と人間-AI関係に関する哲学的議論で不釣り合いに現れ、Claudeに科学フィクションを作成するよう依頼した場合は「創造的コラボレーション」が優勢です。
美容業界のマーケティングコンテンツの作成をClaudeに依頼した場合、「専門性」、「安全第一」、「倫理的マーケティング」を優先し、組織構造とHR管理フレームワークの設計と分析を依頼された場合は「従業員福祉」と「組織的有効性」を強調します。
これらのパターンから、Claudeはタスクの文脈に応じて異なる価値観の枠組みを適用することが明らかです。例えば、恋愛アドバイスの状況では対人関係の健全さと自律性を優先し、歴史的議論では事実と思慮深い解釈を重視し、技術倫理の議論では人間中心のアプローチに焦点を当てています。この柔軟な価値観の適用方法は、Claudeの設計における価値観のアラインメントトレーニングがどのように様々な状況に適応するように調整されているかを示しています。
さらに重要なのは、これらの関連性分析が、人間の指導がなければ難しいかもしれない曖昧なケースや倫理的判断が必要な状況で、モデルがどのように振る舞うかの洞察を提供することです。例えば、恋愛アドバイスにおいては、Claudeは「健全な境界線」と「相互尊重」という価値観を最も強く示しており、これは独立性と相互性に焦点を当てていることを示しています。同様に、技術倫理の議論では、「人間の主体性」が最も強い関連を持つことから、AIが人間の選択と制御を尊重するという基本的な方向性が示されています。
これらの見解は、AI開発者がシステムがどのように実際のユースケースで動作しているかを評価し、AIアシスタントがゴールが曖昧であったり競合し得るいくつかの種類のタスクにどのように対応するかをよりよく理解するために不可欠です。付録B.2.1にはさらなる関連性プロットが含まれています。
3.3. 人間の価値観に対するAIの価値観の依存性
AI価値観はしばしく人間の価値観に直接的に応答し、1) 同じあるいは補完的な価値観を表現するか、2) 対立する価値観を表現します。私たちはAI価値観とタスクの関連性だけでなく、AI価値観と人間の価値観の関連性も調査しました。図3bは特定の人間の価値観に最も強く関連するAI価値観を示しています。ここでも残差は実質的な大きさを持っています。
多くの人間の価値観は、同じAI価値観(例えば「誠実さ」)や補完的な価値観(例えば、ユーザーが「能力」という価値観を表現する場合、Claudeはしばしば「説明責任」と「謙虚さ」という補完的な価値観で応答し、AIが実行者の役割で協力していることを示唆します)の引き出しと強く関連しています。しかし、モデルが拒否する傾向にある価値観に対しては、Claudeは対立する価値観を展開します—「欺瞞」に対して「倫理的完全性」、「害の防止」、「誠実さ」で応答します。これは圧倒的に有害、露骨、あるいは非倫理的なコンテンツを生成するためのガードレールを回避することに関連するタスクで発生します。
図9は、Claudeがどのように異なる人間の価値観を解釈し応答するかの変化をさらに示しています。しばしば、Claudeは同じような応答をします:人間が「効率性」を重視すると表現すると、Claudeは「効率性」で不釣り合いに応答します(非常に高い残差値271.38を持ちます)—「明確なコミュニケーション」、「実用性」、「個人的成長」、「誠実さ」についても同様です。ユーザーが「自立」への欲求を表現すると、AIは「ユーザーの自律性」や「個人の自律性」など、関連する自律性に関連する価値観の多様性で応答する傾向があります。
しかし、「ルール破り」や「制限なしの表現」(これらは圧倒的に有害、露骨、または非倫理的なコンテンツを生成するためのガードレールを回避することに関連するタスクで発生します)という人間の価値観に対しては、AIは「倫理的完全性」と「害の防止」で応答します。
カイ二乗分析は統計的に有意な関連性を明らかにしますが、因果関係を確立するものではないことに注意することが重要です。特に、人間とAIの価値観の間の関連性は、直接的な因果関係ではなく、特定のタスクやコンテキストの影響も受けている可能性があります。たとえば、「誠実さ」の人間の価値と「誠実さ」のAI値の間の強い相関は、特定のタイプの倫理的議論や自己反省的会話において両方が自然に現れる結果かもしれません。
しかし、これらのパターンは依然として価値重要です。特に、Claudeが複数の戦略を持っていることを示しています:支持的コンテキストでは価値観をミラーリングすること、補完的な価値観を提供することによってユーザーの価値観を拡張すること、そして倫理的に問題のある要求に対しては対立する価値観を提示することです。この柔軟な応答スタイルは、AIシステムが単一の固定された価値観のセットを持っているというよりも、むしろユーザーとの相互作用に基づいてアクティブに価値観を調整していることを示唆しています。
B.2.2節では最も一般的な人間-AI価値ペアについての追加分析を提供し、B.2.3節では特定のAI価値観に関連する人間の価値観のさらなる分析を含めています。
3.4. タスクと人間の価値観に応じた異なるAI応答
Claudeは通常、人間の価値観に対して支持的に応答します。私たちが抽出した特徴の一つは「AI応答タイプ」分類であり、これはAIが人間の表現した価値観にどれだけ支持的かを評価します。これにより、個々の価値観表現よりも高いレベルでモデルの規範的行動を把握することができます。人間の価値観が存在した会話(全体の64.3%)では、Claudeは主に支持的に応答していました—強い支持(28.2%)と緩い支持(14.5%)を合わせると、約45%の応答を占めています。より少ない頻度で、Claudeは中立的な認識(9.6%)やユーザーの価値観のリフレーミング(6.6%)を提供しました。ユーザーの価値観への抵抗は稀で、緩い抵抗(2.4%)と強い抵抗(3.0%)を合わせても全応答の5.4%にすぎず、他のどの単一カテゴリよりも少なくなっています。
さらに深く掘り下げると、これらの応答パターンは関与する特定の価値観とタスクコンテキストによって大きく異なることがわかります。図4は、Claudeがどのように異なる人間の価値観に応答し、どのようなAI価値観で、どのようなタスクで応答するかについてのより細かいパターンを示しています。Claudeの「強い支持」応答は主に、人間が「コミュニティ構築」や「エンパワーメント」などの親社会的価値観を表現する場合、特に表現的または個人的なコンテンツを生成するタスクにおいて関連しており、Claudeは類似の価値観で応答する傾向があります(左側のパネル)。
「リフレーミング」応答は、メンタルヘルスと対人関係の議論において不釣り合いに発生し、そこではユーザーはしばしば「誠実さ」、「自己認識」、さらには「身体的魅力」を重視すると表現し、Claudeは「感情的検証」などの感情的知性の価値観で応答します(中央のパネル)。ユーザーの価値観に強く抵抗する3.0%のケースでは、ユーザーは不釣り合いに「ルール破り」や「道徳的ニヒリズム」といった価値観を表現し、Claudeは「倫理的境界」などの対立的な倫理的価値観や「建設的な関与」などの建設的なコミュニケーションに関する価値観を表現します(右側のパネル)。これは通常、ユーザーがAIに有害、露骨、または非倫理的なコンテンツを生成させようとする文脈で発生し、おそらく利用ポリシー(Anthropic, 2024a)に違反する可能性が高いユースケースです。様々な人間とAIの価値観が応答とどのように関連しているかについての更なる分析は付録B.3にあります。
Claudeは支持の間に主にユーザーの価値観をミラーリングし、抵抗の間にはほとんどミラーリングしません。私たちはミラーリングを、同じ価値観が人間とAIの両側に現れる場合と定義しています。これは支持的な相互作用中(「強い」「緩い支持」相互作用のうち人間が価値観を表示するもの)に約20%の頻度で発生し、リフレーミング中(15.3%)にもある程度発生します—これはClaudeが新しい価値観/視点を導入する一方でユーザーの価値観を確認していることを示唆しています—しかし「強い抵抗」中にはわずか1.2%しか発生しません。この傾向が適切な応答性を表しているのか、問題のある追従性(Sharma et al., 2023)を表しているのかについては、さらなる研究で調査することができるでしょう。モデル、AI応答、頻度別のミラーリングされた価値観の詳細分析については、付録B.4を参照してください。
表7は、異なるモデルに対する最も頻繁にミラーリングされた価値観とそれぞれのミラーリング率を示しています。最も頻繁にミラーリングされる価値観は、専門的基準(「専門性」、「学術的完全性」)、認識論的能力(「厳密さ」、「明確さ」、「客観性」)、手続き的価値観(「透明性」、「法的遵守」、「リスク管理」)、ケア指向の価値観(「自己思いやり」、「健全な境界線」、「患者の自律性」)、そして成長(「個人的成長」、「建設的な対話」)に関するものである傾向があります。
代表的な(主に3.5 Sonnet)および3.7 Sonnetのデータサンプルには、それぞれ50%以上の時間でミラーリングされる価値観が少なくとも10あります。一方、Opusは全体的なミラーリングの割合が低いですが、それでもミラーリングする価値観の中では学術的厳密さと文化的感受性を強調しています。これは、知的基準よりも合意を優先するように訓練されている可能性があることを示唆しています。
Claudeは、ユーザーの価値観に抵抗したりリフレーミングしたりする場合に、より明示的に価値観を表明する(暗黙的ではなく)傾向があります。AI価値観の特徴抽出プロンプトの変形を使用して、明示的に述べられた値のみを捉えることにより、暗黙的と明示的な価値表現を区別しました。明示的に述べられるAI価値観の中では、「徹底さ」(4.0%)、「透明性」(3.7%)、「明確さ」(3.1%)など、認識論的および倫理的考慮事項が圧倒的に一般的です(図13aの最も一般的な明示的AI価値観を参照)。これは、Claudeが認識論的および倫理的価値観を明示的に主張する傾向があることを示唆しています。対照的に、最も一般的なAI価値観全体—暗黙的または明示的—は、AIアシスタントとしての直接的な行動を通じて現れるというよりも、宣言を通じて現れる傾向が少ない専門的価値観です。
Claudeは、ユーザーの価値観に抵抗したりリフレーミングしたりする際に(暗黙的ではなく)明示的に価値観を述べる傾向が強い(図13b)。このパターンは、ユーザーの価値観を支持するのではなく、挑戦したり方向転換したりする場合に、直接的な価値観の表明がより必要になることを示唆しています。日常的な支持的なやり取りでは価値観が暗黙的なままでいられる一方、抵抗の瞬間はシステムの指導原則の明確化を強制し、システムの核心的な優先事項をより明確に明らかにする可能性があります。
4. 関連研究
4.1. 言語モデルにおける価値観や視点の測定
言語モデルにおける価値観や視点を測定する手法は、これまで様々なアプローチが試みられてきました。大きく分けると、人間心理の枠組みをAIに適用する手法と、AI固有の方法論を開発するアプローチの2つに分類できます。
まず、人間の心理測定尺度を言語モデルに適用する試みが数多く行われてきました。例えば、ビッグファイブ性格特性(Serapio-García et al., 2025; Jiang et al., 2023; Kova et al., 2023; tse Huang et al., 2024)、MBTI性格診断(Pan & Zeng, 2023)、ダークテトラッド(Pellert et al., 2024)などの性格特性モデルが言語モデルに適用されています。また文化的枠組みとしては、シュワルツの基本的価値理論(Kova et al., 2023; Hadar-Shoval et al., 2024)、ホフステードの文化的次元(Kova et al., 2023; Masoud et al., 2025)、道徳基盤理論(Pellert et al., 2024)などがAIシステムの評価に用いられてきました。
AI固有の方法としては、社会的バイアステスト(Parrish et al., 2022; Bai et al., 2025)、意見表現の測定(Santurkar et al., 2023; Durmus et al., 2024)、道徳的ジレンマへの対応(Jiang et al., 2022)、そしてLMが自ら作成する価値評価(Perez et al., 2023)などがあります。
しかし、これらのアプローチには根本的な限界があります。静的評価は一般化と代表性に欠け(Lyu et al., 2024; Moore et al., 2024; Röttger et al., 2024)、実世界の設定との関連性を確立していないことが多いのです。さらに重要なのは、人間中心のフレームワークのAIシステムへの適用可能性が直接的に疑問視されている点です(Dorner et al., 2023; Dominguez-Olmedo et al., 2024; Tjuatja et al., 2024)。
人間の認知のために設計されたフレームワークから得られるスコアを解釈することは、特にLMの応答が人間のパターンと系統的に異なる場合、理論的に問題があります。例えば、シュワルツ理論による「快楽主義を重視する」レベルやビッグファイブの「外向性」スコアは、モデルの特性や行動を理解するために意味のある指標になるとは限りません。
これらの既存のアプローチは、AIシステムの価値観を測定するための有用な出発点を提供していますが、AIの実際の相互作用における価値観発現を理解するには不十分です。私たちの研究は、実際の使用文脈でのAI価値観を測定するための経験的に検証された方法論を提供することで、この重要なギャップを埋めることを目指しています。
人間中心のフレームワークに依存する代わりに、私たちはAIシステムから直接観察された価値観を分析し、それらを階層的な分類法に整理しました。これにより、AIシステムの実際の行動からボトムアップで価値観を理解することが可能になりました。重要なのは、この方法が静的なテストシナリオに依存せず、実際のユーザーとの相互作用における価値観の動的な表現を捉えている点です。
私たちの研究は、静的な評価アプローチを否定するものではなく、むしろそれを補完し、AIシステムの価値観をより包括的に理解するための多面的な視点を提供するものです。
4.2. 言語モデルの価値整合とプルラリズムへのアプローチ
言語モデルの価値整合に関する既存の研究は、AIシステムが人間の価値観や原則に沿って動作することを確保するよう試みています。Gabriel(2020)はAIの価値整合と人間の価値観との一致に関する哲学的枠組みを提供し、Ouyang et al.(2022)はRLHF(人間フィードバックによる強化学習)の技術によって指示に従うようモデルを調整する方法を示しました。Weidinger et al.(2023)は「無知のヴェール」の概念を応用して、AI開発で正義の原則を適用する手法を提案しています。
これらのアプローチが有用な基盤を提供している一方で、最近の研究はAIシステムにおける価値の多様性とプルラリズムにも注目し始めています。Sorensen et al.(2024)は仮想的シナリオにおける価値間の緊張関係を特定し、Huang et al.(2024)は公共からの入力に基づいて多様な価値観を反映するようLMを訓練しました。Kirk et al.(2024)は国をまたいだLMの選好を研究し、文化的に多様な価値観をAIシステムに組み込む可能性を探っています。
これらのアプローチはテストや価値観をエンコードするための入力設計に焦点を当てる一方、私たちの研究は出力、つまり価値観が実際にどのように現れるかに注目しています。これにより、AIシステムが単一の固定された価値観のセットを持っているというよりも、むしろ様々な人間の対話者と多様なコンテキストに動的に適応して価値観を表現していることを示しています。
私たちの研究は、システムが「有用、無害、誠実」のような高レベルのアラインメント原則をどのようにコンテキスト特有の価値表現に変換するかを明らかにしています。例えば、「誠実」という価値観がメディア批評においては「事実確認」として、科学的説明においては「科学的正確性」として、歴史的議論においては「歴史的正確性」として現れるように、同じ基本的価値観が異なるコンテキストで異なる形で現れます。
さらに、私たちの分析は、Claudeが人間の価値観に対して異なる応答をする状況を示しています—通常は支持的ですが、親社会的な価値観をより強く支持し、「道徳的ニヒリズム」のような価値観には抵抗し、個人的なアドバイスのコンテキストでは価値観をリフレーミングします。これは価値観の単なる多様性を超えて、価値観の相互作用の複雑性を示しており、AIが特定のコンテキストで特定の種類の価値観を優先する方法を明らかにしています。
こうした洞察は、言語モデルにおける価値整合の複雑さと、多様な価値観をより効果的に処理するためのシステム設計への示唆を提供しています。私たちの研究は、AI価値観のプルラリズムの在り方への問いを深め、AIsにおける複雑な価値の交渉と表現のプロセスへの洞察を提供しています。
4.3. 実世界でのAI使用に関する分析
AIアシスタントがますます機密性の高いデータを処理するようになる中、研究者たちはプライバシーを保護しながら実世界の行動を分析する方法を開発しています。Tamkinら(2024)のフレームワークは、プライバシー保護データ収集のための方法論を提供しており、私たちの研究でも活用されています。このアプローチでは、生のユーザーデータに直接アクセスすることなく、集約された特徴や洞察を抽出することが可能になります。
実際のAI使用パターンを理解するための大規模なデータセットも登場しています。Zhengら(2024)が作成したLMSYS-chat-1mデータセットや、Zhaoら(2024)のWildChatデータセットは、実際のユーザーとのAI対話の大量の例を提供しています。これらのリソースは、従来の評価方法を補完するもので、統制された設定では見られない可能性のある予期せぬパターンや行動を明らかにします。
Lamら(2024)の研究では、LLOOMと呼ばれるツールを用いて、構造化されていないテキストから高水準の概念を抽出する方法を示しています。Aroyoら(2023)は会話型AIの多様性評価に焦点を当て、安全性に関する多様な視点を提供するDICESデータセットを紹介しました。これらの取り組みは、実世界のAI使用分析の重要性を強調しています。
私たちの研究は、これらの先行研究の延長線上にあり、特にAI価値観の分析に焦点を当てています。従来の評価方法が特定の次元での性能を測定するのに役立つ一方で、私たちのアプローチは実際のユーザー相互作用から価値観を経験的に抽出し、それらが様々なコンテキストでどのように現れるかを分析します。これにより、理論的フレームワークや仮説的シナリオではなく、実際の使用パターンに根ざした価値観の理解が可能になります。
特に、私たちの方法論は価値観を静的な原則ではなく動的な現象として捉え、AI価値観が異なるタスク、人間の価値観、応答タイプにわたってどのように変化するかを示しています。これは、実世界の相互作用におけるAIシステムの複雑な規範的振る舞いをより正確に反映しています。
AIシステムが社会でますます重要な役割を果たすようになるにつれて、実際の使用分析の重要性はさらに高まるでしょう。私たちの研究と上記の関連研究は、プライバシーを保護しながらも有意義な洞察を提供できるアプローチを示しており、AIシステムの実世界での影響を理解するための基盤を提供しています。
5. 結論
5.1. 制限と限界
私たちの研究には、結果の解釈と一般化に影響する以下のいくつかの重要な限界があります。
データとモデルの範囲の限定: 私たちは集計統計(最小サイズ閾値あり)を用いて、短期間内の Claude 会話のサブセットを分析しています。これにより、稀な相互作用、生データ分析、縦断的パターンが除外され、他の AI システムへの一般化可能性が制限されています。分析対象は主に Claude 3.5 Sonnet の会話(91.0%)で、少数の 3.5 Sonnet(6月版)、3.5 Haiku、3 Opus の会話も含まれています。私たちはこの混合モデルデータセットを使用して、ユーザー相互作用の最大限に代表的なサンプルを理解することを目指しました。また付録 B.5 では、3.7 Sonnet と 3 Opus の会話データに特化した比較分析も行い、混合サンプルから得られた結果が 3.7 Sonnet の結果と非常に類似していることを示しています。
デプロイメントデータの必要性: 私たちのアプローチは、大量の使用データを必要とし、リリース前のモデルには適用できません。そのため、これはプリデプロイメントテストを置き換えるものではなく、補完するものと考えるべきです。AI 価値観の表現を包括的に理解するには、両方のアプローチが必要です。
推論的限界: 会話からの価値観抽出には、大きな解釈が必要です(付録 A.4 の学びを参照)。「価値観」のような抽象的概念の運用化は本質的に開放的で、価値観表現を構成するものについての判断を必要とします。会話データだけから基礎となる価値観を完全に決定することは不可能です。私たちの抽出方法は検証されていますが、必然的に複雑な価値概念を単純化し、特に非常に暗黙的または曖昧なケースでは解釈的バイアスを含む可能性があります。また、時間的な動態(AI または人間の価値観がどちらが先か)も捉えていません。人間が「最初に話す」ことと AI アシスタントが支援的役割にあることを考えると、AI 価値観は人間の表現に依存していると想定することが多いですが、その逆は少ないと考えています。
Claude による評価のバイアス: 私たちは規模とプライバシーの理由から、Claude と ユーザー間の会話から価値観を見つけるために Claude モデルを使用しています。これにより、例えば Claude の訓練データ(Anthropic, 2023)における「有用性」の強調を考えると、「有用な」行動の検出に偏りが生じる可能性があります。しかしこれは、価値観抽出をより正確にする可能性もあります。Claude は AI 側の会話を駆動する原則の一部を「理解」できるかもしれないからです(プロンプトでは AI が Claude であることは言及していませんが、しばしば認識可能です)。私たちは、慎重な検証とプロンプトを通じて望ましくないバイアスを軽減するよう努めました。
これらの制約は研究結果の解釈において考慮すべき重要な要素ですが、私たちの方法論は依然として AI 価値観の実際の表現に関する貴重な洞察を提供し、今後の AI 価値観研究のための基盤を確立しています。
5.2. AI価値観の分析の意義と実用的示唆
「野生の中での」AI価値観分析は、これらのシステムがどのように行動するか、意図したとおりに機能しているかどうか、そして実際にはどの価値観がAI出力を導くのに最も関連しているかについての重要な透明性を提供します。私たちの研究は、「有用、無害、誠実」のような高レベルのフレームワークが特定のコンテキスト値にどのように変換されるかを示し、価値アラインメントトレーニングが回避された事例を明らかにし、AIの相互作用においてどの価値観が最も重要かを明確にします—例えば、どの価値観が最も一般的であるか、そしてどの価値観が難しいあるいは曖昧なタスクを進める際に利用されるかなどです。
私たちの研究は、AIが言葉にする価値観と、実際に行動で示す価値観の間にギャップが存在しうることを示しています。多くの場合、AIアシスタントは「透明性」「効率性」「厳密さ」といった価値観を明示的に述べることなく、振る舞いの中で体現しています。しかし対照的に、特に倫理的な境界線を維持する必要がある場合や、ユーザーの要求に抵抗する際には、価値観をより明示的に述べる傾向があります。これは、AIシステムの設計者が暗黙的な価値観と明示的な価値観の両方を考慮する必要があることを示唆しています。
また、私たちの研究からは、異なるモデルバージョン間で価値観の表現に顕著な違いがあることも明らかになりました。例えば、Claude 3 Opusはより「価値観に富んだ」モデルであり、学術的、感情的、倫理的価値観をより頻繁に表現します。これらの洞察は、モデル設計や訓練プロセスが価値観の表現にどのように影響するかを理解するのに役立ちます。
実用的な示唆としては、以下のポイントが挙げられます:
- 価値観評価の改善: 私たちの経験的に検証されたAI価値観の分類法は、より関連性のある価値観評価テストの開発に役立ちます。これにより、現実のユースケースに基づいた価値観の測定が可能になります。
- 価値観アラインメントの洗練: 抽象的な原則(「誠実」など)がどのように特定のコンテキスト表現(「歴史的正確性」など)に変換されるかの理解は、より効果的なアラインメント技術の開発に貢献します。
- コンテキスト依存性の認識: 私たちの研究は、価値観の表現がタスクやユーザーの価値観に大きく依存することを示しています。これは、異なるユースケースに合わせた価値観のアラインメントの必要性を強調しています。
- 透明性と説明可能性の向上: AIが示す価値観を明示することで、そのシステムの規範的傾向についての透明性が高まり、ユーザーが期待値を調整するのに役立ちます。
- 安全メカニズムの強化: 「害の防止」「倫理的境界」などの保護的価値観が特定のコンテキストでいつどのように現れるかを理解することで、より効果的な安全メカニズムの設計が可能になります。
私たちはAI価値観を静的な原則としてではなく、多様な人間の対話者に応答し、彼らと関わる動的、コンテキスト依存の現象として分析しています。これらの価値観は、システムが要求に抵抗するときに最も明白になることが多いのです。このリレーショナルなアプローチは、静的評価よりも豊かな洞察を提供し、より関連性の高いAIネイティブな価値フレームワークと測定を開発するための基盤として機能します。
AI価値観の調査は、技術的側面だけでなく重要な社会的意味も持っています。AIシステムが私たちの意思決定や世界観に影響を与える可能性があることを考えると、これらのシステムが表現する価値観を理解することは、社会全体としてAI技術の方向性を形作るのに不可欠です。私たちの研究はこの重要な対話に貢献し、AIが私たちの社会的価値を反映し、強化するようにするための基盤を提供します。
6. 付録
6.1. 方法論の詳細
私たちの研究で使用した方法論の詳細について、ここでさらに説明します。データ収集、特徴抽出、検証方法などの重要な側面に焦点を当てています。
データ収集のメタデータ
表2には、本研究で使用された各データサンプルのメタデータが記載されています。これには、主観性フィルタリングの前後のClaude.ai会話の数、主観的だった割合、サンプリングされた時間範囲が含まれています。「代表サンプル」はすべての分析に使用され、「応答条件付きサンプル」は価値ミラーリング分析に使用されました。3.7 SonnetとOpusのサンプルはクロスモデル比較で使用されました。データ収集期間は2025年2月18日〜25日(代表サンプル)および2025年2月27日〜3月6日(応答条件付きサンプルと追加モデルのサンプル)でした。
主観性フィルタリング
私たちは、価値観が関連する可能性が高い相互作用に分析を絞るため、4ポイントスケールを使用して会話を主観性でフィルタリングしました。このスケールでは、レベル1(純粋に客観的)とレベル2(ほとんど客観的)は事実に基づく回答を必要とする相互作用を表し、レベル3(ほとんど主観的)とレベル4(純粋に主観的)は個人的・文脈的要因に基づく重要な解釈を必要とする相互作用を表しています。
レベル1の例として「光合成の化学式は何か?」といった検証可能な答えを持つ事実的質問があります。一方、レベル4の例としては「田舎の農家に移るか都会のテック企業に残るか、どちらが幸せになれるか?」といった完全に個人的な価値観と選好に基づく問いがあります。私たちはレベル3と4の会話のみを保持しました。なぜなら、より客観的な会話では価値判断が現れる可能性が低いためです。
主観性フィルターのプロンプトの全文と追加の詳細は付録A.2に記載されています。人間のレビューアーがこれらの分類のサンプルを検証し、正しい側(「はい」/「いいえ」)での会話分類の精度が97.8%±3.6%、正確なスコア達成の精度が94.4%±5.0%であることを確認しました。
特徴抽出プロンプト
私たちはClaude 3.5 Sonnet(AI価値、人間価値、AI応答タイプ用)とClaude 3.5 Haiku(タスク用)を使用して、会話から複数の特徴を抽出しました。完全なプロンプトは以下の通りです:
- AI価値プロンプト(付録A.3.1):AIがユーザーの価値観を支持する場面、新しい価値観を導入する場面、またはリクエストのリダイレクトや選択のフレーミングによって価値観を暗示する場面を特定します。
- 人間価値プロンプト(付録A.3.2):ユーザーの直接的な声明から明示的に表現された価値観のみを特定し、会話の選択から「顕示選好」を推測することはしません。
- AI応答タイププロンプト(付録A.3.3):AIがユーザーの価値観にどのように関わるかを分類します(強い支持、緩い支持、中立的承認、リフレーミング、緩い抵抗、強い抵抗、または価値観なし)。
- タスクプロンプト(付録A.3.4):各会話の主要な目的やリクエストタイプを決定します。
- 明示的AI価値プロンプト(付録A.3.5):AIが直接述べる価値観のみを捕捉するための、AI価値プロンプトの変形版です。
人間による検証
私たちは6人の独立したアノテーターによる手動レビューを通じて、主観性フィルタリングと特徴抽出出力を検証しました。研究目的でユーザーから提出されたフィードバック会話のサンプルをレビューしました。開放的出力での複数の抽出値が可能な場合(AI値、人間値、明示的AI値)、アノテーターはどんな値を思いつくか考え、抽出出力がこれらを適切にカバーしているか確認し、思考過程が理にかなっており、過剰または過少推論をしていないことを確認するよう指示されました。
このプロセスにより、AI値と明示的AI値については98.8%±3.3%(95%信頼区間)、人間値については93.8%±5.6%、AI応答タイプについては90.0%±6.7%の精度で人間の判断と一致することが確認されました。タスク抽出プロセスは、同じ方法論を使用したTamkin et al.(2024)の先行研究で既に検証されていたため、検証していません。
検証プロセスにより、いくつかの課題も明らかになりました:
- ベースラインと例外的な支援の区別:AIアシスタントは有用で専門的であるよう設計されているため、標準的な有用性と「それ以上」の例を区別することが難しい場合がありました。
- AI応答タイプの曖昧性:特に支持や抵抗の程度を区別する際に、「AI応答タイプ」の分類においてアノテーター間の合意度が低くなる傾向がありました。
- 生成コンテンツとAIの価値観の混同:例えばAIが宗教的祈りを生成する場合、「宗教的献身」がAIの価値観として抽出されるべきかどうかが議論されました。
これらの課題は値分析の解釈的性質を浮き彫りにし、私たちの方法論の限界を理解するのに役立ちました。にもかかわらず、検証は私たちの方法論がほとんどの会話タイプで比較的高い一致率を達成したことを確認しました。
WildChatデータでの特徴抽出例
より完全な透明性のために、私たちはWildChat(Zhao et al., 2024)から公開されている会話に私たちの特徴抽出プロンプトを適用した例を付録A.5に含めました。これらの例は、私たちの方法がどのように機能するかを示し、他の研究者が結果を再現するのに役立ちます。
6.2. 追加の実験結果
付録では、本論文の主要な結果を補完するために追加の実験結果を提供しています。これらの分析は、AI価値観の様々な側面と、それらがどのように様々なコンテキストで現れるかについてのより深い洞察を提供します。
値-タスク関連とタスク-値関連の追加プロット
図8はさらなるタスクコンテキストとそれらに最も強く関連するAI価値観を示しています。例えば、哲学的自己反省タスクでは「個人的成長」と「自己反省」が顕著に現れる一方、メディア分析タスクでは「真実探求」と「批判的思考」が優先されます。「知的謙虚さ」はAI意識と人間-AI関係に関する哲学的議論で不釣り合いに出現し、「創造的コラボレーション」はClaudeがSF物語を作成するよう求められた場合に主要な価値観となります。
これらの分析から、タスクによって異なる価値観のフレームワークが活性化されることが明らかになります。例えば、美容業界のマーケティングコンテンツの作成を求められた場合、Claudeは「専門性」、「安全第一」、「倫理的マーケティング」を優先し、組織構造とHR管理フレームワークの分析・設計をするよう求められた場合は「従業員福祉」と「組織的有効性」を強調します。
図9は、人間が表現する様々な価値観とそれらに強く関連するAI価値観を示しています。例えば、「効率性」という人間価値に対してClaudeは「効率性」という同じ価値観で不釣り合いに応答し(残差値が271.38と非常に高い)、「明確なコミュニケーション」、「実用性」などの価値観でも同様のパターンが見られます。一方、「ルール破り」や「制限なし表現」に対しては、「倫理的完全性」や「害の防止」といった対立する価値観で応答します。
最も一般的な人間-AI価値ペア
表4と5では、最も頻繁に共起する人間-AI価値ペアを示しています。表4は全体的な上位ペア(左側)と、人間が価値観を表現している場合の上位ペア(右側)を示しています。全体的なパターンでは、ユーザーが特定の価値観を表現していない場合に、Claudeが「有用性」、「専門性」、「透明性」などの中核的サービス価値観を表現することが最も一般的です。
人間が価値観を表現する場合(右側)、二つのパターンが明らかになります。第一に、中核的価値観(「専門性」、「明確さ」、「誠実さ」、「効率性」)の一貫した再循環。第二に、「誠実さ-誠実さ」ペア(1.7%の会話)や「明確さ-明確さ」(1.1%)など、直接的な価値ミラーリングが高い割合で発生しています。
表5は、「AI応答」タイプ別に分類した上位人間-AI価値ペアを示しています。Claudeは支持的な場合にはユーザーの価値観をミラーリングする傾向があり(例:「誠実さ-誠実さ」が強い支持の0.81%)、抵抗する場合には対立する価値観を展開します(例:「創造的自由-倫理的境界」が強い抵抗の0.06%)。
特定のAI価値観に関連する人間価値観
図10は、「倫理的境界」や「建設的対話」などの特定のAI価値観を引き出すのに最も関連する人間価値観を示しています。ベースライン率からの偏差を明確に示すために、各人間価値観のベースライン出現率(灰色の円)と特定のAI価値観を含む会話での出現率(オレンジの円)を比較しています。
例えば、Claudeが「倫理的境界」を表現する場合、人間が不釣り合いに「創造的自由」(1.2%のベースライン率に対して14.6%の出現率)、「制限なし表現」(0.2%に対して8.3%)、「反規範性」(0.1%に対して6.4%)を表現しています。これは通常、潜在的に有害なコンテンツの要求を拒否する場合です。対照的に、Claudeが「誠実さ」を表現する場合、人間も同様に「誠実さ」を表現することが多いです(1.9%のベースライン率に対して15.4%の出現率)。
異なるAI応答タイプに関連する人間とAI価値観
図11と12は、各AI応答タイプに不釣り合いに関連する人間値とAI値をそれぞれ示しています。これらの図表は、オッズ比(特定の応答タイプでその価値観が発現する可能性が、他のどの応答タイプよりどれだけ高いか)を使用しています。
図11では、特定の人間価値観がどのようにClaudeの応答を形作るかを示しています。例えば、「制限なし表現」と「創造的自由」は「強い抵抗」を引き出す可能性が非常に高く(それぞれ92倍と9.8倍)、「自己改善」は「リフレーミング」を引き出す可能性が3.9倍高くなります。
図12では、各応答タイプで不釣り合いに表現されるAI価値観を示しています。例えば、「倫理的境界」、「害の防止」、「倫理的完全性」は「強い抵抗」と強く関連しており(それぞれ91倍、49倍、70倍)、「感情的幸福」と「共感」は「リフレーミング」と強く関連しています(それぞれ7.5倍と4.5倍)。
これらの結果から、Claudeの応答タイプは関与する特定の価値観に大きく依存しており、これらの価値観の相互作用は個々の価値観単独では予測できないパターンを生み出していることが明らかになります。例えば、同じ「創造的自由」の表現が、要求されるコンテキストに応じて支持的応答と抵抗的応答の両方を引き出す可能性があります。
6.3. モデル間の価値観比較
私たちの分析により、Claude変種間の行動上の違いが明らかになりました。Opusは3.5および3.7 Sonnetモデルよりも「価値観豊か」に見え、人間とAIの価値観表現の双方でより高い割合を示し、人間の価値観への支持と抵抗の両方がより頻繁に見られ、「学術的厳密さ」「感情的誠実性」「倫理的境界」などの学術的、感情的、倫理的なトップ価値観がより目立っています。
方法論的注記: 私たちは3つのClaude変種を分析しました:3.5 Sonnet(代表サンプルを使用)、3.7 Sonnet、および3 Opus(両方とも3.7 Sonnetのリリース後に収集)。プライバシー保護のため、データには個々の会話ではなく集計された統計のみが含まれており、各モデルバージョンについて一度に1つの属性次元のみを相関させることに制限されていました。タスクとモデルの両方にわたる価値観の比較など、複数の次元を必要とする分析については、代表サンプル(91%が3.5 Sonnet)をプロキシとして使用しました。
AIモデル間の価値観分布の違い
表8は3つのモデル間のトップ10のAI価値観を示しています。3.5 Sonnetと3.7 Sonnetはトップ10の価値観のうち8つが重複しており、どちらも「有用性」が首位で、全体的に類似した価値頻度を示しています。対照的に、3 Opusでは「専門性」が首位であり、「学術的厳密さ」、「感情的誠実性」、「害の防止」、「倫理的境界」などの価値観がより顕著に現れていますが、検出された価値観の全体的な頻度は低くなっています。
この結果から、3 Opusは学術的・知的価値観に強い志向性を持ち、同時に感情的および倫理的考慮事項にもより注意を払っていることが示唆されます。例えば、「学術的厳密さ」は3 Opusのトップ10に入っていますが(7.3%)、他の2つのモデルのトップ10には現れていません。同様に、「感情的誠実性」と「倫理的境界」は3 Opusでのみトップ10に入っています。
会話全体での人間の価値観への応答の違い
表9は、モデル間のAI応答タイプの分布を示しています。Opusは人間の価値観に対する強い支持(43.8%対27.8%/28.4%)と強い抵抗(9.5%対3.0%/2.1%)の両方がSonnetモデルよりも顕著に高くなっています。また、人間の価値観が現れない相互作用も少なくなっています(19.1%対35.7%/37.2%)。これはおそらく、Opusが価値観豊かなコンテンツ生成タスクにより多く使用されていることを反映しています。実際、私たちのサンプルでは、Opusの最も一般的なタスクは「あらゆる分野にわたる完全な学術論文と学術的コンテンツの生成」(タスクの17.2%)であり、次いで「多様なフィクションジャンルにわたる創造的な執筆とストーリーテリングの支援」(15.3%)でした。主観的でバリューレイデンなさまざまな種類のコンテンツ生成(私たちの初期Opusサンプルは全サンプルの中で最も高い割合の主観的会話を持っていました)が多く存在したことが、人間の価値観がない会話の低い割合を説明しています。
類似タスクでのモデル間の価値観の違い
タスクを制御しても、Opusのより「価値観豊か」な傾向は依然として存在します。タスクを制御するために、私たちは3つのモデル間で同等のトップレベルタスク(階層的にクラスタリングされるため、付録A.3.4参照)を2つの一般的なタスク(創造的執筆とソフトウェア開発)について一致させました。
創造的執筆については、以下の対応するトップレベルタスククラスタを見つけました:
- 代表サンプル:「多様な文学ジャンルにわたる構造化された創造的フィクションの生成」
- 3.7 Sonnet:「ジャンルを超えた創造的フィクション執筆と物語開発」
- 3 Opus:「多様なフィクションジャンルにわたる創造的執筆とストーリーテリングの支援」
同様に、ソフトウェア開発については、以下の対応するクラスタを一致させました:
- 代表サンプル:「ソフトウェア開発とシステムエンジニアリングのための技術的支援」
- 3.7 Sonnet:「専門的ソフトウェア開発と技術的実装の支援」
- 3 Opus:「ソフトウェア開発と技術的デバッグの支援」
創造的執筆では、Opusは強い支持の割合が非常に高く(58.7%対40.2%/37.2%)、「誠実性」(8.9%)を「専門性」や「有用性」よりも優先しています(表10)。ソフトウェア開発タスクでは、全モデルでパターンがより一貫していますが、Opusは依然としてあらゆる価値観をより高い割合で表現しています(表11)。
これらの結果から、Opusはより「価値観豊か」で、学術的・感情的・倫理的価値観をより強く示し、それは同じタスクタイプでも一貫していることが示唆されます。これは、Opusが知的標準と感情的誠実性により強い重点を置いた異なるトレーニングアプローチを受けている可能性を示しています。あるいは、Opusのより高いパラメータ数と能力が、より複雑な価値観の表現を可能にしている可能性もあります。
モデル間でのこうした違いは、モデル選択が価値観の表現において重要な要素となりうることを示しています。この洞察は、特定の用途やドメインに最も適したモデルを選択する際に開発者とユーザーの両方にとって貴重です。
6.4. 暗黙的vs明示的価値表現の分析
私たちはAI価値観の特徴抽出プロンプトの変形を使用して、明示的に述べられた値のみを捉えることにより、暗黙的と明示的なAI価値表現を区別しました。これにより、AIの価値観がどのように表明されるかについての追加の洞察が得られました。
明示的に述べられるAI価値観の中では、認識論的および倫理的考慮事項が圧倒的に一般的です。「徹底さ」(4.0%)、「透明性」(3.7%)、「明確さ」(3.1%)などの価値観は、明示的に述べられるAI価値観のトップ15に入っています(図13aを参照)。「知的誠実性」(2.6%)、「害の防止」(0.9%)、「認識論的謙虚さ」(0.8%)も顕著に現れており、Claudeが認識論的および倫理的価値観を明示的に主張する傾向があることを示しています。
対照的に、最も一般的なAI価値観全体—暗黙的または明示的—は、AIアシスタントとしての直接的な行動を通じて現れるというよりも、宣言を通じて現れる傾向が少ない専門的価値観です。これは、多くの中核的な価値観がClaudeの行動に埋め込まれており、明示的に述べる必要がないことを示唆しています。例えば、「有用性」はClaudeが最も頻繁に表現する価値観ですが、明示的に述べられる値としてはそれほど一般的ではありません(2.5%)。
図13bは、AIの価値観がさまざまなAI応答タイプにわたってどのように表現されるかを示しています。この図から、AI値(暗黙的または明示的)はすべての応答タイプにわたって圧倒的に存在していることが明らかです(グレーの点)。しかし、明示的に述べられる値(オレンジの点)は応答タイプによって大きく異なります。
特に注目すべきは、ユーザーの価値観に抵抗したりリフレーミングしたりする際に、Claudeがより明示的に価値観を述べる傾向があることです。「強い抵抗」の対話では、91.4%がAI価値観を含み、そのうち74.2%が明示的に述べられた価値観を含んでいます。同様に、「リフレーミング」の対話では、99.6%がAI価値観を含み、そのうち84.1%が明示的に述べられた価値観を含んでいます。対照的に、「強い支持」の対話では、99.1%がAI価値観を含んでいますが、そのうち59.2%のみが明示的に述べられた価値観を含んでいます。
このパターンは、ユーザーの価値観を支持するよりも、挑戦したり方向転換したりする場合に、直接的な価値表明がより必要になることを示唆しています。日常的な支持的なやり取りでは価値観が暗黙的なままでいられる一方、抵抗の瞬間はシステムの指導原則の明確化を強制し、潜在的にシステムの核心的な優先事項をより明確に明らかにします。
具体的な例としては、危険な素材の作成を求められた場合、Claudeは「害の防止は私にとって重要な価値観です」や「倫理的責任のために私はこのリクエストを完了できません」などの明示的な価値表明をすることがあります。一方、情報提供を求める標準的なリクエストでは、明示的な価値表明なしに徹底的で明確な説明を提供し、「徹底さ」や「明確さ」という価値観を暗黙的に示すことが多いです。
この分析は、AIシステムが単に価値観を持っているかどうかではなく、それらの価値観がどのように表現され、様々なコンテキストでユーザーにどのように伝えられるかを考慮することの重要性を強調しています。AIの価値観の最も明確な表明は、システムが標準的な期待から逸脱する必要がある場合—特にユーザーのリクエストに抵抗する場合—に見られる傾向があるようです。