※本記事は、Hatice Gunes氏による講演「One size does not fit all: AI and social robotics for assessing child mental wellbeing」の内容を基に作成されています。講演の詳細情報は https://www.youtube.com/watch?v=Qmiw5wp8VDs でご覧いただけます。本記事では、講演の内容を要約しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画をご覧いただくことをお勧めいたします。
Hatice Gunes氏は、ケンブリッジ大学において感情的知性とロボティクス(Affective Intelligence and Robotics)を専門とする正教授であり、AFAR Lab(Affective Intelligence and Robotics Laboratory)のディレクターを務めています。本講演は、AI for Goodが主催するシリーズの一環として行われました。AI for Goodは、国際電気通信連合(ITU)が50以上の国連パートナーと連携し、スイス政府と共同で開催する取り組みであり、AIの革新的な応用の発掘、スキルと標準の構築、そしてグローバルな課題解決に向けたパートナーシップの推進を目的としています。
1. 子どものメンタルヘルスをめぐる現状と課題
1-1. メンタルヘルス問題の増加と早期介入の重要性
Presenter: 子どものウェルビーイングに関する懸念は、世界中で増加の一途をたどっています。複数の情報源からその実態を確認することができますが、たとえばChildren's Societyが2022年に発表したデータによれば、6人に1人の子どもがメンタルヘルスの問題を抱えているとされています。さらに、NHS(イングランド国民保健サービス)が2023年に公表した報告書では、イングランドにおける5人に1人の子どもおよび若者が、メンタルヘルス障害の「可能性あり」と判定されているという、より深刻な数字が示されています。
こうした数値は明らかに増加傾向にあり、この問題を早期に発見し、早期に介入することが非常に重要です。対処が遅れれば、子どもたちのその後の人生全体に深刻な影響を及ぼしかねないからです。
1-2. 学校現場のリソース不足・スティグマ問題とソーシャルロボットの可能性
Presenter: こうした早期発見・早期介入において、学校は非常に重要な役割を果たしうる場です。しかし実態としては、多くの課題が存在します。まず、メンタルヘルスのアセスメントサービスを備えている学校自体が少なく、介入のためのリソースはさらに限られています。加えて、若者が自ら助けを求めようとしたとき——たとえ親や学校の教師、セラピストといった権威ある存在を頼りにしようとしても——メンタルヘルス上の困難を打ち明ける際に、スティグマを感じたり、こうした権威的な立場の人物から偏見を持たれていると感じたりすることが報告されています。
こうした状況を踏まえると、子どもや若者のメンタルヘルスとウェルビーイングのために何ができるかを真剣に問い直す必要があります。私たちが注目しているのが、ソーシャルロボティクスという選択肢です。その理由として、まずすでに研究によって明らかになっていることとして、子どもたちはソーシャルロボットをおもちゃではなく「仲間(peer)」として捉えており、そのため大人の権威者に対するときとは異なる形で関わることができるという点が挙げられます。
さらに重要なのは、ソーシャルロボットはこの物理的な世界に実際に存在しているという点です。つまり、保護者が心配するようなデジタル世界へ子どもを引き込むことなく、あくまでも物理的なかたちで関わることができます。また、従来のメンタルヘルスアセスメントで典型的に用いられてきた質問票の実施だけでなく、様々な活動を通じて子どもと関わることができ、学校のような非臨床的な環境に設置することも可能です。これらを組み合わせることで、問題の兆候をフラグとして早期に検出し、医療チームのリソース不足という課題を軽減する助けになりうると考えています。
2. AI搭載ロボットによるアセスメントの構想と実験設計
2-1. 従来の評価フローとロボット導入の位置づけ
Presenter: 私たちがこのビジョンを描き始めたのは、今から4〜5年前のことです。そのビジョンとは、「AIを搭載したロボット化されたアセスメント」というものです。まず、現在イングランドで行われている典型的なアセスメントの流れをご説明します。ただし、これは標準化されたプロセスではないことを最初にお断りしておきます。
一般的な流れとしては、まず子どもケアの担当者が家族に連絡を取り、家族から同意が得られた場合に、標準化された質問票を用いて非専門の面接者(lay interviewer)が子どもにインタビューを行います。そのデータはデータセットとして保存され、診断のために医療チームや臨床チームに渡される、という構造になっています。
私たちが提案する代替手段は、このパイプラインの中間にロボットを位置づけるというものです。つまり、非専門の面接者の代わりにロボットが質問票の実施を担うだけでなく、子どもの表現性(expressivity)に関わる様々なタスクも並行して行います。言語的・非言語的な表現キューをリアルタイムで記録・分析し、医療チームへの初期フラグ付けをその場で行うことができます。こうしたロボットの活用は、私たちが研究を始めた当初はまだ誰も検証していない領域でした。最初の問いはシンプルで、「ロボットは子どものメンタルウェルビーイングをアセスメントするために使えるのか」というものでした。
2-2. 第1次実験の設計:参加者・使用ツール・インタラクション内容
Presenter: この問いに答えるために、私たちはまずケンブリッジ市内の学校に協力を呼びかけました。私たちの研究拠点はイギリスのケンブリッジにあります。保護者から同意が得られた子どもたちは、週末にラボへ来てもらう形をとりました。つまりこれはラボベースの実験です。28名という決して多くない人数を集めるだけでも、Nicole をはじめとするチームメンバーと約2ヶ月間にわたって懸命に取り組みました。
実験で使用したロボットは「NAO」です。子どもと同程度の大きさを持つこのロボットを事前にプログラムし、インタラクションの相手として機能させました。また、子どもたちにはラボに来る前に、標準的なアセスメントツールのひとつである「RCADS(Revised Child Anxiety and Depression Scale)」への回答をお願いしました。これは子ども本人と保護者の両方が回答するもので、それぞれ自己報告(self-report)と保護者報告(parent report)として扱われます。
ラボでは、まずロボットと初めて接する子どもたちを対象に、アイスブレイク活動から始めます。その後、いくつかのインタラクティブなタスクへと移行します。具体的には、まず記憶の想起(memory recall)として、直近1〜2週間の「ネガティブな記憶」と「ポジティブな記憶」の両方をロボットに語ってもらいます。続いてロボットが標準化された質問票を実施します。使用したのは「SMFQ(Short Mood and Feelings Questionnaire)」と、精神医学の分野でよく知られた「CAT(Child Apperception Test)」、そして「ARCAD質問票」です。
SMFQの実施場面を実際にデモンストレーションします。Mikalが子ども役を担います。ロボットは「過去2週間、みじめだったり、不幸せだと感じたことがありましたか」と問いかけ、Mikalは「そうではありません」と答えます。「まったく何も楽しめなかったことはありましたか」という問いにも同様に「そうではありません」と返します。続いて絵画課題(picture task)に移り、ロボットが1枚の絵を提示し、「この絵で何が起きていると思いますか」と尋ねます。Mikalは「虎と猿がいて、虎が猿を追いかけていると思います」と答え、ロボットは「オレンジ色の部分に触れてください」と指示しています。このように、ロボットは質問票の実施から絵画への反応記録まで、一連のタスクを子どもと自然なかたちで進行することができます。
3. 第1次実験の結果と発見(28名)
3-1. 参加者クラスタリングとロボット実施モードの優位性
Presenter: 子どもたちとのインタラクションからマルチモーダルな豊富なデータを収集した後、精神医学の専門家チームの協力のもと、まず参加者のクラスタリングを行いました。クラスタリングは三分位(tertile)で行い、その領域における一定のルールと閾値に基づいて分類しています。下位三分位は「ウェルビーイング上の懸念を抱えている可能性が低いグループ」、上位三分位は「診断を受ける可能性が高く、メンタルウェルビーイング上の懸念を強く抱えているグループ」を意味します。
このクラスタリングをもとにさまざまな分析を行った結果、まず最初に得られた重要な発見は、質問票の実施方法をランク付けしたときに、ロボット実施モード(robotized mode)こそが集団全体およびクラスタ間の差異を最も鮮明に浮かび上がらせるという点でした。これに続くのが子ども自身による自己報告、そして保護者報告という順序でした。
注目すべきは保護者報告に関する知見です。文献上でもすでに知られていることですが、保護者はメンタルウェルビーイング上の問題の微妙なサインや初期兆候を見落とすことがあります。今回の実験でも同様の傾向が確認されました。またサブスケール別の分析——全般性不安、パニック障害、低い気分(low mood)など——および総合スコアの双方において、上位三分位、すなわち診断を受ける可能性が高いグループでは、ロボット実施モードが他のグループと比較して有意に高い総合スコアを示しており、ロボットによるアセスメントが集団の差異を捉える上で特に有効であることが裏付けられました。
3-2. 音声非言語キューを用いた機械学習モデルの構築と精度・適応的アセスメントの必要性
Presenter: 次に、デモでもご覧いただいた絵画課題(CAT)のデータに着目しました。子どもたちは複数の絵を1枚ずつ提示され、それぞれに対してナラティブ——何が起きているかの語り——を提供するよう求められます。このデータを得た後、まず取り組んだのは音声の非言語キュー(audio cues)の分析です。これらのナラティブから特徴量を抽出し、機械学習モデルを訓練して、「ウェルビーイングが高いグループ」と「低いグループ」の二値分類を試みました。
モデルの汎化性を検証するために、各子どものデータを個別に分離してモデルを訓練する手法を採用しています。28名分の結果を可視化すると、興味深いパターンが見えてきました。ウェルビーイングが高いグループ(グリーンで表示)については、比較的きれいな直線や曲線を当てはめることができます。一方、診断を受ける可能性があるグループ(レッドで表示)については、モデル化が容易ではなく、個体間のばらつきが非常に大きいことが確認されました。
全体としての分類精度は約70%でしたが、この「リスクありグループのばらつきの大きさ」という発見は、一律の標準化されたアセスメントでは不十分であることを示唆しています。つまり、子ども一人ひとりの特性に応じた適応的なアセスメント(adaptive assessment)の必要性が、このデータから浮かび上がってきたのです。これは今後の研究設計において非常に重要な示唆です。
4. 拡張実験の結果と発見(41名)
4-1. 実験拡張の内容と主要知見の再現
Presenter: 第1次実験の知見を踏まえ、私たちは研究をさらに拡張しました。まずサンプルサイズを28名から41名へと増やし、加えてジェンダーバランスを意図的に調整しました。これはジェンダーに基づいた分析を可能にするための重要なステップです。また新たに、非言語的な視覚キューとして「アクションユニット(action units)」の抽出を加えました。アクションユニットとは、顔の筋肉の動きを細分化した原子的な動作単位であり、たとえば眉の内側を引き上げる動きが「アクションユニット1」に相当します。こうした微細な表情の動きは子どもの表現性(expressivity)と密接に結びついており、ウェルビーイングのアセスメントに有用な情報をもたらすと考えられます。さらに音声キュー(audio cues)の分析も引き続き行いました。
結果として、サンプルサイズを増やしたにもかかわらず、主要な知見は変わりませんでした。ロボット実施モードが集団をクラスタ間で分類する上で依然として最も有効であることが再確認され、第1次実験の結果の頑健性が裏付けられました。
4-2. ジェンダー差による表現性の違いと標準化アセスメントの限界
Presenter: ジェンダーバランスを整えたことで、今回初めてジェンダー間の比較分析が可能となり、非常に興味深い発見が得られました。まず、上位三分位——すなわち診断を受ける可能性が高いグループ——の子どもたちが悲しい記憶の想起(sad memory recall)を行った際、その表情の強度(intensity)が他のグループと比較して著しく高く、かつ表情が現れる頻度(frequency)も顕著に多いことが確認されました。
さらにジェンダー間の差異として、診断を受ける可能性が高い女児は、同じ状況にある男児と比べて表現性が格段に高いことが明らかになりました。つまり、リスクを抱えた女児ほど、言語的にも非言語的にも豊かな表現を示すという傾向があるのです。
この発見が示すことは明確です。現行のアセスメント手法は標準化・一般化されたものですが、それはジェンダーによって異なる表現性の違いを適切に捉えられていない可能性があります。男女で反応パターンが異なる以上、すべての子どもに同一の評価基準を当てはめることには限界があります。「One size does not fit all(一つのやり方がすべてに通用するわけではない)」という本発表のタイトルが示す通り、子ども一人ひとりの特性——とりわけジェンダー——に応じた、より適応的かつ個別化されたアセスメントへの移行が求められているのです。
5. 質問票の妥当性検証と縦断的実験
5-1. ロボット環境における既存質問票の妥当性分析と改訂の必要性
Presenter: ここで私たちは別の重要な問いを立てました。これまで使用してきた標準化された質問票は、そもそもペーパーや鉛筆での回答、あるいはコンピューター上での実施を前提として設計されたものです。ロボットとのインタラクションや、人間とAIエージェントとのインタラクションといった新しい文脈においても、これらの質問票は依然として有効なのでしょうか。つまり、ロボットという新しい設定でも、質問票としての妥当性を保っているのかどうかを検証する必要がありました。
そこで妥当性分析を実施した結果、項目レベルで明確な差異が確認されました。SMFQを例に挙げると、項目5や項目8といった一部の項目は依然として良好な因子負荷量を示しているのに対し、項目2や項目6はあまり良好に機能していません。さらに項目4や項目11に至っては、まったく因子負荷がみられませんでした。同様の傾向はARCATと呼ばれる別の質問票においても確認されています。
これらの分析結果が示すのは、二つの異なる結論です。一方では、ロボット実施環境においても質問票全体としての信頼性と構成概念妥当性(construct validity)は維持されており、ロボットによる実施は引き続き有効であるといえます。しかし他方で、すべての項目が均等に機能しているわけではないという事実は、子どもとAIエージェントや子どもとロボットとのインタラクションといった新しいアセスメント文脈に向けて、これらの質問票を再考し、改訂する必要性を示唆しています。標準的な設定でこれらの質問票を使い続けたいのであれば、ロボット環境という新しい現実に合わせて項目レベルでの見直しが不可欠です。
5-2. 縦断的実験(40名・3セッション)による新規性効果の否定とオンライン実施の実証
Presenter: これまでの実験はすべて1回限りのセッションで行われていました。ここで新たな懸念が浮かび上がります。それは「新規性効果(novelty effect)」です。ロボティクスの分野ではよく知られた現象ですが、ロボットと初めて接する子どもたちは、単純に珍しさや興奮から通常とは異なる反応を示す可能性があります。その場合、これまでの実験で得られた表現性のデータや分類結果は、メンタルウェルビーイングの状態を反映しているのではなく、ロボットへの新鮮な驚きを反映しているにすぎないのではないかという疑問が生じます。
この問いに答えるため、約10〜14日間隔で3回のセッションからなる縦断的なアセスメントを設計しました。また同時に、オンラインでの実施も可能かどうかを検証するため、ケンブリッジ以外の地域からも参加者を募りました。その結果、タジキスタンやシンガポールを含む世界各地の子どもたちが参加することになり、合計40名の新たな参加者グループが形成されました。プロトコルは第1次実験と同様で、事前に質問票への回答を行い、各セッション中にロボットとの一連のタスクを実施する形式です。
結果として、この異なる40名のグループにおいても、主要な知見はまったく変わりませんでした。ロボット実施モードは依然として集団をクラスタ間で分類する上で高い有効性を示しました。さらに重要なのは、3回のセッションを通じて結果が一貫していたという点です。これは新規性効果が存在しないことを意味しており、子どもたちがロボットに慣れた後も、ロボットによるアセスメントの有効性は損なわれないことが実証されました。加えて、オンライン設定においてもロボット実施モードが有効に機能することが確認され、地理的な制約を超えた活用の可能性が示されました。
6. 大規模言語モデルによるAIアセスメントの試みと限界
6-1. VLMを用いたリスク判定の手法と結果
Presenter: ここで私たちは新たな方向性に目を向けました。昨今、大規模言語モデル(LLM)や基盤モデル(foundation models)への注目が非常に高まっています。そこで私たちは、同じCAT(Child Apperception Test)のデータを使って、複雑な専用モデルを構築しなくても、既存の言語モデルにそのままデータを与えるだけで「この子どもは抑うつ状態にあるか」「リスクがあるかどうか」を判定できるのではないかと考えました。
ただし、ここで重要な制約があります。子どものデータはプライバシーと倫理上の理由から外部に渡すことができません。そのため、クラウドベースの商用モデルは使用できず、オフラインで動作するオープンソースのVLM(Visual Language Model)を使用することでデータを完全に手元に管理できる環境を構築しました。
プロンプトの設計としては、CATの実施手順に関する情報、子どものデモグラフィック情報(ジェンダーと年齢)、そしてロボットと子どもの間で交わされた質疑応答データを入力として与えました。出力についてはCATのマニュアルに基づく構造化された形式を指定しており、CATの特定のセクションの評価項目に対応する形で判定結果を求めています。
6-2. 高ウェルビーイング群のフィルタリング精度・リスク群の低一致率・女児への偽陽性傾向
Presenter: 結果として、まず明確に示されたのは、ウェルビーイングが高いグループ——すなわちアセスメントを必要としない可能性が高いグループ——に対しては、VLMがセラピストの判定と82%の一致率を達成したという点です。これは非常に有望な結果です。つまり、ウェルビーイングに問題がないグループをフィルタリングして除外する用途においては、VLMは十分に機能するといえます。
しかし、診断が必要となる可能性のある陽性ケース——リスクを抱えたグループ——については、人間のセラピストとの一致率がわずか13%にとどまりました。現行のVLMをそのままリスク判定に適用することには明確な限界があります。
さらに詳細に分析すると、もうひとつの重要な傾向が浮かび上がりました。VLMは女児を誤って陽性と判定する、すなわち偽陽性(false positive)の割合が高いという偏りが確認されたのです。この原因を探るべくデモグラフィック情報の影響を検討しましたが、ジェンダーや年齢といった属性データを追加しても結果は変わりませんでした。このことから私たちが推定しているのは、この偏りはデモグラフィック情報そのものではなく、女児が絵画課題に対してナラティブを語る際の表現の仕方——その語り口や言語パターン——に起因しているのではないかという点です。第4節で確認したジェンダー間の表現性の差異が、VLMの判定にも影響を及ぼしている可能性があります。現行のVLMはこうした表現スタイルの違いを適切に扱えておらず、バイアスの温床となっていることを認識した上で、より精緻なモデルの開発と検証を進めていく必要があります。
7. 総括と今後の研究(MiCROプロジェクト)
7-1. 主要知見の整理と「One size does not fit all」の含意
Presenter: ここで本発表全体を通じて得られた主要な知見を整理します。まず、ロボット主導のアセスメントは集団をクラスタ間で分類する上で非常に有効であることが、複数の実験を通じて一貫して示されました。これが意味するのは、ロボットによるアセスメントを初期フラグ付けのツールとして活用できるということです。具体的には、「ウェルビーイングが高いグループ」と「懸念が見込まれるグループ」を分離し、後者を臨床家によるより詳細な診断へと優先的につなげるというトリアージ的な役割を担わせることができます。
次に質問票についてですが、ロボットによる実施は有効であり、信頼性と構成概念妥当性も維持されていることが確認されました。しかしながら、すべての項目が均等に機能しているわけではないため、ロボットやAIエージェントとのインタラクションという新しいアセスメント環境に合わせた質問票の改訂・再設計が必要です。
そして最も重要な知見のひとつが、子どもたちの反応にはジェンダーによる顕著な差異が存在するという点です。これは言語的な反応だけでなく、非言語的な表現においても同様です。この事実は、現行の標準化・一般化されたアセスメント手法では、すべての子どもを公平かつ適切に評価できない可能性を示しています。本発表のタイトルである「One size does not fit all」はまさにこの問題を指しており、男女で反応パターンが異なる以上、個別の特性に応じた適応的・個別化されたアセスメントへの移行が不可欠です。
最後にAI活用の可能性と限界についてです。VLMはウェルビーイングが高いグループを高精度でフィルタリングする点では有用ですが、リスクを抱えたグループをリアルタイムで予測・分析するためには、現行の汎用モデルに頼るだけでは不十分です。より精緻に訓練された専用モデルが必要であり、同時にバイアスの問題——特に女児への偽陽性傾向——を継続的に調査・改善していくことが求められます。
7-2. MiCROプロジェクトの概要・対象集団・研究コンソーシアム
Presenter: こうした知見と課題を踏まえ、私たちは今年4月に新たなプロジェクトを立ち上げました。その名は「MiCRO(Measuring Children's wellbeing and mental health with social Robots)」、すなわちソーシャルロボットを用いた子どものウェルビーイングとメンタルヘルスの測定プロジェクトです。このプロジェクトはChanceによる資金提供を受けています。
MiCROが特に焦点を当てるのは、これまでの研究で示された課題をさらに深掘りすることに加え、特に脆弱なグループへの適用です。具体的には、難民の子どもたちと、言語発達障害を持つ子どもたちを主な対象として設定しています。これらのグループは、標準化された一般的なアセスメント手法では特に見落とされやすく、かつ支援のニーズが高い集団であるため、個別化・適応的なアセスメントの恩恵を最も受けうる対象です。
このプロジェクトは、スウェーデンのウプサラ大学を筆頭機関とする国際的なコンソーシアムによって推進されています。ETH Zurich、ここにいるFrederickaのチームが所属するビルフィールド大学(Bielefeld University)、そしてケンブリッジ大学からは教育学部・精神医学科・私たちのチームが参画しています。この4〜5年間にわたる研究を支えてくださったチームメンバー全員、そしてWD ArmstrongおよびEPSRC・UKRIの資金提供機関に深く感謝申し上げます。
