※本記事は、2025年2月7日にスタンフォード大学で行われたAnhong Guo氏(ミシガン大学)によるセミナー「Stanford Seminar - Personal Assistive Technology」の文字起こしを基に作成されています。セミナーの動画はYouTubeの「https://www.youtube.com/watch?v=-gxy0_z5oYA 」でご覧いただけます。本記事では、セミナーの内容を要約・構造化しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画をご視聴いただくことをお勧めいたします。
登壇者紹介:
Anhong Guoはミシガン大学のコンピュータサイエンス&エンジニアリング学科の助教授であり、情報学部とも提携しています。彼の研究はHCI(ヒューマンコンピュータインタラクション)とAIの交差点に位置し、人間と機械の知能の相乗効果を活用して、アクセシビリティ、コラボレーション、およびそれ以上の対話型システムを作成しています。彼の研究はCHI、UIST、ASSETS、MobileHCIで最優秀論文賞、優秀賞、アーティファクト賞を受賞し、倉庫での注文ピッキングのためのウェアラブル技術に関するISWCで10年影響賞を受賞しています。彼はGoogle Research Scholar、Forbes「30 Under 30」科学者、初代Snap Inc. Research Fellow、およびSwartz Innovation Fellow for Entrepreneurshipです。Anhongはカーネギーメロン大学でヒューマンコンピュータインタラクションの博士号、ジョージア工科大学でHCIの修士号、BUPTで電子情報工学の学士号を取得しています。彼の研究についての詳細は https://guoanhong.com でご覧いただけます。
1. 導入部分
1.1 講演の概要と目的
本日は皆さんにお越しいただき、少し雨が降っている朝にもかかわらず、本当にありがとうございます。私の名前はAnhong Guoで、ミシガン大学のコンピュータサイエンス工学の助教授をしており、情報学部とも提携しています。
今日は、私たちの研究室の取り組みについてお話しします。具体的には、障害を持つ人々のために実世界をよりアクセシブルにするためのアシスティブテクノロジーの構築と展開、そしてパーソナルアシスティブテクノロジーを通じたパーソナルアクセシビリティというアイデアについてです。
私たちの身の回りの世界は物理的なインターフェースで溢れています。電子レンジ、情報キオスク、サーモスタット、決済端末などがあり、多くの物体がデジタルインターフェースを獲得しつつあります。電動歯ブラシや調理鍋でさえ、少しの画面と制御できるコントロールを持つようになっています。これらのデバイスはタッチスクリーンも取り入れつつあります。
これらのインターフェースは一部の人々にとっては素晴らしいものであり、より柔軟であるという利点がありますが、能力の前提によって、他の人々にとってはますます理解しにくく使いにくくなっています。これらは良好な視覚、聴覚、発話、細かい運動能力を必要とします。
特定の人々のためにこれらのデバイスをアクセシブルにする方法を見つけてきました。例えば、視覚障害者のためには、話す電子レンジや時計、体重計などの自己音声デバイスがあり、ユーザーはそれらと対話でき、デバイスはクリックされたものを読み上げます。視覚障害と聴覚障害を併せ持つ人々(盲聾者)のためには、触覚マーキングやブレイユ点字の補強がこれらのデバイスをよりアクセシブルにします。これにより、触覚を使用して機械を理解し操作できるようになります。
このセミナーでは、障害を持つ人々が自分の好みのデバイスやモダリティを使って物理的・デジタル世界にアクセスできるようにする「パーソナルアシスティブテクノロジー」のコンセプトについて紹介し、私たちの研究室が開発してきた一連のプロジェクトを通じて、その具体的な実現方法と可能性を探ります。
1.2 物理的インターフェースの能力前提
例えば、情報キオスクに遭遇したとき、それがどのような能力を前提としているかを考えてみてください。ユーザーはキオスクを制御できる必要があります。スクリーンを見ることができなければなりません。もし音を出すなら、その音や音声を聞いて理解できる必要があります。また、腕を上げてインターフェースに触れ、一定の時間内に同じポイントを正確にタッチする能力も求められます。これらは非常に単純なユーザーインターフェースであっても、多くの能力を前提としているのです。
現在、物理的なオブジェクトは特定の人々のためにアクセシブルに設計され、一方でデジタル情報はアシスティブテクノロジーを通じてアクセスされています。私たちはスクリーンリーダー、音声コントロール、物理的コントローラーなど、多くのタイプのアシスティブテクノロジーを持っています。
アシスティブテクノロジーの例として、視覚障害者によく使用されるスクリーンリーダーがあります。「画面を探索するために指を動かしてください。設定、App Store、リマインダー、メール、FaceTime。これはほとんどすべての単語、機能、アプリ名で動作します。」このアクセシビリティレイヤーは、モバイルデバイスとデスクトップの両方で動作し、ユーザーは多くのデジタル情報と対話できます。
聴覚障害者向けのアシスティブテクノロジーの別の例としては、クローズドキャプションがあります。これはテレビやYouTubeでどのように機能するかの例です。
現在、私たちはより多くの人々が使用できる製品を設計するために、アクセシビリティとユーザビリティのガイドラインを作成しています。しかし、物理的に実世界に設置されたものは、ユーザーについて前提を置く必要があり、固定されています。あなたが座っている椅子を考えてみてください。その椅子はあなたのために特別に設計されたものではありません。座ることはできますが、それはあなたにとって最も快適なものではなく、おそらく人口の95%に対応するように設計されていますが、あなたの特定のニーズには完全に適合していません。
物理的に設置されたものは多くの場合固定されており、ユーザーについての前提を置く必要があります。ディスプレイを持つ調理器具などにスクリーンリーダーやアシスティブタッチなどのアシスティブテクノロジーを追加したとしても、それはうまく機能しません。コスト上の考慮、ハードウェアとソフトウェアの要件、インタラクションのための限られた状態など、様々な理由があります。さらに、アシスティブテクノロジーに精通している人なら知っているように、人々は自分のアシスティブツールにジェスチャーや設定などで深いカスタマイズを行います。実世界にあるものと対話し、それを最も深く個人化された方法で自分のニーズに適応させることは不可能なのです。
2. 現在のアクセシビリティの課題
2.1 アクセシビリティ設計の現状
現在、私たちは製品をより多くの人々が使えるようにするため、アクセシビリティとユーザビリティのガイドラインを作成しています。しかし、これらのデバイスをアクセシブルにするには、各製品が一連のガイドラインに従う必要があります。例えば、「情報が知覚可能であること」「エラーへの許容性」「使用の柔軟性」といった原則があります。これらはユニバーサルデザインの原則で学んだかもしれません。
さらに、WCAG(Web Content Accessibility Guidelines)、ATAG(Authoring Tool Accessibility Guidelines)といったガイドラインもあります。画像に対する代替テキスト、ビデオに対するクローズドキャプション、オーディオに対する音声解説、ビデオに対するオーディオ解説など、様々なツールとガイドラインが物理的・デジタル情報をよりアクセシブルにするために利用可能です。
これらは素晴らしいツールとガイドラインですが、現実には実際にアクセシブルな製品はごくわずかしかありません。なぜでしょうか?
最近のGregor Vanderheide氏らの論文で指摘されているように、このパラダイムを使用して各製品をアクセシブルにすることはほぼ不可能です。理由は、これらのガイドラインには何百もの個別要件があり、すべての開発者と企業が各ガイドラインに従って製品を改善することを要求していますが、これらのガイドラインでさえ、あらゆる種類、程度、障害の組み合わせを持つすべての人々をカバーしているわけではないからです。
本質的に、各製品チームと企業に、自社製品をすべての人々にアクセシブルにすることを要求するというアプローチは機能しません。特に私が示したデバイス、実世界に物理的に設置されたキオスクや台所に設置された電子レンジなどは、ユーザーについて前提を置かなければならず、固定されています。
あなたが座っている椅子を考えてみてください。その椅子はあなた専用に設計されたものではありません。座ることはできても、あなたにとって最も快適なものではなく、おそらく人口の95%に対応するように設計されていますが、あなた固有のニーズに最適に対応しているわけではありません。
物理的に設置されたものは多くの場合固定されており、ユーザーについての前提を置く必要があります。ディスプレイを持つ調理器具などにスクリーンリーダーやアシスティブタッチなどのアシスティブテクノロジーを追加したとしても、それはうまく機能しません。コスト上の考慮、ハードウェアとソフトウェアの要件、インタラクションのための限られた状態など、様々な理由があります。
さらに、アシスティブテクノロジーに精通している人なら知っているように、人々は自分のアシスティブツールにジェスチャーや設定などで深いカスタマイズを行います。実世界にあるものと対話し、それを最も深く個人化された方法で自分のニーズに適応させることは不可能なのです。
2.2 ガイドラインとその限界
現在、アクセシビリティとユーザビリティを向上させるために様々なガイドラインが存在しています。私たちはユニバーサルデザイン原則として「知覚可能な情報」「エラーへの許容性」「使用の柔軟性」などを学んでいます。また、WCAG(Web Content Accessibility Guidelines)、ATAG(Authoring Tool Accessibility Guidelines)といったガイドラインも存在します。
これらのガイドラインでは、画像に対する代替テキスト、ビデオに対するクローズドキャプション、オーディオに対する音声説明、ビデオに対するオーディオ説明など、様々なアクセシビリティ対応が推奨されています。これらは素晴らしいツールとガイドラインですが、実際にアクセシブルな製品はごくわずかしかありません。
その理由は、Gregor Vanderheideらの最近の論文で指摘されているように、このパラダイムを使用して各製品をアクセシブルにすることはほぼ不可能だからです。現在のガイドラインには何百もの個別要件があり、すべての開発者と企業が各ガイドラインに従って製品を改善することを要求しています。しかし、これらのガイドラインでさえも、あらゆる種類、程度、障害の組み合わせを持つすべての人々をカバーしているわけではありません。
本質的に、各製品チームと企業に自社製品をすべての人々にアクセシブルにすることを要求するというアプローチは機能しないのです。特に、私が示したようなキオスクや台所に設置された電子レンジなど、実世界に物理的に設置されたデバイスは、ユーザーについて前提を置かなければならず、固定されています。
これらの物理的に設置されたものは多くの場合固定されており、ユーザーについての前提を置く必要があります。たとえディスプレイを持つ調理器具などにスクリーンリーダーやアシスティブタッチなどのアシスティブテクノロジーを追加したとしても、それはうまく機能しません。コスト上の考慮、ハードウェアとソフトウェアの要件、インタラクションのための限られた状態などの理由があります。
さらに重要なのは、アシスティブテクノロジーに精通している人なら知っているように、人々は自分のアシスティブツールにジェスチャーや設定などで深いカスタマイズを行うということです。実世界にあるものと対話し、それを最も深く個人化された方法で自分のニーズに適応させることは現在のパラダイムでは不可能なのです。
2.3 能力ベース設計(Ability-based Design)の枠組み
この課題に対処するために、「能力ベース設計」という枠組みがあります。能力ベース設計の目標は、ユーザーの能力に対応するようにシステムを設計することです。私たちが「能力ベースシステム」と呼ぶものは、ユーザーに基づいて適応できるシステムです。
ある意味で、現在のデジタルアクセシビリティエコシステムはすでにこのように設計されていますが、これを分解すると、能力ベースシステムには実際に2つの部分があります。1つはアクセスされる物理的およびデジタルオブジェクト、もう1つはそれらの情報をユーザーに提示するために機能するアシスティブテクノロジーレイヤーです。
モバイルウェブなどのデジタルオブジェクトの文脈では、これは理にかなっています。情報を一つの方法で提供し、ユーザーは自分のアシスティブテクノロジーを使ってそれを操作できます。しかし、実世界にアクセスする場合、これはしばしば失敗します。なぜなら物理的なインフラは硬直的で適応できないからです。
私たちの研究室は、パーソナルアシスティブテクノロジーというビジョンに向けて取り組んでいます。これはメインフレームコンピューティングから類推しています。メインフレームコンピューティングでは、多くのユーザーが同じ1つのデバイスにアクセスしていましたが、それがパーソナルコンピューティングに変革され、ユーザーが自分自身で消費、作成、革新することを可能にしました。
これをパーソナルアシスティブテクノロジーに当てはめると、その考え方は、障害を持つ人々が自分の好みのデバイスやモダリティを使って物理的およびデジタルな世界に自分の条件でアクセスし、自分のために技術を作成およびカスタマイズするために自分の領域知識を活用できるようにすることを目指しています。
3. パーソナルアシスティブテクノロジーのコンセプト
3.1 メインフレームからパーソナルコンピューティングへの変遷
私たちの研究室は、パーソナルアシスティブテクノロジーというビジョンに向けて取り組んでいます。このコンセプトを説明するために、メインフレームコンピューティングからの変遷を参考にしたいと思います。
かつてのメインフレームコンピューティングの時代には、多くのユーザーが同じ1つのデバイスにアクセスしていました。しかし、そこからパーソナルコンピューティングへと変革が起こり、ユーザーが自分自身で情報を消費し、コンテンツを作成し、革新することが可能になりました。
この変革を、アシスティブテクノロジーの領域にも当てはめて考えることができます。現在のアシスティブテクノロジーの多くは、メインフレーム時代に似ています。つまり、一般的なニーズに対応するよう設計された汎用的なソリューションが提供され、ユーザーはそれに適応しなければなりません。
しかし、パーソナルアシスティブテクノロジーでは、メインフレームからパーソナルコンピューティングへの移行と同様の変革を目指しています。ユーザーが自分に合ったデバイスやインターフェース、モダリティを選択し、自分のニーズに合わせてカスタマイズできるようにするのです。
これは、以前にお見せした図解と同じように、アシスティブテクノロジーの部分をユーザーにより近づけることで、よりパーソナルなものとし、すでに実世界に存在する硬直的な物理的・デジタル的オブジェクトにアクセスできるようにするということです。
3.2 パーソナルアシスティブテクノロジーの定義と特徴
パーソナルアシスティブテクノロジーとは、障害を持つ人々が自分の好みのデバイスやモダリティを使って、物理的およびデジタルな世界に自分の条件でアクセスできるようにすることを目指しています。また、彼らが自分の領域知識を活用して、自分自身のために技術を作成およびカスタマイズできるようにすることも目的としています。
私はこれから、このコンセプトに対応する数々のプロジェクトをご紹介します。パーソナルアシスティブテクノロジーがどのようにユーザーが自分のデバイスやモダリティを使用し、自分の環境を拡張できるようにするか、また障害を持つ人々が自分自身のアシスティブテクノロジーを作成し、より広いコンテキストを活用できるようにするかを示す例をお見せします。
この概念を視覚化すると、以前お見せした図と同様に、アシスティブテクノロジーの部分をユーザーにより近づけることで、より個人的なものとし、それによって実世界にすでに存在する硬直的な物理的・デジタル的オブジェクトにアクセスできるようにするというものです。
このアプローチの重要な特徴は、ユーザーの個人的なニーズに深く適応できることです。例えば、ユーザーがより速い音声を好むか、触覚フィードバックを好むか、あるいは出力を得るために異なるアシスティブテクノロジーを使用するかにかかわらず、実世界の情報を彼らの好みのモダリティに変換することができます。
そして、スマートフォンのようなパーソナルデバイスは、ユーザーの能力や好みについての情報を持ち、ユーザーを最もよく知るデバイスとなります。これにより、標準化されたアクセシビリティソリューションではなく、個々のユーザーに合わせた深いカスタマイズが可能になるのです。
4. 物理インターフェース向けのアクセシビリティ実現プロジェクト
4.1 VizLens - 視覚障害者向けインターフェースアクセスシステム
最初の例として、インターフェースの課題に戻りましょう。これらのインターフェースをすべてアクセシブルにすることは長年の課題であり、特に実世界にすでに存在する膨大な数のレガシーデバイスが問題です。これらはインターネットに接続されておらず、ユーザーは別のデバイスを使用して制御することができません。
私たちの以前の研究では、静的または動的なこれらのインターフェースを解釈し、視覚障害者が独立してアクセスできるようにするシステムを開発しました。iOSのスクリーンリーダーがどのように機能するかと同様に、ユーザーは指をデジタルインターフェース上で動かすことで、指の下にあるものを聞くことができます。私たちはその体験を物理的インターフェースにマッピングしました。
例を見てみましょう。「キッチンタイマー、キッチンタイマー、2、2、2、5、5、5、2、2、5、2、1、1、2、2、1、2、2」。ご覧のように、ユーザーが物理的インターフェース上で指を動かすと、システム「VizLens」がユーザーの指の下にあるものについてリアルタイムのフィードバックを提供します。これは、デジタル情報のためのスクリーンリーダーの仕組みと同じようなものです。
このアプローチが機能するインターフェースの範囲もお見せします。ここでの考え方は、デジタルアクセシビリティの素晴らしい機能を実世界に取り入れ、ユーザーが自分のデバイスと好みのモダリティを使用してそのような情報にアクセスできるようにすることです。
例えば、このユーザーがより速い音声を好むか、触覚フィードバックを好むか、あるいはこの人が出力を得るために異なるアシスティブテクノロジーを使用する場合、彼らは実世界の情報、つまり物理的環境でアクセスする必要のある情報を、この好みのモダリティに変換することができます。このスマートフォンは彼らをよく知り、ユーザーの能力や好みについてのすべての連絡先と理解を持っているのです。
約2年前、2023年の夏にこのアプリをiOSのApp Storeにデプロイし、約500人がこれを1000の異なるインターフェースに使用しました。その後、おそらく偶然ですが、AppleはiOSのアクセシビリティ設定に同様の機能を追加しました。ただし、Appleの実装では指の下にあるものを読み上げるのではなく、まず指の上にあるものを示し、それをどれだけ上に移動させて作動させるかを知る必要があります。
4.2 Facade - 3Dプリントによる触覚オーバーレイ
VizLensの開発に基づいて、私たちは一連の機能拡張を開発し、ユーザーがアクセスできるインターフェースの種類とモダリティを拡張しました。まず、Facadeと呼ばれる拡張機能を開発しました。これは視覚障害者がアクセシブルでない家電製品のために3Dプリントされた触覚オーバーレイを作成できるようにするものです。
この仕組みは、ユーザーがドル紙幣やクレジットカードなどの参照画像(絶対的な寸法と特徴が分かっているもの)とともにこのインターフェースの写真を撮ります。そして、これを使用してボタン情報を取得し、3Dプリントされたオーバーレイを生成することができます。ユーザーはそれを後付けして家電製品を拡張することができます。
これにより、ユーザーはこのアプローチを使用して自分の環境を拡張することができます。さらに、より動的なタッチスクリーンでも動作するように拡張しました。私たちが行ったのは、人々がこの機械と対話する様子を記録したビデオ、例えばコーヒーメーカーを使ってラテを注文したり、他の人が設定を変更したりする様子を使用することです。徐々にそれらのビデオを収集することで、この機械がどのように動作するかの状態マシンを逆エンジニアリングし、視覚障害ユーザーに音声インターフェースを通じて提示することができます。これにより、ユーザーはどの操作を行いたいかを指定でき、システムはステップバイステップでそのタスクを完了するようにガイドすることができます。
最近では、BrushLensと呼ぶスマートフォンケース拡張機能を開発しました。これにより、視覚障害ユーザーと運動障害を持つ人々の両方が、タッチスクリーンキオスクにアクセスできるようになります。ここで解決しようとしている問題は、以前の拡張機能で視覚障害ユーザーがタッチスクリーンを音声ガイダンスに従って使用できるようになりましたが、この音声ガイダンスに従って指を正確に動かす必要があり、それが課題になることがあることです。特にUIが特に混雑している場合、ユーザーはミスをする可能性があり、何度も行き来する必要があるかもしれません。
解決しようとしている問題は、ハードウェアインタラクションプロキシを使用して、ユーザーのために自動的に作動させることができないかということです。これにより、ユーザーは正確な運動制御を心配することなく、インターフェース上で広い範囲をブラッシング(擦る)することに集中でき、システムに正確な作動を委任することができます。
BrushLensはタッチスクリーンデバイスを様々な能力を持つ人々にとってよりアクセシブルにするハードウェアインタラクションプロキシです。BrushLensは複数のアクチュエーターを使用して画面に触れ、アクチュエーターを作動させるタイミングを自動的に決定し、ユーザーに代わって正確に画面に触れます。
私たちは2つの異なるスマートフォンケースを構築しました。1つは物理ボタン、容量性または導電性画面で動作する機械的アクチュエーターを備えたもの、もう1つはオートクリッカーを使用したものです。このオートクリッカーはモバイルファームでよく使用されているもので、例えばTikTokのビデオを再生するスマートフォンをオートクリッカーに接続して自動的に多くのビデオを再生します。私たちはこれらの自動化された方法をいくつか購入し、容量を動的に変化させることができるスマートフォンケースを構築しました。ユーザーが画面をブラッシングすると、適切なタイミングでタッチを提供することができます。
ここでの考え方は、盲目のユーザーをサポートする1つのモードと、細かい運動制御が不足している人々をサポートする別のモードがあるということです。視覚障害ユーザーをサポートするモードでは、ユーザーが実行しようとする機能を、彼らがボイスオーバーを使用して制御できるインターフェースにマッピングします。運動制御に課題を持つユーザーをサポートする他のモードでは、スマートフォンの近くにあるボタンを拡大するカスタムインターフェースを作成し、ユーザーがそれを起動しやすくします。
4.3 動的タッチスクリーン用の拡張機能
以前の拡張機能で視覚障害ユーザーがタッチスクリーンを使用できるようになりましたが、ユーザーは音声ガイダンスに従って指を正確に動かす必要があり、それが課題となることがありました。特にUIが混雑している場合、ユーザーはミスをする可能性があり、何度も行き来する必要があります。
この問題を解決するために、私たちはハードウェアインタラクションプロキシを使用して、ユーザーの代わりに自動的に操作を実行できないかと考えました。これにより、ユーザーは正確な運動制御を心配することなく、インターフェース上で広い範囲を指でなぞることに集中でき、システムに正確な操作を委任することができます。
私たちが開発したBrushLensは、タッチスクリーンデバイスをさまざまな能力を持つ人々にとってよりアクセシブルにするハードウェアインタラクションプロキシです。このシステムは複数のアクチュエーターを使用して画面に触れ、アクチュエーターを作動させるタイミングを自動的に決定し、ユーザーに代わって正確に画面に触れます。視覚障害や運動障害を持つユーザーは、スマートフォン上のBrushLensのアクセシブルなインターフェースを使用して、アクセスできないタッチスクリーンを探索し操作することができます。
私たちは2つの異なるスマートフォンケースを開発しました。1つは物理ボタン、容量性または導電性画面で動作する機械的アクチュエーターを備えたものです。もう1つはオートクリッカーを使用したもので、これは容量を動的に変化させることができます。ユーザーが画面上を指でなぞると、システムは適切なタイミングでタッチを提供することができます。
このシステムには2つの異なるモードがあります。視覚障害ユーザーをサポートするモードでは、ユーザーが実行しようとしている機能を、彼らがボイスオーバーを使用して制御できるインターフェースにマッピングします。運動制御に課題を持つユーザーをサポートするモードでは、スマートフォンの近くにあるボタンを拡大するカスタムインターフェースを作成し、ユーザーがそれを起動しやすくします。
このアプローチにより、インターフェースをユーザーに近づけることができます。つまり、このインターフェースはユーザーが何を必要としているか、運動サポートが必要か、視覚サポートが必要か、あるいは他の種類のサポートが必要かを知り、ユーザーの能力に応じて、物理的オブジェクトやタッチスクリーンが前提としている操作を実行することができます。
4.4 BrushLens - モーター制御支援のフォンケース
最近、私たちはBrushLensと呼ばれるスマートフォンケース拡張機能を開発しました。これは視覚障害者と運動障害を持つ人々の両方がタッチスクリーンキオスクにアクセスできるようにするものです。ここで解決しようとしている問題は、以前の拡張機能では視覚障害者がタッチスクリーンを使用する際に音声ガイダンスに従って指を正確に動かす必要があり、それが課題となっていたことです。特にUIが特に混雑している場合、ユーザーはミスをしやすく、何度も操作のやり直しが必要になることがありました。
私たちが解決しようとしたのは、ハードウェアインタラクションプロキシを使用して、ユーザーの代わりに自動的に操作を実行できないかという点です。これにより、ユーザーは非常に細かい運動制御を心配することなく、インターフェース上で広い範囲を指でなぞることに集中でき、システムに正確な操作を委任することができます。
BrushLensは複数のアクチュエーターを使用して画面に触れます。システムは自動的にアクチュエーターをいつ作動させるかを判断し、ユーザーに代わって正確に画面をタッチします。視覚障害や運動障害を持つユーザーは、スマートフォン上のBrushLensのアクセシブルなインターフェースを使用して、アクセスできないタッチスクリーンを探索し操作することができます。
私たちは2つの異なるスマートフォンケースを開発しました。1つは物理ボタン、容量性または導電性スクリーンで動作する機械的アクチュエーターを備えたものです。もう1つはオートクリッカーを使用したもので、モバイルファームでよく使用されています。モバイルファームでは、TikTokのビデオを再生するスマートフォンをオートクリッカーに接続し、自動的に多くのビデオを再生することがあります。
私たちはこれらの自動化されたデバイスをいくつか購入し、容量を動的に変化させることができるスマートフォンケースを構築しました。ユーザーが画面上を指でなぞると、システムは適切なタイミングでタッチを提供することができます。
このシステムには2つの異なるモードがあります。視覚障害ユーザーをサポートするモードでは、ユーザーが実行しようとしている機能を、彼らがボイスオーバーを使用して制御できるインターフェースにマッピングします。運動制御に課題を持つユーザーをサポートするもう一つのモードでは、スマートフォンの近くにあるボタンを拡大するカスタムインターフェースを作成し、ユーザーがそれを起動しやすくします。
このアプローチにおいて、インターフェースをユーザーに近づけることで、システムがユーザーが何を必要としているか(運動サポートか視覚サポートか、あるいは他の種類のサポートか)を知り、ユーザーの能力に応じて、タッチスクリーンのような物理的オブジェクトが前提としている操作を実行することができます。
この動的物理インターフェース向けの支援に関する一連の研究は、実世界でのタッチスクリーン操作を広く支援する可能性があります。例えば、複雑な医療機器の設定や、異なる言語の機械との対話など、これらのガイダンスは拡張現実オーバーレイを通じても提供できます。これらのオーバーレイは、視覚的指示、アニメーション化された指示、インターフェースの簡略化などの形式をとることができます。私たちは、ナレーションとデモンストレーションを通じて対話型AR(拡張現実)チュートリアルを作成するためのオーサリングツールも探求しました。
5. ユーザー自身によるアシスティブテクノロジー創造の実現
5.1 現状と問題点:既存技術の限界
ここで一つ質問したいと思います。これらのアシスティブテクノロジーは誰が開発したのでしょうか?誰が設計したのでしょうか?そうですね、Appleや企業、そして個々の研究者や製品チームです。これらのテクノロジーは通常、デザイナー、開発者、研究者によって開発されています。
実際には、これらのテクノロジーは一般的なユースケースに対して設計されています。その目的は幅広い適用性を最大化するためです。あなたが座っている椅子のようなものです。それは人口の大多数に合うように設計されていますが、この幅広い適用性を最大化するという目標によって、これらのテクノロジーは「一つのサイズがすべてに適合する」ものとなり、多くの場合柔軟性に欠け、エンドユーザーの独自のニーズや好みをサポートすることができない結果となっています。
エンドユーザーはこれらのテクノロジーに変更を加えて、自分自身のために機能するようにすることができません。私たちは視覚障害者の参加者と一連の質的研究を行い、どのような状況で障害が生じるのか、そして視覚障害者がどのようにテクノロジーをカスタマイズしたり、新しいソリューションを作りたいと考えているのかを理解しました。
その結果、人々はすでにこれらの特殊なニーズに適応するための回避策を作り出すために相当な努力を払っていることがわかりました。しかし、既存の回避策は多くの場合、非常に面倒で、圧倒的で、効果的ではありません。
これを説明するために、私たちの参加者から提供された一つの例を紹介します。彼らはマイクロソフトが開発したAIアプリケーション「Seeing AI」を使用してメールを仕分けたいと考えていました。彼らは短いテキストモードでこのアプリを起動し、カメラを向けてこの封筒をスキャンします。彼らが知りたいのは、これらのメールが自分宛か、家族宛か、他の人宛かということです。
しかし、スキャンを行うと、彼らが関心を持つ情報(この場合は彼らの名前だけ)だけを読み上げるのではなく、アプリはすべての情報を提供し、それが彼らをイライラさせます。さらに、カメラの狙いの問題のため、情報が何度も繰り返され、このタスクを完了することができません。
このような状況に対応して、参加者はSeeingAIの上に、彼らが欲しい情報(彼らの名前)だけを伝えることができるアシスティブテクノロジーを作成できることを想像しました。これは、視覚障害者の参加者がこの設計プロセス、このアイデア発想プロセスに関わっている一例です。
5.2 質的研究からの知見とワークアラウンド
この研究において、私たちは視覚障害者が直面する一連の障壁と、彼らが使用している戦略を観察しました。例えば、彼らはメール上の自分の名前や住所、製品の賞味期限、あるいは到着予定のバスの番号だけを見つけたいと考えています。人々がフィルタリングしたいと思うものには実に多様なものがあり、今日の一般的なOCRやテキスト読み上げアプリケーションではできないことが多いのです。
また、視覚障害者は多くの場合、一つの目標を達成するために複数のサービスを切り替える必要があります。例えば、私たちの参加者の一人は、異なる言語(英語とアラビア語)でメールを仕分ける際に、英語の場合はSeeingAIを使用し、アラビア語の場合はEnvision AIを使用するという工夫をしていました。彼らはどの言語かを判断し、それに応じて適切なアプリに切り替えるという手動の作業を行わなければなりません。
別の例として、視覚障害者がGPT-4などの生成AIサービスからシーン説明を得る場合、潜在的なAIのエラーに対処するための詳細な戦略を持っています。重要な状況では、他のAIサービス(例えばCloudやOculusなど)とクロスチェックしたり、時には人間の支援に頼ったりします。
また、彼らは多くの場合、複数のサービスを重ね合わせて使用します。例えば、視覚障害者が不慣れな場所を移動する際には、方向を得るためのGoogle Maps、ランドマークについてより詳しく知るためのBlind Square、そして横断歩道を特に渡るためのOKOなど、複数のアプリケーションを組み合わせて使用します。ユーザーはすでに異なるアプリケーションや異なるサービスを切り替えたり組み合わせたりするという手動プロセスを行っています。
このような事例や先行研究から、視覚障害者が彼らの領域の専門家としてアシスティブテクノロジーを構想し、設計し、ハッキングしていることがわかります。しかし、現在の設計とハッキングプロセスの制限のため、個々のニーズがしばしば対応されないままになっています。
私たちの目標は、視覚障害者がこれらのニーズに対応するためのカスタムモバイルアシスティブテクノロジーを作成するために、彼らの専門知識と創造性を活用できるようにすることです。つまり、これらのニーズを開発者や企業に伝え、企業が様々なニーズに対応できるものを作成するのではなく、人々に直接ツールを提供し、彼ら自身がソリューションを作成できるようにすることを想像しています。
これは単なる消費を超えて、創造へと進むことであり、パーソナルアシスティブテクノロジーは人々が自分自身のために技術を作成するための専門知識を活用できるようにすることを目指しています。マイケルの質問に戻ると、今や彼らはものをインストールできるだけでなく、それらの拡張機能を作成してプログラミングすることもできるのです。
5.3 エンドユーザープログラミングの可能性
エンドユーザープログラミングは、非専門家が自分の専門領域での目標を達成するためのソフトウェアアーティファクトを作成することをサポートする方法です。これは私たちが話している目標に潜在的に適していますが、視覚障害者にとって、これらのエンドユーザー作成プロセスとツールをアプローチしやすく、アクセシブルで、十分に表現力のあるものにするという課題に対処することが重要です。
エンドユーザープログラミングの伝統的なパラダイムは、視覚障害者がアシスティブテクノロジーを作成するには障壁が高すぎることが多いため、適切な抽象化がどこにあるかを理解する必要があります。これが、私たちが最近の研究で調査したことです。
視覚障害者が封筒上の自分の名前を見つけるようなフィルターや、食料品のアイテムの賞味期限を見つけるようなフィルターを作成できるようにする方法を探りました。例えば、「食料品アイテムの賞味期限を見つける」というプログラムを実行すると、ユーザーは食料品やパッケージを向け、回転させながら「食料品製品、賞味期限は見つかりません...食料品製品、賞味期限が見つかりました:2024年1月10日、茶色...賞味期限が見つかりました:2024年1月10日、黄色オレンジ」といったリアルタイムの更新を聞くことができます。
このアプリケーションを開発するにあたり、私たちは3つの設計目標を持っていました:
- 表現力 - 幅広いニーズをサポートし、将来的により多くのモデルとタスクに容易に拡張できるようにすること。
- アプローチのしやすさ - プログラミング経験が非常に限られているか全くない視覚障害者にとっても理解しやすく、作成や変更のための容易なエントリーポイントを提供すること。
- アクセシビリティ - スクリーンリーダーでアクセス可能であることに加え、対象物が視野内にない場合でもカメラの向きを調整し、最終的にタスクを完了するのに役立つ十分な文脈情報を提供すること。
表現力を持たせるために、私たちは以前の質的研究で適用されるすべてのシナリオを使用し、このような視覚情報フィルタリングタスクをサポートするためのプログラム表現を導出しました。このプログラムは「何かの上の何かを見つける」というパターンに従い、それぞれの「何か」には色、位置、サイズなどの属性を示す形容詞を持つことができます。
この非常にシンプルな構造で、人々はバス上の番号を見つける、ポスター上の最大のテキストを見つける、封筒上の住所を見つけるなど、様々なアシスティブプログラムを作成することができます。これは将来的に新しいモデルやオブジェクトクラス、あるいは「見つける」の代替用語などをサポートするために容易に拡張することができます。
フィルタリングプログラムを実行する際、ProgramAllyアプリケーションは繰り返しアイテムを見つけ、ユーザーに情報を提供します。対象オブジェクトや数字が見つからない場合でも、バスが見つかった場合など、現在何が起きているかをユーザーが知るための文脈情報を提供します。
アプローチのしやすさとアクセシビリティをサポートするために、私たちはマルチモーダルなエンドユーザープログラミングインターフェースのセットを開発しました:
- ブロックモード - ユーザーはiOSのショートカットやIFTTT(If This Then That)のプログラムを設定するのと同様に、ドロップダウンメニューを使用してプログラムを作成できます。これにより最も制御と精度が得られますが、すべてのインターフェースをナビゲートする必要があるため、時間がかかります。
- 質問モード - ユーザーは「バス上の番号を見つけたい」「これが自分宛のメールかどうかを知りたい」などと話すだけで、システムは候補プログラムを生成し、ユーザーは必要に応じてそれを編集して使用できます。
- 探索モード - このモードはプログラミング・バイ・イグザンプル(例示によるプログラミング)からインスピレーションを得ています。ユーザーはまずカメラをシーンやオブジェクトに向け、一連の出力を得ます。聞きたい情報を聞いたら、後でその項目(例えば「73」がバス番号であることを認識した場合)を選択し、それに関連するプログラムを生成できます。システムはシーンのツリー表現を使用してプログラムを生成し、結果として「バス上の番号を見つける」というプログラムが作成されます。
私たちは12人の視覚障害者を対象にユーザー調査を実施し、このアプローチが以前は不可能だったアクセシビリティのユースケースをサポートできるか、そして3つの異なる作成方法の好みとトレードオフを調査しました。
6. ProgramAlly:視覚障害者向けカスタムAI支援ツール
6.1 設計目標:表現力、親しみやすさ、アクセシビリティ
ProgramAllyアプリケーションを開発するにあたり、私たちは3つの重要な設計目標を設定しました。これらの目標は、視覚障害のあるユーザーが自分自身の支援ツールを作成できるようにするために不可欠なものでした。
まず一つ目の目標は表現力です。これは何を意味するかというと、システムが幅広いニーズをサポートできるべきだということです。ユーザーがさまざまな状況で必要とする情報を認識し、フィルタリングできる必要があります。また、将来的に新しいモデルやタスクに簡単に拡張できるようにすることも重要でした。
二つ目の目標は親しみやすさです。プログラミング経験がほとんどないか全くない視覚障害者でも理解できるものでなければなりません。システムは誰にでも簡単に始められるエントリーポイントを提供し、技術的な背景に関わらず変更や調整が行えるようにする必要がありました。
三つ目の目標はアクセシビリティです。これは二つの側面があります。一方では、スクリーンリーダーでアクセス可能であるべきで、視覚障害者が使用できることが必要です。もう一方では、対象物が視野内にない場合でも、十分な文脈情報を提供してユーザーがカメラの向きを調整し、最終的にタスクを完了できるようにすることが重要でした。
例えば、ユーザーがバスを見つけようとしているときに、バスは見えているけれど番号がまだ視野に入っていない場合、システムはバスが見つかったことを伝え、ユーザーが番号を捕捉するためにカメラを動かす助けとなります。同様に、食料品を探索している場合、システムは食料品アイテムは見えているけれど賞味期限がまだ見つかっていないことを伝え、ユーザーがパッケージを回転させて賞味期限を見つける助けとなります。
これらの設計目標により、ProgramAllyは視覚障害者が実世界の情報を自分のニーズに合わせてフィルタリングし、より効率的に情報にアクセスするための強力なツールとなることを目指しました。
6.2 モデル表現と実装
表現力を持たせるために、私たちは以前の質的研究で適用できるすべてのシナリオを使用し、このような視覚情報フィルタリングタスクをサポートするためのプログラム表現を導出しました。このプログラムは「何かの上の何かを見つける」というパターンに従い、それぞれの「何か」には色、位置、サイズなどの属性を示す形容詞を持つことができます。
この非常にシンプルな構造により、ユーザーは「バス上の番号を見つける」「ポスター上の最大のテキストを見つける」「封筒上の住所を見つける」といったアシスティブプログラムを作成することができます。この構造は将来的に新しいモデルやオブジェクトクラスをサポートするために容易に拡張することができ、また「見つける」の代替用語なども追加できます。
フィルタリングプログラムを実行する際、ProgramAllyアプリケーションは繰り返しアイテムを見つけ、ユーザーに情報を提供します。例えば、ターゲットオブジェクト(数字など)が見つからなくてもバスが見つかった場合、システムは現在何が起きているかをユーザーが理解できるよう文脈情報を提供します。ユーザーは食料品アイテムは見えているけれど賞味期限を見つけるためにはパッケージを回転させる必要があることを理解できます。
このようなフィルタリングアプローチの副次的効果として、視覚言語モデル(VLM)からの誤認識(ハルシネーション)を減らせることも発見しました。モデルに単に質問するだけの場合、時にはその画像に含まれていない情報を答えることがありますが、より構造化されたフィルタリングアプローチを使用し、視覚言語モデルと組み合わせると、「これは私が見ているもの」と「これはバスの中にある番号」について、他の場所にある番号ではなく、より適切に推論できるようになります。
システムはバスを見つけ、次に番号を見つけ、これらの情報をユーザーに読み上げます。ユーザーはこれらの情報に基づいて変更を加えることができます。
6.3 プログラム生成のためのマルチモーダルインターフェース
親しみやすさとアクセシビリティをサポートするために、私たちはマルチモーダルなエンドユーザープログラミングインターフェースのセットを開発しました。視覚障害者がプログラムを作成できるよう、3つの異なる方法を用意しました:ブロックベースのプログラミング、自然言語プログラミング、そして例示によるプログラミングです。
ブロックモードでは、ユーザーはドロップダウンメニューを使用してプログラムを作成できます。これはiOSのショートカットやIFTTT(If This Then That)のプログラムを設定するのと似ています。このモードは最も制御と精度が得られますが、すべてのインターフェースをナビゲートする必要があるため、時間がかかります。
質問モードでは、ユーザーは自分の質問を話すだけで済みます。例えば「バス上の番号を見つけたい」や「これは自分宛のメールなのかを知りたい」といった具合です。システムは、ファインチューニングなどを使用して候補プログラムを生成し、ユーザーが必要に応じてそれを編集して使用できるようにします。
探索モードは、プログラミング・バイ・イグザンプル(例示によるプログラミング)からインスピレーションを得ています。このモードでは、ユーザーはまずカメラをシーンやオブジェクトに向け、一連の出力を得ます。聞きたい情報(例えば「73」というバス番号)を聞いたら、後でその項目を選択して「これがバス番号だとわかった。これに関連するプログラムを作りたい」と指定できます。システムはシーンのツリー表現を使用して、「バス上の番号を見つける」というプログラムを生成します。
これらの3つの異なるユーザー作成方法を用意することで、様々なスキルレベルや好みを持つユーザーに対応し、異なる状況で最適な方法を選べるようにしました。そして視覚障害者が自身のニーズに合わせた支援ツールを作成する際の障壁を低減することを目指しています。
6.4 ユーザー調査と結果
私たちは12人の視覚障害者を対象にユーザー調査を実施し、このアプローチが以前は不可能だったアクセシビリティのユースケースをサポートできるか、そして3つの異なる作成方法の好みとトレードオフを調査しました。
私たちが発見したのは、これらの作成インターフェースはそれぞれに独自の強みと課題があるということです。ブロックモードについては、時間がかかるものの、参加者は最終的なプログラムに対する精度と制御が得られることを評価していました。このモードは、作成したいものが明確に頭の中にある場合に特に役立ちます。
質問モードについては、参加者はとても直感的であると感じていました。欲しいものを話すだけで、システムがユーザーの目標に合うプログラムを生成する可能性があります。ただし、時にはこのモードの出力は意図したものと異なることがあり、ユーザーがさらに調整するためにより多くのやり取りが必要になることもありました。これは自然言語モードが最終的にどのようになるべきかの究極の形ではありませんが、これらの複数の異なる方法の間をどのように移行させ、ユーザーの意図に最もよく合致させるかについては、さらに多くの研究が必要です。
探索モードについては、参加者は「未知の未知」の状況で特に役立つと感じていました。カメラを向けることで、以前は知らなかったことや考えていなかった属性を発見し、それらをプログラムで使用して自分のニーズに合わせることができます。
これが意味するのは、様々なユースケースや能力に対応するために、ユーザーにこれらの選択肢の組み合わせを提供することが重要だということです。参加者4の言葉を借りると:「すべては状況によります。何をしたいかによって異なります。環境について知っていることに基づいて、異なる方法を使用するでしょう。例えば、すでに作業している画像がある場合、それを探索したいならそれを使用します。本当に状況次第です。」
これは、複数の異なるモダリティやユーザーが作成や編集を行うための方法を提供する必要があることを強調しています。それによって、彼らの技術的な背景や特定の状況で何をしようとしているかに最も適したものを選択できるようになります。
最後に、参加者はこのアプローチの利点を認識しており、次のような素晴らしい言葉をいただきました:「すべては選択肢を提供することに帰着します。最終的には、情報を利用できるようにして、人々がそれを選択できるようにしています。情報のこれらの部分を取り出して、それを必要とする人々の手に渡し、彼らがそれを修正し、変更して、自分自身のものにすることができるように、モジュール性を作り出しています。もっと多くのアシスティブテクノロジー企業がこの情報をどのように取り出して人々の手に渡し、彼らがそれを修正、変更して自分自身のものにできるかについて考えてくれればと思います。」
質的研究で特定した様々な戦略と障壁に戻ると、私がご紹介したProgramAllyツールは、汎用認識器が特定のユースケースをサポートしていないという最初のギャップをサポートしています。しかし、将来的には他の障壁や戦略をサポートする多くの機会があります。例えば、ユーザーが複数のサービスを自動的に切り替えたり、複数のアプリケーションを重ね合わせたりする方法などです。
私たちは、既存の商用エコシステムの上に構築できるアシスティブテクノロジー拡張機能のスニペットをどのように構築できるかについていくつかの継続的な探索を行っています。例えば、ユーザーがSeeingAIの上に必要としているのがカメラの狙い方をよりよくするための一つのことかもしれません。その場合、ショートカット自動化を使用して、ユーザーがそのタスクを達成するのを素早く手助けし、すでに使用しているアプリケーションに戻ることができます。
7. WorldScribe:コンテキスト対応の視覚支援システム
7.1 ユーザーの意図と動きに適応する視覚説明
私たちはこれまで、パーソナルアシスティブテクノロジーがどのようにユーザーが自分のデバイスやモダリティを使用し、自分の環境を拡張できるようにするか、また障害を持つ人々が自分自身のAIアシスティブソフトウェアを作成できるようにするかをご紹介してきました。プログラミング方法の多くは、ユーザーが何をしたいかという意図を捉え、それを最も自然な方法で外部化するのを助けることを目指しています。それが自然言語であれ、例示によるプログラミングであれ、直接作成であれです。
私たちの最近の研究では、WorldScribeというプロジェクトでこのアプローチをさらに探求しました。WorldScribeは、ユーザーの意図、動き、そして視覚的・聴覚的コンテキストに適応するライブ視覚説明を生成するシステムです。
ここで見ていただけるのは、ユーザーが移動している際のシステムの動作です。ユーザーが非常に素早く回転したり、素早く歩いたり、視覚的なシーンが急速に変化したりする場合、システムは情報の断片を提供します。そして、ユーザーが特定のオブジェクトや特定のシーンに焦点を当て始めると、より詳細な情報がユーザーに提供されます。
現在のGPT-4やClaude AIなどを使用して画像説明を得る方法を考えると、それらは本質的にユーザーが何をしているかを認識せず、非常に長い説明を提供します。人々がこれらのアシスティブツールを使用する場合、多くの場合、立ち止まって質問をし、このターンバイターンの対話を使用してタスクを実行する必要があります。
しかしWorldScribeでは、説明をユーザーのコンテキストにマッピングしようとしています。ユーザーは自分の意図を指定でき、環境がどれだけ動的であるか、または彼らの動きに基づいて、説明の粒度や長さをマッピングします。
また、説明の提示方法も操作できます。例えば、音楽が再生され始めたり、環境がより騒がしくなった場合、説明の音量を上げてより聞き取りやすくすることができます。または、誰かがユーザーと会話を始めた場合、何が起きているのか、ユーザーがより重要かもしれないことを中断することなく、説明を一時停止することができます。
7.2 環境と聴覚コンテキストに応じた情報提供
WorldScribeシステムのもう一つの重要な機能は、環境と聴覚コンテキストに応じて情報提供の方法を調整することです。視覚障害者が実世界を移動する際、周囲の音声環境は常に変化します。人混み、交通音、会話、音楽など、様々な聴覚的要素が存在します。
WorldScribeはこれらの聴覚コンテキストを検知し、適応的に情報提供を行います。例えば、環境が騒がしくなってきた場合、システムは自動的に説明の音量を上げて、ユーザーがコンテンツを聞き取りやすくします。これは特に混雑した通りや公共交通機関などの騒がしい環境で役立ちます。
さらに重要なのは、誰かがユーザーと会話を始めた場合の対応です。WorldScribeは会話を検知すると、自動的に視覚説明を一時停止します。これにより、実際の人間との社会的対話が中断されることなく、スムーズに進行できます。会話が終わると、システムは再び視覚説明を再開します。
また、ユーザーが特定の環境音に注意を払う必要がある場合(例えば、交差点での交通音)、システムはその重要な環境音が聞こえるように、説明の量を調整したり、一時的に中断したりします。
このように、WorldScribeは単に視覚情報を音声に変換するだけでなく、ユーザーの全体的な聴覚体験を考慮し、最も適切なタイミングと方法で情報を提供します。これにより、技術が邪魔になるのではなく、ユーザーの実世界での体験をシームレスに強化することができます。
環境と聴覚コンテキストに応じた情報提供は、ユーザーの認知負荷を減らし、より自然で直感的な支援体験を提供するために不可欠です。WorldScribeはこの側面を重視し、視覚障害者がより自信を持って、より少ないストレスで世界を探索できるようサポートします。
8. 将来の展望とより広い応用
8.1 汎用的な応用可能性
総括すると、私はパーソナルアシスティブテクノロジーの例をいくつか紹介しました。アシスティブテクノロジーがユーザーに近づき、よりパーソナルになり、彼らが創造し、修正し、好みのデバイスを使用できるようにすることで、より深くパーソナライズされたアクセシブルな未来へと向かうと私は信じています。
しかし、一歩下がって考えると、このアプローチは深くパーソナライズされるだけでなく、より広く普遍的に適用可能になるかもしれません。アクセシビリティは最終的に誰にとっても利益をもたらします。このアプローチが視覚障害者だけでなく、また障害を持つ人々だけでなく、より広く一般化される可能性について、いくつかの例を挙げたいと思います。
例えば、VizLensやBrushLensのようなマルチモーダルなタスクガイダンスシステムは、より多くの人々にとってインターフェースをより使いやすくする可能性があります。私の研究室では、医療領域でのタスクガイダンスに関連するプロジェクトに取り組み始めており、そこには多くの共通点があります。外科医や医療専門家は手が塞がっていたり、視線が塞がれていたり、認知負荷が非常に高いことが多いのです。
また、私たちの以前の研究では、倉庫作業者が注文ピッキングを行うための産業環境でのサポートも検討しました。これらのマルチモーダルなタスクガイダンスシステムは、アクセシビリティを超えて他の領域にも影響を与える可能性があります。
ProgramAllyのようなエンドユーザーアシスティブツールは、一般的にエンドユーザーワークフローの作成障壁を下げ、複数のモダリティを活用することができます。例えば、聴覚障害者や難聴者の領域では、彼らが異なる音響モデルを使用して、独自の音声理解ソフトウェアをより簡単に構築できるようにする方法などの研究が進行中です。
ここでの共通点は、人々の能力と専門知識をより良く活用し、彼らがより大きな主体性を持って創造し消費できるようにすることです。そして、より動的な適応を提供することで、それに応じてインタラクション体験を変形させることができます。
8.2 コミュニティベースのソリューション共有
ProgramAllyのようなツールの目標は、ユーザーが一度作成したプログラムを、繰り返し発生する状況や時間に制約のある状況で何度も使用できるようにすることです。しかし、より広いコミュニティを活用してソリューションをクラウドソーシングすることも考えられます。そうすれば、ユーザーは非常に特定のプログラムを自分で作成する必要さえないかもしれません。
質的研究で発見したのは、人々はすでに回避策を毎回実施していることです。このツールを提供することで、彼らはすでに使用している回避策よりも優れたソリューションを作成できるようになり、それが更に優れたソリューションになる可能性があります。私たちは実際の環境でこれを展開し、データを収集して、人々がここで特定した方法でそれを使用できるかどうかを確認したいと考えています。
将来的には、このアプローチをより多くの人々に広げるための多くの可能性があります。例えば、異なるコミュニティが創造し、ソリューションを共有して再利用できるようにすることが考えられます。テンプレートを開発し、人々がこの知識源を活用できるコミュニティを作り、知識共有のコミュニティを可能にすることもできるでしょう。
一つの重要な側面は、ユーザーの意図です。これらのプログラミング方法の多くは、ユーザーが何をしたいかという意図を捉え、それを最も自然な方法で外部化するのを助けることを目指しています。それが自然言語であれ、例示によるプログラミングであれ、直接作成であれです。
WorldScribeプロジェクトのように、より広いコンテキストを活用することも重要です。ユーザーの動きや意図、視覚的・聴覚的コンテキストに応じた適応型のライブ視覚説明を生成することで、ユーザーの体験を大幅に向上させることができます。
これらのアプローチはすべて、より包括的で、個人に合わせたアシスティブテクノロジーのエコシステムの構築に貢献します。ユーザー自身が貢献者となり、開発者となり、そしてコミュニティの一員となることで、より多様なニーズに対応するソリューションが生まれる可能性があります。
8.3 ウェアラブルデバイスの可能性
フォームファクターとデバイスについて考えると、最終的には様々な可能性が考えられます。例えば、元々のVizLensプロジェクトを行った際、Google Glassでの実行を試みましたが、当時のハードウェアは十分な性能がなく、すぐにオーバーヒートしてしまいました。また、Google Glass上にはトークバック(音声スクリーンリーダー)がなく、Androidを実行していてもスクリーンリーダーがありませんでした。
そのため、多くの人が持っているスマートフォンというデバイスを使用することになりました。iOSを選択したのは、視覚障害者が好むスマートフォンだからです。しかし、これが唯一の選択肢ではないと思います。
最新のWorldScribeプロジェクトでは、スマートフォンを使用することもできますし、ウェアラブルカメラを使用することもできます。カメラ、スピーカー、処理能力を備えたウェアラブルグラスがますます利用可能になり、より強力になるにつれて、これらの多くの機能をサポートするための優れたフォームファクターになると思います。
Meta Raybanは非常に有望な選択肢であり、私の記憶が正しければBe My Eyesと提携しており、Iraとも提携しています。ただし、動画ストリーミングモードのためのオープンAPIはまだありません。しかし、ハックや回避策を作成している人々も見てきました。例えば、InstagramやWhatsAppを通じてライブストリーミングセッションを作成し、そのオーディオフィードを傍受して処理し、音声をフィードバックする方法などです。人々は創造的な方法を見つけていますが、いつの日か(願わくば)オープンになり、その上に多くのアシスティブテクノロジーを構築できるようになるでしょう。
ウェアラブルデバイスの最大の利点は、ハンズフリーで操作でき、より自然な形で環境と対話できることです。頭部装着型カメラはユーザーの視点から世界を見ることができ、よりコンテキストに応じた適切な情報を提供できます。また、メガネのような形状は社会的にも受け入れられやすく、目立たない形で支援技術を利用できるという利点もあります。
将来的には、ウェアラブルデバイスとパーソナルアシスティブテクノロジーの組み合わせにより、障害を持つ人々だけでなく、すべての人々にとってより直感的で、シームレスで、個人化された支援体験が可能になるでしょう。
9. 質疑応答
9.1 技術導入の課題と適応プロセス
質疑応答の時間では、参加者から「特に長期間通常の生活スタイルに慣れた人々に対して、このような新しい技術を導入する際の適応プロセスはどのようなものか」という質問がありました。
この質問に対して、ProgramAllyの事例を挙げて回答しました。このツールの目標は、ユーザーが一度プログラムを作成すれば、多くの繰り返し発生する状況や時間的制約のある状況で使用できるようにすることです。あるいは、より広いコミュニティを活用し、ソリューションをクラウドソーシングすることで、ユーザーは非常に特定のソリューションを自分で作成する必要すらないかもしれません。
質的研究で発見したのは、人々はすでに回避策を毎回実施していることです。このツールを提供することで、彼らはすでに使用している回避策よりも優れたソリューションを作成できるようになります。私たちは実際の環境でこれを展開し、データを収集して、人々が私たちが特定した方法でそれを使用できるかどうかを確認したいと考えています。
技術導入における重要なポイントは、ユーザーがすでに直面している課題に対して、より効率的で簡単な解決策を提供することです。完全に新しいことを学ぶのではなく、すでに行っていることをより良くするための方法を提供することで、適応の障壁を下げることができます。また、マルチモーダルなインターフェースを提供することで、異なる学習スタイルや技術的背景を持つユーザーが、自分に最も合った方法で技術を採用できるようになります。
9.2 ハードウェアと形状因子の考慮
「運動障害のある人々のうち、タッチスクリーンを使用できないが、スマートフォンを一貫して持ち、スクリーン上でスワイプできる人々のクラスは何か」という質問がありました。
これは特定の症状に対応するわけではないと回答しました。私たちは、腕をスクリーン上に置くことができ、スムーズなジグザグ動作ではなくても手を動かすことができる参加者を募集しました。この種の拡張によりエラー率が大幅に減少し、ユーザーはこの補助を使用してタスクを完了することができるようになりました。
また、フォームファクターとデバイスについての質問もありました。元々のVizLensプロジェクトを実施した際、Google Glassでの実行を試みましたが、当時のハードウェアは不十分で、すぐにオーバーヒートしました。また、Google Glass上にはトークバック(スクリーンリーダー)がなかったため、多くの人が持っているスマートフォンを使用することにしました。iOSを選んだのは、視覚障害者に好まれるスマートフォンだからです。
しかし、これが唯一の選択肢ではありません。最新のWorldScribeプロジェクトでは、スマートフォンを使用することもできますし、ウェアラブルカメラを使用することもできます。カメラ、スピーカー、処理能力を備えたウェアラブルグラスがますます利用可能になり、より強力になるにつれて、これらの機能をサポートするための優れたフォームファクターになるでしょう。
Meta Raybanは非常に有望な選択肢であり、Be My EyesやIraと提携していますが、動画ストリーミングモードのためのオープンAPIはまだありません。しかし、人々はInstagramやWhatsAppを通じてライブストリーミングセッションを作成し、そのオーディオフィードを傍受して処理し、音声をフィードバックするなどの創造的な回避策を見つけています。いつか(願わくば)これがオープンになれば、その上に多くのアシスティブテクノロジーを構築できるようになるでしょう。
9.3 持続可能なビジネスモデル
「このような製品が手頃な価格でありながら、メンテナンスに十分な資金を確保するための収益化戦略は何か」という質問がありました。
これは持続可能なビジネスモデルについての質問で、どのようにしてこれらの技術を継続的に提供するかということです。私は、VizLensの例が良い結果の一つだと考えています。
私たちは最初のプロトタイプを開発し、それを展開しました。そして、AppleVisのようなオンラインフォーラムでは、人々がそれをどのように使用するかについて多くの議論がありました。最終的に、Appleは同様の機能をオペレーティングシステムに組み込みました。ただし、それはレーザーを備えたデバイスでのみ機能しますが、それでも大きな前進です。ユーザーは無料でこれを使用できるようになりました。
これは恐らく良いモデルだと思います。私たちがこれらのアプリを世界に出す際には、より多くの人々を支援するために無料で提供しており、それを販売しようとはしていません。
この回答は、このような技術の持続可能性について重要な視点を提供しています。オープンソース開発やビッグテック企業による採用が、革新的なアクセシビリティソリューションを広く普及させるための一つの道筋となり得ることを示しています。また、学術研究から始まった技術が最終的に主流の製品やオペレーティングシステムに統合される例として、VizLensは示唆に富んでいます。
このアプローチにより、技術は手頃な価格(あるいは無料)でありながら、広く利用可能になり、結果として多くの人々に利益をもたらすことができます。また、企業がアクセシビリティ機能を標準として組み込むことで、障害を持つユーザーが特別なソリューションを探す必要性が減少し、より包括的な技術エコシステムの創造に貢献します。
9.4 個人化とコンテキスト理解のアプローチ
「個人化とコンテキスト理解のための方法論的アプローチについて、自分自身がどのような方向に向かっているか」という質問がありました。
この質問に対して、エンドユーザープログラミングには豊富な文献があり、それを「高い天井、低い床、広い壁」(high ceiling, low floor, wide walls)を持つようにする方法を検討しているとお答えしました。これは、初心者でも始めやすく(低い床)、高度なユーザーも成長できる余地があり(高い天井)、様々な用途に使える柔軟性がある(広い壁)システムを作るというアプローチです。
このアプローチには多くの共通点がありますが、障害を持つ人々、例えば視覚障害者が出力を見ることなく視覚的なアシスティブテクノロジーを作成しようとする場合、別の種類の検証・フィードバックループが欠けているという課題があります。これをどのようにサポートするかについては、興味深い課題があります。
個人化とコンテキスト理解には、ユーザーの能力、好み、現在の状況、そして彼らが達成しようとしている目標についての深い理解が必要です。これには様々なセンサーデータの統合、ユーザーの行動パターンの学習、そして適応型のインターフェースが含まれます。
WorldScribeプロジェクトでは、ユーザーの動き(速い歩行、回転など)に基づいて情報の粒度を調整し、聴覚環境(会話、環境音など)に基づいて出力を調整するなど、コンテキスト理解の一部の側面を示しています。こうしたアプローチにより、技術がユーザーの生活にシームレスに統合され、彼らの能力を拡張するという目標に一歩近づきます。
9.5 デバッグと検証
「ProgramAllyについて、実際にデバッグが行われたかどうか、そしてそれがどのように機能したか」という質問がありました。視覚障害者がスクリーンリーダーを使用している場合、デバッグは線形情報処理のため、おそらく難しいのではないかというコメントもありました。
この質問に対して、論文ではデバッグや、既存のコンテキストを使用して理解を検証するクロスチェックについて記述していると回答しました。デバッグには様々な機会があると考えています。例えば、WorldScribeと組み合わせることができるかもしれません。ライブカメラフィードがあり、プログラムを作成して実行することができれば、例えばノートパソコンがあれば、プログラムが期待通りに動作しているかどうかを確認するために使用できます。
また、AR(拡張現実)を使用して、ユーザーのための模擬環境を生成し、空間的な理解を活用するなど、他の方法も考えられます。デバッグをサポートするためには、いくつかの興味深いアプローチがあると思います。
視覚障害者がプログラムをデバッグする際の課題は、視覚的フィードバックがなくても、プログラムの動作を理解し、問題を特定する必要があることです。これには、よりアクセシブルなデバッグツールと、非視覚的なフィードバックメカニズムが必要です。
ProgramAllyのような設計では、プログラムの実行時に有用な文脈情報を提供することで、ユーザーがプログラムの動作を理解し、問題を診断するのに役立ちます。例えば「バスは見つかりましたが番号は見つかりません」というフィードバックは、プログラムが一部正常に動作していることを示し、何が欠けているかを特定するのに役立ちます。
将来的には、触覚フィードバック、空間オーディオ、そして自然言語による対話的なデバッグツールが、視覚障害者にとってのプログラミング体験を向上させる可能性があります。
9.6 モデル能力とインターフェースのギャップ
「残っているギャップは、モデルが多くのタスクに必要なものを認識できないという基本的な知覚ギャップなのか、それともフィルタリングと形成に関するものなのか」という質問がありました。WorldScribeの研究から得られた印象として、ある意味では出力を誤って生成するように調整されていただけで、人々が実際に必要とするものに合わせて微調整するという単純なステップを行えば、はるかに良くなるのではないかという点に関して質問がありました。大きな障壁は実際にまだ知覚レベルにあるのか、それとも合成と提示方法にあるのかについて私の見解が求められました。
この質問に対して、一般的なケースでは、おそらく90%以上のケースで、知覚モデル、モデル能力はすでに存在していると回答しました。しかし、モデルが何ができるかとユーザーが気にすることのために使用できる方法の間にはギャップがあります。
現在のインタラクションモダリティは、このようなターン・バイ・ターンのアプローチであり、質問をして回答を得るというものです。高度な音声付きビデオモードでもかなり良くなっていますが、それでも質疑応答のような形でのやり取りです。
これは楽観的な見方であり、設計、アプリケーションプログラミングなどを通じて実際にそのギャップを埋められることを示唆しています。一方、知覚レイヤーがそれに対応できなければ、問題はより難しくなるでしょう。
私は知覚的な側面はすでにあり、これらのツールを提供し、AI能力をHCIユースケースにより適合させることで追いつくことができると考えています。そこに到達すれば、他の場所でさらなるギャップが見られるかもしれず、両方の側面を反復的に改善していくことができるでしょう。
このディスカッションは、現在のAIモデルの能力とユーザーのニーズの間のギャップを埋めるための重要な視点を提供しています。技術の限界よりも、インターフェース設計と対話モデルが現在の主な課題であるという見解は、HCIとAIの交差点での研究の重要性を強調しています。
9.7 カスタマイズへの障壁とその克服
「DIYとユーザープログラミングの側面について、人々は一般的に物事をカスタマイズしない傾向があることを知っていますが、この障壁を乗り越える機会があると思いますか?以前はマイクロソフトワードの設定など、誰も変更しなかったが、このビジョンを実現するには人々が自分のツールを形作ることができると感じるよう支援する必要があります。その技術に関するものではなく、より感情的なギャップをどう乗り越えますか?」という質問がありました。
この質問に対して、もし画期的な進展があるとすれば、最初にアクセシビリティの分野で起こる可能性が高いと楽観的に考えていると回答しました。障害を持つ人々はAI技術を早期に採用する最前線にいることが多いからです。
これはJeff BamとPatrick Harringtonが以前HCIで書いた記事に関連しています。その考え方は、技術が完璧になる前に、人々はそれを使用して以前はできなかったことを可能にすることができるというものです。おそらくゼロから不可能だったものが60~70%可能になります。しかし、音声認識などの技術が95~99%正確になって初めて、一般大衆がそれを採用できるようになります。
障害を持つ人々と共にアシスティブテクノロジーを構築することで、彼らの生活を向上させる技術的な可能性を提供すると同時に、これらの技術を誰もが使えるように設計する際の人間の深い側面に実際に踏み込むことができます。
このように、アクセシビリティは究極的に誰にとっても利益をもたらします。障害を持つユーザーは、不完全でも価値のある技術を採用するモチベーションが高いため、カスタマイズの障壁を乗り越える可能性が高いと考えられます。彼らの経験と採用パターンから学ぶことで、技術がより洗練され、より広いユーザー層に採用されるようになります。
これはアクセシビリティが単に特定のユーザーグループのためだけではなく、技術の全体的な使いやすさと適応性を向上させる道を開くものであることを示しています。障害を持つユーザーのニーズに応えることで、私たちは結果的により良い、より柔軟で、より人間中心の技術を全ての人のために作ることができるのです。
Stanford Seminar - Personal Assistive Technology
February 7, 2025 Anhong Guo, University of Michigan Accessibility research highlights the unique needs of people with disabilities and the importance of designing for a long-tail of needs. However, in practice, assistive technologies are often designed for common use cases to maximize their broad applicability, and as a result, they are one-size-fits-all and inflexible, thus falling short of supporting the unique needs and preferences of end users. I imagine a future of Personal Accessibility - just like how personal computers transformed the way people create and innovate, personal accessibility aims to empower people with disabilities to leverage their domain expertise and creativity to create and customize assistive technologies for themselves. In this talk, I will present my lab's research on designing, developing, and deploying context-aware systems to enhance the accessibility of the real world and the digital world. One example is ProgramAlly, which leverages multimodal end-user programming to empower blind people to DIY filters for visual information (e.g., find number on bus, or find expiration date on package), chaining together AI capabilities as building blocks to address long-tail accessibility needs. Another example is WorldScribe, which generates live visual descriptions that are adaptive to users' intent, movement, as well as visual and auditory contexts. I will discuss how personal assistive technology could move us towards an accessible future that is both deeply personalized and broadly universal, and ultimately benefits everyone. About the speaker: Anhong Guo is an Assistant Professor in Computer Science & Engineering at the University of Michigan, also affiliated with the School of Information. His research is at the intersection of HCI and AI, which leverages the synergy between human and machine intelligence to create interactive systems for accessibility, collaboration, and beyond. His research has received best paper, honorable mention, and artifact awards at CHI, UIST, ASSETS, and MobileHCI, and the 10-year impact award at ISWC on wearable technologies for warehouse order picking. He is a Google Research Scholar, a Forbes' 30 Under 30 Scientist, an inaugural Snap Inc. Research Fellow, and a Swartz Innovation Fellow for Entrepreneurship. Anhong holds a Ph.D. in Human-Computer Interaction from Carnegie Mellon University, a Master's in HCI from Georgia Tech, and a Bachelor's in Electronic Information Engineering from BUPT. Learn more about his work at: https://guoanhong.com More about the course can be found here: https://hci.stanford.edu/seminar/ View the entire CS547 Stanford Human-Computer Interaction Seminar playlist: https://www.youtube.com/playlist?list=PLoROMvodv4rMyupDF2O00r19JsmolyXdD ► Check out the entire catalog of courses and programs available through Stanford Online: https://online.stanford.edu/explore
youtu.be