※本記事は、Stanford University Computer Science学部のSanmi Koyejo助教授による講義「CS329H: Machine Learning from Human Preferences」の動画コンテンツを基に作成されています。本講義は「Human-Centered Design」をテーマとしており、動画は https://www.youtube.com/watch?v=VffFArrRSBE でご覧いただけます。
本記事では、講義の内容を詳細に文字起こしし、要約したものです。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、文字起こしや解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画をご視聴いただくことをお勧めいたします。
登壇者紹介 Sanmi Koyejo氏は、Stanford UniversityのComputer Science学部の助教授(Assistant Professor)です。本講義では、Human-Centered DesignとHuman-AI Interactionの視点から、機械学習システムの設計と評価について解説しています。
コース情報
- コース全体のプレイリスト、シラバス、スケジュールは https://web.stanford.edu/class/cs329h/ で公開されています
- Stanfordのオンライン人工知能プログラムの詳細は https://stanford.io/ai でご確認いただけます
- 本コースの受講登録に関する情報は https://online.stanford.edu/courses/ でご覧いただけます
1. イントロダクションとHuman-Centered Designの基礎
1.1 講義の概要とHCIの定義
Koyejo教授: 今日のメイントピックはHuman-Centered Design、人間中心設計についてです。まず簡単に触れておきたいのですが、今日お話しするスライドはDean Kによるいくつかのチュートリアルをベースに構築しています。このチュートリアルは、この題材を設定する上で非常に役立つものだと考えています。これは私の中核的な専門分野ではありませんが、多くのことを学んでいる領域であり、このコースで重要だと考えているいくつかのことや、より広範な関連する題材にとってかなり中心的な分野だと思っています。
私たちは主に、Human-CenteredとHuman-Computer Interactionの視点と方法に焦点を当て、それらがHuman-AIタイプの設定における質問について考える際にどのような役割を果たすかを見ていきます。これまでカバーしてきた多くの内容からは少し離れたものになるでしょう。私はこれまで主に方法論に焦点を当ててきましたが、今日の私の目標の一部は、このクラスのトピックのほとんどが技術的領域として、HCIの範囲、あるいはより狭い範囲の焦点にどのように当てはまるかについて何かを述べることです。すみません、クラスをより狭い範囲として語り、HCIを私たちが解決に興味を持っている種類の質問について考える、潜在的により広い方法として語ります。
さて、もし馴染みがなければ、Human-Computer Interaction(HCI)は広義には、人間の視点から技術を設計することについて考える学問分野です。これは、エンジニアリングやコンピュータサイエンスのほとんどが得意としていることと比較して区別されます。それは、エンジニアリング問題から始めて、そこで直接解決するというものです。もちろん、これから前もって述べておきますが、私は多くの分野について、要点を述べるために、やや誇張された極端な視点を取るつもりです。実際には、すべてがはるかにスペクトラム的なものです。ですから、物事はこのすべてほど極端ではありません。
しかし、考え方としては、デザインの芸術に科学的方法を適用することです。そしてNielsonによる引用ですが、コードの残りは人々が実際に歩く道を排除することです。おそらく問題を設定しましょう。Norman Doorsと呼ばれる興味深い例があります。ドアに出くわして、それを開けようとして、つまずいたことを想像してみてください。皆さんの多くがこのような経験のバージョンを持っていると想像します。
1.2 科学的方法をデザインに適用するアプローチ
Koyejo教授: HCIの考え方は、デザインの芸術に科学的方法を適用することだと言えます。Nielsonによる定義では、「コードの残りは人々が実際に歩く道を見つけることである」とされています。つまり、人々が実際にどのように行動し、何を必要としているかを観察し、そこからデザインを導き出すということです。
ここで重要な注意点を述べておきます。私はこれから多くの分野について、要点を明確にするために、やや誇張された極端な視点を取るつもりです。実際には、すべてのものははるかにスペクトラム的です。物事は私が述べるほど極端ではありません。しかし、この科学的アプローチをデザインに適用するという考え方は、HCIの中核的な原則となっています。
従来のエンジニアリングやコンピュータサイエンスのアプローチは、技術的な問題から始めて、その問題を直接解決することに焦点を当てています。一方、Human-Centered Designのアプローチは、人間から始めます。人々が何を必要としているのか、どのように技術と相互作用するのか、そして彼らの視点から見て何が機能するのかを理解することから始めるのです。この根本的な視点の違いが、私たちがこれからHuman-AIインタラクションについて考える際の基盤となります。
2. ノーマンドア問題:デザインの失敗とAIへの類推
2.1 ノーマンドアの事例とデザインの重要性
Koyejo教授: Norman Doorsと呼ばれる興味深い例について話しましょう。皆さんもドアに出くわして、それを開けようとしてつまずいた経験があると想像します。私にもあります。皆さんの中にもそういう方がいますね。問題の一部は、どう操作すればいいのか正確に分からないことかもしれません。押すのか、引くのか。それは明らかではないかもしれません。ハンドルはあるのですが、そのハンドルが何をするのかが明確ではありません。
あるいは、ハンドルを使える場所が複数あるけれど、実際にどれが正しいツールなのかが明確ではない。または、押すことも引くこともできない。どちらも正しくない。実際にはスライド式のドアなのです。つまり、それがスライドさせるべきものだと知る必要があります。これについて考える方法は多くあります。
「私たちは技術と関わるほど賢くない」と言うこともできるでしょう。しかし、私が主張したいこと、そして今日の講義のテーゼは、これが問題について考える正しい方法ではないということです。この問題について考える正しい方法は、これは悪いデザインなのだということです。世界には何らかのインフラがあります。この場合はドアですが、広くは私たちが構築している人工知能ツールのような技術を含みます。そして、それらが人々のために機能していない。その主張は、それらが人々のために機能していないのは、適切に設計されていないからだということです。
では、人々のためにより良く機能させるために、何を違った形でできるかを考えることができます。私が主張したいのは、このクラスの多くは、少なくとも私が取るフレーミングでは、これについてであるということです。他の考え方もあるかもしれませんが、私が取るフレーミングは、人間の好みから学習することが、人々のためにより良く機能するAI技術を構築するツールボックスの一部として強力なツールであるということです。
ちなみに、これは少し類推的なものですが、Normanは下部にある本「The Design of Everyday Things」の著者であり、このデザイン思考アプローチのフレーミングの一種です。しかし、述べたように、ドアだけでなくAI内でもこれについて考えることができます。
2.2 AIツールにおける同様の問題:プロンプトエンジニアリング
Koyejo教授: ドアの場合、あなたが興味を持って尋ねている質問は「どうやって部屋に入るか」です。押すのか、引くのか、スライドさせるのか、そういったことすべてです。しかし、AIにも同様のバージョンがあります。少なくとも、AI技術と関わるほとんどの人にとって、何らかのAIツールを使って特定のタスクをどう解決するかという質問があります。これが、技術と関わる際にユーザーが実行したいことの一種です。
また、ユーザーが実際に最終的に行うこともあります。これは標準的なことで、AIでは、実際に他の部屋に入るためにドアをどう操作するかを自問することかもしれません。これは標準的なことです。そしてAIでは、おそらく、2024年にいる今、特に言語モデルについて考えると、主なアフォーダンス、つまり私たちが関わる主な方法は、おそらく「この言語モデルに私がやりたいことをさせるために、どんな特別なプロンプト、魔法のプロンプトが必要なのか」ということでしょう。
ある意味で、今、これが今の世界のあり方ですが、これが世界のあり方であることは本当に奇妙だと主張することもできると思います。私たちはこのツールを、さまざまな種類のタスクを解決するために表向きは構築したのに、私たちが関わらなければならない方法には、何らかの魔法のプロンプトを作れるかという精神的な体操が含まれているのです。
最終的に、ユーザーは時間をかけて学習し、「このツールを実際にどう使うことを学ぶか」という質問に答えます。建築環境やドアのようなものでは、以前の遭遇から学ぶということかもしれません。通常、ドアにぶつかったら、少なくとも近い将来、もう一度ぶつかることはないでしょう。忘れていたり考えていなかったりすれば別ですが。あるいは、ラベルを読んだり、おそらく機能しそうなことを推測して試し、また試して、最終的にうまくいくことを期待します。
AIツールの場合、良いプロンプトを作成する特別なソースのようなものがあるかもしれません。言葉が出てこないのですが、他の人と話す、これは魔法のプロンプトについて人々が話す、科学ではないが科学的でもないこの余分な芸術的なもののようなものです。ある特定のことをする魔法のプロンプトがあります。あるいは、人々はこれらのプロンプトガイドラインを作成してきました。ご存知のように、多くのインフルエンサーが魔法のプロンプトを作成する方法についてこれらのガイドラインを作成してきました。そして、それらの多くは効果的です。なぜなら、繰り返しになりますが、人々が解決しようとしている問題があるからです。あるいは、私たちのほとんどは、うまくいくものを見つけるまで試行錯誤するだけだと主張します。
しかし、ここで強調したいことは、これはAI技術が使用される際の実際の問題だということです。そして、ここでの主張は、少なくともよく設計された世界では、これが問題であるべきではないと主張することは合理的だということです。これは、私たちが構築したツールの設計の失敗なのです。関わる上でこの重要な部分があり、この種の混乱した不明確なプロセス、不明確な結果も必要とされています。なぜなら、実際には何を得るのか分からないからです。プロンプティングのことについては少し後で取り上げます。
セットアップについて質問はありますか。ドアと建築環境とAI技術の類推のこのアイデアです。
学生: ドアや、もっと広く言えば、ドアを作った人はそれをよく理解しているような気がします。
Koyejo教授: それは良い指摘ですね。
学生: それが拡張されるかどうかは分かりませんが、正直なところ。
Koyejo教授: 拡張されると思います。それは魅力的な指摘です。つまり、デザインの問題に加えて、責任を負わせることがより簡単である理由の一つは、おそらくあなたの質問から推測できるのですが、ドアの設定では、ドアを設計している人々はドアについて多くを知っていると主張できるということです。そこでのギャップは、部分的にはユーザーが関わりやすくしていないだけです。
そして、あなたの主張は、繰り返しになりますが正確だと思いますが、AIではギャップの一部は、私たちがツールの内部についてそれほど知らないということです。イエスでもありノーでもあります。このギャップを埋める方法の例をいくつか挙げます。それが実際に今日の講演の主なテーゼになります。私たちが知らないことを知っている、というのは、何が機能し何が機能しないかについての知識、科学的なもの、新しく現れているもの、民間伝承の混合だと思います。私たちが構築しているツールをどう使いやすくできるか、製品として世界にリリースされるのに十分安定していると考えられているツールについて、アフォーダンスや、できることがあるかどうかとは、少し別のことだと思います。
2.3 優れたデザインは消える:直感的なインターフェースの追求
Koyejo教授: 確かにそれは問題を難しくしています。ドアの設定では簡単であろう介入のいくつかは、不明確になるでしょう。特に、私たちのツールの多くは何らかの最適化技術に基づいて構築されており、それが機能し、安定していて、文脈を越えて適切に機能することを期待しています。そのため、これらの問題のいくつかを緩和できる方法には、ある種の脆弱性があるかもしれません。それは、技術を深く理解しているドアのケースほど悪くないかもしれません。それは公平だと思います。
しかし、私はそれを、まったく試みないことや、ツールが使いやすく、より良く設計されるように構築することとは分けて考えたいのです。優れた指摘です。考えや質問はありますか。
技術が十分に良く設計されていれば、実際には多くの努力が払われたことを知らないはずだ、と主張することもできます。これは実際に、奇妙なことの一つです。作業を深く認識していればいるほど、実際の技術がおそらく悪化している可能性が高いのです。そして、どういうわけか、完璧な仕事をすれば評価されません。なぜなら、多くの点で消えてしまうからです。
Mark Weezerからのこの引用は、「最も深遠な技術は消えるものである。それらは日常生活の織物に織り込まれ、それと区別がつかなくなる」と述べています。つまり、部分的にはこれも人間の心理学の一部で、物事が十分に簡単で単純になると、それは背景に退き、自動的になります。私たちは特定の技術との関わり方について一生懸命考えていません。ただそれに慣れているのです。
これの一部は練習と全体的な関わりから来ることがあります。そこでいくつか例を挙げて話しますが、多くの場合、単により良く設計されていて、直感的なだけだと思います。技術と関わるための大きな学習曲線がないのです。例えば、説明書は必要ありません。一度か二度使えば、それをほとんど感じないか、少なくともその時点から何をすべきかを理解しなければならないことについて考えることはありません。
この良い例としては、さまざまな種類のポインティングデバイスがあるかもしれません。私のものは奇妙なことをしますが。さて、実際には動いていません。これは別の問題です。タッチスクリーンのようなものです。これは実際に機能すると思います。はい、機能しますね。繰り返しになりますが、直感的で、私たちが話してきた好みの作業の一部が、AI技術自体をより直感的で関わりやすくする方法について、少し取り上げたり、少なくとも言及したりします。
3. 技術進化における人間とコンピュータのギャップ
3.1 パンチカードからタッチスクリーンへの進化
Koyejo教授: では、この問題について考える人々はどう考えているのでしょうか。一つの考え方は、人間ができることや人間の機能全般、つまり人間が技術やツールとどう関わるかと、コンピュータが得意または不得意なことの間のギャップを埋めることについて考えることです。両方の軸が重要です。なぜなら、技術は進化し、時間とともに良くなるからです。そして、技術が良くなるにつれて、技術機能と人間機能の間のギャップをより良く埋める方法を想像することがしばしば容易になると思います。技術が進歩するにつれて、それがしばしば容易にするということです。
コンピュータを拡張・拡大する方向では、パンチカードのような初期の技術から始まります。パンチカードは実際に文字通り技術が構築された方法でした。私はパンチカードを見たことがあります。使ったことはありません。皆さんも誰もパンチカードを使ったことがないと勝手に決めつけますが、それはありえます。驚くでしょうが。これが実際に技術が構築された方法です。
そこから、コマンドラインまで進化してきました。コマンドラインは今でも使われており、まだ有用ですが、高い専門知識を必要とします。それが理想的な設定では有用ですが、時間とともにGUI、つまりグラフィカルユーザーインターフェースのようなものに移行してきたと言えます。人々が関わりやすくなっています。やりたいことのように見える絵があります。ポインティングデバイス、タッチスクリーン、そういったものすべてです。
これについて考える一つの方法は、もちろんこれは事後的に技術を説明しているものですが、実際にはこれの多くは本当に、人々がコンピュータとインターフェースすることを容易にする特定のニーズを満たすために構築された技術だと思います。しかし、ここでの主張は、これが特にパーソナルコンピューティングにおいて、コンピュータが当初得意としていたことと、人間が行うのが簡単だと感じることの間のギャップを埋めるために、いくらかの努力をすることができた方法の一つだということです。そのため、遍在的で関わりやすいのです。
GUIについては、すでに述べたように、オブジェクトのメタファーがあります。アイコンがやりたいことのように見えます。ポインティングデバイスでは、取りたいアクションのようなもので、それを多少直感的にします。これは、例えば電話で、より直感的で使いやすくするために多くの努力が払われていることは間違いありません。そして、ご存知のように、これの多くは進化しています。より多くの技術が構築されており、しばしば技術とのインターフェースを容易にするという明確な目的を持っています。
さて、物事がどこに向かうかは見てみましょう。しかし、VR、AR、そういったものへの多くの取り組みは、これもまた、このブリッジを見つけ出そうとしている、コンピューティングとのインターフェースを容易にしようとしていると主張できます。
学生: 人間を拡張することとコンピュータを拡張することの違いは何ですか。正確にはどこに区別があるのでしょうか。
Koyejo教授: ええ。これは少し後でまた出てきますが、ここで語られている話は、あなたの指摘と、おそらくこの議論の一部にとって、それは自然な技術の向上の一部であり、一部は人々が関わりやすくするための意図的なデザイン思考です。私は二番目の部分、つまり意図的なデザイン思考に焦点を当てています。そしてここで語られている話は、パンチカードとコマンドラインは、部分的には利用可能で可能なものの結果であり、コンピュータが最初に登場したときにできることの結果でした。
しかしまた、インターフェースが変化した理由は、簡単な人間の認知プロセスと相互作用の容易さの一種を橋渡しする方法として意図的だったのです。だから、語られている話、あるいは別の話をしましょうか。技術が良くなった代替世界があります。おそらくこの部屋にいる私たちの多くが技術が良くなると考える方法で、より速くなり、例えばGPUが行うすべてのことです。より良く、より良いGPUは必ずしもユーザーを助けません。それは非常に間接的にユーザーの経験を助けます。
コンピューティング努力をコンピュータをより良くすることとして考えることには違いがあります。私たちが決めた何らかのメトリクスでより良いコンピュータになること、速度、並列処理、そういったことと、人々が技術と関わることを容易にするものについて意図的に考え、その関わり、インターフェースを容易にするために何を構築できるかとの間には違いがあります。それが私が共有しようとしている類推と区別です。優れた質問です。ありがとうございます。
3.2 AI分野における進化とNeuralink議論
Koyejo教授: いいですね。さて、間違いなく私たちはこの道を進んでいます。そして、コンピューティング内でこれについて考える、インターフェースやそういったものを構築することを仕事とする多くの人々がいます。これらの質問のいくつかは、AI世界でも出始めていると思います。技術の一部として、特に機械学習や人工知能ツールを構築しています。
純粋に技術的な観点から、より良いAIツールを得ることが何を意味するか、単により良いAIツールを持つことと、人々がAIツールとインターフェースし、彼らが解決したい問題を解決することを容易にすることが何を意味するかという質問があります。これがその主な動機であると仮定すれば。
AI側からは、AI技術と関わる初期の多くの方法は、基本的に専門家である必要がありました。つまり、ツールと関わる方法としてコードを書いていました。今では多くのプロンプティングがあります。まったく同じ方法で専門知識を必要としません。異なる種類の専門知識ですが、すでに議論したように、それはやや専門化されたスキルです。
そして間違いなく、チャッティングは、プロンプティングに関連することもありますが、インターフェースのいくつかは、おそらくあまり専門化されておらず、人々が関わりやすい方法で提示されています。主に言語技術についてここで考えていますが、これは他の技術にも当てはまると思います。多くの点で、少なくともこの話によって、使いやすさのギャップを埋めています。つまり、インターフェースする方法としてコードを使用することから、インターフェースする方法としてプロンプティングを使用すること、そして今ではインターフェースする方法としてチャッティングを使用することへのギャップです。
ある意味では、多くの成功は、特に専門的に訓練されていない人々にとって、これらのツールで実際の問題を解決することについて考えることが部分的に単に容易であるという事実によって駆動されています。ここでの主張の一部、あるいは明示的な主張があります。これは完全ではないということです。まだもっとあります。間違いなく、これらは完全ではないかもしれません。全体のポイントは、より簡単に、より簡単にすることです。しかし、ここでの溝は、一般的なコンピューティングやインターフェースが何であるかよりも広いように見えます。そして、AI技術を使って人々が実際に解決したい問題を解決することを人々にとって容易にする、構築できるインターフェースやアフォーダンスは何でしょうか。
学生: 例えばNeuralinkについてはどう思いますか。
Koyejo教授: これは良い質問です。Neuralinkは、脳に直接接続する技術ですが、それが特にAIのために構築されているかどうかは明らかではありません。インターフェースの選択としてもっと、分かりません。もちろん、どんなインターフェースの選択もAI技術に影響を与えるか、おそらく影響を与えるでしょう。なぜなら、それはエンドポイントのようなものになり得るからです。
それは興味深いアイデアです。興味深いアイデアです。実際には、今は単に大胆に推測していますが、あなたが尋ねたので、大胆に推測して喜んでいます。採用には時間がかかると思います。脳に何かを埋め込むものをテクノロジーとインターフェースする方法として想像することについて、異なる人々が異なる程度の容易さを持つと思います。
現在の技術は非常に印象的です。問題を完全に解決するほど使いやすいわけではありません。つまり、考えることはできますが、私の理解、そしてこれは専門知識からではなく、いくつかの会話といくつかのことを見たことから来ていますが、かなり専門化されたことを考えている必要があります。それでも帯域幅やコンピューティングインターフェースデバイスとして技術とインターフェースする方法においてかなり限定的です。
何か埋め込み可能なものを想像できますか、それが最終的に直感的で簡単になるかもしれません。おそらく。それがユビキタスであるためには、多くの楽しい問題があると思います。それは技術問題に追加的なもののようです。一つは、本当に使いやすくなるように技術を修正することです。しかし、社会的なガバナンスの問題もあります。それは楽しいと思います。そして誰が脳に何かを埋め込んでもらうために手術を受ける準備ができているか。それはまだリスクの高い手順だと思います。私の知る限り、最も肯定的な影響を受けた人々のほとんどは、本当に明確な問題を解決している他の人々です。なぜなら、何らかの病気や神経障害、あるいは実際に文字通り世界の顔で何かをできない他の何かがあり、これがそれを解決しているものだからです。それは非常に異なる要求です。おそらく非常に重要で、ニーズを解決していますが、あなたがそれを言ったのは、これがギャップを埋める技術になるかという文脈で仮定しました。そして、技術はもっと作業が必要です。
これが方法である場合、社会的ガバナンスのようなものも解決するのが興味深いと思います。この時点で私たちは推測しています。
学生: 人間機能や、教育のようなものをどれだけ考慮できるでしょうか。読み方を学ぶ必要がない疑問の例で言えば、ただ口述してもらうだけです。
Koyejo教授: ええ、それは良い質問です。そして、人間機能の説明においてはやや曖昧だと正しく指摘していると思います。なぜなら、使いやすさがゼロ学習曲線のものであるという前提があるからです。一方で、技術を使用する多くの人々は特定の方法で教育されているという文脈があります。例えば、タイピング、あるいは、推測ですが、ポインティングは必ずしも専門的な教育を必要としないかもしれません。私の子供たちが私に教えてくれたように。しかし、タイピングのように、あるいは尋ねたい正しい質問を知ること、何を解決したいかということ、そうですよね。それは興味深い質問だと思います。
設定、文脈、そういったものすべてに依存すると思います。しかし、ここで考えたい方法は、実際にこれについてのいくつかの具体的なことに到達します。これらの質問について考える正しい方法は、本当に深く文脈化されていると思います。人々は誰ですか、どんな人々ですか。何を解決しようとしていますか。この人々のためにどう問題を解決しますか。そして、少なくとも私がこの種の作業、少なくともデザイン思考の作業が最もよくフレーム化されると考える方法では、そのレベルに到達すると、もしできるなら、人々の教育やある程度の経験を考慮に入れています。
株式の問題について話すと思います。それも部分的にこれを指摘していると思います。特定の人々のセットのために設計している場合、利益を得られる他の多くの人々を排除しているのかという質問です。ここにもいくつかの難しい質問があると思います。
しかし、あなたの指摘に対して、それは確かに影響を与えます。目標の一部は、非常に高いレベルの議論にもかかわらず、文脈化することを少し動機づけることだと思います。そして、文脈化することで、あなたの聴衆が誰であるかを考えることを強制し、次に、例えば教育をより要因にしないようにする方法について具体的に考えることができるかもしれません。それは良い指摘です。
いいですね。他に何かありますか。ここで良い議論ができています。すべてのデザインの人々が今日現れたようです。それは素晴らしい。
4. テクノロジー中心 vs ユーザー中心のデザイン
4.1 両アプローチの特徴と違い
Koyejo教授: さて、この点について、間違いなく私たちの多くが最も得意としているのは、技術のための技術を本当に推し進めることだと主張できます。良いツールを得たいのです。何らかの定義があります。ユーザーを考慮しているかもしれませんし、抽象的なユーザーの概念を持っているかもしれません。しかし、それは実際のユーザーではありません。追いかけている数字のような、抽象化されたメトリクス化されたユーザーです。これをテクノロジー中心設計と呼ぶことができます。
それ自体で有用である可能性があります。特に、すでに技術があり、確立された規範や関わり方のようなものがたくさんある場合です。そのため、純粋に技術を推し進めることは実際に非常に合理的です。AI作業の多くは、この空間に大体あると主張します。純粋なコンピューティング作業の多く、先ほど話したGPUの質問のようなものは、この空間にあります。
間違いなくその反対側は、技術を中心に据える代わりに、ユーザーを中心に据えることです。ユーザーが自分の問題を最も効率的に解決できるようにするために何ができるかを考えているのです。ここでは、ステークホルダーの問題、ニーズ、焦点について具体的に考えています。そして、あなたのデザインプロセスは、彼らが自己解決し、解決することを容易にするように構築されています。
皆さんの多くが実際にこれを何度も言っていますが、ご存知のように、テクノロジー中心設計の潜在的な結果の一つは、すべてが構築しているツールの潜在的な応用のようになることだと思います。なぜなら、繰り返しになりますが、問題を解決するために設計しているのではないからです。単にクールなツールやクールな技術があって、それが有用な実際の応用を探しているだけです。ポイントは、これに場所がないとか有用ではないということではありません。ここでのポイントは、これはユーザー中心設計とは非常に異なる問題を解決しているということです。ユーザー中心設計は、ユーザーが問題を解決することを容易にすることに焦点を当てています。
学生: 例えばチャットのように、彼らは技術を適応させてユーザーの問題を解決したと言うのは公平だと思います。だからその意味ではユーザー中心です。しかし、それを完璧にやっていないために技術中心になり、プロンプトを理解しなければならなくなります。両方のようなものです。
Koyejo教授: ええ。だから、これを少し言いました。議論の目的で、やや極端になり、白黒のようなことを言います。現実の世界は本当にそうではありません。実際のユーザーのために部分的に設計しています。問題のために問題をターゲットにすることが少しあります。チャットボットは、繰り返しになりますが、ミックスだと思います。
私の感覚と少しの知識は、実際に行われたデザインの決定のいくつかについて、実際にこのクラスで議論しましたが、初期の講義で、例えば言語モデルに焦点を当てている場合、原則的には、教師あり微調整やRHF、あるいは好み調整を行う前のベースモデルは、これは類推であり完全ではありませんが、私たちの最良の理解は、チャットボットが行うすべてのことをする知識をすべて持っているが、単にインターフェースが非常に難しいということです。
そして、教師あり微調整や好み調整が行うことは、インターフェースの問題を解決することです。ユーザーが、特定のテストを解決するためにモデルを取得することを容易にします。原則的には、実際にこれを行うことができます。十分に大きなモデルがあれば。そして、大きなモデルがあり、教師あり微調整を行わずに、実際にプロンプティングなしで、実際にチャットできます。チャットでは劣っています、そうですよね。だからまだインターフェースするのが難しいのですが、間違いなく、ここで類推しています。なぜなら、それを助けることができないからです。これのためのより良い言語がないからですが、そのことを行う知識はすべて間違いなくすでにモデルの中にあり、チャットはインターフェースのギャップを埋める方法です。だから、実際には少し両方だと思います。
両方と言うとき、もう一方の側は、このクラスが、ユーザーインターフェースの問題から始めたと思います。それを抽象化しました。まだ技術的な問題であり、クラスでこれまでカバーしてきたことのほとんどは純粋に技術的です、そうですよね。だから、これが最終的にユーザーに影響を与える方法にまだ興味がありますが、ほとんどツールについて話しました。これらの多くが興味深いかもしれないユーザー設定での具体的なことはあまり行っていません。
そして間違いなく、チャットボットやユーザーインターフェースのようなもので、ここで博士号全体を終えることができ、ユーザー研究を一度も行わない、純粋な技術的な意味でより良い技術を構築するだけです。だから、それがおそらくその議論の反対側です。良い質問です。
いいですね。
4.2 ChatGPTの事例と教育の役割に関する議論
Koyejo教授: ChatGPTの例について、もう少し詳しく議論しましょう。先ほどの学生の指摘は非常に重要なものでした。ChatGPTは技術を適応させてユーザーの問題を解決したという意味では、確かにユーザー中心的です。しかし、完璧にはできていないため、プロンプトを理解しなければならなくなり、そこで技術中心的な側面が出てきます。実際には両方の性質を持っているのです。
私が言いたいのは、実際の世界は白黒ほど極端ではないということです。実際のユーザーのために部分的に設計しています。問題のために問題をターゲティングすることが少しあります。チャットボットは、繰り返しになりますが、ミックスだと思います。
私の感覚と少しの知識に基づいて言うと、実際に行われたデザイン決定のいくつかについて、このクラスの初期の講義で議論しました。例えば、言語モデルに焦点を当てている場合、原則的には、教師あり微調整(Supervised Fine-tuning)やRLHF、あるいは好み調整、いわゆる「プリファレンスチューニング」を行う前のベースモデルは、これは類推であり完全ではありませんが、私たちの最良の理解では、チャットボットが行うすべてのことを実行する知識をすべて持っているのです。しかし、単にインターフェースが非常に難しいのです。
そして、教師あり微調整や好み調整が実際に行うことは、インターフェースの問題を解決することなのです。ユーザーが特定のテストを解決するためにモデルを操作することを容易にします。これは能力を追加することとは対照的です。原則的には、実際にこれを行うことができます。十分に大きなモデルがあれば、教師あり微調整を行わずに、プロンプティングなしで実際にチャットできます。それらはチャットでは劣ります、そうですよね。だからまだインターフェースするのが難しいのですが、間違いなく、ここで類推していますが、なぜなら助けることができないからです。これのためのより良い言語がないので。しかし、そのことを行う知識はすべて、間違いなくすでにモデルの中にあり、チャットはインターフェースのギャップを埋める方法なのです。
だから、実際には少し両方だと思います。両方と言うとき、もう一方の側の話もあります。このクラス自体が例です。私たちはユーザーインターフェースの問題から始めました。それを抽象化しました。まだ技術的な問題です。そして、クラスでこれまでカバーしてきたことのほとんどは純粋に技術的です、そうですよね。だから、これが最終的にユーザーに影響を与える可能性がある方法にまだ興味がありますが、ほとんどツールについて話してきました。これらの多くが興味深いかもしれないユーザー設定での具体的なことはあまり行っていません。
そして間違いなく、チャットボットやユーザーインターフェースのようなもので、ここで博士号全体を終えることができ、ユーザー研究を一度も行わない、単により良い技術を構築するという純粋な技術的な意味で。だから、それがおそらくその議論の反対側です。
さて、教育の役割についての質問もありました。読み方を学ぶ必要があるのか、それとも単に口述してもらえばいいのか、という質問でした。これは良い質問です。人間機能の説明においてやや曖昧だと正しく指摘していると思います。なぜなら、使いやすさがゼロ学習曲線のものであるという前提があるからです。しかし、技術を使用する多くの人々は特定の方法で教育されているという文脈と前提があります。
例えば、タイピング、あるいは、推測ですが、ポインティングは必ずしも専門的な教育を必要としないかもしれません。私の子供たちが私に教えてくれたように。しかし、タイピングのように、あるいは尋ねたい正しい質問を知ること、何を解決したいかということ、そうですよね。時には興味深い質問だと思います。それは設定、文脈、そういったものすべてに依存すると思います。
しかし、ここで考えたい方法は、実際にこれについてのいくつかの具体的なことに到達しますが、これらの質問について考える正しい方法は、本当に深く文脈化されていると思います。人々は誰ですか。どんな人々ですか。何を解決しようとしていますか。この人々のためにどう問題を解決しますか。そして、少なくとも私がこの種の作業、少なくともデザイン思考の作業が最もよくフレーム化されると考える方法では、そのレベルに到達すると、もしできるなら、人々の教育やある程度の経験を考慮に入れています。
株式の問題、公平性の問題について話すと思います。それも部分的にこれを指摘していると思います。特定の人々のセットのために設計している場合、利益を得られる他の多くの人々を排除しているのかという質問です。ここにもいくつかの難しい質問があると思います。しかし、あなたの指摘に対して、それは確かに影響を与えます。
目標の一部は、非常に高いレベルの議論にもかかわらず、文脈化することを少し動機づけることだと思います。そして、文脈化することで、あなたの聴衆が誰であるかを考えることを強制されます。そして次に、例えば教育をより要因にしないようにする、教育が障壁にならないようにする範囲を広げる方法について具体的に考えることができるかもしれません。それは良い指摘です。
5. デザイン思考とダブルダイヤモンド法
5.1 「なぜ」を問うアプローチと根本原因の探求
Koyejo教授: 要約すると、要点は何かということです。Human-Computer Interactionにおけるアイデアは、繰り返しになりますが、人々がやりたいこととテクノロジーツールでどのようにそれを実行できるかの間のこのギャップを埋めることです。HCI問題を解決する方法をフレーミングする重要なアプローチと方法の一つは、デザイン思考として知られているものです。
これは、エンジニアやコンピュータサイエンティストが問題に取り組むことに焦点を当てる方法に挑戦します。これもまた誇張ですが、第一近似としては、私自身や他の人々と話すことに基づいて、実際に正直なところ真実だと思います。最もあなたを興奮させるものは、時には重要な技術問題なのです。何らかの問題を見つけて、あなたの仕事はこの問題への解決策を見つけることです。解決策です。そして、おそらくいくつかの論文を書きたいので、同じ問題への他の解決策を考えます。つまり、あなたの仕事は問題を解決するさまざまな方法を反復することです。
デザイン思考は、この視点を再フレーミングするように求めます。「ここに問題があります。この問題の何らかの量化、何らかの操作化のための解決策は何ですか」という、おそらくやや明確に述べられた問題から始める代わりに、問題を取り上げて実際に戻って「なぜ」と尋ねるのです。なぜこれは実際に解決する必要がある問題なのか。そして、複数の反復を通じてこれを行おうとします。これは時々「5つのWhy」と呼ばれます。5という数字は重要ではありません。主に5は業界での深さの5つのレベルを意味します。
5という数字は重要ではありません。ここで奨励されている重要なことは、本当に解決したい問題について非常に注意深く、深く考えることです。しかし、非常に明確にそれを特定できるということです。何がその根本原因なのか、技術が解決することを意図されているものの根本原因は何なのか。つまり、本質的には表面レベルを超えて、より深い内省に行くことを奨励しようとしているのです。そして、この取り組みに使用できるツールのいくつかについて話します。
いくつかの引用を挙げますと、複数の方向に進むことができますが、Henry Fordからの一つのバージョンは、「もし人々に何が欲しいか尋ねていたら、彼らはより速い馬が欲しいと言っただろう」というものです。これは、生産用の自動車が登場する前の時点でのことです。そして、人々がAからBへより速く移動する必要があるという問題を想像できたでしょう。解決策は何でしょうか。まあ、私たちは今馬を使っています。馬を何らかの形でより速くしましょう。それが解決策として最適化されたものであった世界を簡単に想像できます。
その代わりに、実際の問題を解決する他のツールを考えましょうと言うのです。繰り返しになりますが、これが最良の解決策かどうかについて議論することはできます。それは解決策です。それは間違いなく、速い馬を試みるよりも、間違いなくより良い解決策である異なる解決策です。
他の引用もあります。デザインの文脈内で、フレーミングはしばしば、オリジナルの解決策を生み出すことを可能にする重要な創造的ステップと見なされています。デザイナーは、クライアントから問題を提示されたときに、問題の背後にある問題に到達する必要性について報告しています。これは時々、新鮮な視点を作ることとも呼ばれます。引用をオフラインで読んで詳細を見ることができますが、このアプローチがあなたを導くものは、繰り返しになりますが、問題から始めて、この問題への解決策は何かに直接進む代わりに、多くのなぜの質問を尋ねることです。なぜこれは問題なのか。この問題に対処するために何ができるのか。この問題の根本原因は何なのか。そして、これはあなたをおそらく異なる方向に押し進めます。
これを操作化するために、一般的な方法の一つはダブルダイヤモンド法と呼ばれるものです。第一のダイヤモンドは問題のダイヤモンドの一種です。これはすべてのwhyの質問を尋ねている場所です。そして解決策自体が別のwhyメソッドです。ダイヤモンドと呼ばれる理由は、意図的にまず発散するからです。広い範囲で多くの質問を尋ね、そして最終的には根本原因として、問題を指定する際の一つのこと、または小さなセットに収束することを期待します。同様に、解決策側でも同じことができます。関与できるすべての異なる方法を発散させます。しかし、重要な根本原因とユーザーのアフォーダンスとその文脈をより良く理解すればするほど、その文脈に適した良い解決策をより良く特定できます。
5.2 ダブルダイヤモンド法の4段階と反復的プロセス
Koyejo教授: もう少し詳細に見ていきましょう。問題を見つける発散的な部分は、時々「発見(Discovery)」と呼ばれます。研究のようなものです。そして、根本原因を具体的に定義します。時々「統合(Synthesis)」と呼ばれ、物事をまとめることです。そして解決策側では、このアイデア創出のステップがあります。問題に対する潜在的な解決策について考えるさまざまな方法を開発しています。
そして、最終的な解決策を実装または提供します。通常、これはあなたの最良の潜在的な解決策として、一つのことにあなたを導くでしょう。この第一のステップ、繰り返しになりますが発見のステップでは、多くのツールがあります。そして、私たちの同僚の多くがこれを行っています。すべての科学、人々と関わるすべての仕事にわたってそうだと思いますが、コンピューティング内では、HCI領域がこれを最も多く行っていると思います。教育も間違いなくこれを大量に行っているでしょう。
これには、フィールドスタディのようなもの、人々へのインタビュー、調査、民族誌、環境要因、文脈、異なるニーズを理解しようとすること、先ほど話した人々の教育のようなもの、市場調査、異なるステークホルダーは何か、根底にある理由をより良く理解するために、広い範囲を理解するこれらすべての種類のことが含まれる可能性があります。
そして、良い範囲、広い範囲の良い理解を得たら、特定の問題の根本原因に絞り込もうとします。有用な技術のいくつかには、参加型デザインのようなものが含まれます。多くのステークホルダーと、おそらく共同で話し合い、特定の問題の実際の問題、そしておそらく根本原因についての合意を得る感覚を得るのです。
分析的アプローチを使用することもできます。異なるタスク間の関係について学びます。あるいは、人々があなたに多くの原因を与えます。それらを論理的にグループ化できる方法について考えます。つまり、実際には同じことを異なる方法で説明しているのです。アフィニティダイアグラムのようなもの、同様にグループ化について考えるのを助けます。そして、このステップの終わりでの希望は、特定の、または少なくとも小さな根本原因のセットを特定したことです。類推のために言うと、最初の問題の仕様よりも深いレベルにあるものです。それは曖昧で、先ほどの馬対車の類推のようなものではありません。
解決策側では、開発している間に、それらの領域で使用されるツールのいくつかには、ストーリーテリングのようなものが含まれます。ユーザーが特定の文脈にいる状況を構築します。そして、異なる解決策が異なる設定でユーザーとどのように関わる可能性があるかを考えます。プロトタイピングはしばしば有用です。迅速で粗い解決策を構築します。この実際の解決策が、評価しているユーザーの文脈で述べられたニーズをどの程度満たしているかの感覚を得ます。
そして最終的には、何らかの最小限実行可能製品に到達しようとします。このプロセスの統合最終解決策として何かを、うまくいけば根本原因レベルでニーズを満たすものを。だから、述べたように、問題を発見し、問題を定義し、解決策を開発し、そして解決策を洗練または提供します。
述べておく価値があることは、これが問題を解決することを考えるための有用なニーモニックまたは概念的な枠組みですが、多くの興味深いことについて、研究の観点からも、しばしば製品の観点からも、実際には一度限りのプロセスではないということです。
しばしば反復的です。観察し、アイデアを生成し、根本原因を理解し、解決策をプロトタイプし、テストします。そしてそれは、解決策を展開し、何が欠けているかを把握し、再び観察することを教えてくれます。そして、一種の反復的な解決策として想像できます。そして、これについて考える一つの概念的な方法は、サイクルとしてではなく、拡大するループとして考えることです。なぜなら、繰り返しになりますが、時間とともに、あなたは拡大しているからです。うまくいけば、時間軸に沿って螺旋状に広がることで、実世界の問題とより良く関わる方法を拡大しているのです。
さて、これは概念的な終わりにあります。私たちにとって、そして少なくともこのクラスに最も近いのは、人間-AIインタラクションに興味があるときに、このようなものが何を意味するかということです。ますますこれは分野として正式化されています。異なる抽象レベルで、人々は実際にこれに名前をつけ始めています。人間-AIインタラクションのレベルがあり、人間-LLMインタラクション、人間-VLMインタラクションのレベルがあります。だから、自分の仕事をこれらの範囲のいくつかの中に狭く考える人々がいます。そして、解決できる可能性のある解決策の種類です。
これは、問題を解決するだけでなく、特定の技術タイプに固定しているという意味で、部分的には技術者的だと思います。しかし、それはスキルのセットとツールのセット、そしてそれらのスキルやツールで有用な問題を解決できるさまざまな方法を整理する有用な方法です。
6. Human-AI Interaction(HAI)の枠組みと設計ステップ
6.1 HAIの定義:ステークホルダー、AIの種類、インタラクションタイプ
Koyejo教授: これについて考える一つの方法は、領域またはサブフィールドとして、人間とAIが相互作用する場所です。人間にはAI研究者、モデル開発者、ドメイン専門家、そしてエンドユーザーが含まれます。これらのそれぞれは異なるニーズ、異なる目標、異なる文脈を持ちます。繰り返しになりますが、文脈は非常に重要です。そして、これらの潜在的なエンドユーザーのそれぞれのために解決策を構築する方法について考えることになります。
そして、AIについては、ここでは大規模言語モデルに結びついたものに焦点を当てていますが、他の種類のツールもあります。対話・音声システム、推薦システム、自動運転、あなたの技術領域、この場合はAI領域を選んでください。そして、異なる人間と異なる技術ツールを組み合わせて、何らかの異なる実世界の問題を解決する新しい種類の問題について考えることができます。
そして、インタラクションの部分がおそらくここでの重要な新しいことです。そのインタラクションがどのように進む可能性があるかについて、異なる方法を考えることです。協働的である可能性があります。支援的である可能性があります。AIは人間が何かを解決することを支援しようとしています。理解があるかもしれません。先ほどのあなたの指摘に対して、人間がAIツールを理解しようとしています。インタラクションがどのようなものであるかを考えることができるさまざまな方法を想像できます。
高いレベルでは、この分野は異なる人間のステークホルダー、異なる潜在的なAIツールまたは技術について考え、そしてこれらの間を橋渡しして実際の問題を解決するためのさまざまなインタラクションメカニズムと方法について考えるように自らを設定しようとしています。
では、これをどう解決するのでしょうか。これはある意味で重要な部分です。通常、第一のステップは、関わろうとしている人間が誰であるかを把握することです。あなたである可能性があります。通常、研究者は少なくとも研究設定では、少なくともある程度の選択権を持っています。もちろん、製品設定では異なるかもしれません。製品がステークホルダーが誰であるかを定義することもあります。研究では、しばしばそこにある程度の選択権があります。そしてまた、AI、言語モデル、その他何でも、通常はすでに存在しますが、このインターフェースギャップを埋めることを容易にするためのいくつかの改善が必要です。
重要なステップのいくつかは、まずデザインのステップです。なぜ彼らは相互作用すべきなのか。それを実現するために何をする必要があるのか。どのインスタンスで、どの文脈で、そういったことです。インタラクションを可能にすること。では、設定と文脈に応じて、このインタラクションを容易にするために何を持ち込むことができるでしょうか。このクラスでカバーしてきたことのほとんどは、このミドルの部分についてです。ツール化についてです。そして、ある意味で、インタラクションをより容易にするために持ち込むことができるツールとして考えることができます。
例えば、人々からペアワイズの好み(preferences)をより良く理解できるか、あるいはパーソナライゼーションによってインタラクションの負担を軽減できるか。私たちは主にペアワイズの好みをカバーしてきましたが、ここで簡単に、人々から選択や他の種類の好みの概念を取得する他の種類の方法をカバーします。すべて、人間とAI、広義に定義されたAI間のこのインタラクションを可能にする技術ツールとして考えられます。
そして、評価のステップがあります。これについてはあまり話してきませんでしたが、非常に重要だと思います。ですから、今日は評価について少し時間を割きます。特に、私たちがカバーしてきたことを、特定の問題設定のために人間の関与を簡素化することの広範な枠組みで文脈化したときに、評価がどのようなものになり得るか、評価について考えるさまざまな方法について時間を割きます。
これについて述べておきますが、これは、ほぼ毎回のクラスで言っていることですが、私たちは1時間強でこれをカバーしています。クラスでこれまでカバーしてきたほぼすべてのものと同様に、しかしもう一度言いますが、ほぼすべてのクラスで言っていることです。この資料自体は、3時間か4時間のチュートリアルの一部です。これは、人々がキャリアを築く全体の学問分野の一部です。とにかく、ますます多くの人々がそうしています。LLMは新しいものですが、それでも博士号全体がこれについてである人々がいます。だから、ここには潜在的に多くの深さがあります。興味があれば、参考文献を提供することを喜んでします。ここに少しリストがあります。参考文献は全体に散りばめられていますが、興味があれば入っていける多くの深さがあります。しかし、この領域の十分な部分を提供して、興味があればより多くの資料を見つけられるようにしようと思います。
6.2 HAI設計の3ステップ:デザイン、実現、評価
Koyejo教授: HAI設計には3つの主要なステップがあります。まず、デザインのステップです。ここでは「なぜ彼らは相互作用すべきなのか」という根本的な問いに答える必要があります。それを実現するために何をする必要があるのか。どのインスタンスで、どの文脈で、といったことを考えます。これは、先ほど議論したデザイン思考のアプローチを適用する場所です。
第二のステップは、インタラクションの実現です。では、どうやってこのインタラクションを可能にするのか。設定と文脈に応じて、このインタラクションを容易にするために何を持ち込むことができるでしょうか。私が主張したいのは、このクラスでカバーしてきたことのほとんどは、このミドルの部分についてであるということです。ツール化についてです。そして、このクラスでカバーしてきたことのほとんどは、ある意味で、インタラクションをより容易にするために持ち込むことができるツールとして考えることができます。
例えば、人々からペアワイズの好みをより良く理解できるか、あるいはパーソナライゼーションによってインタラクションの負担を軽減できるか。私たちは主にペアワイズの好みをカバーしてきましたが、ここで簡単に、人々から選択や他の種類の好みの概念を取得する他の種類の方法もカバーします。これらすべては、人間とAI、広義に定義されたAI間のこのインタラクションを可能にする技術ツールとして考えられます。
そして第三に、評価のステップがあります。これについてはこのクラスであまり話してきませんでしたが、非常に重要だと思います。ですから、今日は評価について少し時間を割きます。特に、私たちがカバーしてきたことを、特定の問題設定のために人間の関与を簡素化することの広範な枠組みで文脈化したときに、評価がどのようなものになり得るか、評価について考えるさまざまな方法について時間を割きます。
これについて述べておきますが、これは私がほぼ毎回のクラスで言っていることですが、私たちは1時間強でこれをカバーしています。クラスでこれまでカバーしてきたほぼすべてのものと同様に、しかしもう一度言いますが、ほぼすべてのクラスで言っていることです。この資料自体は、3時間か4時間のチュートリアルの一部です。これは、人々がキャリアを築く全体の学問分野の一部です。とにかく、ますます多くの人々がそうしています。LLMは比較的新しいものですが、それでも博士号全体がこれについてである人々がいます。
だから、ここには潜在的に多くの深さがあります。興味があれば、参考文献を提供することを喜んでします。ここに少しリストがあります。参考文献は全体に散りばめられていますが、興味があればより多くの資料を見つけられるようにしようと思います。しかし、この領域の十分な部分、この領域の基盤を提供して、興味があればより多くの資料を見つけられるようにしようと思います。
では、デザインの第一のステップについて少し話しましょう。ここでは、私たちのお気に入りのツールであるプロンプトエンジニアリングについて見ていきます。
7. プロンプトエンジニアリングの課題とPromptCharmの事例研究
7.1 UXの観点から見たプロンプトの問題点
Koyejo教授: プロンプトエンジニアリングについて、人間、あるいはhuman-computer interfaceツールの観点から見ると、実は非常に興味深く、かなり挑戦的であると研究され、考えられてきました。間違いなく、その目的は、あるいは従来のユーザーインターフェース設計が意図していることは、何らかの高い不確実性の問題解決文脈から、明確さと焦点を持つようにすることを容易にすることです。つまり、特定のタスクを解決するためのインタラクションが何であるべきかが非常に明確になるようにすることです。
プロンプティングについて、ここで漫画的に描かれていますが、これは図を見てより詳細に調べることができるクールな論文ですが、高い不確実性から始まります。おそらく、私たちが話してきたいくつかのプロンプト戦略を試すことで、不確実性を少し減らします。人々がお互いに話し合い、ベストプラクティスのようなものを考え出します。しかし、それでも少し脆弱で、不確実性がまだ存在します。そして、ツールや文脈が少し変わるような新しいことが起こると、実際には再び高い不確実性を持つことになります。
例えば、知っているように、いくつかの問題は修正されたと思ったのに、実際には戻ってきます。OpenAIがバージョン番号を密かに変更した場合、あなたのツールのために使っていたものです。ある特定のGPTチェックポイント版で何かを構築していたとして、何かが密かに変わり、あなたの解決策が完全に壊れると仮定しています。うなずいているのは、人々の実体験だと仮定します。私も確かにそういう経験をしました。何らかのチェックポイント版で構築したものがあり、何かが密かに変わって、あなたの解決策が完全に壊れるのです。
しかし、これはオープンソースのツールでも簡単に起こります。なぜなら、繰り返しになりますが、技術は常に進化しているからです。だから、あらゆる種類の未知の未知の問題、新しい問題が現れます。そして、標準的なUX設定で到達しようとする種類のものである、インターフェースの容易さと明確さ、そして信頼性の高さに到達することがかなり難しいのです。
言語インターフェースは、解放的であり、原則的には人々がインターフェースすることを容易にしますが、先ほどのチャッティングについてのコメントに戻りますが、実世界の問題を解決する観点からは、間違いなく多くの新しい課題を引き起こします。なぜなら、低い不確実性と高い信頼性を持つ、明確なインターフェースアプローチのようなものに到達することが難しいからです。
ある引用があります。皆さんの中には好きな人もいるかもしれませんが、「プロンプトエンジニアは、ChatGPTを正しい場所でくすぐって答えを吐き出させるために存在する」というものです。皆さんの多くがこれに同意するかもしれないと思います。少なくとも、プロンプトエンジニアリングについて考えるいくつかの方法として。参照を追加したり、本当に丁寧に物事を言ったり、フレーミングで遊んだりします。言語モデルに、彼らが望む方法で問題を解決させるために人々が使おうとするこれらの他の戦略があります。
実際の設定では、非自明なものについては、プロンプトをかなり大量にエンジニアリングする必要があることがよくあります。いくつかのテンプレートに一致する形式が必要です。プロンプティングと言語モデルの成功した実装の多くは、実際には多少コマンドライン言語のように見え始めます。本質的には、運が良ければ、何らかの形式が必要です。原則的には自然言語であるべきですが、実際には高度に様式化され、専門化されたものです。なぜなら、これはツールが問題を解決するために、ある程度の信頼性のために必要なものだからです。しばしば、繰り返しになりますが完璧ではありませんが。
では、これに取り組む一つの方法を考えてみましょう。同僚がこの講演を書いた一つの例を挙げます。おそらくハイブリッドなユーザーインターフェースと、プロンプトの途中にGUIを追加することが、時には使いやすさを向上させる可能性がある方法について考えることです。視覚言語モデルの種類の設定での例を挙げましょう。特定のデザイン目標に一致する画像をより良く作成できるように、物事をプロンプトしようとします。
7.2 PromptCharmの研究成果:5つのユーザーニーズと解決策
Koyejo教授: この研究では、PromptCharmと呼ばれる論文から、下部に参照があります。第一のステップは研究でした。これは、先ほど話したデザイン例の一部です。ギャップが何であるか、問題の根本原因が何であるかをより良く特定するためです。
彼らのユーザー研究から、ノービスユーザーが画像作成のためのプロンプトを書く際に、重大な概念的ギャップがあることを発見しました。多くの場合、ユーザーは明確なイメージやスタイルを心に持っていますが、モデルに望む通りのことをさせるために、プロンプトでそれを適切な方法で表現することに多大な困難を抱えているのです。
この問題を解決するために、この論文はいくつかのステップを経て、5つの主要なユーザーニーズを特定し、問題に対処するためのいくつかのステップを提示しました。第一に、テキストプロンプトを自動的に推奨し、修正すること。第二に、自動化とユーザーコントロールのバランスを取ること。第三に、さまざまな探索を可能にすることです。プロンプトのフレーミング方法や、少なくともAIモデルとの関わり方を探索しやすくします。第四に、バージョンコントロールです。ユーザーが戻れるようにします。何かが壊れた場合、以前にうまくいったものに戻れるようにします。それを容易にします。第五に、生成されたコンテンツの説明を提供することです。何がうまくいったかを見やすくし、おそらく将来を容易にします。
これらの研究に基づいて、彼らは新しいデザインを開発しました。第一のステップ、あるいは最初に試みたことの一つは、プロンプトの自動修正でした。皆さんの多くが知っているように、これは実際に多くの商用言語モデルで今では標準的なものです。彼らはこれをあなたに見せませんが、おそらく別の会話ですが、ほぼ常に、あるいは少なくとも画像を作成するためにチャットボットにプロンプトするモデルでは、私は割合を持っていません。なぜなら、企業のIPを知らないからですが、多くの言語モデルには、うまくいく可能性が高い方法であなたのプロンプトを書き換える何かが中間にあることを、特定の例から知っています。これは、VLMに正しい解決策を得るためのエンジニアリングのようなものです。
ここでは、それをユーザーに公開しました。「狼が月の前で人間の子供の隣に座っている絵が欲しい」と言います。これは、特定のスタイルを与えるように拡張されるかもしれません。特定の種類のアーティストの彼らのスタイルで。そして、おそらく「これはArtStationでトレンドになっている」のような何かについて。特定のプラットフォームのようなもの、ユーザーが望むかもしれないものに見えるもののようなものです。これはまた、ユーザーが用語を変更する能力もあります。書き換えがありますが、それは公開されています。もしユーザーがこれが彼らが望むものを特定していないと考えるなら、これを修正して、彼らのニーズにより良く一致する方法でプロンプトを変更することが容易になります。
GUIにはまた、類似アイテムを見つける簡単な方法も含まれています。アーティストをあまりよく知らない場合、特定のアーティスト名を思い出せない場合、おそらく異なる種類のアーティストや異なる種類のスタイリングの提案を与えます。そして、うまくいけば、これらの言葉の選択のいくつかがあなたの望むものの心的モデルに一致します。
彼らはまた、用語の重み付けを可能にしました。これはかなりクールです。繰り返しになりますが、技術はこれを可能にします。あなたが持つプロンプトのさまざまな側面を上方または下方に重み付けするようなものです。そして、彼らはこれをユーザーに公開しました。あなたが持っている単語やフレーズ、この場合はスタイルをクリックして、提供される解決策の重要な部分としてどれだけ重要であるかを上方または下方に重み付けできるものです。
次は、探索のサポートです。すでに書き換えやプロンプトのタイプとの関わりについて話しましたが、クイックプロトタイピングのようなものもあります。ドロップダウンから特定の種類のスタイルを選び、それを迅速に反復します。同じものの様々なバージョンを反復します。これはあなたが好むものを選ぶのに役立ちます。「もう少しフォトリアリスティックにしたい」と実際に思います。写真ベースのクイックプロトタイプを選びます。画像の低解像度版を作成することで、これを安価に行うことができます。そういったことです。これは実際に拡散技術自体と本当にうまく機能します。だから、これは実際には良いアイデアです。
また、ユーザーが何をしたかを追跡することを容易にします。ここにはありませんが、例えばステップ4に戻りたいような場合です。そして、説明の提供についてです。
7.3 具体的な機能実装と評価
Koyejo教授: 説明の提供について話しましょう。技術は少なくとも使用可能なレベルには十分だと思います。異なる用語に対して、画像のどの部分がそれらの用語に対応するかを把握しようとします。ユーザーは用語の重要性をどれだけ重視するかを変更できます。説明は心的モデルと心的マップの構築に役立ちます。技術が何をしているかを十分に理解でき、介入と操作がかなり容易になります。
また、直接操作も可能にしました。例えば、背景にある山のようなオブジェクトを削除したいとします。シンプルなツールで実装し、この背景でインペイントできます。物を追加することもできます。こういったことすべてです。間違いなく、これは今では標準的なツールです。実際にこれがいつの論文かは知りませんが、Adobeは例えば多くのツールでこれをやらせてくれます。
しかし、これは、PhD全体を費やして正しいプロンプトを得るのではなく、人々がこのプロンプト生成技術と関わることをはるかに容易にする方法の良い例だと思います。
学生: これはむしろ考えですが、根本的にかなり難しい問題を解決するように感じます。誰かが心の中にこの絵を持っているように、どうやってそれを言葉にするか。なぜなら、たとえ別の人間であっても、それは興味深かったからです。警察のように、時には誰かを見た場合に犯罪者の絵を描くようなものです。だから、そのプロセスはこれでより良くなるかもしれません。分かりません。
Koyejo教授: ええ、これは興味深いです。応用例として。これを応用例として聞いているように聞こえます。「これはクールなアイデアです。他にどのような方法で使えるでしょうか」と。その応用例として喜んで同意します。正しいと思います。
学生: 画像がこれらの単語にどのように対応するかを示す前の部分について、あれは事後的なものですか、それともある種の帰属ですか。論文を読みます。
Koyejo教授: ええ。彼らはクロスアテンションを使用してStable Diffusionを解釈する論文を使用したと、私の理解では。何もないよりは良いです。解釈可能性ツールは、これらの文脈や設定に対して完全に堅牢で安定しているわけではまだありません。彼らがここで試した文脈と設定では、かなりうまく機能すると思います。しかし、完璧ではありません。問題は常にどれだけ堅牢かということです。だから、別の技術問題があり、私たちはコミュニティとしてまだ解決する必要があります。
しかし、人々がインターフェースを構築し始め、使用し始めるのに十分良いツールがあると思います。ええ、でもあなたがスライドを手に入れることができれば、論文の下部にあるこの「クロスアテンションを使用してStable Diffusionを解釈する」というものをオフラインで見ることができます。謝ります。私は講義の後にそれらを行う傾向があります。本当にすべきです。ああ、コースはほぼ終わりですが、来年はすべてが事前に準備されます。でも、ええ、参照を手に入れられるので、オフラインで見ることができます。
他の考えはありますか。さて、データ評価についてもそうです。評価については後でもっと話します。様々なタスクとこれらのタスクにおけるユーザーの精度を見て、彼らのツールと試すことができた他のアプローチを使用しています。
さて、インタラクティブシステムの構築について、良い考え方としては、多くの異なるコンポーネントがあります。ステークホルダーが誰であるかについて考えることを含みます。人間の認知、知覚について考えます。タスクの認知負荷が高ければ高いほど、人間が創造的になれるように容易にしたいのです。複雑で認知的に負荷の高いタスクに意味を持って関与できるようにします。先ほど示したような例です。
構築している技術に対する信頼と依存についても多くのことが言えます。理想的には、適切であれば、ユーザーが確実にタスクを解決できるツールを構築したいのです。ツールが解決することを意図されているタスクを確実に解決できること。信頼性は大きな役割を果たすことができます。較正された信頼を正しく得ることは難しい場合があります。
8. インタラクティブシステム構築の要素
8.1 認知負荷、信頼と依存のマトリクス
Koyejo教授: インタラクティブシステムの構築について、良い考え方としては、多くの異なるコンポーネントがあるということです。その中には、ステークホルダーが誰であるかについて考えることが含まれます。人間の認知、知覚について考えます。タスクの認知負荷が高ければ高いほど、人間が創造的になれるように容易にしたいのです。複雑で認知的に負荷の高いタスクに意味を持って関与できるようにします。先ほど示したような例がそうです。
構築している技術に対する信頼と依存についても多くのことが言えます。理想的には、適切であれば、ユーザーが確実にタスクを解決できるツールを構築したいのです。ツールが解決することを意図されているタスクを確実に解決できること。信頼性は大きな役割を果たすことができます。較正された信頼を正しく得ることは難しい場合があります。
私が思うに、心的モデルはしばしば信頼を過小評価または過大評価します。ユーザーはツールが実際に機能する範囲を評価せず、過度に信頼します。あるいは、一度悪い経験をすると、ツールがゴミだと思い、実際にツールが有用である場所を見つけ出さないのです。だから、信頼を較正すること自体が、良いユーザーインターフェースの挑戦的な部分だと思います。
信頼と依存について少し定義しましょう。信頼は、信頼性、誠実性、正直さに対する信念や確信の評価のようなものです。これは本当に人間の特性です。私たちはますます同じ類推と概念を機械、エージェントのようなものに非常に直接的に適用していると思います。
依存は、信頼が存在するかどうかに関係なく、特定の機能やタスクを実行するために誰かや何かに頼ることについての別の特性です。ある意味で、これらは互いに異なるものです。人間の意思決定者と、彼らが使用しているかもしれないAIツールの間には、多くの違い、この4象限のようなものがあります。
人間の意思決定者が常に決定を拒否するが、決定が正しい場合、過小依存の問題があります。常に決定を受け入れる場合、そしてそれが正しければ、それは良いことです。適切な依存です。しかし、AIが言うことに関係なくほぼ常に受け入れ、特にAIが正しくない場合、これは過剰依存の問題であり、時々自動化バイアスの一種と呼ばれます。そして、拒否すべきときに拒否する場合、それもまた適切な依存です。
だから、適切な依存を得ます。挑戦のいくつかには、このセットアップの緑の部分にいるように全体のシステムを設計しようとすることが含まれます。参照資料にはもう少し技術があります。それについて詳しくは触れませんが、良いデザインのターゲットとして言及します。
少しだけ触れます。信頼を較正するための技術のいくつかには、先ほど簡単に話したような説明が含まれます。時々役立つ場合があります。不確実性を示すことは、研究がまだ進行中だと思います。人々が不確実性をどのように理解するかは依然として難しいのです。人々は実際のパーセンテージが得意ではない傾向があると思います。低、中、高のような大きな範囲にバケット化します。少なくとも私がこの分野の最良の研究について理解していることではそうです。
しかし、不確実性を示すことは、AIが実際に何が得意で何が不得意かについて、ユーザーがより良く較正するための有用な方法になり得ます。結果をいつ見るかを決定するユーザーのエージェンシーを許可すること。自己プロンプトによる提案のようなものを許可すること。自動化されているのではなく。
処理を示すこと。作業が起こっていることを示します。人々が待っているという意味では悪いことだと思いますが、実際には良いことになり得ます。それは人々が良い心的モデルを構築するのに役立つことができます。特定のタスクがどれだけ簡単か難しいか。おそらく努力は正しい言葉ではありませんが、難易度について。それは人々がより較正された信頼を持つのに役立つ、努力または難易度について較正する方法になり得ます。
8.2 公平性、説明責任、透明性、倫理の考察
Koyejo教授: 公平性、説明責任の質問についても話しましょう。公平性については、ツールが性別や性、その他の種類の人口統計、社会経済的要因に基づいて大きく異なる動作をしないことを確実にすることです。様々な多様な集団のために機能できるツールを作ることです。規範的な目標として、私たちの多くにとって良いデザイン目標と考えられています。
説明責任については、例えば間違いの結果を測定することです。そして、何らかの形でシステムを構築する方法にそれを組み込むことです。例として、誤訳があります。これは低リスクの場合もあります。チャットボットモデルで遊んでいる場合です。しかし、異なる言語での亡命の決定に使用される翻訳の場合、高リスクになり得ます。これは誰かの人生、大きな人生の決定であり、翻訳エラーが大きな影響を与える可能性があります。そして、これは実際に起こります。それは大きな問題です。
規範的には、できる限り良いツールを作りたいのです。しかし、良くない場合、ステークホルダーがツールのギャップを理解することも望みます。ユーザー自身が理解すること、裁判官や法制度の他の部分が理解することです。それをより良く達成できればできるほど、より良い説明責任を持つことができ、技術ツールの良い部分と悪い部分に正しく配置された説明責任を持つことができます。
透明性についても話しましょう。透明性はしばしば有用であり得ますが、やや論争的な大きなバケットでもあると思います。常になされる議論の一つは、理解できないモデルを信頼すべきではないというものです。先ほどのあなたのコメント、AIツールをどう理解するかということに戻ると思います。しかし、実際には、私たちが信頼する多くのものを理解していないという議論もあります。
人々がよく使う例は、アスピリンや医療関連のものです。私たちは結果について何かを知っています。しかし、メカニズムについては実際にはあまりよく知らないのです。驚いた顔が見えます。調べてみてください。実際そうなのです。
学生: アスピリンとは何ですか。
Koyejo教授: アスピリンです。ええ。しかし、他にも多くの例があります。ほとんどの医師は、例えばMRIを技術的な詳細で理解していません。彼らは入力と出力を理解しており、意思決定に使用するのに十分です。しかし、彼らは物理学者ではありません。病院にはMRIを理解するための専門の物理学者がいます。
分野がどこに落ち着くかは分かりません。しかし、それは別の問題だと思います。ここで有用だと言えることは、可能であれば、内部で起こっていることの説明可能性、透明性がユーザーインターフェースを較正する有用な方法になり得るということです。
倫理についても簡単に触れます。人間とAIの間の様々な種類のインタラクションについて考え、より広い世界の文脈でそれが何を意味するかを考えます。異なるステークホルダーからの異なる倫理的視点について考えます。人間の倫理的視点とAIツールができることの間を橋渡しする方法について考えることです。AIツールからの意思決定を、人間の倫理原則と価値観とどの程度一致させることができるでしょうか。これはより広いクラスの目標の一部です。すでに話してきました。数回後の講義でもう少し時間を割くつもりです。
8.3 パーソナライゼーションとイニシアチブの種類
Koyejo教授: パーソナライゼーション、適応、簡単にフィードバックを与えることについても話しましょう。インタラクションをガイドすることで、特定の個々のユーザーが彼らの好みやニーズに基づいて関与しやすくすることです。先ほどの指摘に対して、おそらくこれには、どのように関与するかを学ぶことを学ぶことも含まれます。しかし、できるだけ摩擦のないものにすることです。そして、人間の好みとより良く整合するように、時間とともに改善することです。
インタラクションがどのように開始されるか、またはどのように始まるかについて考えることもあります。一方の端では、人間がイニシエーターです。人間がツールとしてコンピュータを使用するクリエイターであり、あなたの目標は、例えば人間が創造的になることを容易にすることです。それが一つの潜在的な結果でしょう。
もう一方は、コンピュータのイニシアチブかもしれません。コンピュータが何かを展開している、おそらく自動的に。人間が聴衆で、コンピュータがクリエイターです。ここでのあなたの目標は、計算結果を創造的にして、ニーズを満たすようにすることです。例えば、論争的ですが真実だと思いますが、自動化されたもの、芸術のようなものを想像できます。これが他の極端の例としてのケースです。
ほとんどの多くの実世界のものは、どこか中間にあります。ある種の混合イニシアチブです。そして、協働的な人間-AIインタラクションがどのようなものかをより慎重に考えることに、ますます関心が高まっていると思います。両側が協働的で、ある種の混合イニシアチブ、潜在的な結果があります。これをどのように起こりやすくするかということです。
混合イニシアチブシステムは、ユーザーとシステムの両方がタスクを実行し、意思決定を行う際に積極的な役割を果たす協働を可能にします。これをうまく行うには、様々な種類の直接操作と自動化されたサービスを結合し、創造性を奨励する必要があります。
例えば、これを行う一つの方法として、自動化されたエージェントを作成することができます。そのエージェントは、特定の文脈でユーザーにとって、何もしないよりも期待値が高いとエージェントが信じる場合にのみアクションを取るものです。参照資料や残りのテキストにもっと詳細があります。ただこれについて何かを述べるために言及します。
インタラクションデザインについて少し要約すると、理想的には、明示的な説明書を必要とせずに、シームレスにできることです。これを行うためのいくつかの方法には、人間が世界とどのように相互作用するかについて考え、それらのアフォーダンス、少なくとも標準的なインタラクションメカニズムを拡張して、アルゴリズムが期待するものとよく一致するように容易にすることが含まれます。
デザイン思考は非常に役立ちます。問題の根本原因を見つけ、解決策を見つけ、行ったり来たりして反復します。そうすることで、理想的には、ユーザーが実際に使いたいアプリケーションを構築できます。おそらく使わなければならないのではなく。
そして、使いやすさに関する人的要因以外に、おそらく見えない人的要因もあります。心理的および認知的側面のようなもの、根底にある信頼と依存、実世界での影響、倫理と公平性、そして私たちが簡単に話した他の問題です。
9. Human-AIインタラクションの評価方法論
9.1 評価の主要質問と方法:定量的・定性的アプローチ
Koyejo教授: では、最後の10分程度で、Human-AIインタラクションの評価について話しましょう。評価について考える際に尋ねたい主要な質問のいくつかは、「どのように(How)」、「何を(What)」、「誰が(Who)」、「いつ(When)」です。どのように評価しているのか、何が評価されているのか、誰が評価しているのか、いつ評価するのか、ということです。
「どのように」については、進むことができるいくつかの異なる方向があります。重要なものは、方法について、タイプについて、そして選択するかもしれないメトリクスのタイプについてです。方法としては、定量的評価のようなものがあります。これは私たちが最も得意としているものだと思います。望むことを定量化する何らかの数字を見つけます。タスク完了のようなものです。モデルが正しく答えた質問の数はいくつか。ユーザーはタスクを完了したか。どれくらい時間がかかったか。定量的評価です。
定性的評価は、よりオープンエンドなものです。調査を行うようなことをします。モデルがいくつかの質問に誤って答えた理由は何か、考えようとします。ユーザーまたはステークホルダーグループは経験について何が好きだったか。彼らはイライラしていたか。良いデザイン研究では、しばしば何らかの定性的評価を行います。
このギャップは言語モデルにおいて顕著だと思います。なぜなら、ご存知のように、ベンチマークを介した定量的評価は、特にモデルのランキングにおいてやや正確です。モデルでの人々の実際の経験は、ベンチマークが言うこととしばしば乖離します。ギャップがある場合、これらは非常に異なる情報を与えることができます。
少なくとも私の個人的な視点では、ギャップがあることは定量化に何か問題があることを示していると思います。だから、人々がツールについて好きなことをより良く捉えるように、定量化側でより良いツールを作るべきです。しかし、ここでの重要なポイントは、評価の観点から、両方の種類の評価が実際に信号を持ち、それ自体で重要だということです。定量的なもの、つまり物事を数字に変えて、比較し、ランキングし、選択できるようにすること、そして定性的なもの、つまり「なぜ」を理解すること、オープンエンドで、それから私たちはより良い測定方法に統合できることを期待します。少なくとも私の心の中では、これらの有用なユースケースの一つです。
9.2 評価タイプ、メトリクス、対象の選択
Koyejo教授: 評価のタイプを考えることもあります。内在的評価があります。これは、モデル単体を取り上げるものです。NLPモデルがあります。繰り返しになりますが、ベンチマークがこれを行います。モデルのパフォーマンスに直接関連する特定のタスクで、モデルがどのように機能するかを理解したいのです。これは、明示的な方法でユーザーを関与させる場合もあれば、させない場合もあります。対数尤度やベンチマーク完了のようなものを想像できます。
外在的評価もあります。実世界の、理想的には下流のタスクで、モデルがどれだけ役立つかということです。ユースケースの文脈内で評価するのです。コーディングアシスタントを構築しているのであれば、コーディング文脈内で評価します。一般的に、ベンチマークであるコード完了テストのデータベースを持っているのではなく。繰り返しになりますが、内在的な抽象的評価と比較して、外在的なユースケース文脈内評価で非常に異なる信号を得ることができます。
両方が非常に価値があります。内在的なものは速い傾向があります。経験に組み込む必要がないからです。外在的なものは遅い可能性がありますが、しばしば内在的なもののギャップを明らかにすることができます。だから、評価プロセスの一部として、繰り返しになりますが非常に有用です。
そして最後に、メトリクスのようなものです。時間とともに、様々な種類のツールの定量化として、様々なメトリクスのセットを検証する作業があります。例えば、生産性のようなものの定量化です。特定のコーディングツールで追加されたコード行数のようなものです。コーディングツールがあり、人間がコーディングツールと関わり、生産性のメトリクスとして、例えばコード行数を測定します。
コストのようなものです。このツールをより大きな文脈のコストに追加するコストはいくらか。ここでの選択のいくつかには、主に既存の検証済みメトリクスに依存するか、人々がこれが良いメトリクスであると何らかの作業を行ったものに依存するかということが含まれます。ちなみに、これは論文からのものです。末尾に参照があります。人間-AIペアプログラミングの評価について考えることについて、良い読み物です。
あるいは、文脈をより良く捉えるかもしれない新しいメトリクスを考え出そうとするか。評価を構築しようとする際のいくつかの重要なデザイン決定です。
「何を」評価しているかについてです。モデルかもしれない、HCIかもしれない、全体のエンドツーエンドかもしれません。しばしば、これらは一緒に組み合わされた別々のモジュールであり、何らかのタスクを解決します。コードレビューのケースでは、コードは良い例です。Critiqueというツールを構築しました。レビュアーは何らかの防御的コーディング実践を求めます。作者、モデルがレビュアーとして機能します。間違いなく、どちらの方法でもモデルまたはレビュアーがAIツールになることができます。
この中には、色を変えるようなさまざまな種類のものがあり、追加または削除すべきコードの部分を識別します、そういったことです。ここでの重要なポイントは、内部に基礎となる技術があるということです。HIインターフェースとツールとの相互作用の容易さがあります。そして、エンドツーエンド全体もあります。
評価では、しばしば良い評価ではこれらを別々に行います。そしてエンドツーエンドについて考えます。エンドツーエンドは全体です。それはその一部です。
評価のさまざまな目標について考えることもできます。ユーティリティ、満足度、多くの異なる目標があります。ここにはいくつかの異なるコードスニペットがあります。コードがいくつかのテストに合格したか、合格しなかったかを見るメトリクスを尋ねることができます。あるいは、参照コードにどれだけ近いかを尋ねることができます。テキスト間の類似性マッチングのようなものです。あるいは、コード結果の好みについて人間に尋ねることができます。人間が新しいコードを好んだかどうかの感覚を得ます。
繰り返しになりますが、測定の異なる方法です。評価プロセスで持つことができる異なる目標です。そして、繰り返しになりますが、良い研究はこれらの多くを持っています。繰り返しになりますが、評価の巨大なデザイン空間であることが明らかになることを期待します。これらすべてについて考える多くの作業があると思います。良い研究は、文脈に最も関連性の高いこれらのサブセットを選択し、評価プロセスでこれらの選択をどのように実装し、操作化するかを考える傾向があります。
9.3 評価者とタイミングの設計
Koyejo教授: 今度は最後に、最後だと言いましたが間違っていました、誰が評価しているかについて考えたいと思います。一般ユーザーかもしれない、ドメインエキスパートかもしれない、何らかの自動評価かもしれません。LM-as-a-judge、つまり判定者としての言語モデルがますます人気になっています。
これは、すべての人のために機能するシステムを設計することは難しいという質問に結びつきます。ここで「すべての人」と言うとき、性別や性、その他の種類の人口統計、社会経済的要因などの人口統計的バイアスの種類からは分けて考えたいと思います。それらは、ステークホルダーグループやステークホルダー設定のような他の種類のものとは区別されるべきです。
例えば、エキスパートグループでしょうか。一般ユーザーでしょうか。教育設定の教師、何らかの方法でツールと関わろうとしている親、何かを学ぼうとしている学生のような、ユースケース固有のものがあります。ターゲットグループは、評価プロセスについてどう考えるかに大きな違いをもたらすことが多いです。参照資料にもっと詳細があります。
そして、これが実際の最後です。いつ評価するかです。異なるタイムスケールがあります。インタラクション時の即座の評価があります。何らかの短期的なインタラクション、つまり数ラウンドの物事を見るものがあります。長期的なものがあります。ツールを構築し、例えば1週間またはそれ以上展開しようとします。ツールを実装し、週、月、年にわたって展開し、どんな影響があるかを見ようとします。縦断的研究を行います。
繰り返しになりますが、これらは、人間-コンピュータインターフェース、私たちのケースでは特に人間-AIインターフェースのデザイン問題のための評価ツールを構築しようとする際になされるべきいくつかの重要なデザイン決定です。
10. まとめ:AIツールによる人々の問題解決
10.1 HAIの目標と実現手法
Koyejo教授: では、まとめましょう。今日は人間-AIインタラクションと、これに結びついたデザイン決定について話しました。この種の作業を扱うHCIにおける動機づけ、基盤となる作業のいくつか、この種の作業の影響、そしてこれを実装する方法のいくつかのアイデアについて話しました。
間違いなく、これをうまく行えば、人々の問題を実際に解決し、実世界の文脈で人々のニーズ、目標、価値観を尊重する方法で、様々な種類のAI技術を活用できます。
Human-AIインタラクションを可能にすることについていくつかの異なる視点を通して話しました。インタラクションからAIツールが学び続けることを助けるさまざまな方法のようなもの、好み(preferences)のようなもの、ツールがよりパーソナライズされたものになるのに役立つかもしれないインタラクション設定、ハイパーパーソナライゼーションの代替としての社会的選択のようなものです。これまでのクラスからのツールのいくつかを呼び戻しています。
そして、分析を行うさまざまな方法、異なるステークホルダーの意思決定にどのような影響を与える可能性があるかについて話しました。
10.2 評価設計の重要性
Koyejo教授: そして評価について話しました。ユースケース、ユーザー、様々な種類の評価メカニズムの間のマッピングについて考えることです。評価プロセスのさまざまな長さのようなもの、定性的評価対定量的評価です。デザイン決定の一部である他の質問です。
重要なのは、評価自体がデザイン問題になるということです。評価のデザイン設定を選択することです。実際に構築しようとしているものに最も適合するもの、文脈に最適なものです。
さて、それがカバーしたかったことです。ほぼ時間通りです。
Stanford CS329H: Machine Learning from Human Preferences | Autumn 2024 | Human-centered Design
For more information about Stanford's online Artificial Intelligence programs visit: https://stanford.io/ai To learn more about enrolling in this course visit: https://online.stanford.edu/courses/cs329h-machine-learning-human-preferences To follow along with the course schedule and syllabus visit: https://web.stanford.edu/class/cs329h/ Sanmi Koyejo Assistant Professor of Computer Science, Stanford University View the entire course playlist: https://www.youtube.com/playlist?list=PLoROMvodv4rNm525zyAObP4al43WAifZz
youtu.be