※本記事は、スタンフォード大学CS224N「NLP with Deep Learning」Spring 2024のLecture 18「NLP, Linguistics, Philosophy」の内容を基に作成されています。講義の詳細情報は https://www.youtube.com/watch?v=NxH0Y78xcF4 でご覧いただけます。本記事では、講義内容を要約・構造化しております。なお、本記事の内容は原講義の内容を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講義をご視聴いただくことをお勧めいたします。
講師:クリストファー・マニング教授 トーマス・M・シーベル機械学習教授、言語学・コンピュータサイエンス教授 スタンフォード人工知能研究所(SAIL)所長
スタンフォードのオンライン人工知能プログラムについての詳細は https://stanford.io/ai をご覧ください。このコースの履修についての詳細は https://online.stanford.edu/courses/c... をご覧ください。コーススケジュールとシラバスについては https://web.stanford.edu/class/archiv... をご覧ください。
1. CS224Nの主要概念
1.1 単語ベクトルと分散表現
CS224Nで探求した主要概念の一つは、密な表現(dense representations)を活用することで多くの成果が得られるという考え方です。これらはニューラルネットワークの隠れ層表現として機能します。さらに、分散表現という概念があります。これは「単語はその周囲の語によって知られる」というスローガンで表現される考え方で、単語をその文脈で表現するというものです。
この考え方は後ほど意味の概念について話す際にも触れますが、本質的には現代NLPの成功を支えてきた中心的アイデアです。これは初期の統計的NLPの時代から現代のニューラルNLPの時代まで、成功したアイデアのほとんどを支えてきました。
この世界では、単語ベクトルのモデルとしてこの考え方を実装しますが、同じ文脈的な考え方はTransformerに至るまですべてのモデルで使用されています。単語を周囲の語によって知るという分散表現の原則は、現代のNLPシステムの基礎となっており、この考え方が単語ベクトルからTransformerに至るまでのさまざまな技術発展を支えています。
1.2 ニューラルNLPシステムの発展
ニューラルNLPシステムの発展において、私たちは大規模なディープニューラルネットワークのトレーニングにおける課題と機会の両方を検討しました。徐々に人々は残差接続のような考え方やテクニックを開発し、これによってディープネットワークのトレーニングが格段に安定し、実現可能になりました。
これらの進歩により、私たちは「うまくいくかどうかわからない黒魔術」のような状態から、人々が高性能なTransformerモデルを非常に確実にトレーニングできる状態へと移行しました。シンプルなフィードフォワードネットワークから始まり、シーケンスモデルへと発展させていきました。
シーケンスモデルの長所と短所について検討し、それらの問題がTransformerという異なるアーキテクチャを採用することで大部分解決されたことを学びました。Transformerは並列処理の形式を提供し、効率的な学習と推論を可能にしました。これによって、最初は単純なフィードフォワードネットワークだったものが、進化してRNN、LSTM、そして最終的にはTransformerへと発展し、現代のNLPシステムの基盤となりました。
1.3 Transformerアーキテクチャ
私たちはCS224Nの講義を通じて、Transformerという強力な新しいモデルについて学びました。このモデルは近年非常に影響力を持ち、高性能なNLPシステムを生み出す基盤となっています。Transformerの主要な利点の一つは、シーケンスモデルが直面していた問題に対処できる形式の並列化を提供することです。
以前のRNNやLSTMなどのシーケンスモデルには特定の問題があり、これらの問題はTransformerというこの異なるアーキテクチャを採用することで大部分が解決されました。Transformerは並列処理能力を持ち、長距離の依存関係をより効果的に捉えることができます。
このアーキテクチャは現代的なNLPシステムの開発における重要なステップとなり、その後の事前学習言語モデルの基盤となりました。注意機構(Attention mechanism)の採用により、Transformerは文脈内の関連情報に「注意を向ける」能力を持ち、これが性能の向上につながりました。講義では、このアーキテクチャが現代のNLP研究と応用における中心的役割を果たしていることを強調しました。
1.4 言語モデリングによる事前学習
私たちは次に、言語モデリングによる事前学習という現代的な形態に移行しました。言語モデリングは文脈内の単語を予測するという単純なことに思えますが、これが言語知識と世界知識の両方が役立つユニバーサルな事前学習タスクとして浮上してきました。このタスクは単語をより良く予測するのに役立つため、強力で知識豊かなモデルを生み出す一般的な方法として確立されました。
言語モデリングによる事前学習は、今日私たちが持っているような強力で知識豊かなモデルを生み出すための一般的な方法となっています。文脈内の次の単語を予測するというこの単純なタスクは、実際には言語の構造、意味、そして世界についての広範な知識を必要とします。
この事前学習のアプローチにより、モデルは膨大なテキストデータからパターンを学習し、その後さまざまなダウンストリームタスクに適用できる豊かな言語表現を構築します。私たちが講義で説明したように、この事前学習フェーズの後に、様々な技術を用いた後学習(post-training)フェーズを行い、言語をよく理解する汎用的な基盤モデルを生み出しています。
1.5 規模の拡大による線形的な性能向上
これまでの発展において、非常に驚くべき経験則が見られました。データ、計算能力、モデルサイズを桁違いにスケールアップし続けると、性能が線形に向上するという実証的な事実です。この傾向は今まで維持されてきました。
たとえデータとモデルのスケールを何桁も拡大しても、パフォーマンスは極めて線形的に改善し続けるのです。これは実証的に観察される事実であり、NLPモデルの能力向上において非常に重要な役割を果たしています。
もちろん、これはNLPのすべての問題が解決されたということではありません。まだ多くの課題があり、人々は改善の機会を見いだしています。しかし、スケーリングによる性能向上というこの経験則は、現代の言語モデル開発において中心的な原則となっています。この線形的な関係がどこまで続くのか、あるいはいつか頭打ちになるのかは、引き続きNLP研究の重要な疑問の一つです。
2. NLPにおける未解決問題
2.1 記憶化vs一般化の問題
NLPにはまだ多くの未解決問題が存在しています。特に重要な問題の一つは、これらのモデルが実際にどの程度一般的なタスクを学習できるのか、あるいは単に記憶に優れているだけなのかという問いです。大規模な事前学習済み言語モデルから得られる多くの利点は、それらが膨大な量の情報を見て、すべてを記憶し、あらゆるパターンを事前に知っているということから来ています。
私は時々、大規模言語モデルは話せる百科事典のようなものだという比喩を使うことがあります。それらは多くの点で、新しい問題を解決したり、人間のように一般化したりするという意味での知性というよりも、巨大な知識ストアに似ています。
興味深いことに、Transformerモデルは実際には以前のLSTMモデルよりも一般化が苦手という事実があります。一例として、有限オートマトンによって生成されるデータを見て、限られた量のデータからそれを学習しようとする実験があります。この実験では、LSTMは限られた例からでも基本的にグラフ全体を把握しています。これは、LSTMアーキテクチャがその構造のおかげで良い方法で一般化するからです。
一方、Transformerはパターンをうまく学習するために、はるかに多くのデータを見る必要があります。人間の知性の主要な特徴の一つは、実際に非常に限られた露出から物事を理解し学習する能力です。友人が一度やり方を示すだけで、それまで知らなかったスキルを効果的に学ぶことができます。練習によって何度か改善するかもしれませんが、このような単発の例からでも新しいスキルを学ぶことができます。しかし、現在のモデルではこのような能力は常に見られるわけではありません。
2.2 ニューラルネットワークの解釈可能性
ニューラルネットワークの内部で何が起きているのかを理解することに対する関心も高まっています。多くの場合、ニューラルネットワークはブラックボックスとして表れ、それがどのように機能しているのかについて実際の理解がないままです。おそらく最終プロジェクトとして皆さんがやっていることは、主に最終的なパフォーマンス数値を測定して、それが上がるかどうかを確認することでしょう。
ニューラルネットワークが何を学習し、どのように学習し、なぜ成功したり失敗したりするのかをより良く理解することに大きな関心があります。そのような研究の多くは、ニューラルネットワーク計算の内部で何が起きているのかをより詳しく見ることから始まっています。
このタイプの研究はかなり昔から存在しています。例えば、2016年にスタンフォードの大学院生だったAndrej Karpathyの古いブログ投稿があります。彼はLSTMを調査し、それがどのように学習するかを研究していました。彼はLSTMセル内のニューロンの一つが、効果的にテキスト行に沿った位置を測定していることを発見しました。テキスト行が長くなると、モデルがテキストの行の長さを学習し、その行がその時点で終わりそうだと認識していたため、その値が変化し始めていました。
最近では、Transformerについても「メカニスティック解釈可能性」や「因果抽象化」を調査する多くの研究が始まっています。これらはモデルの内部を理解しようとする試みですが、まだ完全に解決されていない問題です。実際、多くの点で解決不可能かもしれません。しかし、この分野では大きな進展が見られます。
2.3 多言語対応の課題
世界の他の言語に対応するという多言語の問題は、未解決で多くの点ではおそらく解決不可能な問題です。英語で見るものは何でも、他のすべての言語ではそれより悪いということを頭に入れておく必要があります。
もっとも、良いニュースもあります。すべてが悪いと言いたいわけではありません。例えば、このグラフは少し小さいですが、青い線はGPT-3.5の英語のパフォーマンスを示し、すべての緑色のバーはGPT-4でのパフォーマンスを示しています。これは本当に良いニュースです。英語だけでなく、多くの他の言語、ギリシャ語、ラトビア語、アラビア語、トルコ語など、すべてがGPT-4ではGPT-3.5の英語よりも良くなっています。これが良いニュースで、これらの大規模モデルを構築することは、ある意味ですべての言語の性能を向上させているということです。
しかし、これらはまだすべて巨大な言語です。この表の下部では性能が低下し始めています。これらは英語よりも性能が悪い言語であり、GPT-3.5よりも悪いものもあります。これらの言語は書かれたデータがはるかに少ないですが、それでもまだ大きな言語です。下部の3つは実際にはすべてインドの言語で、パンジャブ語、マラーティー語、テルグ語です。これらはそれぞれ何百万人もの話者がいる言語で、小さな言語ではありません。
では、実際にリソースの少ない言語に達したとき、何が起こるのでしょうか。世界中の言語の大多数は何百万人もの話者がいるわけではなく、数百人から数十万人の話者がいる言語までさまざまです。そして、そのような言語は何千もあります。それらの言語の多くは主に口語であり、書かれたテキストの量は非常に限られています。
これらの言語の一部または多くは、今後数十年で絶滅する可能性があります。しかし、これらの言語コミュニティの多くは自分たちの言語を保存したいと考えています。コースの後半で話してきた言語技術を、これらの言語に拡張する方法はまだ非常に不明確です。というのも、私たちが見てきたような種類のモデルを構築するための十分なデータが単にないからです。
2.4 ベンチマークの汚染問題
この講義を通して、評価がNLPの重要な部分であることをある程度理解されたことと思います。実際、進歩の多くは、モデルが達成すべきことの評価を定義し、それからシステムを測定して改善するという方法で進められています。これにより、私たちが良い言語理解やその他の特性と見なすものでモデルがより良く機能するようになっています。
大企業から最近の大規模クローズドモデルに関して多くの人が懸念していることの一つは、すべてのベンチマークが汚染され、信頼できなくなっているという懸念です。例えば、Horace Hurstのツイートからの一例があります。彼は「GPT-4のパフォーマンスはデータ汚染の影響を受けていると思います。少なくともCodeForces(コーディングベンチマークの一つ)では、CodeForcesの最も簡単な問題において、2021年以前の問題は10問中10問解けましたが、最近の問題は10問中0問でした。これは明らかに汚染を示唆しています」と述べています。
心配なのは、最新の最高の言語モデルがどれほど素晴らしいパフォーマンスを発揮しているかを見るたびに、この時点で非常に多くのデータがウェブ上にあり、それが大規模言語モデルの事前学習データに含まれているため、基本的にこれらのチャレンジに表示される質問の少なくとも一部を暗記しているということです。つまり、それらは実際には公正な方法で独立したテストセットとして解決しているわけではなく、単に暗記しているだけなのです。
したがって、どのような種類の徹底的に隠されたテストセットを持つことができるか、あるいはどのような動的評価メカニズムを持つことができるかについての問題があります。これにより、私たちは実際にベンチマークの完全性を確保することができます。
2.5 特定ドメインでのNLP応用
スタンフォードや他の場所で私たちの多くが取り組んでいるもう一つの大きな分野は、NLPを様々な技術的ドメインで機能させることです。生物医学や臨床医学NLPなどのドメインには、語彙や使用法の多くの違いがあります。これらのドメインには多くの潜在的な良い用途がありますが、言語理解が不完全な場合に害を与える多くの潜在的なリスクもあります。
私自身は、RegLabの他の人々やDan Hoと一緒に法律のための基盤モデルを構築するなど、法律NLPでの取り組みにより関わってきました。この種の技術が本当に役立つ方法はたくさんあります。ほとんどの国で最大の問題は、アメリカ合衆国では悪いですが、インドのような場所ではずっと悪いのですが、ほとんどの人がコストやトレーニングを受けた弁護士の不足のために、彼らの問題を解決するために必要な法的支援を得ることができないということです。もしNLPツールを通じて人々を支援するためにもっと多くのことができれば、原則的には素晴らしいことでしょう。
しかし実際には、これらのツールはまだ十分に良い言語理解を持っていません。RegLabでは、法律NLPシステムを調査した研究がちょうど完了し、現在発表されていますが、法的回答における幻覚率(作り話の内容が含まれる率)は実質的に6問に1問であることがわかりました。これは、法的アドバイスにこれらのシステムを頼りにしたい人にとっては、あまり良い精度ではありません。
NLPの社会的・文化的側面への対応にも多くの課題があります。NLPシステムは様々な文化や宗教に対して非常に偏見を持ち続けています。これらは特定の社会的規範を持っているといえますが、それらの社会的規範は特定のグループに対して非常に偏っています。また、前述した少数言語の問題に関連して、十分に代表されていないグループが持ちたいと思うようなNLPを持つことに関する多くの問題があります。
3. LLMの現状評価
3.1 GPT-4の驚異的な言語能力
最高の言語モデル、例えばGPT-4の現状について少し観点を共有したいと思います。今この瞬間の私たちの状況は本当に興味深いと思います。一方では、これらのモデルのパフォーマンスは単に驚くべきものです。NLPに取り組み、長年取り組んできた人間としても、これらのモデルが次の単語を予測するためのトレーニングを行い、多くのテキストを条件付けて、物事について知り、それを実行するという話をすることはできますが、ある意味では、これらのことはまだ魔法のように感じられます。これがどうやって可能なのか信じがたいのです。
例えば、今朝ChatGPT 4.0に「すべての行がT字で始まるTransformerネットワークアーキテクチャを説明するソネットを書いて」と頼んでみました。これは率直に言って私の心を吹き飛ばすようなもので、このような指示を読み取り、次のトークン予測マシンとしてすべての事前学習テキストを使って、ソネットであり、すべての行がT字で始まるものを上手く作り出すという仕組みを自分でも納得して説明できるとは思えません。
高校の英語のクラスで覚えているかもしれませんが、ソネットはABという韻を踏むべきものです。ここでは少し不完全で、「net」と「set」のような韻について一部の人は文句を言うかもしれませんが、基本的に韻を踏んでいます。「behold」と「unfold」、「grasp」と「clasp」、そうですね。基本的に韻を踏んでいます。
また、行は弱強五歩格(iambic pentameter)であるべきで、これもほぼその形式で行を生成しています。「To delve into the world of neural nets」は弱強五歩格です。本当に驚くべきことです。
実際に生成されたソネットはこうです:「To delve into the world of neural nets, Transformers rise a marvel to behold, Through layers deep the network's path is set, To learn from data patterns to unfold. The tokens feed into attention's grasp, To weigh their import context to align, The query's keys and values in a clasp, To process sequences with power fine. Through heads of many multifaceted sight, To parallelize capturing the span, Transforming each a matrix math delight, To synthesize with elegance and plan. The model's might in every task it shows, To turn raw data into wisdom's prose.」
Transformerネットワークアーキテクチャをちゃんと説明できているか少し抽象的だとも言えるかもしれませんが、別の意味では、クエリ、キー、バリュー、マルチヘッド、並列化、行列計算など、Transformerについての多くの要素を一箇所または別の箇所で確かに喚起しています。これがどれほどうまく機能するかは、まだ私の心を吹き飛ばします。
そして実際、自然言語理解と世界理解のデバイスとして、これらのデバイスは明らかに多くの文脈で非常に使いやすいというしきい値を越えています。
3.2 実世界での有用性(コンサルタント業務での研究)
現在、LLMが実際の仕事でどれだけ価値を提供できるかについていくつかの良い研究が始まっています。例えば、Dequaと多くの共同研究者(Ethan Mikなども含む)による研究では、ボストン・コンサルティング・グループのコンサルタントたちを対象に調査を行いました。これは基本的に、この大学のような場所(ただし主に東海岸)を卒業した23歳の若者たちがボストンのコンサルタントになるというものです。彼らは決して愚かではありません。
この研究では、3つのグループが設定されましたが、主な対比は2つのグループがコンサルティング業務にGPT-4を使用し、1つのグループがGPT-4を使用しなかったことです。GPT-4を使用した2つのグループの違いは、一方がGPT-4の使い方についてより多くのトレーニングを受けたことでしたが、それはあまり大きな違いをもたらさなかったようです。
彼らの結果によると、GPT-4を使用したグループは平均して12%多くのタスクを完了し、タスクを25%速く完了し、結果はGPT-4を使用しなかったグループよりも40%高い品質と判断されました。これは、GPT-4や同様のLLMが、人々が実際の仕事を行うのを助けるのに十分良いことを示す、かなり驚くべき成功です(もちろん、様々な場合におけるマネジメントコンサルタント業務の質について、どのようなアスタリスクをつけたいかはありますが)。
興味深い結果として、これらのLLMを使用することは大きな平準化効果があり、自身のスキルが弱い人々にとっては大きな助けとなり、自身のスキルが強い人々にとっては助けが少ないということがわかりました。コーディングLLMを使用する人々についても、まったく同じことが見られます。
3.3 創造的タスクでの限界(小説創作の比較研究)
一方で、人間にとっての良いニュースもあります。「GPT-4はニューヨーカー誌のフィクション作家の質に匹敵する小説を書けるか」という研究があります。その研究の結果は「まったく違う」というものでした。GPT-4は創造的な文章において、ニューヨーカー誌のフィクション作家よりも3〜10倍劣ると評価されました。
つまり、人間にはまだ希望があるのです。これが現時点での二面性のある状況です。あるものは素晴らしく便利である一方で、別のものはそれほど優れていません。これは今後数年も見続けることになるでしょう。
シリコンバレーに住んでいると、ポジティブなハイプを多く目にします。そこで、少し否定的な側面も見てみたいと思います。昨年末、フィナンシャル・タイムズに「生成AIは高度に知的か」という記事がありました。これをすべて読むわけではありませんが、基本的に彼らは現在のAIブームに対する懐疑的な見方を表現しようとしていました。
「投資家は冷静さを保つべきだ。生成AIに対する期待は、それに適用される制限をはるかに上回っている。生成AIへの投資が増えるにつれ、新しい使用例を作り出す圧力も高まる。IDCによれば、企業の生成AI支出は2027年までに1430億ドルに達すると予想され、今年の160億ドルから10倍に増加する。OpenAIは人間のようなAIを追求するためのさらなる資金を望んでいる。超知能モデルに関するオルトマンの計画を検討する際、それらのモデルは予測するだけで理解しないという制限を覚えておく価値がある。これはAIが人間のような知性をも達成することに疑問を投げかける。」
そして彼らは低スキル労働者にとっての限られた利益や、彼らが生み出す仕事の不正確さなど、いくつかの問題について話し始めています。「生成AIツールが展開されるにつれて、その制限はより明らかになるだろう。それにより、プロバイダーはコストに対処する圧力を受けるだろう。McKinseyによればAIは利益に4兆ドルを追加する可能性があるが、価格の明確さが欠けている。それなしでは、企業はAIが達成できる財務的利益を予測できず、AIもそれを予測できない」と彼らは示唆しています。
3.4 生成AIへの懐疑論と実用面での課題
シリコンバレーに住んでいると、ポジティブなハイプを多く目にしますので、少し否定的な側面も見てみましょう。昨年末、フィナンシャル・タイムズに「生成AIは高度に知的か」という記事がありました。基本的に彼らは現在のAIブームに対する懐疑的な見方を表現しようとしていました。
「投資家は冷静さを保つべきだ。生成AIに対する期待は、それに適用される制限をはるかに上回っている。生成AIへの投資が増えるにつれ、新しい使用例を作り出す圧力も高まる。IDCによれば、企業の生成AI支出は2027年までに1430億ドルに達すると予想され、今年の160億ドルから10倍に増加する。OpenAIは人間のようなAIを追求するためのさらなる資金を望んでいる。超知能モデルに関するオルトマンの計画を検討する際、それらのモデルは予測するだけで理解しないという制限を覚えておく価値がある。これはAIが人間のような知性をも達成することに疑問を投げかける。」
彼らは低スキル労働者にとっての限られた利益や、彼らが生み出す仕事の不正確さなど、いくつかの問題について指摘しています。「生成AIツールが展開されるにつれて、その制限はより明らかになるだろう。それにより、プロバイダーはコストに対処する圧力を受けるだろう。McKinseyによればAIは利益に4兆ドルを追加する可能性があるが、価格の明確さが欠けている。それなしでは、企業はAIが達成できる財務的利益を予測できず、AIもそれを予測できない」と彼らは示唆しています。
この記事は、生成AI技術の実用面での課題、特にコスト対効果の不透明さと企業への実際の価値提供についての重要な疑問を提起しています。このような懐疑的な見方は、技術の可能性と現実的な実装との間のギャップを埋めるために考慮すべき重要な視点です。
4. 記号的システムとニューラルシステム
4.1 AIの歴史的背景(サイバネティックスvs記号的AI)
次に、1960年代から2010年頃までAIを支配していた記号的手法と、ここではサイバネティックスと呼んでいるものについてもう少し詳しく話したいと思います。サイバネティックスという名前を使ったのは、1950年代と60年代に遡る元々の代替案がサイバネティックスと呼ばれていたからです。非常に現実的な意味で、ニューラルネットワークはAI伝統というよりもサイバネティックス伝統の継続だと言えます。
この文脈で、スタンフォードは記号システムプログラムの本拠地です。現在、私たちは記号システムプログラムを持つ唯一の大学です。記号システムという名前は、それが始まった当時、哲学が記号システムプログラムの活発な部分であり、写真に写っているジョン・バーワイズ(彼は若くして亡くなり、2000年に死去)が、世界における意味と人々の思考の間の関係を扱う必要があるという非常に強い信念を持っていたことから来ています。そのため、彼は他のほとんどの場所で呼ばれているように「認知科学」と呼ぶことを拒否し、結果として「記号システム」と呼ばれることになりました。
かつては記号システムを持つ大学が2つありました。ジョン・バーワイズは実際にスタンフォードから離れ、彼が元々来ていたインディアナに移りました。そのためインディアナもしばらくの間記号システムプログラムを持っていましたが、彼が亡くなって以来、彼らは認知科学に変更しました。そのため、私たちは記号システムを持つ唯一の大学です。
記号システムの考え方は、ウェブサイトに書かれている内容を少し解釈すると、記号システムは人間の言語、論理、プログラミング言語など、私たちの周りの世界を表現する意味のある記号のシステムと、脳、コンピュータ、複雑な社会システムなど、これらの記号を扱うシステムを研究するものです。これに対して、認知科学の典型的な見方は、自然に発生する現象としての心と知性に焦点を当てるものです。記号システムは、コミュニケーションや情報表現のために記号を使用する人間が構築したシステムに等しい焦点を当てています。
AI用語では、AIという分野と名前は記号的アプローチを主張する中で生まれました。カラー写真のジョン・マッカーシーと、スタンフォードの人工知能研究所(元の有名なスタンフォードAIラボ)を設立した人物です。ジョン・マッカーシーは「人工知能」という名前を考え出し、彼が行っていたことをサイバネティックスアプローチから切り離すために、非常に明示的に新しい名前を選びました。サイバネティックスは右側に示されているノーバート・ウィーナーらによって追求されていました。
小さな写真のマービン・ミンスキーはMITで人工知能を設立し、マッカーシーは数年間彼と一緒に働いた後、スタンフォードに来ました。そして、他の2人の最も著名な初期のAI人物であるニューウェルとサイモンはCMUにいて、右側の他の2人です。
特に、マッカーシー自身の背景は数学者と論理学者でした。つまり、彼は数学と論理のように見える人工知能を構築したかったのです。それが効果的に記号システムとしてのAIであり、それはAIの哲学における立場としてニューウェルとサイモンによって発展しました。
彼らは「物理的記号システム仮説」と呼ぶものを開発しました。それは「物理的記号システムは一般的知能行動のための必要十分な手段を持つ」というものです。これは非常に強い主張であり、記号システムを持つことが人工一般知能を生み出すことを可能にするだけでなく、「必要」という言葉を通じて、記号システムなしでは人工一般知能を持つことはできないと主張しています。これが古典的AIの基盤でした。
これはある意味、サイバネティックスとは対照的です。サイバネティックスは制御とコミュニケーションに起源があり、電気工学に近い背景を持っています。動物と機械の間の制御とコミュニケーションのアイデアを統一しようとしていました。
サイバネティックスは「kubernetes」というギリシャ語に由来し、これは興味深いことに多くの用途があります。これはkubernetesにも現れる同じ語源で、現代システム上の分散コンテナとして知られていますが、実際には「政府」という言葉にも同じ語源があります。もちろん、それも一種の制御システムです。
サイバネティックスの伝統の下で、ニューラルネットが最初に探索され始めました。最も初期のニューラルネットの中で最も有名なのはフランク・ローゼンブラットのもので、視覚用に使われていました。ニューラルネットは実際に配線されていました。
AIのハイプが2020年代だけのものではないと思われるかもしれませんが、1950年代にローゼンブラットがパーセプトロンを発表した時にも同じくらいのAIハイプがありました。ニューヨークタイムズの記事では、「海軍は今日、電子コンピュータの胚芽を明らかにした。それは歩き、話し、見え、書き、自己再生し、存在を意識することができるようになると期待されている」と書かれています。このハイプは、記事の後半に実際のデモが何であったかがわかると、さらに信じられないものです。人々に見せたデモは、このデバイスが50回の露出後に右矢印と左矢印の写真を区別することを学んだというものでした。しかし、そこまででした。
4.2 スタンフォード記号システムプログラムの起源
スタンフォードは記号システムプログラムの本拠地です。現在、私たちは記号システムプログラムを持つ唯一の大学です。記号システムという名前は、それが始まった当時、哲学が記号システムプログラムの活発な部分であり、ジョン・バーワイズ(写真に写っている人物)が、世界における意味と人々の思考の間の関係を扱う必要があるという非常に強い信念を持っていたことから来ています。彼は若くして亡くなり、2000年に死去しました。
ジョン・バーワイズは、他のほとんどの場所で呼ばれているように「認知科学」と呼ぶことを拒否し、結果として「記号システム」と呼ばれることになりました。
かつては記号システムを持つ大学が2つありました。ジョン・バーワイズは実際にスタンフォードから離れ、彼が元々来ていたインディアナに移りました。そのためインディアナもしばらくの間記号システムプログラムを持っていましたが、彼が亡くなって以来、彼らは認知科学に変更しました。そのため、私たちは記号システムを持つ唯一の大学です。
記号システムの考え方は、ウェブサイトに書かれている内容を少し解釈すると、「記号システムは人間の言語、論理、プログラミング言語など、私たちの周りの世界を表現する意味のある記号のシステムと、脳、コンピュータ、複雑な社会システムなど、これらの記号を扱うシステムを研究する」というものです。
これに対して、認知科学の典型的な見方は、「自然に発生する現象としての心と知性に焦点を当てる」ものです。一方、記号システムは「コミュニケーションや情報表現のために記号を使用する人間が構築したシステムに等しい焦点を当てる」という特徴があります。この違いがスタンフォードの記号システムプログラムの独自の視点を形成しています。
4.3 物理的記号システム仮説(Newell & Simon)
AIという分野と名前は、記号的アプローチを主張する中で生まれました。ジョン・マッカーシー(カラー写真の人物)はスタンフォードの人工知能研究所(元の有名なスタンフォードAIラボ)を設立した人物です。彼は「人工知能」という名前を考え出し、彼が行っていたことをサイバネティックスアプローチから切り離すために、非常に明示的に新しい名前を選びました。
マッカーシー自身の背景は数学者と論理学者でした。つまり、彼は数学と論理のように見える人工知能を構築したかったのです。それが効果的に記号システムとしてのAIであり、これはAIの哲学における立場としてニューウェルとサイモンによって発展しました。
彼らは「物理的記号システム仮説」と呼ぶものを開発しました。それは「物理的記号システムは一般的知能行動のための必要十分な手段を持つ」というものです。これは非常に強い主張です。この仮説は記号システムを持つことが人工一般知能を生み出すことを可能にするだけでなく、「必要」という言葉を通じて、記号システムなしでは人工一般知能を持つことはできないと主張しています。
この仮説は古典的AIの基盤となりました。数学と論理に基づくこの記号処理パラダイムは、1960年代から2010年頃までAIの主流アプローチとして機能し、人工知能研究の方向性を大きく形作りました。物理的記号システム仮説の影響力は、AIの歴史において重要な役割を果たし、現代のニューラルアプローチとの対比を理解する上で重要な視点を提供しています。
4.4 1950年代のパーセプトロンとAIへの期待
サイバネティックスの伝統の下で、ニューラルネットが最初に探索され始めました。最も初期のニューラルネットの中で最も有名なのはフランク・ローゼンブラットのもので、視覚用に使われていました。これらのニューラルネットは実際に物理的に配線されていました。
AIのハイプが2020年代だけのものだと思われるかもしれませんが、1950年代にローゼンブラットがパーセプトロンを発表した時にも同じくらいのAIハイプがありました。ニューヨークタイムズの記事では、「海軍は今日、電子コンピュータの胚芽を明らかにした。それは歩き、話し、見え、書き、自己再生し、存在を意識することができるようになると期待されている」と報じられました。
このハイプは、記事の後半に実際のデモが何であったかがわかると、さらに信じられないものになります。人々に見せたデモは、このデバイスが50回の露出後に右矢印と左矢印の写真を区別することを学んだというものでした。これは現代の基準からすれば非常に基本的なことですが、当時は革命的と見なされました。
この例は、技術の実際の能力と、それについて生み出される期待やハイプとの間に大きなギャップがあることを示しています。このパターンは、AIの歴史全体を通じて繰り返し見られ、現在の大規模言語モデルに関するディスカッションにも反映されています。初期のニューラルネットワークへの過度な期待は、その後のAI冬の時代につながる要因の一つとなりました。
5. 言語学とNLPにおける意味
5.1 言語の記号的性質
NLPや言語の場合、どのように考えるべきでしょうか。私が提案したい立場は、言語が記号システムであることに疑いの余地はないということです。人間は記号システムとして言語を開発しました。書き言葉を考えると最も明らかです。文字や単語として使用する記号がありますが、たとえ書き言葉がなく、人間の言語使用の大部分が時間の経過とともに口頭であったとしても、それが運ばれる基盤、つまり音波や手話の場合は手の動きが連続的な基盤であっても、人間の言語の構造は記号システムです。
私たちは「cat」という単語の記号を持っています。c、a、tという記号があり、それらは言語使用者によって記号的な方法で認識されます。実際、認知心理学における分類的知覚に関するすべての先駆的研究は、言語学者が「音素」と呼ぶ人間の言語の音を使用して行われました。したがって、話し言葉もまた記号的構造を持っています。
しかし、ニューウェルとサイモンに反して、人間がコミュニケーションのために記号システムを使用しているという事実は、シンボルを処理する人間の脳が物理的記号システムでなければならないということを意味するものではありません。同様に、NLPやコンピュータプロセッサを記号システムとして設計する必要もありません。
脳は明らかにニューラルネットワークモデルにより近く、おそらくニューラルモデルの方が記号プロセッサよりも言語処理をより良く捉え、スケールするでしょう。これは「では、なぜ人間はコミュニケーションのために記号システムを開発したのか」という疑問を残します。結局のところ、私たちは単に異なる周波数でハミングして、それをコミュニケーションシステムとして使用することもできたでしょう。
私にとって合理的に思える主要な考え方は(誰が本当に知っているのでしょうか)、記号システムがシグナルの信頼性を提供するということです。つまり、離散的な目標点があり、それらが分離されていれば、シグナルが劣化した場合にそれをうまく回復する能力が得られるのです。
これは言語学をどのような立場に置くのでしょうか。言語学は主に記号システムを記述する観点から発展してきました。私は、言語学は言語獲得、処理、理解について考える際に問い、概念、区別を私たちに与えてくれるものだと考えるのが正しいと思います。
実際、興味深いことの一つは、NLPとAIが発展し、多くの低レベルの作業をできるようになるにつれて、言語学者がよく話す高レベルの概念、つまり合成性や体系的な一般化(数分後に戻ります)、記号の安定的な意味のマッピング、言語表現の世界における参照といったものが、ニューラルシステムを構築する人工知能の文脈でますます話題になってきているということです。
一つの考え方は、初期のニューラルネットワーク研究の多くが、主に視覚処理や音のような他の種類の感覚的なものを行うことは、昆虫レベルの知能に達するようなものだということです。昆虫レベルの知能より上に行きたいなら、言語システムの質問や特性の多くがますます関連してきます。
もう少し散文的なレベルでは、必ずしもさまざまな言語理論のすべての詳細を信じたいとは思いませんが、人間の言語がどのように構造化され、どのように振る舞うかについての私たちの広範な理解は正しいと思います。したがって、NLPシステムについて考え、それらがどのように振る舞うかを理解し、それらが特定の特性を持っているかどうかを知りたい場合、どのように評価するかを考える場合、その多くは言語学的理解の観点から行われています。
私たちは、文の構造、談話構造、自然言語推論のような意味的特性、(今年のクラスでは共参照講義をスキップしたのでカバーしませんでしたが)架橋やアナフォラのようなことができるか、メタファー、前提などについて、これらすべては私たちがNLPモデルに捉えさせようとする言語学的概念です。
5.2 伝統的な指示的意味論と分布的意味論
言語の意味についてどのような意味論を使用すべきか、という問題に戻りましょう。これは単語ベクトルの話で言及した質問に関連しています。興味深いポイントです。哲学や言語学的意味論で主流だった意味論は、モデル理論的意味論です。この考え方では、単語の意味はそれが世界で表す対象、つまり指示対象です。
これについては初期の講義で言及したと思いますが、「computer」という単語の意味は、コンピュータの集合、つまりこのコンピュータ、あのコンピュータ、他のすべてのコンピュータです。これは単語とその世界における指示対象との間の関係です。例えるなら、お金と、それで買える牛のような関係です。これは象徴的AIを行うためにAIの歴史のほとんどで使用された概念でした。
これに対して、分布的意味論があります。ここでは単語の意味は、それが使用される文脈を理解することです。これは実質的に私たちのニューラルモデルで使用しているものです。
伝統的な人間の言語の意味理解の観点からすると、文「赤いリンゴがテーブルの上にある」があるとします。何らかの論理表現、第一階述語計算などで形式論理を記述します。この例は少し異なり、通常の第一階述語計算では「すべての」や「存在する」のみを扱いますが、この場合は「その」という限定詞も含まれています。
論理学の授業の初めの1、2週間では、形式論理に翻訳する英語の文があり、その後は人間の言語のことを忘れて、形式論理システムについて証明を始めます。ある意味で、哲学の授業で得られるものはアルフレッド・タルスキの伝統を表しています。タルスキは、人間の言語は「不可能なほど支離滅裂」であるため、人間の言語について語ることで意味について話すことはできないと信じていました。
1940年代から1980年頃まで、タルスキは米国の最高の論理学者でした。彼はバークレーにいました。そしてそのような見方が論理学者の世界で非常に一般的でした。しかし、その間、彼の学生の一人がリチャード・モンタギューでした。モンタギューはその考えに反発し、「形式言語と自然言語の間に重要な理論的違いが存在するという主張を拒否する」と述べました。
それから彼は、自然言語の文の意味を記述するための形式的意味論を構築し始めました。リチャード・モンタギューの仕事は、言語学の意味論で使用される仕事の基礎となりました。Ling 130や230を取った人はモンタギュー流の意味論を見たでしょう。そしてこれは、NLPの歴史のほとんど、つまり1960年から2015年頃まで自然言語理解のモデルとして採用された意味論でした。
基本的には、「赤いリンゴがテーブルの上にある」のような文を解釈したい場合、まず文の構文構造を作成します。つまり、文を解析し、次にモンタギューが提案した考え方に沿って、辞書で単語の意味を調べ、人間の言語の合成性を使用して、それらの単語がどのように組み合わされるかに基づいて、徐々に大きなフレーズや節の意味を構築します。前回の講義で言及した木構造から意味への議論を少し思い出させます。
こうして文の意味表現を構築し、システムで使用できる文の意味的意味を得ることができます。これは、2000年代にCS224nで実際に使用していたスライドのタイトルに近いものです。「パロアルトにある何台の赤い車をキャシーは好きですか?」という文があります。文を解析し、辞書で単語の意味を調べ、それらを組み合わせ始め、文全体の意味形式を得ます。それをSQLに変換し、データベースに対して実行して答えを得ることができます。
これは、1960年代から2000年代にかけて構築された自然言語理解システムに広く使用されていた技術の概要です。そして、この同じ基本技術は、純粋な規則ベースの文法と辞書だけでなく、機械学習のコンテキストにも組み込まれました。目標はこれらの部分のいくつかを学習することでした。解析だけでなく、単語の意味的意味や合成規則も学習することができました。
その仕事の頂点は、2000年代にLuke ZettlemoyerとMike Collinsが先駆けとなり、その後Percy Liangなど他の人々によって引き継がれた意味解析と呼ばれるものでした。Percy Liangの博士論文だけでなく、ニューラルネットワークをするよう説得される前のスタンフォードでの初期の仕事も、意味解析の仕事でした。
これらのシステムは実際に機能し、限られたドメインで使用されていましたが、常に非常に脆いものでした。興味深いのは、人間について何を言えるかということです。人間が何か似たようなことをするという証拠はあります。つまり、文の構造を把握し、ボトムアップの主に投影的な方法で意味を計算します。人間の文理解がどのように機能するかについては、まだ多くの議論がありますが、人間の脳が何か似たようなことをするという主張を支持する人々は確かにいます。
これは明らかに現在のTransformerで得ているものではありません。そこで問題となるのは、現在のニューラル言語モデルが適切な意味機能を提供するかどうかです。これは複雑な問題です。多くの点で、彼らは驚くほど理解しているように見えます。どんな文を入れても素晴らしい仕事をします。しかし、彼らが近道をしているか、ある程度機能しているだけで、人間が持つような同じ種類の合成的理解と体系的な一般化を実際には持っていないという正当な懸念があります。
5.3 意味理解のグラデーション性
伝統的な指示的意味論の観点と対照的に、意味の使用理論というものがあります。最初か二番目の講義と今日の最初に、これをイギリスの言語学者J.R.ファースに帰し、「単語はその周囲の語によって知られる」と言いました。しかし、これはファースだけの立場ではなく、哲学者の中でも少数派の立場でした。特にヴィトゲンシュタインが後期の著作「哲学的探究」でこれを提唱しています。
その著作で彼は「言語、単語、文章などについて話すとき、私は日常の言語を話さなければなりません。私たちが言いたいことに対して、この言語はどこか粗雑で物質的すぎるのでしょうか?では、別の言語はどのように構築されるのでしょうか?そして、私たちが持っているもので何かをすることができるというのは、なんと奇妙なことでしょう」と書いています。
哲学的探究はこの種の漠然と詩的・文学的スタイルで書かれていますが、その要点は、これらの論理学者たちが、人間の言語では意味を表現できないと主張し、別の記号システムに翻訳する必要があると言っているのは奇妙な概念ではないか、ということです。一方の記号システムはダメだけど、別の記号システムはなぜか物事を修正するというのはおかしいのではないか、という指摘です。
そして指示的意味論については「あなたは意味はその単語ではなく、その意味だと言う。そして意味を単語と同じ種類のものだが、単語とは異なるものと考える。これが記号とその指示対象、お金とそれで買える牛のようなものだ」と書いています。それに対して「お金とその使用を対比せよ」と続けています。
これから、彼は世界におけるお金の使用方法がお金の意味であり、お金の意味はお金の断片を指すことではないと論じています。
これが意味の使用理論と呼ばれるものです。問題は、これが良い意味論の理論かどうかです。一部の人々は、最近のNLP研究において最も顕著なのはBenderとKolaの立場ですが、この種の分布的意味論や意味の使用理論を意味論や意味論の理論として受け入れません。彼らは、形式があり、意味があるという公理的な立場を取っています。
しかし、私はそれが狭すぎると思います。単語の意味は単語を他のものに接続することから生じると論じる必要があります。ある意味で、単語を実世界のものに接続することが特権的であると言えますが、それが意味を基礎づける唯一の方法ではありません。仮想世界でも意味を持つことができますし、人間言語内の他のものに単語を接続することでも意味を持つことができます。
また、意味は0か1かの問題ではなく、グラデーションであると言う必要もあると思います。単語やフレーズの意味をより多くあるいは少なく理解することができます。
これは数年前に書いた記事で挙げた例です。「シャナイ」という単語の意味は何でしょうか?おそらく数人の方は知っているかもしれませんが、知らない方が多いでしょう。私に何ができるでしょうか?もしあなたが一つを見たり触ったりしたことがあれば、古典的な接地された意味を持つでしょう。つまり、その指示対象について何かを知っています。
もしそれが当てはまらない場合、少なくとも写真をお見せすることができます。これがシャナイの写真です。これによってシャナイについていくらかの情報が得られます。しかし、これは部分的な意味に過ぎず、実際にシャナイが演奏されるのを聞いたことがあれば、もっと豊かな意味を持つはずです。
写真を見せることが私にできる唯一のことでしょうか?あなたが一度も見たり、感じたり、聞いたりしたことがないとしても、私が「シャナイはオーボエに少し似た伝統的なインドの楽器です」と言えば、その時点で単語の意味について何かを理解していると思います。それはインドと関連し、リードを使用する管楽器で、音楽の演奏に使用されることを知るでしょう。他のことも言えます。「シャナイはリコーダーのような穴を持ちますが、複数のリードとオーボエのように広がった端を持っています。」するとシャナイを一度も見たことがなくても、もう少し知ることになります。
これを私たちのコーパスベースの言語学習でより多く行うことに拡張すると、定義を試みるのではなく、単にテキストの使用例を示すことができます。または複数の例を示すこともできます。ここに一つのテキスト使用例があります:「一週間前、シャナイ奏者が家の入り口に竹の櫓に座り、彼らのパイプを演奏していました。バッシュ・バブはシャナイの鳴き声を嫌っていましたが、花婿の家族が持つかもしれないあらゆる伝統的な期待を満たすと決意していました。」
もしシャナイについてこれだけを知っているなら、ある意味では単に一つを見ただけの場合よりも単語の意味を理解する度合いは低いかもしれません。しかし他の面では、単に見ただけの場合よりも単語の意味をより多く理解しています。なぜなら、その一つのテキスト例から、音を「鳴き声」として特徴づけるのを聞いたことがあり、結婚式と関連していることを知っています。これはシャナイを単に持ったり見たり、あるいは誰かがあなたの前で立って演奏するのを見ただけでは得られない情報です。そしてそれは人々にとってシャナイの意味の重要な部分です。
この意味で、様々な種類のつながりから意味が生じると考えています。
5.4 形式意味論からニューラル意味表現への移行
伝統的な人間の言語の意味理解の観点からすると、文「赤いリンゴがテーブルの上にある」があるとします。これを解釈するために、何らかの論理表現、第一階述語計算などの形式論理を記述します。この例は少し異なり、通常の第一階述語計算では「すべての」や「存在する」のみを扱いますが、この場合は「その」という限定詞も含まれています。
論理学の授業の初めの1、2週間では、形式論理に翻訳する英語の文があり、その後は人間の言語のことを忘れて、形式論理システムについて証明を始めます。ある意味で、哲学の授業で得られるものはアルフレッド・タルスキの伝統を表しています。タルスキは、人間の言語は「不可能なほど支離滅裂」であるため、人間の言語について語ることで意味について話すことはできないと信じていました。
1940年代から1980年頃まで、タルスキは米国の最高の論理学者でした。彼はバークレーにいました。しかし、その間、彼の学生の一人がリチャード・モンタギューでした。モンタギューはその考えに反発し、「形式言語と自然言語の間に重要な理論的違いが存在するという主張を拒否する」と述べました。
それから彼は、自然言語の文の意味を記述するための形式的意味論を構築し始めました。リチャード・モンタギューの仕事は、言語学の意味論で使用される仕事の基礎となりました。Ling 130や230を取った人はモンタギュー流の意味論を見たでしょう。そしてこれは、NLPの歴史のほとんど、つまり1960年から2015-17年頃まで自然言語理解のモデルとして採用された意味論でした。
基本的には、「赤いリンゴがテーブルの上にある」のような文を解釈したい場合、まず文の構文構造を作成します。つまり、文を解析し、次にモンタギューが提案した考え方に沿って、辞書で単語の意味を調べ、人間の言語の合成性を使用して、それらの単語がどのように組み合わされるかに基づいて、徐々に大きなフレーズや節の意味を構築します。
こうして文の意味表現を構築し、システムで使用できる文の意味的意味を得ることができます。これは、2000年代にCS224nで実際に使用していたスライドのタイトルに近いものです。「パロアルトにある何台の赤い車をキャシーは好きですか?」という文があります。文を解析し、辞書で単語の意味を調べ、それらを組み合わせ始め、文全体の意味形式を得ます。それをSQLに変換し、データベースに対して実行して答えを得ることができます。
これらのシステムは実際に機能し、限られたドメインで使用されていましたが、常に非常に脆いものでした。興味深いのは、人間について何を言えるかということです。人間が何か似たようなことをするという証拠はあります。つまり、文の構造を把握し、ボトムアップの主に投影的な方法で意味を計算します。
これは明らかに現在のTransformerで得ているものではありません。そこで問題となるのは、現在のニューラル言語モデルが適切な意味機能を提供するかどうかです。これは複雑な問題です。多くの点で、彼らは驚くほど理解しているように見えます。どんな文を入れても素晴らしい仕事をします。しかし、彼らが近道をしているか、ある程度機能しているだけで、人間が持つような同じ種類の合成的理解と体系的な一般化を実際には持っていないという正当な懸念があります。
6. 人間の知性における言語の役割
6.1 Wilhelm von Humboldtの言語観
人間の知性における人間言語の役割について、もう少し述べたいと思います。これは興味深いトピックです。言語学の歴史において興味深い人物の一人が、ヴィルヘルム・フォン・フンボルトです。彼はドイツの著名な学者でした。
実際、アメリカの教育システムはドイツから借用されたものです。第二次世界大戦までは、科学と学問の最も卓越した場所はドイツでした。ドイツはフンボルトの研究を通じて大学院教育の概念を発展させ、アメリカはそれを模倣して独自の大学院教育を始めました。
そのような状況では、1930年代以前のアメリカの人々は一般的に、教育を完了するためにドイツに行っていました。博士号を取得するか、ポスドクをするなどです。もし私自身の学問的系統や、アメリカで博士号を取得した他の多くの学問的系統をたどると、それらは数世代遡り、そして最終的にドイツに戻ります。現代ではそれほど考えられていませんが。
フンボルトは大学システムの発展に影響を与えただけでなく、言語についても多くの研究を行いました。彼はチョムスキーが常に引用する人物でもあります。彼は「人間言語は有限の手段を無限に使用しなければならない」という有名な声明で知られています。つまり、私たちは限られた量の単語と文構造を持っていますが、それらから再帰的に無限の数の文を構築することができるということです。これはチョムスキーの見解では、彼が提唱してきた言語の記号的構造化された見方を支持するものです。
しかし、フンボルトのもう一つの興味深い見解があり、それが正しいかどうかは議論できますが、私は興味深いと思っています。彼が強調したいことの一つは、言語はコミュニケーションの目的だけのものではないということです。
ここで何か紹介すべきかもしれません。カーネマンとトヴェルスキーは有名な認知心理学者で、システム1認知とシステム2認知という2種類の思考があるという考えを導入しました。システム1は、視覚信号や音声など、何かが頭に入ってきた時に処理する種類の無意識的な思考です。システム2思考は、意識的な「これについて考えて、何が起こっているのか理解しよう」という、数学の問題を解くようなスタイルの思考です。
フンボルトの著作の中にも、システム1とシステム2の認知の間の同じ種類の区別を見ることができます。彼はシステム1認知を「精神の動き」と呼び、システム2認知を「思考」と呼んでいます。
基本的に、彼は「思考の言語」という哲学的立場のバージョンを主張しており、効果的にシステム2思考、つまり言語の記号を通じた心の拡張を必要とすることを示唆しています。
彼は、言語を持つことが人間の心の進歩のための絶対的に必要な基盤であると論じました。これは実際に興味深い視点であり、私もある程度共感しています。明らかに、言語なしでも考えることはできます。恐怖を感じたり、視覚的に考えたり、物事がどのように組み合わさるかについて考えることができます。しかし、人間が従事するより抽象的で大規模な思考、チンパンジーが到達するレベルよりも高いレベルの思考には、言語が心の中の足場を提供し、それを可能にしていると考えるのは十分に妥当だと思います。
6.2 システム1とシステム2の思考における言語
カーネマンとトヴェルスキーは有名な認知心理学者で、システム1認知とシステム2認知という2種類の思考があるという考えを導入しました。システム1は、視覚信号や音声など、何かが頭に入ってきた時に処理する種類の無意識的な思考です。システム2思考は、意識的な「これについて考えて、何が起こっているのか理解しよう」という、数学の問題を解くようなスタイルの思考です。
フンボルトの著作の中にも、システム1とシステム2の認知の間の同じ種類の区別を見ることができます。彼はシステム1認知を「精神の動き」と呼び、システム2認知を「思考」と呼んでいますが、本質的には同じ区別を行っています。
基本的に、彼は「思考の言語」という哲学的立場のバージョンを主張しており、効果的にシステム2思考、つまり言語の記号を通じた心の拡張を必要とすることを示唆しています。彼の見解によれば、抽象的で意識的な思考プロセス(システム2)は、言語の構造によって支えられており、言語なしでは人間の高度な認知能力は実現できないということになります。
これは言語が単なるコミュニケーションの道具ではなく、思考そのものを構造化し、可能にする枠組みであるという考え方です。無意識的な処理(システム1)は言語なしでも機能しますが、より高度な推論や抽象的思考には言語の記号的構造が不可欠だというのがフンボルトの主張です。この考え方は、言語と思考の関係についての現代の認知科学の議論にも通じるものがあります。
6.3 Daniel Dennettの知性の4段階モデル
この考え方のもう一つのバージョンは、数ヶ月前に亡くなった哲学者ダニエル・デネットからのものです。デネットは「バクテリアからバッハまで、そして戻る」という本を書きました。この本の主なテーマは人間の意識の起源についてでしたが、今日は人間の意識については話しません。
彼は徐々に能力が高まる4段階の知性モデルを導入しました。彼が概説した4つのレベルの最下層は「ダーウィン的」知性でした。ダーウィン的知性は、予め設計され固定されているもので、その生涯中に改善しません。改善は進化による遺伝的選択によってのみ起こります。バクテリアやウイルスのようなものはダーウィン的知性です。
その後には「スキナー的」知性があります。これらは強化に反応して行動を改善します。トカゲや犬などはスキナー的知性を持っています(犬がどれほど知的かについては議論の余地があるかもしれませんが)。
3番目のレベルは「ポパー的」知性です。これは環境のモデルを学習し、計画を考え抜いてから実行し、それがどのように機能するかを観察することで性能を向上させるものです。計算的な意味では、ポパー的知性はモデルベースの強化学習ができることを意味します。チンパンジーのような霊長類は、計画を立て、モデルベースの強化学習をする種類のことができますが、最近の証拠によれば、もっと単純な生き物も同様にできることが示されています。
北半球のカラスが賢いのか確かではありませんが、少なくとも南半球のカラス(南太平洋、オーストラリア、フィジーなどの地域のカラス)は計画を学習できます。彼らは多段階の計画を立てて、穴の中にある肉片を取り出す方法を考え出し、棒を拾って穴に突き刺すことを学習します。つまり、カラスでさえポパー的知性を持つことができるのです。
しかしデネットが示唆するのは、ポパー的知性を超えた段階があり、それを「グレゴリー的」知性と呼んでいます。グレゴリー的知性の考え方は、精神的な検索のより高いレベルの制御を可能にする思考ツールを構築できるということです。彼は数学は思考ツールであり、民主主義も思考ツールだと示唆していますが、それでも思考ツールの空間の中で、人間言語は私たちが持つ最も優れた思考ツールだと述べています。
彼は唯一の生物学的なグレゴリー的知性の例は人間であると示唆しています。この意味で、言語には非常に重要な役割があると言えるでしょう。
6.4 言語を思考ツールとする「グレゴリー的知性」
デネットが提案する「グレゴリー的知性」の考え方は、人間が持つ特別な知性のレベルを説明しようとするものです。グレゴリー的知性とは、思考ツールを構築することで精神的な検索のより高いレベルの制御を可能にするものです。デネットによれば、数学は思考ツールであり、民主主義も思考ツールですが、思考ツールの空間の中で、人間言語は私たちが持つ最も優れた思考ツールであると考えています。
この見方によれば、言語はただの通信手段ではなく、思考そのものを拡張し構造化する「足場」(scaffolding)として機能します。言語が提供する構造があるからこそ、私たちはより抽象的で複雑な思考ができるようになるのです。
例えば、人間が単純な動物を超えて複雑な問題解決や抽象的概念の操作ができるのは、言語によって思考を外在化し、操作し、拡張できるからだといえます。言語を使うことで、自分自身の思考を対象として思考することが可能になります。これは一種のメタ認知であり、自己内省や高度な推論を可能にします。
デネットによれば、唯一の生物学的なグレゴリー的知性の例は人間だけです。この観点から見ると、チンパンジーのような高度な霊長類がポパー的知性を示す能力があっても、言語という思考ツールがないために、人間のような抽象的思考や文化的進化を達成できないということになります。
言語が思考ツールとして機能することで、人間は個人の生涯を超えて知識を蓄積し、共有し、改良することができます。この能力が人間の知性を他の動物と明確に区別し、科学、芸術、哲学といった高度な文化的成果を可能にしています。言語を通じて、私たちは個人の経験や知識の限界を超え、集合的な知恵にアクセスし、それを基に新たな思考を構築することができるのです。
7. AIの未来と社会的影響
7.1 自動化による失業の懸念と歴史的パターン
AIの未来についてはさまざまな意味があり、心配すべきことはたくさんあります。一つの懸念は、私たちが皆仕事を失うかどうかという問題です。これは興味深い問題です。ここにニューヨークタイムズの記事があります:「機械の前進は手を空にする:大幅に増加した工業生産量にもかかわらず失業が蔓延していることは、労働節約装置の影響が根本的な原因であることを示している」
これはニューヨークタイムズに1928年に掲載された記事です。しかし、実は洗濯機や食器洗い機、ミシンなど、多くの人々が労働節約機械を好んでいます。多くの便利な労働節約機械があります。
これは1928年、つまり少数の非常に強力で裕福な男性がアメリカを支配していた時代、大恐慌の直前に掲載されました。しかしその後の数十年に起こったことは、アメリカの政策を大きく変え、富と仕事がはるかに均等に国中に分配された好景気の時代につながりました。そして国は繁栄しました。
ここにもう一つあります:「過去には、新しい産業は廃業させた産業よりもはるかに多くの人々を雇用したが、今日の多くの新しい産業についてはこれは当てはまらない。今日の新しい産業は、相対的に未熟練または半熟練の労働者—まさに自動化によって仕事が排除されているクラスの労働者—のための仕事が比較的少ない」
これは1961年のタイム誌でした。これは長年続いてきた恐れであり、少なくともこれまでのところ実現していません。ここにいる私たちは、全ての人が望む仕事を持っているわけではないかもしれない国にいますが、全体的にはほとんど全ての人が仕事を持ち、多くの人が週に多くの時間働いています。かつては20世紀末までに週3日の勤務しか必要なくなるだろうと主張されていたのに対し、仕事はあまり多くないため、想像してみてください。
7.2 テクノロジー企業の集中化と独占問題
もう一つの懸念は、ほぼすべてのお金が5~10の巨大なテクノロジー企業に集中するのではないかという問題です。私はこれがより深刻な懸念だと思います。現時点でも、私たちはこの方向に向かっていると思われます。
現代のネットワークとAI人材の集中が、この結果を促進する傾向があることは間違いありません。これは基本的に、20世紀初頭に起こったことの現代版です。当時は鉄道のような新しい交通ネットワークが同等のものでした。それは新しい交通ネットワーク、特に鉄道の支配が、少数の人々が経済システムを支配することにつながったのです。
しかし、そこで何が起こるかは、本質的には政治的・社会的な問題です。先ほど言及したように、大恐慌後、少数の企業が持つ独占的な力に対して国々は成功裏に対処しました。そして政治的リーダーシップがあれば、私たちは再びそうすることができるでしょう。
問題は、現時点では政治的リーダーシップの兆候があまりないことです。しかし、これは解決すべき技術的問題というよりも、政治的問題なのです。現在のAIの世界では、少数の大企業がデータ、計算能力、専門人材を集中させ、市場を支配しています。これは新しい技術が社会に導入されるときの歴史的なパターンと一致していますが、適切な規制と政治的意志があれば、対処可能な問題です。
7.3 AIの存在論的リスクをめぐる議論
次の問題は、差し迫ったシンギュラリティを恐れるべきか、つまり機械が人間レベルを超える人工知能を持つときのことです。特に、そのような出来事が人間の生存を脅かす可能性があるのでしょうか。
これは、AI存在論的リスクという議論がメインストリームに爆発的に広がり、米国やイギリスなどでAI安全研究所を設立するような議論につながっています。これらの多くは、制御不能な人工知能が暴走し、人類を排除すると決定する可能性への懸念によって動機づけられています。
そこで、このような見出しが出てきます:「AIの開発を一時停止するだけでは不十分、すべてを停止する必要がある」「暴走AIがいかにして発生するか」「AIの創始者ジェフリー・ヒントンがGoogleを辞めて危険性を警告」「神のようなAIへの競争を遅くする必要がある」などです。
私個人はこれらの懸念に多くの信頼を置いていません。実際、それらに対する反発が高まり始めています。例えば、Kerasのアーキテクトであるフランソワ・ショレは「人類にとって存在の危機をもたらす可能性のあるAIモデルや技術は存在しない。スケーリング則による将来の能力を大幅に外挿しても同様である。ほとんどの議論は『これは新しいタイプの技術だから、起こりうる』に帰着する」と主張しています。
MetaのAIリーダーであるヨーエル・ピノーは、存在論的リスクの議論を「狂気の沙汰」と呼び、これらのリスクに伴う功利主義的議論の欠陥を指摘しています。「人類の排除は無限に悪いことだと言うなら、ゼロでない可能性に無限を掛けると、他に起こりうる悪いこと以上の大きさになる」つまり、これは世界で起こりうる結果について合理的な議論をする感覚的な方法ではありません。
ティム・ヌジューなど多くの人々は、存在論的リスクへの焦点の多くが、あるいはもっと皮肉な見方をすれば、存在論的リスクへの焦点の目的の多くが、主要なAI企業による自動化システムの導入から生じている即時の害から注意をそらすためであると論じています。これには偏見、労働者の搾取、著作権侵害、誤情報、権力の集中、主要なAI企業による規制の取り込みなどが含まれます。
これは考える価値のあることです。私たちの素晴らしいAIや、宿題をやってもらったり素晴らしい画像を生成したりなど、それらでできるすべてのことについての議論の裏には、誤情報、欺瞞、幻覚、意思決定の均一性の問題、著作権や人々の創造性の侵害、多くの炭素排出、豊かな人間の実践の侵食など、多くのことが隠れています。AIから生じる可能性のある現在の害について意識する必要があります。
7.4 AI技術の現実的な社会的害悪(監視、誤情報、著作権侵害)
NLPにおいても、私たちは攻撃的なコンテンツの生成、不正確な情報の生成、誤情報の拡散など、さまざまな種類の害について触れてきました。誤情報に関するものは特に興味深いです。モデルがテキストについて上手く推論できるなら、ユーザーに不正確な情報や意見を説得的に伝える能力も持つのでしょうか?おそらく、伝統的な政治広告の方法よりも人間を簡単に説得するような、非常にパーソナライズされた誤情報伝播の新しい可能性があるかもしれません。
これが事実であるという証拠が出始めています。文献ではまだ議論されていますが、AIによって生成された誤情報によって人間が影響を受ける可能性があることを示す複数の研究が現在あります。政治システムやその他の場所でそのような使用が増加するのを目にし始めるだろうと考えるのは合理的であり、これは潜在的にかなり怖いことです。
おそらく最悪のものはテキストベースではなく、視覚的な偽造が政治的文脈においてさらに説得力を持つ可能性があります。これは今後のアメリカの選挙や他の国々の選挙で起こる可能性があり、AIによって生成された偽造が政治システムに大きな影響を与えるような重大な事件を見ることになるでしょう。
私が考えるに、私たちが本当に心配すべきは存在論的リスクではなく、権力を持つ人々や組織がAIをどのように使用するかということです。これは社会的メディアでも同様のパターンが見られました。ソーシャルメディアの初期には、これが世界中の人々に新たな自由をもたらし、自由な政治的思想と人間生活の改善をもたらすという考えがありました。しかし、それは実際には起こりませんでした。新しい技術は、新しい技術的オプションを習得した強力な人々や組織によって支配されてしまいます。
AIと機械学習は監視と制御のためにますます使用されるようになっており、現在世界中でそのようなことを目にしています。新しいテクノロジーが少数の権力者の手に集中し、一般市民の権利や自由が制限される可能性があることは、現代社会が直面している切実な問題です。これに対処するには、技術的な解決策だけでなく、社会的、政治的、法的なフレームワークを発展させる必要があります。
7.5 Carl Saganの予見した技術と批判的思考の関係
最後の考えとして、カール・セーガンについての考えを共有したいと思います。私が若かった何十年も前、カール・セーガンはテレビで「コスモス」シリーズを行い、宇宙の奇跡を説明していました。当時ティーンエイジャーだった私は「コスモス」を愛していました。これはずいぶん前のことです。
より最近になって、「コスモス」の新しい世代が出てきており、その書籍はニール・デグラス・タイソンによる新しい序文付きで宣伝されています。私はカール・セーガンは良い人だったと思います。彼は「コスモス」だけでなく他の本もいくつか書きました。彼が書いた別の本の一つが「悪魔に取り憑かれた世界」で、そのテーマはここで扱っていることとより密接に関連しています。
その本の中で、彼はこう書いています:「私は、私の子どもたちや孫たちの時代に、素晴らしい技術的な力が非常に少数の手に握られ、公共の利益を代表する誰もがその問題を理解できないような世界を予感しています。人々が自分たちのアジェンダを設定したり、権威にある人々を知識豊かに疑問視したりする能力を失ったとき、クリスタルを握りしめ、神経質に星占いを相談し、批判的能力が低下し、何が気持ちよいかと何が真実かを区別できなくなり、ほとんど気づかないうちに迷信と闇へと滑り落ちていきます。」
今日のアメリカや世界の多くの場所を見回すと、これは実際に人類が直面しているリスクであり、スタンフォードや他の場所で私たちが提供しようとしている教育が重要なものである理由です。教育は価値あるものとして評価されるべきであり、これと共に進むオープンソースのような他のすべてのことも同様です。これは学習の広範な普及を支えます。