※本記事は、スタンフォード大学のCS224N「NLP with Deep Learning」講義(2024年春学期)の「Lecture 13 - Brain-Computer Interfaces」の内容を基に作成されています。この講義ではStanford MPTLラボのChaofei Fan氏が脳-コンピュータインターフェースについて解説しています。講義の詳細情報やコース登録については https://online.stanford.edu/courses/c... および https://web.stanford.edu/class/archiv... でご覧いただけます。本記事では講義の内容を要約しておりますが、原著作者の見解を正確に反映するよう努めておりますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの講義動画(https://www.youtube.com/watch?v=tfVgHsKpRC8 )をご視聴いただくことをお勧めいたします。
このコースは、Christopher Manning教授(Thomas M. Siebel機械学習教授、言語学・コンピュータサイエンス教授、Stanford人工知能研究所(SAIL)所長)が指導しています。スタンフォードのオンライン人工知能プログラムの詳細については https://stanford.io/ai をご参照ください。
スタンフォード・オンラインはスタンフォード大学各部門が提供する学術・専門教育へのポータルであり、スタンフォード・エンジニアリング・センター・フォー・グローバル&オンライン・エデュケーション(CGOE)によって運営されています。
1. 導入と動機付け
1.1. 神経疾患による身体的制限の課題
私がまず最初にお見せしたいのは、なぜ私たちが脳コンピュータインターフェース(BCI)を構築したいのかという動機を説明する動画です。この動画に登場するハワードは撮影当時21歳の若者で、重度の脳卒中によって彼のすべての夢が失われてしまいました。この脳卒中により彼は「ロックイン状態」となり、体を動かすことができなくなりました。ハワードは以前、外出してフットボールをプレーしたり、友達を作ったり、自分の感情を表現したりすることが好きだったと話していますが、これらすべてが彼にとって失われてしまいました。最も重要なことは、彼が自分を表現するために話すことができず、感情を表に出せないということです。
ハワードは、脳卒中やALS(筋萎縮性側索硬化症)などの神経疾患や障害に苦しむ多くの人々の一人に過ぎません。これらの疾患は重度の発話障害や運動障害を引き起こし、場合によっては発話能力を完全に失わせることがあります。このような人々にとって、生活は非常に困難です。考えてみてください。あなたが話せない、動けない、しかし脳は完全に機能している状態です。あなたのすべての夢が打ち砕かれてしまうのです。
ハワードのような人々にとって、外の世界や愛する人々とコミュニケーションを取る方法は、動画で見たような補助コミュニケーションデバイスを通じてのみです。例えば、アルファベットの文字が物理的に配置された文字盤を使用し、ハワードのようにわずかに残された眼球運動を使って、どの文字を見ているかを友人に伝えます。友人は彼の視線から、彼が何の文字を言おうとしているのかを理解します。
このプロセスがどれほど遅いか想像してみてください。一つの文章を言いたいだけでも、「調子はどう?」や「今日は具合が良くない」といった単純なことを表現するのに数分かかることもあります。別の選択肢として、視線追跡デバイスを使って仮想キーボードでタイピングすることもできますが、一日中コンピュータ画面を見続けなければならないのは、彼らにとって非常に疲れる作業です。さらに、これらの人々は私たちのようではなく、残された眼球運動があったとしても、目を動かすことは非常に困難で疲れる作業なのです。
最近では、NeuraLinkのような企業が発表している動画でご覧になった方もいるかもしれませんが、頭蓋骨の中に埋め込み可能な小型デバイスを開発しています。このデバイスは脳信号を読み取ることができます。ハワードのような人々の脳はまだ完全に機能しているため、私たちが望むのは、彼らの無傷の脳と直接インターフェースを取ることで、コンピュータやロボットを制御し、通常の生活を送れるようにすることです。NeuraLinkの参加者であるノアンは、この最先端のBCIを使って家族とつながり、自分自身をサポートできることに非常に興奮しています。ハワードのような、体の制御や言語を失った多くの人々にとって、BCIは希望をもたらすことができるのです。
1.2. 現在の補助コミュニケーション技術の限界
現在、神経疾患により発話能力や運動能力を失った患者が使用している補助コミュニケーション技術には、重大な限界があります。先ほど触れたように、ハワードのような患者が使用する文字盤システムでは、介助者が患者の視線を追って1文字ずつ言葉を構成していきます。この方法は非常に時間がかかり、単純な文章でさえ伝えるのに数分を要することがあります。
視線追跡デバイスを用いた仮想キーボードシステムも代替手段として存在しますが、これらにも大きな制約があります。患者は長時間にわたってコンピュータ画面を凝視し続けなければならず、これは極めて疲労を伴う作業です。特に神経疾患を持つ患者の場合、わずかに残された眼球運動能力であっても、その制御には大きな労力を必要とします。彼らにとって、目を動かすことすら非常に疲れる作業なのです。
現在の技術によるコミュニケーション速度も大きな課題です。例えば、「シップ・アンド・パフ」と呼ばれるインターフェース(吸引と吐き出しで「はい」「いいえ」を表現する方法)では、約5語/分程度の速度でしか会話ができません。健常者の平均的な手書き速度でさえ、驚くことに13〜14語/分しかありません。一方、自然な会話は150〜160語/分という速度で行われます。
このコミュニケーション速度の差は、患者の生活の質に大きく影響します。現在の補助技術では、患者は限られた情報しか伝えることができず、自然な会話のリズムや複雑な思考を表現することはほぼ不可能です。このギャップを埋めるために、より直感的で効率的なコミュニケーション方法が必要とされています。
私たちが開発している2次元カーソル制御BCIでは、約8語/分、手書きBCIでは約18語/分の速度を達成していますが、これらも自然な会話速度と比較するとまだ大きな差があります。このコミュニケーション速度の差を埋めることが、私たちの研究の大きな動機の一つになっています。
1.3. BCIが提供する可能性と希望
BCIシステムは、神経疾患によって体の制御や言語能力を失った人々に真の希望をもたらします。私たちが目指しているのは、脳に小型電極を埋め込み、直接脳信号を読み取ることで、コンピュータやロボット機器の制御を可能にする技術の開発です。この技術によって、これまで不可能だったコミュニケーションや身体活動の回復が現実のものとなります。
例えばNeuraLinkのような企業が開発している技術は、頭蓋骨内に埋め込まれる小型デバイスによって脳信号を直接読み取ります。これにより、たとえ身体が動かなくても、脳はまだ完全に機能している患者が自分自身を表現できるようになります。実際にNeuraLinkの参加者であるノアンは、この最先端のBCIを使って家族とつながり、自分自身をサポートできるようになることに非常に興奮していると述べています。
BCIが提供する具体的な可能性としては、仮想キーボードの操作、ロボットアームの制御、そして最終的には自然な会話の復元が挙げられます。私たちのラボでは、脳信号から発話意図を解読するシステムの開発に成功し、これによって発話能力を失った患者が再び「声」を取り戻すことができるようになりました。
この技術が持つ最も大きな意義は、ハワードやT12のような患者に自己表現の自由を取り戻すチャンスを与えることです。現在、健常者が当たり前に行っている日常的なコミュニケーションを、神経疾患を持つ患者も同様に行えるようになる日が近づいています。そして、このような技術の進歩は単に機能の回復だけでなく、患者の尊厳と生活の質の向上にも直接的に貢献するのです。
私たちはこの研究を通して、神経疾患によって「閉じ込められた」状態の人々に、再び世界とつながる機会を提供したいと考えています。BCIが彼らの生活にもたらす変化は、単なる技術革新を超えた、人間の可能性の拡張なのです。
2. 脳-コンピュータインターフェース(BCI)の歴史
2.1. 19世紀の初期脳電気活動研究
BCIの詳細に入る前に、まずはその歴史的背景を簡単に紹介したいと思います。これにより、なぜ私たちがこのような小型デバイスを脳に挿入できるようになり、突然脳の活動を解読できるようになったのか、その理由を理解する助けになるでしょう。
19世紀に遡ると、イギリスの科学者リチャード・コトンが動物実験を開始しました。彼が発見したことの一つは、実際に脳の活動、つまり脳から発生する電気を測定できるということでした。さらに重要なことに、動物に頭を動かすなどの特定のタスクを実行させると、その電気的活動が変化することが観察されました。
これは、脳から信号を解読できることを示した最初期の実験でした。しかし、この時点ではまだ、それらの電気信号が正確に何を意味しているのかは解明されていませんでした。これらの初期実験は、脳の電気的活動と行動との間に関連性があることを示し、BCIの基礎となる重要な発見でした。
コトンの研究は、脳の活動を外部から測定できることを実証した点で画期的でしたが、当時の技術的制約もあり、信号の詳細な意味や脳内の情報処理メカニズムについての理解はまだ限定的でした。しかし、この初期の研究がその後の脳波計(EEG)の発明や現代のBCI技術へとつながる重要な一歩となったのです。
2.2. ハンス・ベルガーとEEG(脳波計)の発明
1924年まで時間を早送りすると、ドイツの科学者ハンス・ベルガーが脳波計(EEG)と呼ばれる装置を発明しました。右側に見えるような、頭皮の外側、基本的に頭蓋骨に置くことができる電極の一種です。これによって波形のような信号を測定することができます。
ベルガーが発見した最初のことは、頭に置いたこのような電極を使って、波形のような信号を実際に測定できるということでした。さらに彼は、患者の状態によって、この信号の形や周波数が大きく異なることを発見しました。例えば、患者が非常に落ち着いた状態にあるとき、脳は10〜20Hz程度のゆっくりとしたアルファ波を生成します(正確な範囲は忘れましたが)。しかし、患者が目を開けて認知的なタスクを行うと、はるきりとしたベータ波が観察されます。
ベルガーは、この種の電極を使って脳の電気信号を測定できること、そしてその信号が脳の状態によって異なることを最初に発見した科学者でした。彼にまつわる興味深い逸話があります。ベルガーはかつて兵士で、ある日馬の訓練中に落馬して脳震盪を起こしました。彼には双子の姉妹がいて、その同じ日に姉妹が何か変なことを感じ、彼のことを心配し始めたのです。彼の姉妹は父親に電報を送り、弟の安否を尋ねました。
このことがベルガーに深い興味を抱かせ、このような脳波を通じて二人の人間をつなぐ「テレパシー」のようなものが存在するのではないかと考えるようになりました。これが彼が心理学と神経科学の研究を始め、今日でもてんかんの診断などに使われているEEGを発明する動機となったのです。
その後、人々はこのEEGデバイスを使って、脳波の周波数をある程度制御できることから、音楽の演奏などに応用し始めました。これは1950年代に行われた非常に興味深い実験で、人々が脳を直接外部デバイスに接続し、そのデバイスを制御するというアイデアを持ち始めたことがわかります。このコンセプトは、ハワードのような人々が、おそらくロボットアームを制御できるようにするのに応用できるかもしれないと考えられるようになりました。
しかし、このようなEEGや外部測定装置の問題は、得られる信号が非常に弱いことです。脳内には多くのニューロンがあり、それらが多くの信号を生成していますが、頭皮に電極を置くだけでは、何百万ものニューロンの平均的な発火を測定しているに過ぎません。隣の部屋で人々が何を言っているのか聞こうとしているが、聞こえるのは多くのものがごちゃ混ぜになったつぶやきだけという例えが適切でしょう。おそらく彼らが幸せな気分なのか、結論に達したのかは分かるかもしれませんが、彼らが正確に何を言おうとしているのかではありません。
ここでの限界は、このEEGデバイスが非常に低い精度または低い解像度の信号しか提供できないということです。より良い信号を得るためには、脳の中に入り、電極をニューロンの隣に置いて、このニューロンの活動を直接測定する必要があります。
2.3. 初期のBCI応用例
人々はEEGデバイスの可能性を認識し始めると、実際の応用に取り組み始めました。EEGを使って測定できる脳波の周波数を制御することで、何らかのパフォーマンスができるのではないかと考えたのです。例えば、1950年代には音楽家がEEGデバイスを使って音楽演奏を試みるという実験が行われました。
この実験は非常に興味深いものでした。使用者が自分の脳波をコントロールすることで音を生成し、音楽として表現する試みが行われたのです。この事例から、すでにこの時代に人々は体を介さずに、脳を直接外部デバイスに接続して制御するという概念を理解し始めていたことがわかります。
このアイデアは、ハワードのような患者に同じ概念を応用できるのではないかという発想につながりました。例えば、脳信号を使ってロボットアームを制御したり、コンピュータと対話したりする可能性が考えられるようになったのです。
しかし、この種のEEGベースの外部測定装置には大きな限界がありました。得られる信号が非常に弱く、解像度が低いのです。これは、頭皮上から測定する場合、数百万ものニューロンの平均的な活動を捉えているに過ぎないためです。例えるなら、隣の部屋での会話の詳細を聞くのではなく、ただ漠然とした声のつぶやきだけを聞いているようなものです。会話の雰囲気や結論に達したかどうかは感じ取れるかもしれませんが、具体的な内容までは把握できません。
こうした限界を克服するためには、より精密な信号を得る必要があり、そのためには脳の内部に電極を配置し、ニューロンの活動を直接測定するというアプローチが必要となります。これが、現代のBCI技術の発展における重要な転換点となりました。
3. 神経科学の基礎と信号記録技術
3.1. ニューロンの基本構造と機能
本講義の目的において、私たちは主に脳の運動皮質と呼ばれる領域のニューロンに焦点を当てていきます。皆さんもご存知かもしれませんが、脳には異なるタスクを担当する様々な領域があります。脳の中心部に位置する運動皮質は、基本的に全身の筋肉や体の筋肉をコントロールしています。ここでの期待は、運動皮質のニューロンがエンコードしている情報を理解できれば、その情報をデコードして、ハワードのような人々が外部のアームを制御したり、再び話せるようになるための助けとなる可能性があるということです。
ここで非常に基本的な神経科学の知識をお話しします。ニューロンと呼ばれる細胞があることは知っていますね。これらの細胞一つ一つがニューロンです。この部分がニューロンの細胞体(ソーマ)で、こちらが軸索です。ニューロンは「シナプス」と呼ばれる微小な構造を通じて接続しています。ニューロンが別のニューロンに情報を伝達したい場合、人工ニューラルネットワークと同様に、このニューロンが「活動電位」を生成します。これは基本的に電気信号で、別のニューロンに情報があることを伝えるものです。
もしこのニューロンの軸索に小さな電極を置いて、膜電位を測定すると、このような波形が得られます。横軸が時間で、縦軸は測定した電気電位です。鋭いスパイクが見えるでしょう。このスパイクを拡大すると、ニューロンの典型的な発火パターンが見えます。電圧が突然上昇し、その後下降するというものです。
基本的に、ニューロンの近くに電極を設置することで測定できるのは、このような鋭いスパイクなのです。では、「スパイク列」と呼ばれるこの情報にどのような情報がエンコードされているのか、どのように解明できるでしょうか?
行動タスクを実行することで確認できます。例えば、単一のニューロンの活動を測定しながら、サルに手を左右どちらかに動かすよう指示したとします。そして、そのニューロンのスパイク発火を測定し、そのニューロンがどのような情報をエンコードしているかを調べます。
ここで示している図では、各行がそのニューロンのスパイク列を表しています。各縦線はニューロンのスパイクです。各行は1回の試行を示しており、サルが特定の方向に手を動かそうとしていることを意味します。ニューロンは試行ごとに若干異なる発火パターンを示しているのがわかると思います。これは実際のニューラルネットワークの基本的特性の一つで、非常にノイズがあるということです。人工ニューラルネットワークのように、入力に対して常に同じ出力が得られるわけではありません。実際のニューロンでは、同じ実験条件下でも、時に少し速く発火したり、時に少し遅く発火したりします。
ここで測定しようとしているのは、サルが左右どちらかに手を動かす際に、このニューロンがどのような情報をエンコードしているかということです。また、この情報エンコードを「準備段階」と「実行段階」の二つのフェーズに分けることもできます。実行段階はサルが実際に腕を動かしている時、準備段階はサルが動かす準備をしているが、腕を固定している状態です。サルは実際にはこの「Go」の時点で腕を動かします。
観察すると、このニューロンはサルの手が右に動いている実行段階で多く発火しており、また左に動かす準備をしている際も少し多く発火しているようです。これは、このニューロンが何らかの動きの方向をエンコードしていることを示唆しています。
多数のニューロンに対してこの実験を繰り返し、様々な方向に対して行うと、科学者たちは単一ニューロンの発火率(1秒あたりのスパイク数)と異なる動きの方向との関係を余弦チューニング曲線としてフィットさせることができることを発見しました。このチューニング曲線では、縦軸が発火率、横軸が動きの方向です。このニューロンは、動きが基準から180度の方向にある時に最も発火しやすく、その後徐々に発火率が下がっていきます。
これが科学者たちが発見した、単一ニューロンが動きの情報をエンコードする方法の一つです。複数のニューロンを測定すると、各ニューロンが非常に異なる情報をエンコードしていることがわかります。例えば、この緑色のニューロンのチューニング曲線は右に少しシフトしており、その大きさも下がっています。その好む方向は約250度あたりです。
2つのニューロンがあれば、より正確に意図した動きの方向をデコードできます。例えば、単一ニューロンで発火率が約30スパイク/秒だと測定した場合、120度と240度の2つの動き方向の可能性があります。しかし、2つ目のニューロンの測定で発火率が約5スパイク/秒だとわかれば、実際の動きの方向が240度ではなく120度であることを特定できるのです。
3.2. 脳信号記録技術の空間的・時間的分解能
脳信号を記録するための様々な技術について、どのように考えるべきかを説明します。これは複雑に見える図かもしれませんが、詳細にはこだわらないでください。ここで示したいのは、脳信号を記録するために使用できる多くの異なる技術があるということです。
これらの技術を考える際には、2次元的に捉えることができます。縦軸は空間分解能と考えてください。縦軸を上に行くほど、測定できる脳領域のサイズが大きくなります。つまり、縦軸の上の方に行くと、非常に広い脳領域の平均的な活動しか測定できないということです。一方、縦軸を下に行くほど、単一ニューロンのような非常に細かい脳スケールまで測定できるようになります。
横軸は時間的分解能を表しています。単一ニューロン記録のような技術では、各時点(例えば1ミリ秒ごと)でその単一ニューロンの電気的電位を正確に測定できます。一方、fMRIのような記録技術は、小さな脳領域の血流を測定するものですが、平均して約0.5秒や1秒ごとにその小さな脳領域での血流の変化しか測定できません。
これは多くの情報が平均化されていることを意味します。ニューロンの発火は非常に速いスピードで起こります。ニューロンの電気的電位の変化は通常1ミリ秒程度のオーダーです。もし1秒程度の単位でしか測定できないとすれば、多くの情報を平均化、平滑化してしまっていることになります。
理想的には、高い空間分解能と時間的分解能の両方を持つ技術が欲しいところです。
現在、私たちのラボや多くの臨床試験で使用しているのは、マルチ電極アレイと呼ばれるものです。各電極は小さな針のようなもので、数個のニューロンの信号を測定できます。これらの針を指の爪ほどの大きさの小さな正方形に配置し、数百個のニューロンを測定できるようにしています。
このようなデバイスがニューロンを測定できるようになったことで、実際のBCIの構築方法についてより詳しく見ていきましょう。例として、脊髄損傷を持ち、体への接続が失われた人を考えてみます。彼らの心はまだ完全に機能していますが、問題は、彼らの運動皮質からどのような情報をデコードして、自分の腕や人工腕を制御するために使用できるかということです。
私たちがしようとしていることは、このような小さな電極(マイクロ電極アレイ)を彼らの運動皮質に埋め込み、運動皮質の表面に実際に侵入させることです。各電極はここに見られるような小さな針で、これらの三角形はニューロンの大きさです。各電極は周囲の複数のニューロンの発火電位や局所電場電位を測定している可能性があります。
そして、これらすべての情報をこのようなワイヤを通じてリアルタイムでコンピュータに送ります。コンピュータ上で得られるのは、例えばここにある各ブロックが1つの電極の測定値を表しています。先ほど説明した行動実験を行えば、各電極のチューニング曲線を把握できるでしょう。例えば、この電極の好みの方向は左かもしれません。
他のチャンネルについても同様の行動実験を繰り返して、機械学習デコーダーを訓練し、各チャンネルがエンコードしている好みの方向を把握できます。デコーダーのトレーニングが完了すると、テスト時には、デバイスを脳に埋め込んだ参加者に手を特定の方向に動かすことを想像してもらい、デコーダーがその方向を判断します。これが基本的な考え方です。
3.3. マルチ電極アレイ技術
私たちの研究室や臨床試験で現在使用している重要な技術がマルチ電極アレイです。これは、脳内のニューロン活動を直接記録するための最も効果的な方法の一つです。マルチ電極アレイは、小さな針状の電極が指の爪ほどの大きさの小さな正方形に配置されたデバイスです。各電極は数個のニューロンの信号を測定することができ、全体として数百個のニューロンからの活動を同時に記録することが可能です。
このマルチ電極アレイは、実際に運動皮質の表面に挿入され、脳組織内に侵入します。先ほど見せた図では、各電極が三角形で表されたニューロンの近くに配置されています。各電極は周囲の複数のニューロンの発火電位や局所電場電位を測定します。
このような直接的なニューロン記録アプローチが重要な理由は、EEGなどの非侵襲的な方法と比較して、はるかに高い信号精度と分解能を提供するからです。EEGでは頭皮を通して数百万のニューロンの平均的な活動を測定しているのに対し、マルチ電極アレイでは個々のニューロンレベルでの活動を測定しています。
実際の臨床応用では、これらの電極からの情報はリアルタイムでワイヤを通じてコンピュータに送信されます。私たちのシステムでは、各電極からの信号は独立したチャンネルとして処理され、それぞれがコンピュータ画面上の別々のブロックとして表示されます。
このような詳細な記録により、先ほど説明した行動実験を通じて各電極(実質的には各ニューロン群)のチューニング曲線を正確に把握することができます。例えば、ある電極は左方向への動きを好むかもしれませんし、別の電極は別の方向を好むかもしれません。
これらの特性を把握した後、機械学習アルゴリズムを使用してデコーダーを訓練し、これらの複雑な脳信号パターンから意図された動きや行動を解読することができるようになります。この技術によって、脊髄損傷や脳卒中などの重篤な障害を持つ患者が、思考だけで外部デバイスを制御することが可能になるのです。
マルチ電極アレイ技術は、現在のBCI研究の最前線にあり、これからの発展が期待される重要な技術です。
4. 脳信号のデコーディング原理
4.1. 単一ニューロンのチューニングカーブ
運動皮質からのニューロン活動をどのように解読できるのかを理解するためには、まず単一ニューロンがどのように情報をエンコードしているかを知る必要があります。この点を探るために、私たちは行動実験を行います。
例えば、サルを被験体として使用する実験では、サルに2つのことを指示します。サルの手を左または右に動かすよう指示し、同時に単一ニューロンのスパイク発火を測定して、そのニューロンがどのような情報をエンコードしているかを観察します。
図で示されているように、各行がそのニューロンのスパイク列を表しています。各縦線はニューロンのスパイクを示しており、各行は1回の試行、つまりサルが特定の方向に手を動かそうとしている時の記録です。縦の破線は実際に動きを実行する「Go」の合図を示しています。この破線の前の部分は、サルが動きの準備をしている段階で、まだ手を固定している状態です。
興味深いことに、ニューロンは試行ごとに若干異なる発火パターンを示しています。これは実際のニューラルネットワークの基本的特性の一つです。人工ニューラルネットワークと異なり、実際のニューロンは非常にノイズがあります。同じ実験条件でも、時には少し速く発火したり、時には少し遅く発火したりします。
この実験データを分析すると、このニューロンはサルが右に手を動かしている実行段階で特に活発に発火し、また左に動かす準備をしている時にも若干多く発火していることがわかります。これは、このニューロンが動きの方向に関する情報をエンコードしていることを示唆しています。
多数のニューロンに対してこの実験を繰り返し、様々な方向に対して行うと、科学者たちは重要な発見をしました。単一ニューロンの発火率(1秒あたりのスパイク数)と動きの方向との関係をプロットすると、それが余弦チューニング曲線としてフィットすることがわかったのです。
このチューニング曲線では、縦軸が発火率、横軸が動きの方向です。例えば、あるニューロンは動きが基準から180度の方向にある時に最も高い発火率を示し、そこから離れるにつれて発火率が徐々に下がっていきます。これがニューロンの「好みの方向」(preferred direction)です。
このような単一ニューロンのチューニングカーブの理解は、脳信号のデコーディングにおいて基本的かつ重要なステップです。各ニューロンが特定の動きの方向を好むという特性を理解することで、複数のニューロンからの情報を組み合わせて、より複雑な運動意図を解読することが可能になります。
4.2. 複数ニューロンからの情報抽出
複数のニューロンを測定すると、各ニューロンが非常に異なる情報をエンコードしていることがわかります。例えば、図に示す緑色のニューロンのチューニング曲線は、先ほどの青いニューロンと比較して右に少しシフトしており、また振幅も小さくなっています。この緑のニューロンの好みの方向は約250度あたりになります。
2つのニューロンがあれば、より正確に意図した動きの方向をデコードできるようになります。例えば、単一ニューロンの場合、発火率が約30スパイク/秒だと測定した場合、120度と240度の2つの動き方向の可能性があります。しかし、2つ目のニューロンを測定し、その発火率が約5スパイク/秒だとわかれば、実際の動きの方向が240度ではなく120度であることを特定できるのです。
しかし、ニューロンにはノイズがあるため、2つのニューロンを使っても動きの方向を正確に特定できない場合があります。図の第3部分で示されているように、理論上の発火率(灰色の線)がノイズの影響で点線にシフトすると、元々120度と特定できたはずの動きの方向が、4つの可能性に分散してしまいます。それでも、120度付近の方向である可能性が、50度付近や240度以上の可能性よりも高いことがわかります。
このようなニューロンのノイズに対処し、複数のニューロン記録から正確に意図された動きをデコードするにはどうすればよいでしょうか?ここで機械学習が役立ちます。これを分類問題として扱うことができるのです。
図では、各点が2つのニューロンの発火の組み合わせを表し、色は意図された動きの方向を表しています。機械学習分類器をトレーニングすれば、決定境界を引くことができます。例えば、右側の領域に新しい測定値(発火率)が落ちた場合、サルが左方向に動こうとしていることがわかります。
このように、単一ニューロンの測定を行い、複数のニューロンの発火率を測定し、機械学習モデルをトレーニングすることで、このニューラルデータを使って動きの方向を推測することができるのです。これが、実際に脳コンピュータインターフェースを構築するための基本的なアプローチです。
質問がありました:「これらのデータで言及した「ニューロン1」などの非常に具体的な数値は、どのニューロンから測定を開始するかをどのように特定するのですか?」
ここでのニューロン1は、基本的に各小型電極が正確に1つのニューロンを測定していると仮定しています。そして、その電極は常に固定され、常にそのニューロンの発火を測定します。しかし、実際のケースでは必ずしもそうではありません。脳は柔らかい構造なので、電極を置いても少し動いて異なるニューロンを測定する可能性があります。これはBCIにおける課題の一つであり、神経記録の変化にどう対処するかという問題です。
4.3. ノイズ処理と機械学習の応用
ニューロンのノイズに対処し、複数のニューロン記録から正確に意図された動きをデコードするための重要な方法が機械学習の応用です。先ほど説明したように、ニューロンは同じ実験条件下でも発火の仕方に変動があります。これはニューロンの基本的な特性であり、人工ニューラルネットワークとは異なり、実際の神経系では非常にノイズの多い信号が生成されます。
このノイズの問題に対処するために、私たちは機械学習分類器を使用します。これを説明するために、図を見てみましょう。この図では、各点が2つのニューロンの発火率の組み合わせを表しており、色は意図された動きの方向を示しています。
機械学習モデルをトレーニングすることで、こうした発火率の組み合わせから意図された動きを解読することができます。図に示されているように、機械学習分類器を使えば、異なる動きの方向に対応する決定境界を引くことができます。例えば、新しい測定値が図の右側の領域に落ちた場合、システムはその被験者が左方向に動こうとしていると判断します。
このように、単一ニューロンでは不可能だった複雑なパターンの認識が、複数のニューロンからの情報を統合し、機械学習を適用することで可能になります。これが、ニューラルデータとデコーディングアルゴリズムを組み合わせて脳コンピュータインターフェースを構築する基本的な方法です。
ニューロンの発火パターンからの情報抽出には、さまざまな種類の機械学習アルゴリズムが使用されています。単純なバイナリ分類タスク(例:左か右か)から、より複雑な多クラス分類(多方向の動き)や連続的な値の予測(動きの滑らかな軌跡)まで、タスクの性質に応じて適切なアルゴリズムが選択されます。
ノイズの多い信号から意味のある情報を抽出するために、信号の前処理、特徴抽出、および適切な機械学習モデルの選択が重要です。これにより、複数のニューロンからの情報を組み合わせて、より堅牢で正確なデコーディングが可能になります。
このアプローチを用いることで、電極の位置が若干変化したり、ニューロンの発火パターンが日によって変動したりする場合でも、適応的に学習し、一貫したパフォーマンスを維持することができるのです。
5. 運動制御BCIの実装と成果
5.1. 運動皮質からの信号デコーディング
ここまでの知識を活用して、実際に脳コンピュータインターフェースをどのように構築するかを見ていきましょう。例として、脊髄損傷を持ち、体への接続が失われた患者を考えてみます。彼の心はまだ完全に機能しており、問題は彼の運動皮質からどのような情報をデコードして、自分の腕や人工腕を制御するために使用できるかということです。
私たちが行うのは、マイクロ電極アレイと呼ばれるこのような小さな電極を患者の運動皮質に埋め込むことです。ここでは、運動皮質の表面に実際に侵入していきます。図に示されている通り、各電極は小さな針のようで、これらの三角形はニューロンの大きさを表しています。各電極はその周辺の複数のニューロンの局所電場電位を測定します。
こうした情報をワイヤを通じてリアルタイムでコンピュータに送ります。コンピュータ上では、各ブロックが1つの電極の測定値を表します。先ほど説明した行動実験を行うことで、各電極のチューニング曲線を把握できます。例えば、ある電極の好みの方向は左かもしれません。
他のチャンネルについても同様の行動実験を繰り返し、それぞれの好みの方向を把握した後、機械学習デコーダーをトレーニングします。このデコーダーにより、各チャンネルがエンコードしている情報から意図された動きの方向を特定できるようになります。
デコーダーのトレーニングが完了すると、テスト時には脳内デバイスを持つ参加者に手を特定の方向に動かすことを想像してもらいます。そして、デコーダーがその方向を判断します。これが運動皮質からの信号デコーディングの基本的な仕組みです。
この技術の応用例として、NeuraLinkのような企業は、頭蓋骨内に埋め込む小型のデバイスを開発しています。このデバイスは脳信号を読み取り、これらの信号から意図された動きをデコードして、外部デバイスの制御に使用することができます。このような技術は、ハワードのような患者に、自分の無傷の脳を使ってコンピュータやロボットを制御し、より通常の生活を送る可能性を提供します。
運動皮質からの信号デコーディングにより、患者は思考するだけで外部デバイスを制御できるようになります。これは、神経疾患や外傷によって体の制御を失った人々に、新たな自由と自律性を提供する画期的な進歩です。
5.2. 仮想キーボード操作のデモンストレーション
ここで、これまで説明してきた知識を基にした実際の研究成果について紹介したいと思います。2017年に私たちのラボから発表された研究です。この動画では、参加者が脳だけで仮想キーボードをタイピングしているのが分かります。下部には、正確に入力された文字数/分として測定されたタイピング速度が表示されています。ピーク時には約40文字/分に達し、平均では約20文字/分程度です。
これは本当に素晴らしい進歩だと思います。ハワードのような人々、つまりこれまでは文字盤を使ってコミュニケーションを取らなければならなかった人々が、このBCIを使えば自分自身で完全にコミュニケーションを取ることができるようになるのです。これは従来の文字盤に比べて大きな進歩です。
ここで質問がありましたね。「この人は目を開けているのか、閉じているのか?」という質問ですが、この実験では彼女は目を開けています。「視線追跡は関係しているのですか?」という質問には、いいえ、この実験では視線追跡は使用していません。「彼女が目を閉じても動作しますか?」という質問には、はい、動作します。ただし、彼女は視覚的なフィードバックがないため、どこをタイピングしているのかわからなくなります。
「彼女が頭の中でキーボードを見ずに文字を思い浮かべることができるのか、例えばEやRなど?」という質問ですが、これは次に説明する内容に関連しています。「正確な文字とは何を意味しているのか、それは本人が入力したものなのか、機械が捉えられなかった正確な文字なのか?」という質問には、ここでの課題は文章をコピーすることなので、正解が分かっています。それを基に誤り率を測定できます。
「クリックの動作や選択の動作は区別しやすいのか、それともユーザーが押し下げているかどうかを知る特定の方法があるのか?」という質問は非常に良い質問です。先ほど説明したように、私たちは動きをデコードできますし、異なるジェスチャーもデコードできます。たとえば、彼女が異なる動作、肘を動かすことなどを想像すると、それらの運動の動きをデコードして、クリック信号や他の信号にマッピングすることができます。
もう一つの質問は、「もし彼女がキーボードを見て頭の中で覚え、目を閉じても動作するのか?」というものでしたが、これは私たちでも難しいことです。毎日キーボードを使っていても、目を閉じてマウスを動かしたりキーボードを使ったりするのは難しいでしょう。ただし、これは仮想キーボードなので、物理的なキーボードではなく、筋肉の記憶を使うことはできません。
ここで一つ明確にしておきたいのは、彼女の心的イメージは、マウスのようなものを制御することです。彼女は実際にタッチタイピングをしているのではなく、マウスを動かしているようなイメージで操作しています。
このデモンストレーションは、脳について学んできた知識をすべて活用して、T6(彼女のコード名)のような人々が、このようなBCIを通じてコミュニケーションを取り戻せるようにするものです。また、BCIを使ってロボットアームを制御することもできます。例えば、Cal Techの参加者はこのロボットアームを心で制御して、飲み物をつかんでいます。
5.3. ロボットアームの制御実験
BCIの応用として、ロボットアームの制御も重要な成果の一つです。先ほど少し触れましたが、Cal Techで行われた実験では、参加者が自分の心だけでロボットアームを制御し、飲み物を掴んで飲むことに成功しました。この実験は、思考だけで外部のロボット装置を動かし、日常的なタスクを実行できることを示す重要な証明となりました。
また、作業能力の回復という点でも大きな進展がありました。以前は運動をデコードすることでコンピュータを制御していましたが、より自然なコミュニケーション方法として手書きの能力を直接回復させることも可能になっています。私たちのラボの研究科学者フランク・ウェットは2021年に手書きBCIに関する論文を発表し、これが以前の方法と比較して非常に高速であることを示しました。
コミュニケーション速度の観点から見ると、さまざまな方法の効率性を比較することができます。最も左側にある「シップ・アンド・パフ」インターフェースは非常に遅く、約5語/分しか達成できません。これは、動くことはできないが呼吸はできる患者が、吸ったり吐いたりすることで「はい」「いいえ」を伝える方法です。驚くべきことに、一般的な人の手書きの平均速度は約13〜14語/分と、これもかなり遅いものです。一方、自然なコミュニケーションでは最大で150〜160語/分の速度に達します。
この文脈で見ると、先ほど紹介した2次元カーソル制御BCIは8語/分、手書きBCIは約18語/分を達成しています。これらは従来の文字盤や視線追跡と比較すると大きな進歩ですが、自然な会話の速度と比べるとまだかなりの差があります。
次の大きな課題は、BCIを使って自然な会話に近い速度でコミュニケーションを回復できるかということです。その大きなバリアの一つは、脳における言語処理が非常に複雑なプロセスであることです。私たちはこの課題に取り組むため、運動皮質を起点に、言語の運動計画に関連する部分に電極を配置し、そこから情報を解読する研究を進めています。
ロボットアーム制御実験の成功は、BCIが単にコミュニケーションだけでなく、物理的な環境との相互作用も可能にすることを示しています。これは、神経疾患や外傷によって運動能力を失った患者が、日常生活の自立性を取り戻す重要なステップとなるでしょう。
6. 言語処理と脳の関係
6.1. 脳内の言語処理の複雑性
次に、BCIを使って言語、特に発話能力を回復できるかという問題に取り組む上で、まず直面する大きな障壁について説明します。脳内での言語処理は非常に複雑なプロセスです。
ここに示しているのは、言語に関わる様々な脳領域です。私たちはまだ正確にこのプロセスがどのように機能するのか完全には理解していませんが、これが現時点での私たちの最良の推測です。図の右側には知識と推論に関わる多くの脳領域があり、中央部は意味と構文に関わる領域、そして左側は言語の知覚と産出に関わる部分です。
言語は非常に複雑なプロセスであるため、どこから始めるべきか考える必要があります。私たちの希望としては、すでに運動皮質がどのように動きをエンコードするかを理解しているので、言語の運動計画から始めることが考えられます。言語を生成するためには発話する必要があり、口腔顔面筋肉を制御する運動皮質の一部に電極を設置すれば、そこから情報をデコードして、発話能力が回復できるかどうかを確認できるかもしれません。
しかし、発話能力を実際に回復させることは、単純な動きの回復と比較するとさらに複雑です。言語の産出は、単に手を特定の方向に動かすよう指示するよりも、はるかに複雑で迅速な動きの集合体です。発話の回復は、各調音器官の動きを個別にデコードするよりも難しいのです。
さらに、ハワードのような患者や発話能力を失った人々の場合、実際の発話調音の動きを測定することが非常に困難です。そのため、この種の連続的な発話調音の動きをデコードするのではなく、離散的な音素(フォニーム)をデコードする方法を検討する必要があります。
すべての言語は基本的な音声単位に分解できることが知られています。例えば、英語には異なる母音と子音があり、これらは口の中での舌の位置や様々な発話調音器官の配置と関連しています。運動皮質に電極を設置することで、実際の調音動作をデコードするのではなく、これらの離散的な音素トークンをデコードしようと試みるのです。
以前の研究で、運動皮質に電極を配置すると、異なる音素間の違いを、運動皮質の電気的活動を測定することで識別できることが示されています。これは、単に運動皮質に電極を配置するだけで発話を回復できる可能性を示唆しています。
6.2. 音素(フォニーム)と発話の神経メカニズム
発話を回復するためのBCIを構築するにあたり、運動皮質での音素(フォニーム)の表現と発話の神経メカニズムを理解することが重要です。私が先ほど説明したように、発話の生成は単純な手の動きよりもはるかに複雑なプロセスです。これは単に特定の方向への動きをデコードするだけでなく、口、舌、喉、そして呼吸器系の複雑で迅速な協調運動を必要とします。
発話生成の複雑さを考えると、各調音器官の個別の動きをデコードするのは非常に困難です。さらに、ALS患者やロックイン症候群の患者など、発話能力を失った人々では、発話のための調音運動を実際に測定すること自体が極めて難しいという問題があります。
そこで、連続的な調音動作の代わりに、離散的な音素をデコードするアプローチが考えられます。すべての言語は基本的な音声単位(音素)に分解できることが知られています。例えば、英語では約40の異なる音素があり、これらは母音と子音に分類できます。これらの音素は、口の中での舌の位置や他の発話調音器官の配置と直接関連しています。
音素は口の形や舌の位置など物理的な発声器官の動きと密接に関連しているため、運動皮質での神経活動と直接的に対応しています。運動皮質には、これらの口腔顔面筋の動きをコントロールする領域があり、その活動パターンを測定することで、発話しようとしている音素を推測できる可能性があります。
実際、以前の研究では、運動皮質に電極を配置すると、異なる音素間の違いが運動皮質の電気的活動の測定から区別できることが示されています。これは、単に運動皮質に電極を配置するだけで、発話を回復できる可能性があることを示唆しています。
2021年にUCSFの研究者たちは、ECoG(脳皮質電図)記録技術を使用して、小規模な語彙を持つ発話BCIの実現可能性を実証しました。ECoGと私が先ほど説明したマイクロ電極アレイの違いは、マイクロ電極アレイが皮質内に侵入するのに対し、ECoGは皮質表面に留まり、単一ニューロンの発火ではなく小さな領域での平均的な神経活動を記録する点です。そのため、マイクロ電極アレイと比較すると若干解像度が低くなります。
このUCSFのプロトタイプは、50単語を約75%の精度でデコードできる小規模な語彙BCIでしたが、それでも運動皮質に電極を配置することで発話デコーディングを実現できることを示す画期的な研究でした。
6.3. モーター皮質の言語生成における役割
運動皮質は言語生成、特に発話の物理的な側面において重要な役割を果たしています。先ほど説明したように、言語は脳内の多くの領域が関与する複雑なプロセスですが、実際に言葉を発するための口腔顔面筋の制御は運動皮質の特定の領域によって行われています。
この運動皮質の言語生成における役割を理解するために、私たちは2022年にコード名T12と呼ばれる参加者をリクルートしました。T12はALS(筋萎縮性側索硬化症)を持つ女性で、以前は乗馬やジョギングなど非常に活動的な生活を送っていましたが、数年前にALSを発症し、それまで楽しんでいたことが全くできなくなってしまいました。
多くのALS患者とは異なり、彼女の症状は最初に調音運動から始まりました。彼女はまだ手を少し動かすことはできますが、明瞭に話すことはできません。私たちは彼女の脳に4つのマイクロ電極アレイを設置することにしました。2つのアレイは運動皮質に、残りの2つはブローカ野として知られる領域に配置しました。ブローカ野は言語の計画に関与すると考えられています。
私たちの目的は、発話の実行(口や舌などの発話器官の制御)だけでなく、発話の高レベルな計画もデコードすることでした。そのため、異なる脳領域に電極アレイを配置しました。
電極を彼女の脳に設置した後、最初に行ったのは、これらのアレイからどのような情報をデコードできるかを確認するための行動テストでした。最初の結果では、口腔顔面の動きを分類する試みを行いました。破線は彼女が実際にそれらの調音動作を実行している合図で、この線の前は彼女がそれらの調音動作を準備している段階です。
グラフから分かるように、運動皮質にある2つのアレイを使うと、特に動作の実行中、チャンスレベルをはるかに上回る精度でこれらの動きを予測できることが示されました。一方、ブローカ野にある2つのアレイでは、特に動作の実行中、予測精度はチャンスレベルをあまり上回りませんでした。
単一の音素についても同様の結果が得られました。私たちが参加者に英語の音素を発話するよう指示すると、運動皮質の2つのアレイを使って、チャンスレベルをはるかに上回る精度でこれらを予測できました。単語についても同様でした。
これらの結果が示すのは、T12の脳に設置した運動皮質の2つのアレイには、調音される音素や単語に関する多くの情報が含まれているということです。一方、言語生成の計画を理解するのに役立つと思われていたブローカ野の2つのアレイには、それほど多くの情報が含まれていないことがわかりました。これは非常に興味深い発見であり、なぜそうなのかをまだ解明しようとしています。
この結果から、私たちはその後の研究では主に運動皮質の2つのアレイを使用することにしました。これらのアレイに音素情報がエンコードされていることがわかったので、次のステップとしてリアルタイムの「脳からテキスト」BCIの構築に進みました。
7. 発話BCIの開発と実験
7.1. T12被験者のケーススタディ
先ほど少し触れましたが、2022年に私たちはコード名T12と呼ばれる参加者をリクルートしました。T12はALS(筋萎縮性側索硬化症)を持つ女性で、以前は非常に活動的な生活を送っていました。彼女は乗馬やジョギングなどを楽しんでいましたが、数年前にALSを発症し、それまで楽しんでいたことができなくなってしまいました。
多くのALS患者とは異なり、T12の症状は調音運動(発話に関連する筋肉の動き)から始まりました。彼女は手をまだ少し動かすことができますが、明瞭に話すことができません。この特徴的な症状パターンを持つT12は、発話BCIの研究に理想的な参加者でした。
私たちは彼女の脳に4つのマイクロ電極アレイを埋め込むことにしました。2つのアレイは運動皮質に、残りの2つはブローカ野と呼ばれる領域に配置しました。ブローカ野は言語計画に関与していると考えられています。この配置により、発話の実行(口や舌などの発話器官の制御)だけでなく、発話の高レベルな計画もデコードすることを目指しました。
電極を設置した後、最初に行ったのは、これらの電極アレイからどのような情報をデコードできるかを確認するための行動テストでした。最初のテストでは、口腔顔面の動きを分類する試みを行いました。実験中、破線は彼女が実際に調音動作を実行する合図で、この線の前は彼女が動作を準備している段階です。
テスト結果から、運動皮質にある2つのアレイを使用すると、特に動作の実行中には、チャンスレベルをはるかに上回る精度でこれらの動きを予測できることが分かりました。具体的には、赤と緑のラインで示されている運動皮質の2つのアレイは高い予測精度を示しました。一方、ブローカ野にある2つのアレイ(青と紫のライン)では、特に動作の実行中、予測精度はチャンスレベルをあまり上回りませんでした。
単一の音素と単語についても同様のテストを行いました。参加者に英語の音素や単語を発話するよう指示すると、運動皮質の2つのアレイを使って、チャンスレベルをはるかに上回る精度でこれらを予測できることがわかりました。
これらの結果は、T12の脳に設置した運動皮質の2つのアレイには、調音される音素や単語に関する豊富な情報が含まれていることを示しています。一方、言語生成の計画を理解するのに役立つと予想していたブローカ野の2つのアレイには、それほど多くの情報が含まれていないことが判明しました。この予想外の発見は非常に興味深く、なぜこのような結果になったのかを現在も研究しています。
このような初期テストの結果から、私たちはその後の研究では主に運動皮質の2つのアレイを使用して、リアルタイムの脳からテキストへのBCIシステムの開発に焦点を当てることにしました。
7.2. データ収集と実験設計
運動皮質からの音素情報のデコードが可能だとわかったので、次にリアルタイムの脳からテキストへのBCIシステムを構築することにしました。まず、そのデモンストレーション動画をお見せします。
この動画では、私たちの参加者T12がケーブルを通じてデコーディングマシンに接続されています。このケーブルは彼女の神経信号をリアルタイムでデコーディングマシンに送信します。画面上には、彼女に読み上げるよう指示した文章が表示されています。この四角形が緑色に変わると、彼女は話し始め、その下に機械がデコードした内容が表示されます。彼女はほぼ完璧にデコードされた結果を示しています。
動画からわかるように、彼女は発声することはできますが、ALSによる調音筋の制限のため、明瞭に話すことはできません。しかし、私たちは彼女の脳信号から、彼女が言おうとしていることを正確にデコードすることができます。
このビデオでは、彼女に文章をコピーするタスクを行ってもらいましたが、次のビデオでは質問に答えるという異なるモダリティを試しています。また、実際に発声することは彼女にとって非常に疲れる作業であるため、私たちは「サイレントスピーチ」と呼ばれる方法も試しました。これは、声を出さずに口や調音器官を動かすだけのものです。このサイレントスピーチのモダリティを使っても、十分にデコードすることができました。
では、このスピーチBCIをどのように構築したのか、より技術的な詳細を説明します。先に述べたように、デコーダーを構築する前には、データ収集を行う必要があります。図には研究科学者のフランクがT12の隣に座って、彼女に画面上の文章を読むよう依頼している様子が示されています。彼女がその文章を発話している間、私たちは彼女の神経活動を記録します。これにより、入力(神経活動)と出力(目標とする文章)がペアになったデータが収集されます。
データ収集は、T12の自宅に訪問して行います。時間が限られているため、一度に多くの文章を話してもらうことはできません。そのため、データ収集はブロック構造に分けられています。各ブロックでは、彼女に40の文章を話してもらい、その後休憩を取り、次のブロックに進みます。データ収集は各研究セッションで約100分続きます。
データを収集した後、デコーダーをトレーニングします。これには約10〜20分かかりますが、比較的迅速です。デコーダーのトレーニング後、参加者に新しい文章を話してもらい、それらの新しい文章に対するデコーダーのパフォーマンスを評価します。
実験セッションは約3ヶ月にわたって行われ、Switchboard電話会話コーパスから約10,000の文章を収集しました。このコーパスを選んだのは、会話英語のデコードに焦点を当てたいと考えたからです。
データを収集した後、このタスクを最もよく解決できるデコーダーの設計に取り組みました。まず問題を定義しましょう。入力として神経特徴があり、これは時系列データです。オーディオに似ていると考えることができ、各時点で特徴ベクトルを取得します。このデコーダーの出力は一連の単語です。彼女が何らかの文章を話そうとしていることがわかっているので、この入力神経特徴から単語をデコードしようとしています。
先に述べたように、単語を直接デコードする代わりに、音素という中間的なターゲットをデコードする方が良いかもしれません。その理由は、英語には約40の音素しかなく、単語の数と比べてはるかに少ないためです。単語をデコードできるデコーダーをトレーニングするには、すべての可能な単語をカバーするためにはるかに多くのデータが必要になります。一方、音素の場合は、40の音素すべてをカバーするために必要なデータははるかに少なくなります。
したがって、単語を直接デコードする代わりに、神経入力特徴から音素の中間表現をデコードすることにしました。つまり、設計する必要があるデコーダーは2つです。1つは神経信号から音素へのデコーダー、もう1つは音素から単語へのデコーダーです。
7.3. 実時間発話デコーディングのデモンストレーション
先ほど少し触れましたが、データ収集と訓練された後のデコーダを使って、実際にリアルタイムで脳からテキストへのBCIがどのように機能するかのデモンストレーションについて詳しく説明します。
このデモンストレーションでは、参加者T12がケーブルを通じてデコーディングマシンに接続されています。このケーブルは彼女の神経信号をリアルタイムでデコーディングマシンに送信します。画面には彼女にコピーするよう指示した文章が表示されており、四角形が緑色に変わると、彼女は話し始めます。以下が実際のデモンストレーションの一部です:
「I don't want to call for a babysitter.」(ベビーシッターを呼びたくない) 「That would be good.」(それは良いだろう) 「I did well in school.」(学校ではうまくやった) 「I don't see much pollution.」(あまり公害は見ない)
これらの例からわかるように、デコーディングの結果はほぼ完璧です。注目すべきは、彼女自身の発話は、ALSによる調音筋の制限のため明瞭ではないにもかかわらず、彼女の脳信号から彼女が言おうとしていることを正確にデコードできていることです。
次に、私たちは異なるモダリティも試しました。先ほどのデモは彼女に文章をコピーするタスクでしたが、質問に答えるというより自然なコミュニケーションシナリオでも実験を行いました。例えば:
「I have a very good friend and sister.」(とても良い友達と姉妹がいます)
さらに、実際に声を出して調音することは彼女にとって非常に疲れる作業であるため、「サイレントスピーチ」と呼ばれる別のモダリティも試しました。これは、声を出さずに口や調音器官を動かすだけというものです。興味深いことに、このサイレントスピーチのモダリティを使用しても、システムは高い精度でデコードすることができました:
「I do not have much to compare it to.」(比較するものがあまりない) 「I as much as I would like to either.」(私もそうしたいと思うほどには)
これらのデモンストレーションは、私たちのスピーチBCIシステムの有効性を示しています。運動皮質からの神経信号を使用して、実際の発話だけでなくサイレントスピーチも含めて、参加者の発話意図を高い精度でデコードできることが実証されました。
最終的なシステムのパフォーマンスとしては、参加者が言った100の単語のうち、約25の単語が誤ってデコードされる程度のワードエラーレート(約25%)を達成しています。これは、実用的なコミュニケーションツールとしては十分なレベルであり、特に従来の補助コミュニケーション技術と比較すると大きな進歩です。
このリアルタイム発話デコーディングシステムは、ALSや脳卒中など、発話能力を失った患者に新たなコミュニケーション手段を提供する可能性を示しています。実際の使用では、患者は声を出す必要さえなく、単に話そうとする意図を持つだけで、システムがその意図をテキストに変換することができるのです。
8. 神経信号から言語へのデコーディング技術
8.1. シーケンスツーシーケンス問題としての定式化
私たちは運動皮質からの神経信号を使って音素情報をデコードできることがわかりました。次に、この情報を活用してリアルタイムの脳からテキストへのBCIを構築する方法について説明します。
まず、問題を明確に定義しましょう。私たちは神経特徴量を入力として持っています。これは時系列データであり、オーディオのように各時点で特徴ベクトルを取得します。このデコーダーの出力は一連の単語です。参加者が何らかの文章を話そうとしていることがわかっているので、神経入力から単語をデコードすることが目標です。
しかし、先ほど説明したように、単語を直接デコードするよりも、中間表現として音素(フォニーム)を使用する方が良いと判断しました。その理由は単純です。英語には約40の音素しかなく、これは単語の数と比べるとはるかに少ないのです。単語を直接デコードするデコーダーをトレーニングするには、すべての可能な単語をカバーするためにはるかに多くのデータが必要となります。一方、音素の場合は、40の音素すべてをカバーするために必要なデータは比較的少なくて済みます。
したがって、単語を直接デコードする代わりに、神経入力特徴から音素の中間表現をデコードし、その後音素を単語に変換することにしました。つまり、私たちが設計する必要があるデコーダーは2つあります:
- 神経信号から音素へのデコーダー
- 音素から単語へのデコーダー
神経信号から音素へのデコーダーに焦点を当てると、この問題はシーケンスツーシーケンス問題として捉えることができます。入力は特徴量のシーケンス、出力はトークン(この場合は音素)のシーケンスです。
この講義の時点で、シーケンスツーシーケンス問題を解決するためにエンコーダー・デコーダーモデルを使用できることはご存知でしょう。しかし、エンコーダー・デコーダーモデルは実際に必要とする以上に強力です。なぜなら、このモデルは入力と出力の間の任意のアラインメント(対応関係)を許容するからです。これは例えば機械翻訳のようなタスクでは非常に役立ちます。言語によって単語の順序が異なるためです。
しかし、私たちの場合、アラインメントはより単調であることがわかっています。単調とは、例えば最初の2つの神経特徴が出力文の最後の音素ではなく、最初の音素に対応する可能性が高いということです。このような単調なアラインメントを持つ問題を解決するために、手書き認識や音声認識など他の機械学習タスクで開発された手法を利用することができます。
これらのタスクでも、音声特徴量から音素列や文字列をデコードするという同様の課題があります。私たちが使用する技術は、「Connectionist Temporal Classification(CTC)」と呼ばれるものです。CS224Sを受講した方はすでにこの意味を知っているかもしれませんが、簡単に説明します。
CTCが行うことは、ある入力シーケンスが与えられたとき、出力シーケンスをデコードすることですが、それらの間の正確なアラインメントがわからず、通常は入力と出力の長さが一致しません。例えば音声認識の場合、入力は数千フレームの長さを持つ可能性があり、各フレームは20ミリ秒ごとに記録された高い時間分解能の特徴量です。一方、出力は数個のトークンしかありません。
そこでCTCが導入する重要な概念が「空白トークン」(blank token)です。これにより、出力トークン間にスペーサーを挿入して、出力シーケンスが入力シーケンスと同じ長さを持つようにすることができます。CTCデコーダーの出力例では、繰り返されるトークンをマージし、空白トークンを取り除くことで、元の出力よりも短いシーケンスを得ることができます。
この方法により、CTCは異なる入力・出力長を持ち、単調なアラインメント特性を持つシーケンスツーシーケンス問題を解決することができるのです。
8.2. Connectionist Temporal Classification (CTC)の応用
CTCロスを使ってモデルをトレーニングする方法の詳細については、時間の都合上、スキップしますが、この技術が音声認識や手書き認識など、入力と出力の長さが一致しない問題のためにどのように設計されたかを理解することが重要です。
私たちが扱っている発話BCIの問題も非常に似ています。入力は細かい時間間隔で得られる神経信号の時系列であり、出力は比較的短い音素のシーケンスです。CTCは、この入力と出力の長さの不一致に対処し、かつ両者の間に単調なアラインメントが存在するという特性を活用するのに最適です。
CTCが行うことは、実質的には次のようなプロセスです:
- 各時間ステップで、モデルが各可能な出力トークン(音素とブランクトークン)の確率を予測する
- これらの確率に基づいて、様々な可能な出力シーケンスの確率を計算する
- トレーニング中は、正しい出力シーケンスを生成する全ての可能なパスの確率の合計を最大化する
- テスト時には、最も可能性の高い出力シーケンスを見つけるためのデコーディングアルゴリズムを使用する
CTCの重要な利点の一つは、音素と神経活動の間の正確なアラインメントを明示的に提供する必要がないことです。モデルはブランクトークンと繰り返しトークンを使用してこのアラインメントを学習します。これにより、私たちのデータ収集と注釈プロセスが大幅に簡素化されます。
私たちのシステムでは、CTCロスを使用して、入力神経信号から音素へのマッピングを学習するニューラルネットワークをトレーニングしました。各時間ステップで、ネットワークは各音素(および特別なブランクトークン)の確率を予測します。これらの確率は、最終的な音素シーケンスをデコードするためのビームサーチアルゴリズムへの入力として使用されます。
CTCを応用したことで、発話BCIシステムの音素認識精度が大幅に向上しました。特に、各音素の境界が明確でない連続的な発話においても高いパフォーマンスを発揮しました。これは、被験者T12のような、発話器官の制御に障害を持つ患者からの神経信号をデコードする際に特に重要です。
CTCは、発話BCIだけでなく、手書きBCIなど他のBCI応用にも拡張可能な汎用的なアプローチを提供します。異なる入力と出力の長さを持ちながらも単調な対応関係がある様々なシーケンスツーシーケンス問題に適用できる強力な技術なのです。
8.3. GRUとRNNモデルの使用理由
CTCロスを使ってモデルをトレーニングできることがわかりましたが、次の問題は、このタスクに対してどのような種類のデコーダーを使用するかということです。どのようなニューラルネットワークデコーダーを使用すべきでしょうか?
この講義の時点で、多くの皆さんはトランスフォーマーが非常に強力だと確信していると思います。私がこれ以上説明する必要はないでしょう。しかし、この場合、トランスフォーマーを使用したくない理由があります。
私たちが持っているのは大規模なデータセットではありません。先ほど述べたように、10,000文しかありません。また、トランスフォーマーは長距離依存関係を扱うのに非常に優れていますが、ここでの発話生成には長距離依存関係が本当に必要というわけではありません。
そこで、非常にシンプルなRNN(リカレントニューラルネットワーク)に戻ることにしました。RNNは小規模なデータセットでも効果的に機能し、短距離依存関係をうまく扱うことができます。さらに、RNNは実時間で非常に効率的に実行できるという利点もあります。非常に複雑なRNNでも、携帯電話上で効率的に実行できます。
最も一般的なRNNの一つはLSTM(Long Short-Term Memory)です。LSTMはメモリ状態を使用して長期的な情報を保存し、さまざまな入力ゲート、忘却ゲート、出力ゲートを使用して、そのメモリの読み書きを制御します。しかしLSTMも非常に複雑です。
LSTMの変種として、GRU(Gated Recurrent Unit)があります。GRUの基本的な考え方は、メモリ状態と隠れ状態を一つの隠れ状態に統合することです。これによりゲートの数を減らすことができ、GRUはLSTMよりもシンプルなバージョンとなります。小規模なデータセットを扱う場合、GRUは非常に効果的です。そのため、今回のタスクではLSTMではなくGRUを使用しました。
音素のデコードに使用するニューラルネットワークモデルと、そのトレーニング方法がわかったので、次は推論時の処理を考えます。推論時というのは、テスト時のことで、新しい神経活動をデコーダーに入力し、音素の確率をデコードする段階です。
最初のタイムスタンプでは、例えば最も高い確率を持つのが「ア」という音素かもしれません。ここでの問題は、これらの音素確率からどのように最も可能性の高い出力シーケンスを見つけるかということです。つまり、タスクはこれらの音素確率から最も可能性の高いシーケンスを見つけることです。
この問題に対しては、課題3で似たようなことを行ったと思いますが、ビームサーチを使用して最も可能性の高いシーケンスを見つけることができます。ただし、CTCロスをビームサーチに適用する際には一つ注意点がありますが、ここではそれについては詳しく説明しません。
ビームサーチを使用して最も可能性の高い音素シーケンスを見つけることができれば、次はそれを単語に変換する方法を考える必要があります。最終的には文章をデコードしたいのであって、単なる音素のシーケンスではないからです。
9. 言語モデルと音素から単語へのデコーディング
9.1. ビームサーチアルゴリズムの実装
音素のデコード方法と使用するニューラルネットワークモデルが決まったので、次は推論時にどのように処理するかを考えましょう。推論時とは、テスト時のことで、新しい神経活動をデコーダーに入力し、その結果として音素の確率を得る段階です。
ここでの課題は、こうした音素確率から最も可能性の高い出力シーケンスを見つけることです。例えば、最初のタイムスタンプでは、最も確率が高い音素が「ア」かもしれません。しかし、一連の時間にわたる音素確率から、全体として最も可能性の高いシーケンスをどのように決定するかが問題です。
この問題に対しては、ビームサーチアルゴリズムを使用することができます。これは、課題3で既に類似したことを行ったかもしれません。ビームサーチは、候補となる出力シーケンスを複数保持しながら、各ステップで最も有望な候補を展開していく手法です。
ビームサーチを使用して最も可能性の高い音素シーケンスを見つけられれば、次はそれを単語に変換する方法を考える必要があります。最終的には文章をデコードしたいのであって、単なる音素のシーケンスではないからです。
ビームサーチの一つの修正方法として、英語の辞書を使用するアプローチがあります。各単語をその発音(音素列)にマッピングできる辞書があれば、ビームサーチを行いながら、デコードされた音素シーケンスが単語に対応するか確認することができます。もし対応する単語が見つかれば、その音素シーケンスを単語に置き換えることができます。
しかし、さらに良い方法として、言語モデルを使用することが考えられます。これがデコーディング方程式です:
X(入力)が与えられた時に、デコードされる単語シーケンスYの確率を最大化したいわけですが、すべての単語シーケンスが同じ確率を持つわけではありません。例えば、「I can spoke」という文章をデコードしたとすると、これは構文的に正しくないため、あまり高い確率を持ちません。
そこで、言語モデルを使って各デコード仮説の確率を評価し、最終的なデコーディング確率の重みとして使用することができます。この追加の項、P(Y)(文の確率)は、各トークンがその前のトークンの条件付きで持つ確率に分解することができ、これを任意の言語モデルで測定することができます。
もう一つ追加したい項として、「単語挿入ボーナス」があります。文の確率P(Y)の問題点の一つは、長い文ほど短い文よりも確率が小さくなる傾向があることです。これはこの確率の分解方法の性質によるものです。そこで、デコードされるシーケンスの長さのバランスを取るために、単語挿入ボーナスを追加します。
最終的に最適化したいのは、RNNデコーダーによって生成された確率と、言語モデルの重み、そして単語挿入ボーナスを組み合わせたこの方程式です。
9.2. N-gramとTransformerモデルの併用戦略
すべてを組み合わせると、以下のような処理パイプラインになります。神経特徴入力があり、これは20ミリ秒ごとに取得されます。これをGRUに通すと、音素確率が得られます。これはすべてリアルタイムで行われるため、すべての計算は20ミリ秒以内に完了する必要があります。
ここで非常に迅速なビームサーチを行い、「アイ」という音素が「I」という単語に対応していることを発見するかもしれません。この段階で言語モデルを活用したいと考えています。
しかし、ここで重要な決断が必要です。どの言語モデルを使用するべきでしょうか?ここではN-gram言語モデルを選択しました。より強力なTransformer言語モデルではなく、N-gram言語モデルを使用する理由は、20ミリ秒以内に多くの評価を非常に迅速に行う必要があるからです。
例えば、100の仮説があり、それらすべての確率を評価したいとします。Transformer言語モデル(GPT-3など)は非常に強力ですが、20ミリ秒以内にリアルタイム推論を行うことはできません。一方、N-gram言語モデルであれば、すべてをメモリに読み込み、評価はただのメモリルックアップになるため、非常に高速です。
この処理の後、確率が得られ、次のビームサーチステップのために上位K個の仮説だけを保持します。これがN-gram言語モデルをリアルタイムデコーディングで使用する方法です。
その後、Transformer言語モデルを使用して、N-gram言語モデルによって生成されたすべての仮説を再ランク付けします。これは、実際に文全体をデコードした後に行われます。例えば、最も可能性の高い100の文を保持した場合、この時点でTransformer言語モデルを使用して、おそらく0.5秒以内にこれら100の仮説の確率を評価し、より良い確率測定を得ることができます。
すべてをまとめると、このシステム全体の仕組みは以下のようになります。先ほどお見せした動画では、複雑なマルチステージの機械学習モデルを使用して、参加者が言おうとしていることを正確にデコードし、高性能な神経発話BCIを構築しています。
評価については時間の都合上スキップしますが、パフォーマンスはワードエラーレート(WER)で測定されています。また、すべてのデータをコンペティションとしてオープンにしているので、もしこれに興味があれば試してみることができます。
この研究で最も興奮させられることの一つは、実際にあなたの研究が人々にどのように影響を与えるかを見ることです。これは参加者T12の言葉で、このシステムが彼女のために初めて機能したときの彼女の反応です。何年も沈黙の後に再び話せることになり、彼女にとって本当に感動的な瞬間でした。
9.3. リアルタイム処理要件と解決策
発話BCIシステムでは、リアルタイム処理が非常に重要な要素です。リアルタイムで動作するためには、システムが入力から出力までのすべての処理を非常に短い時間内に完了する必要があります。私たちのシステムでは、神経信号は20ミリ秒ごとに取得されるため、すべての計算処理もこの時間内に完了しなければなりません。
このような厳しい時間制約のもとで、効率的なモデルの選択とデコーディング戦略の実装が不可欠です。前述したように、私たちはGRUモデルを採用しました。GRUはLSTMよりもパラメータが少なく、計算効率が高いため、リアルタイム処理に適しています。また、トランスフォーマーのような複雑なモデルは避け、より単純でありながら効果的なRNNアーキテクチャを選択しました。
音素をデコードする段階では、効率的なビームサーチアルゴリズムを実装しました。しかし、ビームサーチ中に言語モデルを統合する必要があります。ここでN-gram言語モデルを選択した主な理由は、その計算効率の高さです。
例えば、ビームサーチ中に100の仮説があり、それらすべての確率を評価する必要があるとします。GPT-3のようなTransformer言語モデルを使用すると、20ミリ秒以内に100の評価を行うことは不可能です。一方、N-gram言語モデルならすべてのデータをメモリに読み込むことができ、評価は単なるメモリルックアップとなるため、非常に高速です。
また、言語モデルの評価を二段階に分ける戦略も採用しました。まず、リアルタイムでのデコーディング中はN-gram言語モデルを使用し、文全体がデコードされた後にTransformer言語モデルで再ランク付けを行います。これにより、リアルタイム処理の要件を満たしながらも、より強力な言語モデルの利点を活かすことができます。
このようなリアルタイム処理の最適化により、私たちのシステムは患者が発話意図を持ってから実際にテキストが表示されるまでの遅延を最小限に抑えることができました。これは自然なコミュニケーションの流れを維持する上で非常に重要です。
参加者T12も言及していたように、このようなリアルタイム性は彼女にとって非常に価値のあるものでした。何年も沈黙の中で過ごした後、思考とほぼ同時に言葉が画面に表示されることは、真のコミュニケーションの回復を意味していたのです。
10. BCIの将来展望と倫理的課題
10.1. マルチモーダルBCIと内的発話の可能性
私が皆さんにお見せしたBCIの成果は、運動制御や発話能力の回復において大きな進展を示していますが、BCIの将来にはさらに多くの可能性があります。最後の5分間で、BCIの未来について考えてみたいと思います。
BCIの一つの興味深い方向性は、マルチモーダルBCIです。UCSFのグループによって発表された研究では、音素だけでなく、実際の発話や調音ジェスチャーもデコードしようとしています。これにより、3Dアバターを動かすこともできるようになります。
また、先ほど言及したように、BCIの最終目標は、人々が私たちが毎日使用するスマートフォンのように、日常的に使用できるようにすることです。UC Davisの私たちの共同研究者による発話BCIの最近の開発では、運動皮質に4つのアレイを埋め込み、私たちよりもさらに良い信号を取得しています。彼らが示したのは、私たちのシステムの最終的なパフォーマンス(参考として、約25%のワードエラーレート、つまり参加者が言った100単語のうち25単語が間違っている)と比較して、数セッションでシステムを継続的にトレーニングすることで、ほぼゼロのワードエラーレートに近づけることができるということです。これにより、実際に使用可能なシステムに非常に近づいています。彼らの参加者は現在、毎日このシステムを使用して家族とコミュニケーションを取っています。
個人的に最も興奮している方向性の一つは、私たちの研究室で取り組んでいる「内的発話」のデコードです。これまでに紹介した発話BCIの最大速度は約60〜70語/分ですが、これは自然な会話の速度である150語/分と比較するとまだかなり遅いです。この差の一つの理由は、これらの参加者は発話能力を長年失っているため、通常の速度で話すことが非常に難しいということです。
しかし、多くの人は「内的発話」と呼ばれるものを持っています。これは頭の中で自分自身と話しているような感覚です。ここでの研究課題は、このような内的発話をデコードできるかどうかということです。
私たちの研究室の共同研究者による予備的な研究では、実際にそれが可能であることが示されています。例えば、参加者に実際の発話(attempted speech)を行ってもらうと、小さな単語セットにおいて約90%の精度で解読できますが、口を動かすことを想像してもらう(imagined movement)または頭の中で声を想像してもらう(imagined voice)場合でも、チャンスレベルよりもはるかに高い精度でデコードできることがわかりました。
これは将来的に、内的発話をデコードして、ハワードやT12のような人々に自然なコミュニケーションを完全に回復させることができる可能性を示唆しています。しかし、ここには議論すべき重要な倫理的問題もあります。例えば、プライベートな思考や記憶など、表現したくないものをデコードできるかもしれないという問題です。
また、すべての人が内的発話を持っているわけではないという点も考慮する必要があります。そして発話は単なる内的思考の外部表現であり、線形的な表現に過ぎません。一方、内的思考はより複雑で多次元的である可能性があります。どこに電極を配置し、これらの内的思考のどの部分をデコードするかを決めるのは非常に難しい問題です。
しかし、これは脳における言語処理についてより深く学ぶための刺激的な機会でもあります。内的発話のデコードは、BCIの将来における重要な方向性の一つであり、コミュニケーション能力を失った人々に希望をもたらす可能性があるのです。
10.2. 記憶や思考のデコーディングに関する倫理的問題
内的発話のデコードは、発話能力を失った人々にとって非常に有望な可能性を秘めていますが、同時に新たな倫理的問題も浮上させます。私が先ほど述べたように、もし内的発話をデコードできるとしたら、プライベートな思考や記憶など、あなたが表現したくないものをデコードできてしまう可能性があるのです。これは非常に難しい問題です。
例えば、BCIが記憶を読み出すことを許可すべきかという問題があります。もし言いたくないことをデコードしてしまったらどうするのでしょうか?これにどう対処すればよいのでしょうか?一方で、アルツハイマー病などによって記憶を失った人々のために、記憶を読み出すことができれば役立つかもしれません。また、心理療法に役立つような潜在意識の恐れを読み取ることができるかもしれません。このような場合、記憶のデコードを許可すべきなのか、あるいは許可すべきでないのかをどのように決定すべきでしょうか?
さらに深い問題として、BCIによる認知能力の強化の可能性があります。例えば、実際の腕よりもはるかに速くロボットアームを動かせるとしたらどうでしょうか?それは許可されるべきでしょうか?あるいは、記憶を購入してCS224Nの授業をスキップするということは可能になるのでしょうか?
これらは答えるのが難しい問題ですが、単にこの問題を投げかけておきたいと思います。これはBCI特有の問題ではなく、現在も自己強化の方法は多く存在します。私が言いたいのは、BCIは多くの新しい倫理的問題を提起するということです。
この教科書からの引用を紹介します。ここで言われているのは、私たちはこの問題に対する答えを求めているのではなく、科学者、エンジニア、政策立案者との議論を継続すること、そしてBCIが本当に必要とする人々を支援しながら、潜在的な問題にも注意を払うことが重要だということです。
まとめとして、BCIは人工知能、機械学習、神経科学、神経工学の交差点にある非常に興味深い新しい研究方向性です。私たちはまもなく、人々が再びコミュニケーションできるようにするシステムを持つことになります。また、脳が言語をどのように処理するかを理解するための素晴らしい機会でもあります。最も重要なのは、ハワードやT12のような人々に希望をもたらしているということです。
10.3. 認知拡張と技術の社会的影響
BCIがもたらす可能性の中でも特に興味深いのは、認知拡張の可能性です。例えば、もし実際の腕よりもはるかに速くロボットアームを動かせるようになったとしたら、それは許可されるべきでしょうか?あるいは、記憶を「購入」してCS224Nの授業をスキップするということが可能になったらどうでしょうか?
これらの問いは非常に難しく、単純な答えはありません。技術の可能性と倫理的な制約のバランスをどう取るべきかという問題は、BCIの発展とともにますます重要になってくるでしょう。BCIは単に障害を持つ人々のための補助技術から、人間の能力を拡張する技術へと進化する可能性を秘めています。
一つの視点としては、これはBCI特有の問題ではないということです。現在でも自己強化のための様々な方法が存在します。例えば、私たちは薬物を使って集中力を高めたり、外部デバイスを使って記憶を補助したりしています。BCIはこの連続体の一部と考えることもできます。
しかし、BCIは脳に直接接続するという点で、これまでの技術とは根本的に異なります。脳は私たちのアイデンティティ、思考、記憶の座であり、それに直接介入することは、個人のプライバシー、自律性、アイデンティティに関する深い問いを投げかけます。
社会的な影響という観点では、BCIのような技術へのアクセスが平等ではない場合、どのような不平等が生じる可能性があるのかも考慮する必要があります。認知能力や身体能力を向上させる技術が一部の人々だけに利用可能であれば、それは既存の社会的格差をさらに拡大する可能性があります。
これらの問いに対する答えを求めるのではなく、科学者、エンジニア、政策立案者、そして社会全体でこれらの問題について継続的に議論することが重要です。BCIが本当に必要とする人々、特に神経疾患や身体障害を持つ人々を支援する一方で、この技術の広範な社会的影響にも注意を払う必要があります。
要約すると、BCIは人工知能、機械学習、神経科学、神経工学の交差点にある非常に興味深い研究分野です。この技術は、コミュニケーション能力を失った人々に再び声を与え、身体の制御を失った人々に動きを取り戻す可能性を秘めています。同時に、脳が言語をどのように処理するかを理解するための貴重な窓を提供してくれます。最も重要なのは、ハワードやT12のような人々に希望をもたらしているということです。彼らは再び自分自身を表現し、愛する人々とつながることができるようになるのです。