※本記事は、Keoni Mahelona氏とPeter-Lucas Jones氏が登壇したAI for Good webinar「Accelerating the revitalisation of te reo Māori with AI」の内容を基に作成されています。動画はhttps://www.youtube.com/watch?v=luhHNVjhGfk でご覧いただけます。本記事では、webinarの内容を要約しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画をご視聴いただくことをお勧めいたします。
登壇者はKeoni Mahelona氏(Te Hiku Media、最高技術責任者)およびPeter-Lucas Jones氏(Te Hiku Media、最高経営責任者)です。モデレーターはJennifer Woodard氏(Insikt Intelligence、CEO)が務めました。本webinarはITUが主催するAI for Goodプラットフォームにより開催されました。
1. セッション開幕と登壇者紹介
1.1 AI for Goodプラットフォームの概要とセッションの趣旨
Announcer: AI for Goodへようこそ。当プラットフォームは、国連が主導するAI分野における最も行動志向型のグローバルかつ包括的な取り組みであり、ITUが主催し、40の国連姉妹機関との連携のもと、スイスと共同で運営されています。AI for Goodの目標は、AIの実践的な応用事例を特定し、国連の持続可能な開発目標(SDGs)の達成に向けてその解決策をグローバルに拡大することです。本日のセッションでは、ライブビデオ機能を活用して質問やコメントを投稿していただき、活発な議論の場を作り上げていただくことを期待しています。セッション終了後もぜひ残っていただき、登壇者の皆さんや世界トップクラスのAI専門家と直接交流・ネットワーキングの機会をお楽しみください。
1.2 モデレーターJennifer Woodardによる問題提起——言語と人間性の核心
Jennifer: 本日のセッションへようこそ。私はJennifer Woodard、AIアントレプレナーであり、Insight Intelligenceの共同創設者です。今回のセッションは特別な意味を持つ回だと感じています。なぜなら、AIがどのように先住民族の言語の保存と復興に貢献できるかというテーマに踏み込むからです。テクノロジーの話をするとき、私たちは機械学習や大規模言語モデルといった技術的な議論に引き寄せられがちです。しかし、その中心にあるのは、人間が言葉によってコミュニケーションをとるという、きわめて本質的な能力です。つまり、言語とは私たちが何者であるかという問いそのものであり、固有の文化やアイデンティティの根幹をなすものです。そのような意味において、今日のセッションは技術の話であると同時に、人間の話でもあります。
1.3 Tāhiku MediaのPeter Lucas JonesとKeoni Mahelonaの自己紹介
Jennifer: 本日は、Tāhiku MediaのKeoni MahelonaとPeter Lucas Jonesをお迎えします。お二人はデータとAIを活用してニュージーランドの先住民族言語であるテ・レオ・マオリ(te reo Māori)の保存と復興に取り組む先駆者です。技術を通じて先住民族の言語と文化への理解を深めるだけでなく、コミュニティのデータ主権を守るという観点からも非常に重要な活動をされています。本日はその全貌をご紹介いただきます。
Peter: Kia ora。私はPeter Lucas Jones、ハワイ出身で、Tāhiku MediaのCTOを務めています。本日はKeoniと共に「AIによるテ・レオ・マオリの復興加速」についてお話しします。
Keoni: 私はKeoni Mahelona、Tāhiku MediaのCEOです。私たちが進めているデータサイエンスプロジェクト「Papareo」は、ニュージーランド政府の経済開発・イノベーション省から資金提供を受けています。本日はPeterと共に、私たちの取り組みの全体像をご説明します。
2. Tāhiku Mediaの組織的背景と歴史
2.1 1919年の創設、マオリ語放送運動、テ・ヒク・オ・テ・イカ5部族との関係
Keoni: 私たちTāhiku Mediaは1919年に起源を持ち、ニュージーランド全土に設立された21のイウィ(部族)ラジオ局のひとつとして、マオリ語放送運動の一翼を担う形で生まれました。私たちの組織は、アオテアロア・ニュージーランド最北端の地域であるテ・ヒク・オ・テ・イカに根ざした5つの部族——Ngāti Kuri、Te Aupōuri、Ngāi Takoto、Te Rarawa、Ngāti Kahungunu——と深く結びついています。私自身はTe Aupōuriの議長も務めており、組織との関わりは単なる職務を超えた、きわめて個人的なものです。私たちの組織は、21のイウィラジオ局やマオリテレビジョンとともに、テ・レオ・マオリのコンテンツを社会に届けるための意識的かつ継続的な努力を担う存在として位置づけられています。
2.2 植民地政策による言語抑圧の歴史——学校での体罰・言語消失とマオリ語権利主張(Māori Language Claim)
Keoni: 私たちがなぜこの活動をしているのかを理解するには、歴史を振り返ることが欠かせません。マオリの言葉に「titiro whakamuri」というものがあります。過去を振り返ることで、進むべき道が見えてくるという意味です。私たちの祖父母や両親の世代は、学校教育の場でマオリ語を話すことを文字通り禁じられ、体罰によって言語を「口から叩き出された」経験を持っています。言語とは単なるコミュニケーションの道具ではなく、アイデンティティそのものです。その言語を奪われるということは、文化を、そして自分が何者であるかという感覚を奪われることに等しいのです。
私たちの組織はそのような状況への抵抗として、マオリ語権利主張(Māori Language Claim)を主導した団体のひとつです。この権利主張は、マオリ語話者の権利を認め、政府にマオリ語を公式に認めるよう求めるものでした。長年にわたる取り組みの末、今日ではマオリ語はニュージーランドの公用語として認められています。しかし、かつてはそうではありませんでした。また1990年には、Sir Graham Latimer がニュージーランド・マオリ評議会を代表してラジオ周波数に関する権利主張を行い、今日私たちが放送に使用している周波数帯域の割り当てが先住民族として認められるきっかけになりました。この周波数の確保は、マオリの利益が電波においても認識・保護されたことを意味するものでした。
2.3 デジタル化への移行——地上波テレビから独自オンラインプラットフォームへ、5G周波数交渉と3,000万ドル基金
Keoni: 私たちはラジオ局として出発しましたが、時代の変化とともに活動の形を大きく変えてきました。イウィラジオ局として、アオテアロア・ニュージーランドで唯一、地上波ベースの地域テレビ局のライセンスを持つ存在でもありました。しかし、コンテンツの消費形態がテレビやラジオといった地上波放送から離れていく現実を受け止め、私たちは2014年に独自のデジタルプラットフォームを立ち上げ、オンライン配信へと移行していきました。
Peter: このデジタル転換の文脈で重要なのが、3G・4G・そして現在議論されている5Gをめぐるマオリとしての権利の問題です。ニュージーランドにおける5Gの議論は、単なる通信技術の話ではなく、マオリとしての無線周波数スペクトルに対する権利の問題に直結しています。Te Ohu Trustが最近交渉した大型パッケージにより、部族グループやマオリ組織が5Gを活用してイノベーションを起こし、経済的機会を生み出せる道筋が開かれました。さらに、4Gおよび5G条約に関わる交渉の結果、マオリのデジタル産業における能力開発を目的とした3,000万ドルの専用基金が設立されました。
Keoni: 私たちはこの基金に申請しました。その内容は「コンピューターにマオリ語を教える」こと——すなわち、テ・レオ・マオリの音声認識研究とテキスト読み上げ技術の開発です。こうして私たちの組織は、マオリ語放送という本来の使命に加え、AIとデータサイエンスという新たな領域へと踏み出していくことになりました。
3. コーパス構築の30年——アーカイブとデジタルプラットフォーム
3.1 長老へのインタビュー録音と会話スタイルのデータ収集手法——慣用表現・土地固有語の体系的記録
Keoni: 私たちが1990年の開局以来30年間かけて積み上げてきたのは、単なる放送コンテンツではありません。それはテ・レオ・マオリの生きた記録であり、コミュニティとの深い信頼関係の蓄積です。私たちはこの30年間、長老たちへのインタビューを継続的に行ってきました。テーマは、あらゆる川、あらゆる山、あらゆる植物、あらゆる海岸——つまり、長老たちがマオリ語で語りたいと思うすべてのことです。このスライドに写っているのは私の祖母と二人の叔母です。右の女性が祖母で、左の女性も同じく長老ですが、彼女たちは1890年代生まれで、私たちの初期インタビューの対象となった最も高齢の話者たちです。
このインタビューにおいて私たちが意識してきたのは、話者が自然な会話スタイルで語れる環境を作ることでした。人に自然に話してもらうことは簡単ではありませんが、私たちはその技術を時間をかけて磨いてきました。この姿勢が、イウィラジオネットワークの中でも最大規模のマオリ語音声データアーカイブを築く土台になったと考えています。インタビューでは単語や文章の記録にとどまらず、慣用表現や口語表現、特定の地域や話者コミュニティに固有の言い回しにも丁寧に向き合ってきました。
これらの記録は、テ・レオ・マオリの第二言語学習者が高品質なネイティブスピーカーの慣用表現に触れるための教材としても活用を想定しており、学習者が「正しい音」「正しい表現」にアクセスできる環境を整えることが狙いです。私たちはこうした音声に話者のタグを付け、発言されている言葉の意味と文脈の説明もマオリ語で記録することで、単なるアーカイブではなく学習資源としての価値を持たせてきました。
3.2 ライブストリーミング・アプリ開発によるコーパスの拡張——カパハカ、弔事中継、スピーチ大会
Keoni: 2014年にデジタルプラットフォームを立ち上げてからは、コーパス収集の手段が大きく広がりました。ライブビデオストリーミングを始めると、コミュニティの関心が非常に高いコンテンツがあることがわかりました。なかでもカパハカ——伝統的な歌や踊りのグループが競い合うコンペティション——は、学校グループから大人のチームまで幅広い層が参加し、視聴エンゲージメントが際立って高いコンテンツです。こうした大会はメインストリームのテレビでは放映されないことが多いのですが、私たちのプラットフォームを通じてコミュニティにリーチすることができています。
さらに、マオリ文化では葬儀の儀式が非常に重要な位置を占めており、部族内での故人の地位によっては数日間にわたる儀式が行われます。他の部族からの来訪者を迎え、スピーチや歌が連続して行われるこうした場も、私たちはライブ配信の対象としてきました。スピーチ大会や歌の収録、ニュース、情報番組、音楽など、多様な形式のテ・レオ・マオリがこうして蓄積されています。これらはすべて、言語コーパスとして価値のある素材です。歌から演説まで、さまざまな言語使用の形態が記録されることで、コーパスの多様性が確保されています。
Peter: 私たちのFāre Kōreroアプリには、2014年以降に蓄積された3,500時間分の半ラベル済み音声データがあります。このデータにはテ・レオ・マオリのものだけでなく、バイリンガルのものも含まれています。話者のラベリングも丁寧に行っており、どの部族出身の話者かという情報や、どのようなトピックについて語っているかというタグも付けています。一人の話者が複数のトピックにわたって話すこともあるため、それぞれを個別にタグ付けし、さらにアブストラクト(要約)も付与することで、ユーザーがコンテンツにアクセスしやすい構造を作っています。私たちはコンテンツを配信するだけでなく、そのデータの守護者(kaitiaki)でもあります。この30年間、私たちはマオリ語放送の担い手であると同時に、言語データの保護者として二つの役割を同時に担い続けてきました。
また、VHSテープをはじめとする古い記録媒体のアーカイブも保有しています。資源が限られた部族コミュニティ出身の組織として、私たちはできる限り多くのデータを長時間収録する形で保存してきました。映像アーカイブも相当量あり、インタビューなども含まれています。現在、音声発話のコーパスは550時間分に達しており、これを自然言語処理の取り組み——文法チェッカーやスペルチェッカーといったツールの開発——に活用し始めています。
3.3 都市移住と言語離脱の現実(部族構成員の86%が伝統的居住地外在住)とデジタルプラットフォームの役割
Keoni: 言語の復興を語るうえで避けられないのが、現在のコミュニティの地理的な分散という問題です。私の部族の構成員のうち、実に86%が伝統的な部族の居住地以外に暮らしています。雇用を求めた都市部への移住が長年にわたって進んだ結果、かつては地域コミュニティの中で自然に行われていた世代間の言語伝承が機能しにくくなっています。私たちの親や祖父母の世代の一部は、そうした伝承が息づく環境の中で育ちましたが、今の世代の多くはそうではありません。
植民地化はネイティブスピーカーの数を大幅に減少させただけでなく、コミュニティの物理的な結束をも弱めました。かつては地域に暮らすことで自然に獲得できていた言語が、今では学校やフォーマルな学習の場でしか触れられない状況になっています。こうした現実に対して、私たちのデジタルプラットフォームが担う役割は大きいと考えています。遠く離れた都市部や海外に暮らすコミュニティのメンバーが、自分たちの言語や文化に触れるための場として機能できるからです。
Peter: 同時に、私たちはデジタルプラットフォームが言語習得の道具としても有効であることを意識して設計しています。言語を上達させるためには、優れた話者のモデルを聞き、真似ることが必要です。プラットフォームを通じて、学習者がネイティブスピーカーの自然な発話に継続的に触れられる環境を作ることは、言語の安心感——「自分の言語は正しいか、十分か」という不安を和らげること——にもつながります。先住民族として母語を話せないとき、人はアイデンティティへの不全感を抱えることがあります。私たちのツールは、そうした心理的障壁にも寄り添えるものでありたいと考えています。
4. 音声認識プロジェクトの立ち上げとコミュニティ主導のデータ収集
4.1 手動文字起こしの限界から「コンピューターにマオリ語を教える」発想への転換
Keoni: アーカイブに蓄積された膨大な長老たちのインタビュー音声を、どうすれば学習や教育の目的で活用できるようにできるか——それが私たちの出発点でした。私たちはまず、インタビュー音声を手作業で書き起こし、単語・フレーズ・慣用表現にタグを付けるという作業に取り組みました。こうして記録されたネイティブスピーカーによる高品質な言語表現は、第二言語学習者が慣用表現や口語表現に触れるための教材として、また研究者が活用できるリソースとして、大きな可能性を持っています。
しかし、ここで大きな壁にぶつかりました。インタビューの数に対して、書き起こしができる人材が圧倒的に足りなかったのです。テ・レオ・マオリの文字起こしは、言語を相当程度習得していなければ務まりません。ネイティブスピーカーの音声を正確に聞き取り、書き記すためには、言語そのものへの深い理解が必要です。私たちが保有するインタビューの量は、人手による書き起こしのペースをはるかに超えていました。
そこで私たちが思い至ったのが、「コンピューターにマオリ語を話す方法を教える」という発想の転換です。機械が音声を自動的に書き起こせるようになれば、アーカイブの活用可能性が一気に広がります。書き起こされたデータは学習目的や教育目的、たとえば学校でのプロジェクト学習や研究者の調査活動にも役立てることができます。この発想が、私たちの音声認識プロジェクトの原点です。
4.2 Kōrero Māoriプロジェクト——10日間で2,500人・316時間のラベル付き音声を集めた実績と、信頼構築が鍵だったという考察
Keoni: 音声認識モデルを構築するためには、大量のラベル付きデータが必要です。つまり、テキストと音声が対応付けられた学習用データです。私たちはこれをどう集めるかを考え、コミュニティに参加を呼びかけるプラットフォーム「Kōrero Māori」を開発しました。「kōrero」は「話す」、「māori」はもちろんマオリ語を指します。このプラットフォームでは、参加者がテキストの文章を読み上げて録音を提出するという形でデータ収集を行いました。
Peter: 結果は私たちの予想を大きく上回るものでした。わずか10日間で2,500人が参加し、316時間分のラベル付き音声データが集まったのです。これは、コミュニティ主導型のプロジェクトがいかに強力であるかを示す、非常に明確な証拠です。現在はさらに多くのラベル付きデータを保有していますが、あの10日間がすべての起点でした。
Keoni: この成果の背景にあるのは、30年間にわたる信頼の蓄積です。Tāhiku Mediaは放送を通じてコミュニティと深い関係を築いてきました。私たちがデータサイエンスや自然言語処理、音声認識やテキスト読み上げといった新しい領域に踏み出すと話したとき、コミュニティの人々はそれを理解し、支援してくれました。プロジェクトの成否は技術だけでは決まりません。コミュニティと同じ目線に立ち、同じ夢を共有している組織であるかどうかが問われるのです。
Peter: 重要なのは、このプロジェクトがコミュニティ主導であったという点です。私たちはコミュニティの一員であり、部族のメンバーです。チームの多くも同様にコミュニティと深く結びついています。だからこそ、コミュニティは私たちを信頼してくれた。外部から来た組織が「あなたたちのためにやってあげる」という姿勢で進めていたら、このような結果にはならなかったでしょう。懐疑的な声は、コミュニティの内部からではなく、外部からこそ来ていました。「あれほどの量のデータをコミュニティから集めることができるはずがない」と思っていたのは、外の人たちだったのです。私たちのコミュニティは、むしろ長老たちを中心に、私たちの背中を押してくれていました。
4.3 Fāre Kōreroアプリの構造——3,500時間の半ラベル済みコーパス、話者・部族・トピックのタグ付け設計
Peter: Kōrero Māoriによる集中的なデータ収集と並行して、私たちには2014年から継続的に蓄積してきた別のコーパスがあります。それがFāre Kōreroアプリに格納された3,500時間分の半ラベル済み音声データです。「fāre」は「家」を意味し、このアプリは私たちのコンテンツ配信プラットフォームとして機能しながら、同時にデータアーカイブの役割も果たしています。
このコーパスの設計で私たちが特にこだわったのは、タグ付けの粒度です。まず話者のラベルを付け、その話者がどの部族に属するかを記録します。次にトピックのタグを付けますが、一人の話者が複数のトピックにわたって話すことが多いため、それぞれを個別に識別できるようにしています。さらに、各コンテンツにはアブストラクト(概要)を付与しており、ユーザーが内容を把握しやすくしています。これは単なるアーカイブ管理の工夫ではなく、コンテンツへのアクセス性を高めるための設計判断です。
Keoni: コンテンツの中にはテ・レオ・マオリだけで構成されるものもあれば、バイリンガルのものもあります。歌、演説、インタビュー、ニュース、儀式の記録など、多様な形式の音声が含まれており、コーパスとしての多様性を確保しています。私たちはこの30年間、マオリ語放送のコンテンツ制作と、言語データの保護という二つの使命を同時に担ってきました。放送局としての活動がそのままデータ収集の活動にもなっているという構造は、私たちの大きな強みです。データサイエンスチームは、こうして蓄積された素材を使って、コンピューターが必要とすることを実現させていく——放送部門とデータサイエンス部門は、緊密に連携した二つの流れとして機能しているのです。
5. 発音モデルと「ネイティブ音」の復元
5.1 植民地化による発音変容の観察——英語イントネーション(文末上昇調・母音短縮化)のマオリ語への浸入
Keoni: 私たちが30年間にわたってネイティブスピーカーの音声を収集・記録してきた中で、あることに気づき始めました。それは、テ・レオ・マオリの「音」そのものが変容しつつあるという現実です。英語を母語とする話者の発音様式が、第二言語としてマオリ語を学んだ話者の発音に少しずつ入り込んでいるのです。
具体的に言うと、英語では文末に向かって音が上昇するイントネーション、いわゆる「文末上昇調」がよく見られます。平叙文であっても疑問文のように聞こえるあの上がり方です。このパターンが、第二言語話者のテ・レオ・マオリにも現れ始めています。ネイティブスピーカーであれば文末を下げるところを、英語の影響を受けた話者は上げてしまう。これはテ・レオ・マオリ本来の音の姿ではありません。
もうひとつの顕著な変化が、母音の短縮化です。テ・レオ・マオリには長母音と短母音の区別があり、それが意味の違いを生む場合もあります。しかし英語の母音体系の影響を受けると、本来長く伸ばすべき音が短くなってしまう現象が起きます。たとえば「mihi」(挨拶)という言葉が「mihi」と短母音で発音されたり、「rangatira」(首長、リーダー)が「rangatira」と短縮されて聞こえたりする。こうした微細な変化が積み重なると、言語の音的な完全性が少しずつ損なわれていきます。
Peter: 英語では発音の違いによって話者の出身地や教育背景が透けて見えることがありますが、テ・レオ・マオリも同様です。ネイティブスピーカーの音声を聞けば、その人が本当にこの言語と共に育ったかどうかがわかります。世代間伝承によって自然に身についた「音」と、学習によって習得された「音」の間には、聞き分けられる差異があるのです。私たちはその差異をデータとして捉え、ネイティブの音を未来へ受け継いでいくためにどうするかを考えてきました。
5.2 発音ラベリングプラットフォームの仕組み——正誤判定・長音符号の検証・コーパス整備
Peter: こうした課題に対応するために、Keoniが発音ラベリング専用のプラットフォームを開発しました。このツールは、収集した音声データの発音が正しいかどうかを人間が判定し、そのラベルをコーパスに付与していくためのものです。
実際の操作の流れを説明すると、まず画面にマオリ語の単語と、それを読み上げた音声が表示されます。たとえば「pū」という単語——これは「湾」や「入り江」を意味する言葉ですが——その発音を聞いて、正しければ「承認」のボタンを押します。発音が正確であればそのままコーパスに取り込まれます。一方、発音に問題がある場合——たとえばノイズが混入していたり、長音符号(マクロン)が示す伸ばし音が短縮されていたりした場合——は「Kia kaha(頑張れ)」という不正解のラベルを付けます。さらに、発音は不完全だが文として意味は通じると判断できる場合は、文を編集して修正したうえでコーパスに加えることもできます。
Keoni: このプラットフォームの重要な点は、単に正誤を判定するだけでなく、そのラベル付きデータが発音モデルの学習素材として直接活用される点です。正しい発音のサンプルを大量に収集し、それをモデルに学習させることで、機械が「テ・レオ・マオリらしい音」を識別・評価できるようになっていきます。長音符号の有無は、マオリ語において意味の差異を生むこともある重要な要素であり、このプラットフォームではその検証を丁寧に行っています。
5.3 「正しい発音が文化的敬意と制度的差別の是正につながる」という仮説——父親の名前「Moana Roa」が「Munro」に変えられた経験
Peter: 発音の問題は、単なる言語学的な話にとどまりません。私が強く感じるのは、発音への敬意が文化への敬意に直結しているという点です。誰かがマオリ語の単語を正しく発音しようと努力するとき、そこにはその文化に対するリスペクトがあります。そして文化へのリスペクトは、その文化を持つ人々へのリスペクトへとつながっていく。
Keoni: この話に関連して、私が忘れられないエピソードがあります。私の父の名前は「Moana Roa」でした。しかし学校に上がると、先生たちはその名前を発音できず、いつしか彼の名前は「Munro」と呼ばれるようになったのです。名前を変えるというのは、単なる便宜上の処置ではありません。その子どもに対して「あなたの本当の名前は正しくない」と告げているに等しい行為です。言語を通じた制度的な差別は、こうした日常の小さな場面にも深く刻み込まれていました。
マオリの人々は今日もなお、住居や就職の場面をはじめとするさまざまな局面で制度的差別を経験し続けています。発音の問題はそうした差別の構造と切り離せないものです。機械が正しいマオリ語の発音を識別し、学習者の発音を評価・修正できるようになれば、言語習得の敷居が下がるだけでなく、マオリ語という言語そのものが社会の中で正当な地位を持つものとして扱われるための土台にもなり得ると、私たちは考えています。
Peter: 私たちが発音モデルの開発で目指しているのは、植民地化によって変容・損失した「ネイティブの音」を未来の話者のために取り戻すことです。今日のマオリ語だけでなく、ゆくゆくはハワイ語にも同様の取り組みを広げたいと思っています。私自身がハワイ出身であることもあり、Ōlelo Hawaiʻiとの協働プロジェクトもすでに始動しています。音を守ることは、文化そのものを守ることだと信じています。
6. 開発されたAIツールの全体像とPapareo API
6.1 音声認識エンジン(Mozilla DeepSpeechベース・量子化・約10MB)とリアルタイム発音モデル
Peter: 私たちがこれまでに構築したAIツールの全体像をお伝えします。まず音声認識エンジンについてです。私たちのテ・レオ・マオリ音声認識は、Mozillaが開発したオープンソースの音声認識エンジン「DeepSpeech」をベースにしています。ただし、そのままでは実用に耐えません。私たちが特にこだわったのは、モデルの軽量化です。量子化(quantization)という手法を用いてモデルを圧縮した結果、音響モデルのサイズはわずか約10メガバイトになりました。これが何を意味するかというと、2014年製のiPad AirやスペックをさほどひどくないノートPCといった、ごく一般的なデバイスの上でも、このモデルが高速に動作するということです。GPUは不要で、CPUだけで十分に動きます。
さらに私たちはリアルタイム発音モデルも開発しています。これは音声認識エンジンを土台にしつつ、いくつかの追加的な処理を組み合わせることで発音の正確さをリアルタイムで評価できるようにしたものです。このモデルもデバイス上のCPUで動作します。つまり、音声データをクラウドに送信することなく、端末の中だけで処理が完結するのです。これはデータ主権の観点からも非常に重要な設計判断です。
6.2 テキスト読み上げ合成(Tacotron2からFastPitchへ移行)——GPU不要・ストリーミング配信の工夫
Peter: テキスト読み上げ合成(TTS)については、数年前に最初のバージョンをTacotron2というモデルをベースに構築しました。しかしこれには大きな問題がありました。動作が非常に遅く、GPUがなければ実用的な速度で動かすことができなかったのです。汎用のコンピューターでは使い物にならないレベルでした。
そこで私たちはNVIDIAが開発したFastPitchというモデルに移行しました。このモデルも同様に量子化を施すことで、GPUを使わずにCPU上で実用的な速度での音声合成が可能になりました。さらに私たちはここにある工夫を加えています。FastPitchはリアルタイムよりもわずかに速い速度で音声を生成できるという特性があります。この特性を活かし、合成が完了した部分から順次ストリーミングで返すという仕組みを実装しました。つまり、テキスト全体の合成が終わるのを待たずに、生成された音声の冒頭部分からユーザーに届け始めることができるのです。
Peter: この仕組みがどれほどの効果をもたらすか、実際にデモでお見せします。画面には長いテキストが用意されています——Amazonのクラウド音声合成サービス「Polly」と比較してどうかを確認するために選んだ量です。Amazonほど瞬時ではありませんが、ストリーミングの仕掛けによってユーザーには体感的にずっと速く感じられます。バックエンドで少しばかりのエンジニアリング上の魔法をかけているわけですが、これにより実際のAPIとして十分使えるレベルの速度が実現できています。
6.3 品詞タガー——文法チェック・自然言語理解の基盤として
Peter: 次に品詞タガー(part-of-speech tagger)についてです。これは名詞・動詞・形容詞といった品詞の種類を自動的に識別してタグを付けるツールで、自然言語処理の基盤となる技術です。地味に聞こえるかもしれませんが、これは非常に重要な基礎工事です。文法チェッカーや自然言語理解、より高度な言語処理を実現しようとすれば、品詞の情報は欠かせません。テ・レオ・マオリ向けのそうしたツールを将来的に構築するための、必要不可欠な基盤として私たちは位置づけています。
6.4 Kaituhi転写ツールとバイリンガル音声ラベリング——コードスイッチング対応への挑戦
Peter: 私たちが開発した転写ツール「Kaituhi」についてもご紹介します。「kaituhi」はマオリ語で「書き手」や「筆記者」を意味します。このツールは音声ファイルをアップロードすると、自動的に一定の長さのチャンクに分割し、私たちの音声認識APIを使って自動的に文字起こしを行います。字幕やサブタイトルの生成を想定した設計です。
このツールで私たちが現在取り組んでいる重要な課題が、バイリンガル音声のラベリングです。画面上で赤と白に色分けされて表示されているのが、テ・レオ・マオリと英語の話者ラベルです。実際にアーカイブの音声を少し流してみると——「January 13, 1988」という英語の部分と、その後に続くマオリ語の部分が混在しているのがわかります。
Peter: なぜこれが重要かというと、テ・レオ・マオリには植民地化の歴史を背景にした「コードスイッチング」、つまりマオリ語と英語が文中で切り替わる発話様式が非常に多く見られるからです。現在の私たちの音声認識エンジンはテ・レオ・マオリ専用であり、英語の部分は無視するか、誤って転写しようとします。しかし実際の日常会話でこのツールを使おうとすれば、マオリ語だけの音声はほとんど存在しません。Siriや公共交通機関の案内、車内での音声操作といった場面を想像してみてください。そうした環境では絶対にバイリンガル対応が必要です。このKaituhi上でのラベリング作業は、次のステップとして取り組んでいるバイリンガル音声認識モデルの学習データを整備するための作業です。
6.5 Rongoアプリ(100%内製・音声のみの発音学習)とPapareo API——音声認識・合成・発音の3機能統合
Peter: 最近リリースしたばかりのアプリが「Rongo」です。「rongo」はマオリ語で「聞く」「感じる」を意味します。このアプリはテ・レオ・マオリの発音学習に特化しており、言語を「学ぶ」ことよりも「正しく話す」ことにフォーカスを当てています。言語を覚えることと、それを正確に発音することは別の課題であり、Rongoは後者に集中したツールです。音声のみを使って言語を学ぶというアプローチは、私たちが言語学習アプリの未来を考えたときにひとつのゲームチェンジャーになり得ると思っています。実際にApp Storeでの評価は非常に高く、ユーザーから好評を得ています。
Keoni: そしてこのRongoアプリは、私たちのチームが100%内製で開発したものです。以前にリリースしたFāre Kōreroアプリは外部の開発会社に依頼して制作しましたが、Rongoはバックエンドもフロントエンドも含めてすべて自分たちで作りました。チーム全員が本当に誇りを持っている仕事です。
Peter: これらのツールを統合したのが「Papareo API」です。「papareo」はマオリ語で「言語の基盤」を意味します。このAPIは、私たちが開発してきた三つの基盤的な音声技術——音声認識、音声合成、発音評価——を外部から利用可能なサービスとして提供するものです。これらはすべてデバイス上で動作させることも、APIを通じてクラウド経由で利用することも可能な設計になっています。まもなく正式ローンチを予定しています。
Keoni: ただし、このAPIへのアクセスに関しては、私たちは明確な優先順位を設けています。大きなリソースを持つ企業よりも、若くてこれから成長していくマオリの開発者に先にアクセスの機会を与えたい。そのためのアファーマティブアクション的なアプローチをAPIの提供ポリシーに組み込んでいます。ツールを作ることと、そのツールが誰の手に届くかを設計することは、私たちにとって同じくらい重要な問いです。
7. データ主権(Kaitiakitanga)の思想と実践
7.1 「データは新しい土地である」——植民地的土地収奪との歴史的類比と、データ主権を守る組織的使命
Keoni: 私たちがデータ主権にこれほど真剣に向き合う理由は、歴史の中にあります。過去180年間の植民地化の過程で、マオリは土地を奪われてきました。土地とは単なる財産ではなく、文化的アイデンティティの基盤であり、生活の糧であり、先祖から受け継いだ遺産です。その喪失がどれほど深い傷を残すかを、私たちは身をもって知っています。そして今、デジタルの時代において、データはかつての土地と同じ意味を持ち始めています。「データは新しい土地である」——これは私たちの組織の中で共有されている認識です。
だからこそ、私たちはデータ主権を組織の根幹に据えています。私たちはマオリの慈善団体として、自分たちのデータ、ソフトウェア、ツールが悪用されることを明確に禁じています。過去180年間に私たちの人々に対して何が行われてきたかを振り返れば、何が「悪用」にあたるかは自ずと明らかです。私たちは今、文化の再興と再想像の時代に生きています。その過程で同じ過ちを繰り返さないために、私たちのアプローチはデータとソフトウェアとデジタル開発全体において、アファーマティブアクションの思想に基づいています。
Peter: 「kaitiaki」とはマオリ語で「守護者」「保護者」を意味します。「tiaki」は「守る」「保護する」「世話をする」という意味を持ちます。私の役割はCTOですが、同時に私はデータのkaitiakiでもあります。チーム全員がそうです。私たちは膨大なデータの利用申請を受け取ります。承認することもあれば、断らなければならないこともある。機械学習やその他のあらゆる取り組みは、データへのアクセスなしには成り立ちません。だからこそ、私たちはそのデータを厳重に管理し、その利用を注意深く監視しています。
7.2 Kaitiakitangaライセンスの設計——公開・非公開の区分管理、オプトイン設計、AWS利用と現実的制約の折り合い
Keoni: こうした思想を具体的な形にしたのが「Kaitiakitangaライセンス」です。このライセンスは、私たちがイウィラジオとして30年間実践してきた運営方針を文書化したものです。コードを書いて一から作り上げたというよりも、長年の実践の中で積み上げてきた価値観と行動規範を明文化した、という方が正確です。
データの管理については、公開と非公開の二層構造を設けています。公開されているデータもあれば、文化的な理由から非公開とされているものもあります。たとえば、私たちは特定のコンテンツを一度放送した後、再公開するタイミングが来るまで非公開のままにしておくことがあります。これは単なる管理上の都合ではなく、マオリの文化的な信条や慣習に基づいた判断です。そうした判断の積み重ねが、コミュニティからの信頼を支えています。
Peter: アプリの設計にもKaitiakitangaの思想が反映されています。Rongoアプリを例に挙げると、音声の推論処理はすべてデバイス上で行われます。つまり、ユーザーのデータは私たちのサーバーに送信されません。もしユーザーが自分のデータを私たちと共有したいと思った場合、それはオプトイン——つまり積極的に「共有する」と選択した場合にのみ行われます。デジタル業界では長らくオプトアウト方式が主流でしたが、私たちは最初からオプトイン方式を選んでいます。Fāre Kōreroアプリを開くと最初に表示される画面もKaitiakitangaライセンスの内容であり、私たちがユーザーに対してどのような価値観で向き合っているかを最初に示す設計になっています。
Keoni: 一方で、現実的な制約との折り合いも正直にお伝えしなければなりません。私たちはAWS(Amazon Web Services)を使用しており、そのサーバーはニュージーランドではなくシドニーにあります。本来であれば、マオリのデータはアオテアロア・ニュージーランドの地に置いておきたい。しかし私たちは規模の小さな非営利組織であり、当初はS3がニュージーランド国内で利用できる同等のストレージよりもコストが低かったという現実がありました。理想と現実のギャップは存在します。しかし重要なのは、AWSを使っていたとしても、データの主権と管理権は私たちの手に残っているという点です。どのデータをどう扱うかは、常に私たちが決めています。私たちのKaitiakitangaの原則を各プロセスに適用することで、使えるリソースと技術の範囲の中で、可能な限り正しいやり方を実践しているのです。
7.3 オープンソースが先住民族データに適さない場合——コモンズの悲劇、教育格差、アクセス優先権のアファーマティブアクション的運用
Peter: オープンソースについても触れておく必要があります。私たちはオープンソースを広く活用していますし、オープンソースコミュニティへの貢献も行っています。しかし「オープンであること」が常に先住民族のデータや先住民族向けのツールにとって正しい選択かというと、そうではない場合があります。
最もシンプルな例として「コモンズの悲劇」を挙げることができます。共有された資源が適切な管理なしに使われ続けることで、最終的にその資源が枯渇・損なわれてしまうという問題です。先住民族のデータをそのまま公開の場に置くと、同様のことが起きかねません。もうひとつ、より実態に即した問題があります。それは教育格差です。多くの先住民族の人々は、MITのような高等教育機関に進む機会を持っていません。インターネットやノートPCにアクセスできない人もいます。GitHubが何かを知らない人も多い。データをGitHubに公開したところで、私たち自身のコミュニティの人々にはそのデータにアクセスする手段がないという現実があります。オープンソースにすれば自動的に「皆のもの」になるという前提は、先住民族コミュニティには当てはまらないのです。
Keoni: 実際に私たちのツールへのアクセス申請を見ると、マオリよりも非マオリからの申請の方が多い状況です。これは驚くことではありませんが、私たちはこの状況を変えたいと思っています。私たちが目指しているのは、より多くのマオリの人々がデジタルアプリや革新的なツールを作る側に回ることです。だからこそ、Papareo APIへのアクセスにおいては、これから成長しようとしている若いマオリの開発者に対して、大きなリソースを持つ企業よりも優先的にアクセスを提供するという方針を取っています。国立公園の例がよく引き合いに出されますが、かつて先住民族が何世代にもわたって守ってきた土地が、ある日「公共の資源」として管理権を別の主体に移されてしまった——そして「先住民族よりも別の誰かの方が良い守護者だ」と言われてしまった——私たちはデジタルの領域でそれを繰り返したくないのです。ツールを作ることと、そのツールが誰の利益のために使われるかを設計することは、私たちにとって切り離せない問いです。
8. ビッグテック・デジタル植民地主義への批判的考察
8.1 プラットフォーム独占の構造——iOS/Android・SNS寡占、Twitterのマクロン非対応・Google Docsの正式URL無効判定
Peter: デジタル空間における先住民族の言語と文化の存続を考えるとき、避けて通れないのがビッグテックによるプラットフォーム支配の問題です。モバイル端末の世界を見れば、実質的にiOSとAndroidの二択しかありません。完全に正確というわけではなく、Linuxなど他の選択肢も存在しますが、現実的には二つの巨大プラットフォームが市場を支配しています。ソーシャルメディアもMetaが圧倒的な存在感を持ち、そこにTikTokが加わる形で寡占状態にあります。
この構造が何を意味するかというと、もし私たちの言語や文化をデジタル空間で生き続けさせようとすれば、こうした支配的なプラットフォームの上に乗らざるを得ないということです。しかしそれは同時に、私たちの言語や文化の物語が、人種差別的なコンテンツや本来であれば配信されるべきでない映像と同じ場所に並べて置かれることを意味します。たとえば私たちのアーカイブに収められた長老の語りを、そうした有害なコンテンツが氾濫するプラットフォームに置くことは、その内容の「mana(威厳・精神的権威)」を損なうことになります。私たちはそれをしたくない。
Peter: 具体的な技術的問題も挙げます。私たちのウェブサイトのURLには、マオリ語の正書法に従いマクロン(長音符号)が含まれています。「ō」のような文字です。ところがTwitterはマクロンをサポートしていないため、私たちがFāre KōreroのURLをTwitterでシェアすると、それがPuny codeと呼ばれる形式——例えば「xn--」から始まる英数字の羅列——に自動変換されてしまいます。見た目が崩れるだけでなく、URLとして認識されにくくなり、リンクとして機能しない場合もある。マオリ語にとって本来不可欠な文字が、主要なプラットフォームで適切に扱われていないのです。
さらにGoogle Docsは、私たちの正式なURLを「無効なURL」として判定します。私たちのドメインは実在し、正当に機能しているにもかかわらず、Googleのシステムはそれを認識できない。こうした小さく見える問題の積み重ねが、デジタル空間における先住民族の言語の疎外を象徴しています。Appleもプライバシーを盾にした「囲い込み型」のエコシステムを維持しており、デフォルトのブラウザや検索エンジンをユーザーが変更するためには手動での操作が必要です。EUではこうした独占的な商慣行に対する規制が進んでいる点は、私たちとして注目しています。
8.2 Duolingoのアイルランド語発言、Lionbridgeによるハワイ語データ有償収集、Googleの派生著作物生成権限——先住民コミュニティへの影響事例
Peter: 具体的な事例をいくつか挙げます。まずDuolingoが行ったアイルランド語に関する発言についてです。彼らは「DuolingoでアイルランドGを学んでいる人の数が、ネイティブのアイルランド語話者の数を上回っている」と公言しました。Duolingoの立場からすれば、プラットフォームの影響力を示す成果として誇らしいことかもしれません。しかし先住民語話者コミュニティの視点に立ってみてください。何十年にもわたって独立のために戦い、言語を守るために闘ってきた人々にとって、これは称賛ではなく侮辱です。ネイティブスピーカーコミュニティの長年の努力を矮小化し、言語の所有権があたかも外部の企業にあるかのような印象を与えるこの発言は、非常に不適切だと私は感じます。
次に、Lionbridgeというデータ収集会社が行ったことです。彼らは先住民族のコミュニティに対して、母語で文章を読み上げて録音するという作業に対して45ドル(米ドル)の時給を提示しました。対象言語にはハワイ語やマオリ語も含まれていました。私たちはこの動きを快く思いませんでした。なぜか。ハワイの現状を考えてみてください。ハワイアンの人々の中には、テント暮らしをしながら二つの仕事を掛け持ちしている人たちがいます。生活費が非常に高いハワイで生き延びるために必死な状況にある人にとって、45ドルという金額は魅力的に映るかもしれません。しかし、その対価として自分たちの言語データを差し出すことで、将来的にLionbridgeや彼らのクライアントがそのデータから利益を得る可能性があります。そしてその利益がハワイのコミュニティに還元されることは、まずありません。誰がこの収集を後援しているのか、最終的に何のためにデータが使われるのかも不明確なまま、言語が切り出されていくのです。
Peter: Googleの利用規約についても触れておきます。Googleの規約には、ユーザーがプラットフォームに投稿したコンテンツに基づいて「派生著作物を作成する権利」が明記されています。つまり、あなたのデータを使って別の何かを作ることができる権利をGoogleは持っているということです。サービスは「無料」に見えますが、実際にはデータという対価を支払っているのです。規約を読むと、Googleはこの点についてかなり明け透けに書いていて、その意味では正直とも言えますが、多くのユーザーはこの規約の含意を理解しないまま同意をクリックしています。
Keoni: Googleの翻訳精度の問題も見過ごせません。「Kia kaha wāhine」というフレーズがあります。「女性よ、強くあれ」という意味です。しかしGoogle翻訳はこれを「Let white woman be strong(白人女性よ、強くあれ)」と誤訳します。マオリ語で「mā」は「白い」という意味も持つため、「wāhine māori」のような文脈と混同された結果です。こうした誤訳は笑い話として片付けられるものではありません。Googleがテ・レオ・マオリの翻訳モデルを、言語の完全性を維持することへの真剣なコミットメントなしにリリースしているという現実を示しています。私たちの組織のミッションはテ・レオ・マオリの復興と世代間伝承であり、誤った言語の普及は言語そのものをさらに損なうリスクをはらんでいます。だからこそ私たちは、自分たちが作るものすべてにおいて文法の正確さと発音の正確さを最優先事項としているのです。
8.3 「先住民語を大企業に収益化させない」という原則と、EUの規制動向・独自音声エンジン統合への期待
Peter: ここで私たちの立場を明確にしておきたいと思います。GoogleやAWS、Azureといったプラットフォームでは、すでに多くの言語の音声サービスが提供されており、それによって多くの素晴らしい技術が実現されていることは認めます。問題は、こうしたサービスにテ・レオ・マオリが加わるべきかどうかです。私たちの答えは「ノー」です。
理由は明確です。もしGoogleが1時間あたり10セントでテ・レオ・マオリの音声認識サービスを提供するとなれば、Googleは先住民族の言語から直接利益を得ることになります。植民地化によって絶滅寸前にまで追い込まれた言語から、非先住民族の企業が収益を上げるという構造を、なぜ私たちが認めなければならないのか。それはまったく筋が通りません。私たちが思い描く未来は、ビッグテックがあらゆるサービスを提供するという一極集中の構造ではなく、コミュニティ自身が自分たちのプラットフォームとソリューションを主導できる形です。
Peter: Tāhiku Mediaは約30人の非営利組織です。それでも今日ご紹介したように、適切なスキルセットと情熱があれば、大きな外部の力に「救われる」ことなく、実質的なインパクトを生み出すことができます。ただ、将来的にSiriやAlexaやGoogleアシスタントといった音声アシスタントが、テ・レオ・マオリに対応しなければならない日は来るかもしれません。その際に私たちが期待しているモデルは、AppleやGoogleが独自に先住民族語モデルを作るのではなく、私たちのような組織が開発した音声エンジンをプラグインとして接続できる仕組みです。EUでは現在、特定のプラットフォームに縛られない形でデフォルトブラウザや検索エンジンを選択できるよう規制が進んでいます。同様の思想で、音声エンジンについても外部から独自のものを接続できるような仕組みが実現すれば、私たちのような組織にとって大きな可能性が開けます。
Keoni: もし何らかの形でビッグテックと連携することがあるとすれば、それは先住民族のデータから生み出された収益の一部がコミュニティに還元される仕組みが前提条件です。私はディズニーが送り続けた使用停止通知の話をよく思い出します——「aloha poke」という店名を使ったハワイアンのレストランオーナーたちに対してです。「aloha」はハワイ語で、「poke」はハワイアンの料理の名前、どちらも先住民族の言語・文化に根ざした言葉です。それを企業がブランド化し、ネイティブハワイアンに対して使用をやめるよう要求した。この話はデジタルの領域でも同じ形で繰り返されようとしています。私たちはそれを許さないために、自分たちのデータと技術を自分たちで管理し続けています。
9. 社会実装・教育・就労への波及と他コミュニティとの連携
9.1 Rāhoparaとの連携による発音評価自動化、カパハカ動画の機械処理への展望、マオリ語翻訳者の雇用維持との両立
Peter: 私たちが開発してきたツールは、すでに実際の社会の場で使われ始めています。その一例がRāhoparaというマオリ語オンライン学習サービスとの連携です。このサービスは一人の人物が運営するウェブベースのマオリ語学習ツールですが、私たちの音声認識エンジンを組み込むことで、学習者が特定のフレーズを発音した際にその正確さを自動的に評価できる仕組みを実現しています。たとえば「kia ora」や「nō hea koe」といった基本的なフレーズを学習者が読み上げると、機械がその発音を評価します。一人の運営者がすべての学習者の発音を個別に確認することはスケールの面で不可能ですが、音声認識による自動評価を導入することで、より基礎的な発音練習の部分を機械に任せ、人間はより高度で複雑な評価に集中できるようになります。これはまさに、AIが人間の教育活動を補完・拡張するという意味でのAI for Goodの実例だと思っています。
Keoni: 一方で、私たちが慎重に考え続けているのが、マオリ語翻訳者の雇用との関係です。アオテアロア・ニュージーランドには、マオリ語の翻訳を職業とする多くの人々がいます。彼らはマオリ経済の重要な担い手です。私たちが翻訳の自動化を突き詰めることで、彼らの仕事が失われるような状況は作りたくない。翻訳の精度や文化的な適切さを担保するためにも、人間の翻訳者の存在は依然として不可欠です。私たちのツールが目指すのは翻訳者を代替することではなく、彼らが本当に集中すべき高度な作業に時間とエネルギーを向けられるよう支援することです。雇用を守ることと技術を進めることは、私たちにとって矛盾しない問いとして同時に考え続けなければなりません。
Peter: また、私たちが将来的な展望として話し合っているのが、カパハカのライブストリーミング映像の機械処理への応用です。カパハカのコンペティションは三日間にわたって行われ、一日あたり最大12時間のライブストリーミングを行います。コンペティション終了後には、膨大な数のオンデマンド動画を切り出し、タイトルを付け、アップロードするという作業が待っています。このプロセスを一部でも自動化できれば、ライブストリーミング中に人間がより重要な仕事に集中できるようになります。ただし、これはまだ取り組みの優先順位リストに載っている段階であり、私たちのチームには今すでに十分すぎるほどのタスクがあります。
9.2 若きマオリ開発者の育成——APIアクセス優先提供・ロールモデル効果(ライブ中にコードを書く姿を見た子どもたちへの影響)
Keoni: 技術そのものを作ることと並んで、私たちが強く意識しているのは、次の世代のマオリのエンジニアやデータサイエンティストを育てるという使命です。テック業界を見渡すと、マオリや太平洋島嶼系の人材はほとんどいません。いたとしてもごく少数です。この現状を変えるために、私たちは大学のマオリ人学生に対してデータサイエンスやソフトウェア開発のサマーポジションを提供してきました。若い人々に実際の現場で学ぶ機会を作ることが、長期的な人材パイプラインを育てる第一歩だと考えています。
Peter: 象徴的な出来事を一つご紹介します。あるカパハカのライブストリーミング中に、配信システムに不具合が発生しました。ライブ映像が流れているその脇で、私は床に寝転がりながらノートPCでコードを書いて問題を修正していました。そのとき、二人の若いマオリの子どもたちが私のそばに来て、画面をじっと見ていました。「あの人、コード書いてる。すごい」と言っていたのを今でも覚えています。彼らはコードというものを知っていて、それをすごいと思っていた。それだけで私にとっては十分でした。ロールモデルとは、壇上でスピーチをする人だけではありません。日常の仕事の場で自分の姿を見せることで、「自分もああなれるかもしれない」という感覚を子どもたちに届けることができる。教育システムもITリテラシーという意味では以前より良くなっていますが、マオリや太平洋島嶼系のロールモデルが現場にいることの意味は、それとは別の次元で重要です。
Keoni: 私たちが最近採用した4人のデータサイエンティストや開発者にも、同じことを期待しています。彼ら自身がコミュニティの中でメンターになっていってほしい。テック人材というと特定のデモグラフィックのイメージがいまだに強いですが、より多くのマオリや太平洋島嶼系の人々がその場に立つことで、次の世代が「あれは自分にも関係のある世界だ」と感じられるようになっていく。Papareo APIへのアクセスを若い上り調子のマオリ開発者に優先的に提供するという方針も、この考えの延長線上にあります。大きなリソースを持つ企業はいつでもアクセスできますが、まだ成長途上にある若い開発者が最初にアクセスできることの方が、長期的なコミュニティへのインパクトははるかに大きい。
9.3 ダイアスポラへのリーチ(平均視聴7.5分)と他先住民コミュニティ(中米ラジオ局・ハワイ語プロジェクト)との協働姿勢
Keoni: 私たちのデジタルプラットフォームのユーザーデータを見ると、コンテンツへの関与の深さを示す数字があります。ユーザーが私たちのプラットフォームに滞在する平均時間は7.5分です。デジタルコンテンツ消費の世界では、これは非常に長い数字です。ユーザーは目的を持って私たちのプラットフォームを訪れており、コンテンツに深く関与していることがわかります。この数字の背景には、伝統的居住地を離れて都市部や海外に暮らすコミュニティメンバーが、故郷とのつながりを求めてアクセスしてくるという現実があります。マオリ語のコンテンツに触れることは、単なる情報収集ではなく、アイデンティティとの再接続であり、帰属意識を維持するための行為でもあります。部族構成員の大多数が伝統的居住地の外に住む中、デジタルプラットフォームはコミュニティが物理的な距離を超えて言語と文化を共有するための接点として機能しています。オーストラリアに在住するマオリの人々も含め、このコンテンツは海を越えて届いています。
Peter: 他の先住民族コミュニティとの関係についても触れておきたいと思います。私たちは他のコミュニティから接触を受けることも多く、常に協働の機会を歓迎しています。先住民族同士が一緒に仕事をする際の大きな利点は、多くのことを説明しなくてよいという点です。植民地化の経験、データ主権への感覚、コミュニティに対する責任感——こうした前提を共有しているため、すぐに本題に入れます。また私たちには独自のプロトコルや相互の関わり方があり、それは西洋的なビジネス慣行とは異なります。そのこと自体を誇りに思っています。
Keoni: ただし、各コミュニティの状況はそれぞれ異なります。言語の衰退の程度も、文化的衰退の深さも、植民地化の形も、コミュニティによって異なる。だからこそ、私たちは「このやり方でやるべきだ」と他のコミュニティに押しつけることをしません。それぞれが自分たちのいる場所から始め、できることをやる。それが基本的なスタンスです。数ヶ月前には、中米の先住民族の複数の部族が新たにラジオ局を立ち上げたというニュースを目にしました。ラジオは今日でも依然として有効な手段です。自分たちの言語でコミュニティに届けるための媒体として機能するだけでなく、そこで蓄積されるコンテンツは将来的な言語リソースとしても価値を持ちます。まずは語ること、物語を記録すること——それが出発点です。
Peter: ハワイ語については、私自身がハワイ出身であることもあり、特別な思いがあります。Ōlelo Hawaiʻiとの協働プロジェクトはすでに始動しており、テ・レオ・マオリで実現しつつあることをハワイ語でも実現したいと考えています。さらに将来的には、他の太平洋島嶼系の言語コミュニティが同様のことをしたいと思うなら、私たちはできる限りサポートしたいと思っています。ただし、それはあくまでも各コミュニティ自身の判断と意思に基づくものでなければなりません。私たちが他の先住民族の人々のために何をすべきかを決める立場にはありません。望まれるなら支援する、それが私たちの姿勢です。
10. 意思決定・信頼・コミュニティガバナンス
10.1 30年の信頼が10日間での大規模参加を可能にした経緯と「一瞬のミスで信頼が壊れる」という組織的教訓
Peter: Kōrero Māoriプロジェクトで10日間に2,500人が参加し、316時間分のラベル付き音声データが集まったという事実は、技術の力によるものではありません。その背景にあるのは、Tāhiku Mediaが30年間にわたってコミュニティとの間に積み上げてきた信頼です。私がこの組織に関わるようになって6年から7年になりますが、組織が30年かけて築いてきたものの重さは、日々の仕事の中で強く感じています。コミュニティの人々が私たちのプロジェクトに参加してくれたのは、私たちが「データサイエンスをやっている組織」だからではありません。何十年もかけて、放送を通じてともに生き、ともに記録し、ともに語ってきた組織だからです。
Keoni: コーパス収集のプロジェクトを始めたとき、懐疑的な声はコミュニティの外から来ていました。「あれほどの量のデータをコミュニティから集めることなどできないだろう」という声です。しかし私たちのコミュニティの内部では、そうした懐疑はありませんでした。長老たちが私たちの背中を押してくれていました。30年間の信頼の蓄積がなければ、このような短期間でこれほどの規模の参加は実現しなかったでしょう。外部の組織がコミュニティに「あなたたちのためにやってあげる」という姿勢で入ってきても、同じ結果は得られなかったはずです。
Peter: しかし同時に、私たちが強く意識していることがあります。信頼とは、築くのに何十年もかかるが、失うのは一瞬だということです。一つのミス、一つの判断の誤り、一つの不誠実な行為で、30年分の信頼が崩れてしまうことがある。だからこそ私たちは、データの扱い方や意思決定において常に慎重であり続けます。「正しいことをしているか、あるいは自分たちが知る限り最善のことをしているか」を常に問い続けることが、この仕事の根幹にあります。完璧ではないかもしれません。しかし誠実であり続けること、そしてコミュニティに対して説明責任を果たし続けることが、私たちが守るべき最も大切なものだと思っています。
10.2 Kaitiakitangaフレームワークの非明文的運用——世代間チーム(10代〜80代)による対話的合意形成とマオリ的意思決定の特徴
Keoni: 私たちの組織の特徴のひとつに、チームの世代的な広がりがあります。現在チームの最年長メンバーは80代であり、最年少は10代です。その間のあらゆる年代の人々がチームに在籍しており、それぞれが異なる人生経験と異なる視点を持っています。何か決断が必要なとき、常に誰かに相談できる相手がいます。マオリの文化において、すべては対話の中にあります。議論し、話し合い、可能な限り合意に向かって進んでいく——それが私たちの意思決定の基本的な姿勢です。
Peter: Kaitiakitangaのフレームワークについてよく聞かれるのが、「どのように文書化されているのか」という質問です。正直に言えば、すべてをコードや規則として明文化しているわけではありません。それは私たちの頭の中で処理されている内面化されたフレームワークです。何をオープンソース化するか、データをどう管理するか、どのような申請を承認してどれを断るか——そうした判断は、明文化されたルールに従うというよりも、私たちがそれぞれ先住民族コミュニティの中で育ち、生きてきた経験から染み込んでいる価値観と原則に基づいています。Peterが複数の委員会に関わっていることも、こうした判断力を支えています。
Keoni: ただし、「明文化されていない」ということは「恣意的だ」ということではありません。私たちには確固たる原則と価値観があります。それを対話を通じて適用しているのです。マオリの文化における礼儀作法や合意形成の方法は、西洋的なそれとは異なります。たとえば、西洋的な文脈での「丁寧さ」が、マオリ的な文脈では必ずしも丁寧には映らないこともあります。逆も然りです。意思決定はコードに従うものではなく、対話を通じて形作られるものです。コミュニティの中で何が受け入れられ、何が恐れや不安を生み、何がリスクをはらむかを継続的に話し合いながら、動く標的に向かって判断を重ねていく。それが私たちのガバナンスの実態です。
Peter: また私たちが意識しているのは、保守的であることと慎重であることの違いです。私たちは時として保守的な選択をしますが、それは西洋的な意味での保守主義とは異なります。私たちには私たちなりの礼節の形があり、決断の作法があります。30年間にわたって培ってきた信頼と説明責任の重みを背負ったうえで、私たちは意思決定において「慎重であること」と「前に進むこと」のバランスを取り続けています。
10.3 外部委託(Dragonfly社)から内製化への移行——言語への情熱の欠如という問題意識と、ビッグテックとのロイヤリティ還元条件付き連携の可能性
Peter: 私たちのAIプロジェクトが始まった当初、社内にデータサイエンティストはいませんでした。そのため、ニュージーランドのDragonflyというデータサイエンス専門の組織にサブコントラクターとして入ってもらい、初期の機械学習・データサイエンスの作業を担ってもらいました。しかし組織として成長していく中で、内製化への移行を強く意識するようになりました。
その理由は単なるコストの問題ではありません。外部の請負業者に仕事を出すとき、彼らは私たちのプロジェクトだけを扱っているわけではありません。複数のクライアントの仕事を並行して担当しています。そしてそのデータサイエンティストが、テ・レオ・マオリという言語そのものに対して私たちと同じ情熱を持っているかというと、それは保証できません。データを「データ」として扱うことと、それが自分たちの文化の根幹をなす言語の記録であるという認識を持ちながら扱うこととでは、仕事の質と姿勢に本質的な差が生まれます。内製チームは、言語そのものへの深い関心とコミュニティへの帰属意識を持って仕事をします。それは外部委託では代替できないものです。
Keoni: Fāre Kōreroアプリは外部の開発会社に依頼して制作しましたが、これはアプリ開発者が社内にいなかったという現実的な理由からです。コンセプトや設計は私たちが主導し、バックエンドも私たちが構築しましたが、アプリの実装部分は外部に任せました。しかし次のRongoアプリは100%内製で開発しました。チーム全員が誇りを持っている仕事です。これが内製化を進めてきた成果のひとつです。
Peter: 将来的なビッグテックとの連携の可能性についても、私たちなりの考えがあります。SiriやAlexaやGoogleアシスタントが、いずれテ・レオ・マオリに対応しなければならない日は来るでしょう。その際に私たちが望ましいと考えるモデルは、ビッグテックが私たちのデータをもとに独自モデルを作るのではなく、私たちが開発した音声エンジンを彼らのプラットフォームに接続できる仕組みです。そして仮に彼らが先住民族のデータから利益を生み出すとすれば、その利益の一部がコミュニティに還元される仕組みが不可欠です。ハワイを見てください。先住民族の人々がテント暮らしをしながら二つの仕事を掛け持ちしているという現実がある。世界にこれだけの富があり、これだけ素晴らしい技術があるにもかかわらず、基本的な人権の水準すら満たされていない状況があります。データから生まれた利益がコミュニティに届かない仕組みは、その状況をさらに悪化させるだけです。連携の条件は、ロイヤリティの還元——これは私たちにとって交渉の余地のない前提条件です。
11. 残された課題・将来展望と締めくくり
11.1 バイリンガル音声認識・合成の構築(最優先課題)、ハワイ語・太平洋島嶼諸語への展開
Peter: 私たちがこれまでに達成してきたことは多くありますが、まだやり残していることも明確にあります。最も優先度の高い技術的課題は、バイリンガルの音声認識と音声合成の構築です。現在の私たちの音声認識エンジンはテ・レオ・マオリ専用であり、英語が混在するコードスイッチング音声に対しては十分に対応できていません。しかし実際のマオリ語話者の日常会話を考えると、純粋にテ・レオ・マオリだけで構成される発話はほとんどありません。植民地化の歴史を背景に、マオリ語と英語が文中で切り替わるコードスイッチングは、話者の日常に深く根ざした言語使用のパターンです。
これが実用上どれほど重要かを理解するために、日常のシーンを想像してみてください。SiriやAlexaに話しかけるとき、公共交通機関の案内を聞くとき、車の中で音声操作をするとき——そうした場面では、話者はマオリ語と英語を自然に混ぜながら話します。その音声をツールが正確に認識できなければ、いくら高精度なマオリ語専用エンジンを持っていても、実生活での有用性は大きく限られてしまいます。発音モデルを除けば、私たちが開発してきたほぼすべてのツールがバイリンガル対応を必要としています。これは単なる技術的な拡張ではなく、ツールが日常の道具として機能するための前提条件です。
Peter: ハワイ語への展開については、私自身がハワイ出身であることもあり、個人的な思いとして強く持っています。テ・レオ・マオリで私たちが実現しつつあることを、ハワイ語でも同様に実現したい。Ōlelo Hawaiʻiとの協働プロジェクトはすでに始動しており、その方向に向けて歩み始めています。さらに将来的には、他の太平洋島嶼系の言語コミュニティが同じことを望むなら、私たちはできる限り支援したいと考えています。ただしそれは、各コミュニティ自身の意思と判断に基づくものでなければならない。何をすべきかを外から決める立場に私たちはありません。
11.2 ネイティブスピーカーの高齢化と時間との闘い(平均年齢55歳以上)——「失われた言葉は文化の喪失」という認識
Keoni: 私たちが常に意識しているのは、時間との闘いです。テ・レオ・マオリのネイティブスピーカーの平均年齢は55歳以上です。つまり、私たちが最も貴重な言語資源として頼りにしている話者の多くが、すでに高齢の域にあります。マオリの人々は平均的に西洋人よりも10年早く亡くなるという現実もあります。ネイティブスピーカーを一人失うたびに、その人が体現していた言語の知識と文化の記憶が失われます。それは取り返しのつかない喪失です。
Keoni: 一つの言葉が失われるとき、私たちは文化の一部を失います。一人のネイティブスピーカーが亡くなるとき、私たちは言語と文化の膨大なリポジトリを失います。そしてそれは二度と取り戻すことができません。マオリには「kua rongo te ao, kua rongo te pō」——世界が聞いた、夜が聞いた——という感覚があります。長老たちが語るとき、彼らは自分たちの孫の世代に向けて語っています。ある山について、ある川について、ある海岸について語るとき、そこには単なる地理的情報以上のものが含まれています。その土地との関係性、歴史、精神的なつながり——それらすべてが言語を通じて伝えられます。その声が録音されず、記録されないまま消えていけば、次の世代はその知識に触れる機会を永遠に失います。
Peter: だからこそ、私たちにとって最も重要な優先事項のひとつは、今もその言語を生きている人々——故郷に暮らすネイティブスピーカーたち——との関わりをさらに深めることです。どれだけ優れたAIツールを作ったとしても、それが反映するのは最終的にネイティブスピーカーの口から出る言葉の現実でなければなりません。伝統的居住地に暮らす人々は生きたリソースであり、私たちがAIの取り組みで達成することが真に意味を持つためには、そのリソースとの接続を断ち切ってはならない。AIの成果とネイティブスピーカーの現実を一致させ続けることが、私たちの活動の根幹にある姿勢です。
11.3 「生物の多様性」としての言語多様性——一つの巨大モデルが支配する未来への批判と、資金・人材拡充への訴え
Peter: 最後に、より大きな視点からAIと言語の未来について私の考えをお伝えしたいと思います。現在のAI業界では、一つの巨大な言語モデルがすべてのデータをもとに訓練され、すべての問いに答えるという方向性が主流になりつつあります。しかし地球上のどこを見ても、一つの生物が他のすべてを支配し続けるという状況が長く続いたことはありません。生態系というものは多様性によって成り立っています。ある生物が一時的に優勢になることはあっても、やがて食料が尽き、他の種が台頭してくる。私たちが見ているのは多様性であり、進化であり、多くの存在が互いに積み重なりながら機能するエコシステムです。
AIの世界も同じであるべきだと私は考えます。一つの巨大モデルがすべての言語・すべての文化・すべての知識を飲み込んで支配するという未来は、自然の摂理に反しています。テ・レオ・マオリのような言語のために専用に構築されたモデル、そのコミュニティに根ざした組織が管理するモデル——そうした多様なモデルが共存するエコシステムの中にこそ、言語と文化の多様性が生き続ける可能性があると思っています。
Keoni: 私たちのプロバーブ(諺)に「kāore te kūmara e kōrero ana mō tōna ake reka」という言葉があります——クマラ(さつまいも)は自分の甘さを自慢しない、という意味です。私たちはこれまで成し遂げてきたことを誇るよりも、まだやるべきことを見つめ続けています。しかし率直に言えば、私たちは常に資金を必要としています。慈善的な寄付、フィランソロピー、あらゆる支援の機会を探しています。チームを拡大したい。今の私たちは約30人の非営利組織であり、これだけの規模の仕事をしながら全員が十分な睡眠を取れているとは言いがたい状況です。スケールするためには人材が必要であり、人材を確保するためにはリソースが必要です。
Keoni: 私たちには「kāore e taea te kore e mahia」——やらないことはできない——という感覚があります。やるべきことはわかっています。それは常にもっと多くのことをすることです。なぜなら私たちは時間と闘っているからです。マオリの人々は平均的に10年早く亡くなる。ネイティブスピーカーの平均年齢は55歳以上。言葉が失われるたびに文化が失われる。これだけのことを前にして、立ち止まる理由はありません。私たちには「come too far not to go further(ここまで来たなら、さらに先へ)」という感覚があります。やってきたことが多ければ多いほど、やるべきことも見えてくる。その循環の中で、私たちは前に進み続けます。
Jennifer: Keoniさん、Peterさん、本当に素晴らしいセッションでした。技術への情熱と、文化・歴史・コミュニティへの深い愛情が一体となった取り組みで、非常に感動しました。AIとアイデンティティ、テクノロジーと人間性の核心が交わるこのテーマを、これほど具体的かつ誠実に語っていただいたことに、心から感謝します。Tāhiku Mediaの今後のますますのご発展を、AI for Goodコミュニティ全体として応援しています。Aloha、そしてKia ora。
Peter: Aloha。ありがとうございました。
Keoni: Kia ora。ありがとうございました。
