※本記事は、ACM(Association for Computing Machinery)主催のIberoamerican Heritage Monthパネルディスカッションの内容を基に作成されています。なお、本記事の内容は登壇者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈については、オリジナルの動画(https://www.youtube.com/watch?v=fs7YQX9GqU0 )をご覧いただくことをお勧めいたします。 ACMは約10万人の会員を持つ世界最大のコンピューティング学会で、産業界、学術界、政府機関のコンピューティング専門家、教育者、研究者を結ぶ組織です。 ACMの詳細情報は以下でご確認いただけます: Website: https://acm.org Twitter: https://twitter.com/TheOfficialACM Facebook: https://facebook.com/ACM-Association-for-Computing-Machinery-17927643151/timeline LinkedIn: https://linkedin.com/company/association-for-computing-machinery
1. イベント概要
1.1. 開催概要
Cristiano Maciel(主催者):ACMのダイバーシティ・公平性・包摂性(DEI)評議会のメンバーとして、また、ブラジル・コンピューティング協会(SBC)の副会長として、Iberoamerican Heritage Month、別名Hispanic Heritage Monthを記念したこのパネルディスカッションを企画しました。ACMは190カ国、約500万人のコンピューティング専門家が所属する世界最古のコンピューティング学会です。このイベントは2024年10月23日の午後5時(EST)に開催され、「言語は包摂か排除か:人工知能は違いを生み出せるか?」をテーマに議論を行いました。
Indira Guzman(モデレーター):このパネルディスカッションでは、科学の歴史における言語バイアスの問題を取り上げます。過去400年にわたり、英語は科学の主要言語として台頭してきました。研究者たちは、自国語で研究を発表するか、その時代の科学の主要言語で発表するかという選択を迫られてきました。この二者択一は、どちらを選んでもバイアスを生み出します。母国語での発表は翻訳がなければ他国の研究者にアクセスできず、一方で主要言語での発表は、研究者の言語能力や利用可能なリソースによって制限されます。このような背景のもと、現代のAI技術がこれらの課題にどのように貢献できるかを議論したいと思います。
1.2. 登壇者プロフィール
Indira Guzman(モデレーター):ウクライナのドネツク国立工科大学でコンピュータサイエンス工学の学士号と修士号を取得し、その後シラキュース大学で情報科学・技術の博士号を取得しました。銀行業界でIT管理とコンプライアンスに10年の実務経験を持ち、オンライン博士課程プログラムでの16年の教育・管理経験があります。フルブライト奨学生として、Academy of Management、ACM SIGMIS Computers and People Research、ISACA、Association of Information Systemsの会員を務めています。現在は、Latin American and Caribbean Chapter of the Association of Information Systemsの2021-2023年度会長を務めています。
Nayat Sanchez-Pi:ヨーロッパとラテンアメリカで国際的なキャリアを積んできたAIの専門家です。現在、フランス国立デジタル科学技術研究所(Inria)のチリセンター所長として、フランス・チリ間、およびヨーロッパ・ラテンアメリカ間のデジタル科学とAIの協力を推進しています。マドリッド・カルロス3世大学でAIの博士号を取得し、特別博士賞を受賞しました。倫理的で責任あるAIの開発に注力し、UNESCO、世界経済フォーラム、Global Commission on Responsible AI in the Military Domainなどの組織で専門家として貢献しています。
Franci Suni:リマ大学の人工知能研究所の所長を務めています。主な研究分野は感情コンピューティングで、人間の感情を検出するAIアルゴリズムの開発に取り組んでいます。これによりソフトウェアサービスの適応性向上を目指しています。また、ソーシャルロボットを活用した人間とメディアのインタラクション研究や、行動変容を促す説得的技術の研究も行っています。
Vinicius Pereira:リオデジャネイロ連邦大学で文学研究の博士号と修士号を取得し、ノッティンガム大学で博士研究員を務めました。現在はマットグロッソ連邦大学の文学部准教授として、言語研究の大学院プログラムの研究指導を行っています。SEMIC(現代記号論)研究グループのリーダーであり、DAVI(データ・ビヨンド・ライフ)研究グループのメンバーです。文学、メディア、テクノロジー、電子/デジタル文学、デジタルアート、ヒューマンコンピュータインタラクション、記号論が主な研究分野です。
2. 言語バリアの課題
2.1. 研究発表における具体例
Vinicius Pereira:ブラジルの研究者の多くは母語のポルトガル語のみを使用するため、英語での研究発表に大きな困難を抱えています。特に問題となるのが論文投稿前の準備段階です。英語に不慣れな研究者は翻訳者やエディターを雇う必要がありますが、この費用は公的資金から支出されることが多く、倫理的な問題を引き起こしています。ブラジルの研究者Luis Paulo Kval氏は、自国の納税者の資金を使って、その納税者が読めない言語で論文を発表することの是非について研究を進めています。さらに、投稿後の査読でも「ネイティブスピーカーによる校正が必要」という指摘を受けることが頻繁にあります。しかし、言語学者のDavid Crystal氏が指摘するように、現代の英語使用者の大半は非ネイティブスピーカーです。このような状況で、ネイティブスピーカーによる校正を必須とすることの妥当性が問われています。
Franci Suni:研究発表における言語の壁は、私の経験から主に3つあります。最も深刻なのは、影響力の高い学術誌のほとんどが英語での投稿を要求していることです。非英語話者の研究者は、十分に習熟していない言語で論文を書かなければなりません。次に大きな問題は、英語でのプレゼンテーションにおける自信の欠如です。私自身、アルゼンチンでの初めての英語発表は指導教官のサポートがあって何とか乗り切れましたが、多くの若手研究者はそのような支援を得られません。つい先月も、ある学生が国際会議での発表を前に研究室を訪れ、「先生、代わりに発表してもらえませんか」と不安を訴えてきました。これは若手研究者が直面する典型的な課題の一例です。
2.2. 教育リソースの制限
Franci Suni:最近の研究で痛感するのは、最新の論文や技術資料のほとんどが英語でしか読めないという現実です。私の研究所でAIの新技術を導入しようとするたびに、この壁にぶつかります。非英語圏の研究者や学生たちが、貴重な情報にアクセスできないというのは深刻な問題だと感じています。
Nayat Sanchez-Pi:私が特に懸念しているのは、これが単なる言語の問題を超えて、デジタルデバイドを助長していることです。ラテンアメリカの研究コミュニティでは、最新のAIサービスや技術革新から取り残されている人々が大勢います。英語が使えないというだけで、技術の恩恵を受けられないという現状は、早急に解決すべき課題だと考えています。
Vinicius Pereira:私たちの地域の言語事情はさらに複雑です。例えば、ブラジルやボリビアでは、公用語の他にも、先住民の言語や移民たちが持ち込んだ言語が日常的に使われています。そんな多言語社会で、教育リソースが英語一辺倒というのは、多くのコミュニティを学術の世界から締め出してしまっているようで心が痛みます。
3. AIによる解決策
3.1. 言語翻訳ツール
Nayat Sanchez-Pi:私たちが今日見ているような高性能な翻訳ツールは、AIの可能性を実感させてくれます。以前はGoogle翻訳程度しかありませんでしたが、今では様々な場面で高度な翻訳ツールが活用されています。これらのツールは単なる翻訳機能を超えて、異文化間の架け橋としても機能しているんですよ。
Franci Suni:AIによる自動翻訳技術の進歩には目を見張るものがありますね。以前は技術文書の翻訳で意味が通じないことが多かったのですが、最近は本当に精度が上がっています。特に印象的なのはYouTubeの同時通訳機能です。私が実際に体験したのですが、スペイン語で話しかけると英語を経由して中国語に変換され、相手の中国語の返答も同様に翻訳されるんです。これは本当に革新的だと思います。
Indira Guzman:そうですね。ただ、私が思い描く理想はもう少し先にあります。例えば、国際会議での発表をリアルタイムで完璧に翻訳できるシステムです。録画を見返す時だけでなく、発表中にも全ての参加者が自分の母語で内容を理解できる。そんな時代はもうすぐそこまで来ているように感じます。まだ完璧ではありませんが、確実にその方向に進んでいますよね。
3.2. 言語学習支援
Nayat Sanchez-Pi:AIの言語学習ツールって、本当に素晴らしいですよ。実は私の母が、ブラジルに来た時にこれを使ったんです。高齢者向けに配慮された学習方法で、母の pace に合わせて進められたのが良かったですね。個人の特性に合わせてカスタマイズできるというのは、大きな利点だと感じています。
Franci Suni:私たちの研究所では、もう一歩進んだ取り組みをしているんです。AIで学習者の感情を読み取って、それに応じて学習内容を調整するシステムを開発しています。例えば、「ここで躓いているな」と感じたら少し易しい内容に切り替えたり、逆に「調子が出てきた!」という時には、より挑戦的な課題を出したり。そういった細やかな対応が可能になってきているんです。
Vinicius Pereira:言語学者の立場から一言付け加えさせていただくと、AIの言語学習には地域性への配慮が必要だと考えています。例えば、ポルトガル語一つとっても、リスボン、サンパウロ、リオでは異なる特徴があるんですよ。AIがこういった言語の多様性を理解し、それを学習プロセスに反映できれば、より実践的な言語習得が可能になるはずです。
3.3. バイアス検出・軽減
Nayat Sanchez-Pi:AIのバイアス問題について、私たちの研究チームでは具体的な対策を進めているんです。一番の課題は、例えばラテンアメリカの少数言語のように、十分なデータがない言語への対応ですね。今、私たちが力を入れているのは、多様な背景を持つ人々のデータを公平に集めることです。また、興味深い技術として、モデルが偏った判断をしそうになると、それを自動的に抑制する仕組みも開発しています。
Franci Suni:そうですね。私の研究所でも似たような課題に直面しています。例えば、フェイクニュースの検出モデルを作る時に困るのが、ほとんどのデータが英語だということ。これをスペイン語に応用しようとすると、様々なバイアスが出てきてしまうんです。まだまだ改善の余地がありますね。
Vinicius Pereira:私たち言語学者の立場からすると、大規模言語モデルの多様性確保は本当に重要なテーマです。大学には豊富な言語データがあるのですが、残念ながらそのままではAI学習には使えません。もっと体系的に、各地域の言語の特徴を反映したデータ収集が必要だと感じています。
4.1. 機関レベルの取り組み
Vinicius Pereira:言語政策って、最近大きく変わってきているんですよ。以前は国が決めることだったのが、今は各組織が自分で選択するようになってきています。例えば、「複数の言語で論文を受け付けるのか」「英語だけにするのか」。これって、結構難しい決断なんです。でも、その選択によって、組織の在り方自体が変わってきますからね。
Franci Suni:私の国ペルーの例をお話しすると、実は驚くほど言語が多様なんです。48もの先住民言語があって、アンデス地域に4つ、アマゾン地域に44もあるんですよ。人口の8割はスペイン語を話しますが、残りの2割は様々な言語を使っています。だからこそ、母語での論文投稿を認めて、英語の要約をつける、というような柔軟な対応が必要だと思うんです。それと、翻訳費用の支援も欠かせませんね。
Nayat Sanchez-Pi:研究所の立場からすると、今日のようなイベントをもっと増やしていく必要があると感じています。リアルタイム翻訳があれば、誰でも参加できるんです。それから、編集チームの多様化も大切ですね。これはもう、一つの分野だけの問題じゃないんです。コンピュータサイエンスの世界でも、もっと言語の多様性を大切にしていく必要がありますよ。
4.2. 技術開発面
Nayat Sanchez-Pi:技術面でのバイアス対策について、私たちがいま一番頭を悩ませているのは、データの問題なんです。特に少数言語のデータ不足は深刻ですね。でも、いくつか対策を進めています。例えば、偏った判断をしそうなモデルに対してペナルティを与えたり、バイアスを自動的に見つけて修正する仕組みを取り入れたり。あと、異なるグループでの性能評価も欠かせません。それと、やっぱり人間の目でのチェックは重要ですよね。
Franci Suni:そうなんです。私たちの研究所でも同じような課題に直面しています。偽情報の検出モデルを作る時なんですが、英語のデータしかないんですよ。これをスペイン語に使おうとすると、うまくいかない。データの翻訳から始まって、結果の評価まで、まだまだ改善の余地がありますね。
Vinicius Pereira:私たち言語学者からすると、データの多様性って本当に大切なんです。大学には確かにたくさんの言語データがあるんですが、短期的な研究用のものばかり。AIの学習用としては使いづらいんですよね。もっと体系的なデータ収集の仕組みが必要だと感じています。
4.3. 国際協力
Nayat Sanchez-Pi:ラテンアメリカの文化や言語の多様性を守りながら、世界と手を取り合っていく必要があるんですよね。私たちの研究所では、ラテンアメリカの声を世界に届けることを大切にしているんです。でも、これって一地域だけでは解決できない問題なんです。世界中が協力して、教育や人材育成にもっと力を入れていかないといけませんね。
Franci Suni:ペルーの現場から見ていると、やっぱり教育支援が鍵だと感じています。研究者の学び直しや、若手のサポートをしっかりやれば、言語の壁も乗り越えられるはず。特に、AIツールの使い方をしっかり学ぶ機会を増やすことが急務だと思います。
Indira Guzman:情報システム協会の代表として、こういった議論をもっと深めていきたいですね。技術と言語の両方で国際協力を進めて、もっとオープンな研究コミュニティを作っていく。今日の議論を、具体的な形にしていきたいと思います。
5. プログラミング言語と英語
5.1. 標準化のメリット
Indira Guzman:プログラミング言語が英語ベースだったのは、実は私にとって良かったんです。ウクライナで勉強していた時、英語でコードを書くことで、世界中どこでも通用する技術が身についたと感じています。
Angela Orella(参加者):コンピュータサイエンスの世界では、英語が標準化されているのはむしろ強みですよね。プログラミング言語もライブラリも英語で統一されているからこそ、世界中の開発者が協力しやすいんです。メソッド名や変数名が英語なのも、実は理にかなっているんじゃないでしょうか。
5.2. 各国語への翻訳の取り組み
Franci Suni:プログラミング言語を各国の言語に置き換える試みは、少しずつ進んでいるんです。コマンドやメソッド名を現地の言葉に変えてみたり。でも結局のところ、ベースは英語のままというのが現実ですね。
Vinicius Pereira:翻訳作業って、思った以上に難しい問題が多いんですよ。単に単語を置き換えればいいってものじゃなくて、プログラミングの文法構造自体をどうするかという課題もある。特に英語とは全然違う文法を持つ言語だと、本当に頭を悩ませます。
Indira Guzman:特に教育の現場では、翻訳へのニーズが高まっているんです。初めてプログラミングを学ぶ人たちにとって、とても重要な課題ですから。最近は、まずコメントやドキュメントの翻訳から始めて、少しずつコマンドの翻訳に進んでいく、そんな段階的なアプローチが主流になってきていますね。
5.3. 学習障壁としての側面
Franci Suni:プログラミング言語を各国の言語に翻訳する試みは確かにあるんです。スペイン語圏でも、コマンドを現地語に置き換えようという動きがあります。でも正直なところ、メジャーな言語は全部英語ベースのままですね。うちの学生たちを見ていても、プログラミングの前に英語の勉強から始めないといけない状況で、これが結構大変なんです。
Vinicius Pereira:言語学者として見ると、これは単純な問題じゃないんですよね。英語で統一されているのは便利な面もありますが、それで技術から遠ざかってしまう人もいる。ただ、私はいつも学生たちにこう言うんです。「知っていることに注目して。できないことばかり気にしないで」って。
Indira Guzman:私の経験からすると、この言語の壁は必ず乗り越えられます。大切なのは、学習者が自信を失わないようにすること。最初は母語でプログラミングの基礎を学んで、少しずつ英語を取り入れていく。そんな段階的な学習方法が効果的かもしれませんね。