※本記事は、Miran Choi氏およびJin Xiaofang Huang氏によるAI for Good Perspectives「ETRI's AI for making a better tomorrow」シリーズ第2回「AI-based language learning technology」の内容を基に作成されています。Miran Choi氏はETRIの主任研究員および標準化スペシャリストとして、AIを活用した言語学習技術の研究・普及に取り組んでいます。Jin Xiaofang Huang氏はETRIのシニアリサーチャーとして、機械翻訳および言語学習のための対話処理に関する研究プロジェクトに携わっており、同氏が参画した技術は複数の企業に移転され実用化されています。現在は読解に基づく言語学習用対話システムを主な研究テーマとしています。動画の詳細情報はhttps://www.youtube.com/watch?v=kXrFnGFWtcc でご覧いただけます。本記事では動画の内容を要約しております。なお、本記事の内容は原著作者の見解を正確に反映するよう努めていますが、要約や解釈による誤りがある可能性もありますので、正確な情報や文脈についてはオリジナルの動画をご視聴いただくことをお勧めいたします。
1. 研究の背景と目的
1.1 教育格差の現状とCOVID-19による深刻化
Choi: 本日は「AIを活用した言語学習技術」をテーマにお話しします。私たちETRIがこの研究に取り組むようになった背景には、韓国社会が長年抱えてきた教育格差の問題があります。地域格差や所得格差は教育の不平等を生み出しており、特に英語教育においてその影響は顕著です。さらに、COVID-19によって学校が休校を余儀なくされたことで、この教育格差はいっそう拡大していることが報告されています。
Huang: 私たちがこの研究を始めた直接のきっかけも、まさにその点にあります。すべての地域・すべての所得層の子どもたちに対して、英語教育における機会の均等を保障することが不可欠です。格差を縮小し、教育の公平性を高めるためには、地域や家庭の経済状況に左右されない学習手段を提供しなければなりません。また、コロナ禍においては非対面での語学教育を支援することも喫緊の課題となっています。これらの社会的要請が重なったことが、私たちがAIを活用した言語チューターの開発に着手した理由です。
1.2 AIチューター開発の目標と社会的意義
Huang: 私たちの目標は、ネイティブの指導者と同様に「聞き、話し、教えることができる」人工知能の言語チューターを開発することです。このAIチューターが実現すれば、高額な私塾や家庭教師に頼らずとも、すべての子どもが質の高い英語教育を受けられるようになります。韓国では私教育費の高騰が深刻な社会問題となっており、多文化家庭におけるコミュニケーション上の困難も課題として挙げられています。AIチューターはこうした問題の解決にも貢献できると考えています。
Choi: 補足すると、この技術は来年度から公教育への導入が予定されており、単なる研究成果にとどまらず、社会実装を強く意識したプロジェクトです。研究開始からすでに5年以上の取り組みを経ており、今回ご紹介する内容はその集大成の一部です。
2. ETRIの概要と主要研究領域
2.1 ETRIの位置づけと使命
Choi: ETRIは韓国の国家ICT研究機関であり、韓国企業の産業競争力強化に貢献する技術開発を担っています。近年はその役割をさらに拡張し、国家AI研究機関としての機能を果たすべく、「より良い明日を創るAI」の実現に向けた取り組みを積極的に推進しています。AIチューターの開発もその取り組みの一環です。
Huang: ETRIの中核をなすのが人工知能研究所(AI Lab)です。ここは韓国最高水準の汎用知能研究機関として位置づけられており、超知能および超性能の研究開発を主導しています。その究極の目標は、人間を中心とした自律知能と共存する「超知能情報社会」の基盤を構築することです。同時に、既存コンピュータの技術的限界を超える超性能コンピューティングの実現も重要な柱となっています。
2.2 AI技術の研究分野と社会実装事例
Huang: AI Labの研究は複数の領域にまたがっています。知能情報研究部門では、言語知能・音声知能・視覚知能・ビッグデータ技術という4つのコア技術に集中して取り組んでいます。これらはいずれも人工知能の根幹をなす技術であり、それぞれが社会実装の段階に達しています。
言語知能の代表例が「Exo Brain」です。これは人間がコンピュータと自然言語でQ&Aを行うことを可能にする技術で、現在は国立国会図書館および国家科学技術研究会において法律照会サービスとして実用化されています。音声知能については、AIを活用した英語授業を全国の小学校でパイロット提供するインタラクティブ音声認識技術を開発しており、まさに本日ご紹介するAIチューターの基盤技術でもあります。自動翻訳技術「Genie Talk」は、2018年の平昌冬季オリンピックにおいて多言語翻訳サービスとして採用され、言語の壁を取り除く手段として機能しました。視覚AI「DeepView」は、世宗市およびソウル市において不法廃棄物の投棄を追跡・検出するシステムとして活用されています。
Choi: これらの単一知能技術にとどまらず、ETRIは複数の知能を統合し、無限に自律成長できる統合知能技術の研究へと歩を進めています。知能ロボティクス研究部門では、AIを活用した認知・判断・制御技術による自律走行技術の開発に加え、長時間・高強度の作業環境を改善し個別サービスを提供するAIロボットのコア技術開発も行っています。自律無人機研究部門では、屋内外を問わず自律的にミッションを遂行するインテリジェントドローン技術と、不法ドローンを検知・追跡・無力化するカウンタードローン技術を手がけています。さらにIDX+研究部門では、人間の身体的・精神的状態を把握して能力を拡張する人間拡張・補助技術を開発しており、高齢者の転倒による負傷を防ぐリアルタイム予測システムや、衰えた筋力を補助するウェアラブル筋力サポートスーツも実用化しています。日常生活データをもとにユーザーの感情や行動を理解・学習・予測する認知コンピューティング技術の開発が、同部門の最終目標です。
3. AIチューターに必要な技術要素
3.1 非ネイティブ英語音声認識の課題と設計方針
Huang: AIチューターが「聞く」機能を実現するうえで最も重要な技術が音声認識です。特に英語スピーキング学習サービスにおいては、非ネイティブの自発的発話を正確に認識することが不可欠であり、これが最大の技術的課題となっています。非ネイティブの発話には、発音・文法・表現のいずれの次元においてもエラーが不可避的に生じます。だからこそ、音声認識システムはそれらのエラーを「修正」してしまうのではなく、発話された内容をそのまま書き起こすことが求められます。発話をあるがままに記録して初めて、後段のシステムが発音の正確さや流暢さを適切に評価し、文法・表現のエラーに対して的確な教育的フィードバックを与えることができるからです。
この設計方針は一見シンプルに見えますが、実装上は非常に難しい問題を含んでいます。一般的な音声認識システムは「正しい発話」を前提として訓練されており、非ネイティブの訛りや誤った文法表現を自動的に補正しようとする傾向があります。私たちはこの傾向を意図的に抑制し、学習者の発話をそのまま忠実に書き起こせるモデルの構築に取り組んできました。
Choi: 発音・流暢さの評価とフィードバックについても補足します。AIチューターが適切なフィードバックを与えるためには、ネイティブスピーカーの発話基準を学習したうえで、その基準と学習者の発話を比較する仕組みが必要です。つまり、ネイティブの「ルーブリック(評価基準)」をAIに習得させ、それをもとに学習者の発音と照合することで、具体的かつ教育的なフィードバックを生成しています。単に「正しいか否か」を判定するだけでなく、どの部分をどのように改善すべきかを示すことが、学習サービスとしての本質的な価値だと考えています。
3.2 教育目的に特化した対話処理技術
Huang: AIチューターが「話す」「教える」機能を支えるのが対話処理技術です。私たちは、タスク指向型対話とオープンドメイン対話の2種類の技術を組み合わせることで、自由度の高い対話を実現しています。タスク指向型対話は、特定の学習目標に沿って会話を導く役割を担います。たとえば、学習者が決められたミッションをこなしながら英語を練習するシナリオでは、この技術が会話の流れを適切に制御します。一方、オープンドメイン対話はトピックを限定しない自由な会話を可能にするもので、学習者が脱線した話題を振ってきた場合でも、自然な形で応答しながら学習の文脈へと戻す機能を果たします。
Choi: この2つの技術をどう組み合わせ、教育コンテンツと最適に統合するかが、AIチューター開発における核心的な設計課題です。対話の知識構造、すなわち「対話マップ」をいかに構築するかが、システム全体の教育効果を左右します。現在私たちが研究を進めている次世代技術では、従来の言語教育コンテンツから対話の知識を自動的に抽出・学習するEnd-to-Endの仕組みを目指しており、対話マップを人手で作成する手間を省くことで、より多くの言語・コンテンツへの迅速な応用を可能にしようとしています。AIと教育コンテンツの最適な統合なくして、真に有用な言語チューターは実現できないと確信しています。
4. AIペンギン「Pengsu Talk」のサービス設計と展開
4.1 開発体制・コンテンツ連携・パイロット展開の概要
Choi: Pengsu Talkの開発においてETRIが担うのは、あくまでも技術の研究開発です。AIチューターとして機能するコアの音声認識・対話処理技術をETRIが開発し、それを教育企業がライセンスを受けて教育コンテンツと組み合わせ、最終的なサービスとして提供するという役割分担になっています。今回ご紹介するAI Pengsu Talkの場合、韓国の公共教育放送であるEBSをはじめとする教育企業がコンテンツ開発を担い、ETRIの技術との統合によってサービスが成立しています。
Huang: 現在このサービスは58校においてパイロット提供されており、2021年には全国6,000校の小学校への展開が予定されています。利用者はアプリをダウンロードすることで利用可能であり、韓国のAndroidアプリストアからすでにトライアル版を入手することができます。現時点ではまだ一部の機能のみの提供ですが、来年には正式版のリリースが見込まれています。サービスは学校の授業中だけでなく、放課後の家庭学習にも対応した設計になっており、学校と家庭の双方をカバーすることで、学習機会の最大化を図っています。
4.2 学習機能の構成——単語・文・会話レベル練習と自由対話
Huang: Pengsu Talkが提供する学習機能は大きく4つの段階で構成されています。最初の段階が単語レベルの練習です。AIチューターが単語を読み上げ、学習者がそれを繰り返し発音します。AIは学習者の発音を評価し、「Excellent」「Good」「Try harder」といった段階的なフィードバックを即座に返します。一連の単語練習が終わると、全体のスコアが表示され、学習者は自分の習熟度を把握することができます。
次が文レベルの練習です。「What do you do?」「I'm a cook.」といった文単位での発音練習を行います。AIチューターが手本となる文を読み上げ、学習者がそれを繰り返します。単語レベルと同様に、文全体の練習が終わった段階で総合スコアが提示されます。
三番目が会話レベルの練習です。複数の文で構成されるダイアローグ全体を通しで練習するもので、学習者は各文に対してリアルタイムでフィードバックを受けながら、会話の流れを体験的に習得します。たとえば「Are you a singer? / No, I'm not. / What do you do? / I'm a dancer.」といったやり取りを通じ、文と文のつながりを意識した練習が可能です。会話全体を通じた総合スコアも最終的に表示されます。
Choi: 四番目の機能が「Let's Talk」と呼ばれる自由対話です。これはエピソードベースの構成になっており、トピックに沿った会話とトピックを外れた会話の両方に対応しています。学習者はミッション形式で会話を進めながら、英語を実践的に使う経験を積みます。一例として、AIペンギンのPengsuに対してインタビューをするエピソードがあります。学習者はPengsuの名前・出身地・住んでいる場所を順番に質問することでミッションをクリアしていきますが、その過程でPengsuが「南極出身でスーパースターになりたい」と答えるなど、ユーモアを交えたやり取りが展開されます。学習者がトピックから外れた質問——たとえば「ゲームは好きか」「歌えるか」——を投げかけた場合も、Pengsuは自然な形で応答したうえで会話を継続します。
別のエピソードでは、果物を購入するロールプレイが展開されます。学習者は「I want apples.」「I want three.」といった表現を使いながら買い物の会話を練習し、さらに100個注文するなど計算能力を試すような発展的なやり取りも盛り込まれています。こうした自由対話の仕組みは、学習者の参加意識を高め、英語を学ぶことを楽しいと感じさせる効果があると考えています。
5. 導入現場の観察と学習効果
5.1 農村校および家庭での活用事例と生徒の反応
Huang: 実際の導入事例として、蔚山・慶尚地方にある小規模な農村の小学校を紹介します。この学校には40名の生徒が在籍しており、4年生のクラスでは7名の生徒がZhang先生のもとで英語を学んでいます。典型的な地方の小規模校であり、まさに私たちが教育格差の解消という観点から重点的にサポートしたいと考えている環境です。
授業の中では、生徒たちがAI Pengsu Talkを使って教科書の内容を復習し、正しい発音を練習します。さらに自分の発音を他の友人と比較する機能も活用されており、競争意識と学習意欲を同時に引き出す効果が観察されています。担任教師とAIチューターが協働する形で授業が進み、教師が授業全体の流れを管理しながら、個々の発音練習や評価フィードバックはAIが担うという役割分担が自然に機能しています。
Choi: 生徒たちの反応として特筆すべきは、「AIのPengsu Talkと一緒に勉強するようになってから、英語が楽しくなった」という声が上がっていることです。これは私たちが目指していた学習意欲の喚起という観点から、非常に意義深い反応だと受け止めています。単に正解・不正解を判定するだけでなく、ゲーム的な要素やキャラクターとのインタラクションを通じて学習を楽しい体験として設計したことが、こうした反応につながっていると考えています。
Huang: 放課後・家庭での活用についても事例があります。放課後の補習に通わないJi Youngという生徒は、自宅でAI Pengsu Talkを使って英語学習を続けています。また、Yu Sungという生徒も放課後に自宅でサービスを利用しており、一対一の個別最適化学習が可能なため、学校で学んだ内容を自分のペースで復習することができています。このように、学校の授業中だけでなく家庭における自律学習の場面でも有効に機能していることが、パイロット導入を通じて確認されています。塾や家庭教師といった私教育へのアクセスが限られている家庭の子どもたちにとって、こうした家庭学習への対応は特に重要な意味を持ちます。
6. 他言語・他国への応用と今後の研究方針
6.1 海外展開の条件と技術移転の実績
Choi: 海外からの利用について、利用者の立場によって対応が異なります。教師や学生として英語を教えたい・学びたいというエンドユーザーであれば、現在提供しているアプリをそのままアプリストアからダウンロードして利用することができます。一方、自国でサービスを展開したい企業や機関の場合は、より踏み込んだカスタマイズが必要になります。
Huang: その理由は、国や地域によって英語の発音の特徴や教育コンテンツの内容が異なるからです。たとえば、ある国には固有の英語アクセントがあったり、独自の英語教育カリキュラムが存在したりします。そのような場合は、その国固有の発音データを用いて音声認識モデルをFine-tuningすることが有効です。また、対話システム向けに自国の教育コンテンツを独自に開発することも推奨されます。さらに、フランス語・ドイツ語・中国語・日本語といった英語以外の言語学習に応用したい場合は、対象言語のトレーニングデータと教育コンテンツを新たに用意したうえで、私たちのシステムを再学習させる必要があります。
Choi: 技術移転の実績としては、英語および韓国語の言語学習技術をEBSを含む複数の企業にすでに移転しています。こうした技術移転を通じて、学校と家庭の双方において多様なオンライン言語学習コンテンツへのアクセスが容易になることを期待しています。
6.2 次世代技術の研究方向と期待される社会的インパクト
Huang: 今後の研究方針として、音声認識の分野では少量の音声データのみで高い認識精度を実現する技術の開発に着手しています。現状では十分な量のトレーニングデータを必要とするため、データ収集コストが新言語・新地域への展開における障壁となっています。この問題を克服することで、データが少ない言語や方言に対しても迅速に対応できるようになります。
対話システムの分野では、従来の言語教育コンテンツから対話の知識を人手を介さずに自動抽出・学習するEnd-to-Endの技術開発を進めています。現在は対話マップの構築に相当の手作業が必要ですが、この工程を自動化することで、新たな言語や教育コンテンツへの適用にかかるコストと時間を大幅に削減できると見込んでいます。
Choi: これらの技術革新によって、AIを活用した言語学習技術がより多くの言語・より多くの国々に迅速かつ容易に展開されることを目指しています。地域・所得格差を超えた教育機会の均等化、学校内外での英語使用機会の拡大による基礎コミュニケーション力の底上げ、そしてCOVID-19以降も続く非対面教育環境への恒久的な対応——これらが私たちの研究が最終的に目指す社会的インパクトです。AIチューターはその実現に向けた具体的な一歩であり、引き続き研究開発に注力していきます。
