資料名 資料10 ヤマハ株式会社提出資料 注意 当日の発表において発言予定の内容を基に作成しているため、PDF版資料の記載内容とは異なる場合があります。 【1ページ】 タイトル 自動字幕に関する技術動向 令和4年11月1日 ヤマハ株式会社 【2ページ】 自動字幕システムについて 2017年の視聴覚障害者向け放送に関する研究会を受けて、 さらなる字幕普及に向けた取り組みとして自動字幕システムの検証に着手しました。 これはテレビ局に音声を文字化するための機器を置き、アナウンサーの音声等を文字化して、テレビを見ている方にインターネット経由でスマートフォンに字幕を表示したり、ハイブリッドキャスト等を通じてテレビ画面に字幕を表示したりするためのシステムです。 2018年から総務省補助事業として自動字幕システムの開発と、放送局との共同実験を開始。 2019年、2020年と合計3年に渡り、総務省地上放送課、NICT(エヌ・アイ・シー・ティー)、放送局、聴覚障害者団体と共に実証を実施してきました。 【3ページ】 音声認識の精度や速度について この検証では、音声認識精度は短いストレートニュースに対して約85%だったのに対し、2020年終了時点では、ストレートニュースに対する精度が約92%まで向上しました。最大で98%の精度が出た番組もありました。 これは2019年度にNICT(エヌ・アイ・シー・ティー)が始めた、音声認識向上のために、放送音声に特化したエンジン学習の成果による効果が大きいです。 その他ストレートニュース以外の番組については、ストレートニュースよりも音声認識の難易度があがり、情報番組は86%、教養番組は81%、娯楽番組は66%という結果でした。 また字幕が表示される速度について、通常、生放送時に人力によって付与された字幕は5.6秒ほど遅れて出てきますが、自動字幕では平均1.8秒と、人力による字幕よりも早く表示される、という結果も得られています。 【4ページ】 字幕表示機器について 初年度は主にスマートフォンを使ったセカンドスクリーンでの表示を、2年目以降はハイブリッドキャストやセットトップボックスを用いて、テレビ画面の中にテレビ映像と並べて表示される、アウトスクリーン型の字幕表示についての実証を行いました。 聴覚障害者団体の皆さんにご協力いただき使用感調査を行いましたが、セカンドスクリーンは画面と2つ見分ける必要があるという見づらさがある一方で読み返すことが出来るという利点があるという調査結果が得られています。 また、ハイブリッドキャストやセットトップボックスでは、通常のクローズドキャプション字幕に近い表示が出来ることから見やすさという点で好評でしたが、専用のテレビや機器が必要となるという点が課題でした。 【5ページ】 自動字幕の技術的な課題とそのアプローチ 2020年度に入ってからはさらに技術的な課題に対してアプローチを行いました。 特に大きな課題として、複数の人が話をする番組において、誰が何を話しているのかが字幕では分かりづらいという問題がありました。 それを解決するためには、話者ごとにマイクを分けて、それぞれ別々に音声認識をする必要があるのですが、そうすると、「マイクに複数の人の声が被ってしまい、正しく音声認識されない」という問題が発生しました。そこで「音源分離処理」技術という、マイクの音声かぶりを解消する技術の検証を行いました。 2020年の総務省調査委託事業において、娯楽番組を対象に、2人の掛け合いが行われている部分に音源分離技術を適用したところ、約4%の認識精度の改善効果が得られました。 この技術は現在も研究を進めており、昨年度末までの成果とし2人で発話したシーンにおいて、マイク音声かぶりに対し10%ほどの音声認識精度の改善が見込めることがわかっています。 現在は2人以上の音声についての分離効果について研究を続けており、実用化を目指して日々研究に取り組んでおります。 【6ページ】 固有名詞の音声認識精度の改善 もう一つ大きな課題として、固有名詞の音声認識精度の改善が挙げられます。 対策として原稿や単語を事前に登録する仕組みを開発しました。事前に辞書データを用意して登録することで特定の単語を認識しやすくする、というものですが、辞書登録はデメリットもあり、新しい単語を登録することで、もともと正しく認識できていた単語が認識しづらくなってしまう副作用が発生することがあります。 辞書登録データに大きく従来の音声認識精度が左右されないよう、いわゆる「副作用がおきにくい設定」で娯楽番組を対象にまずは実験したところ、約2.3%の改善効果でした。 次に、副作用が起こる可能性があるが辞書データの結果が出やすくなるよう各単語に精度に関する設定をした上で、スポーツ実況を対象に実験したところ42%から77%の改善が見られました。 以上より、固有名詞における認識精度向上については、綿密な設定を行うことで可能であることがわかりましたが、日々新しく登場する固有名詞に、忙しい放送業務の中でスムーズに対応していけるような仕組みの開発が今後必要であると考えています。 【7ページ】 今後の課題 今後自動字幕を放送に適用していくにあたっては次のような課題があります。総務省が発表した資料によると、キー局等の規模の大きな放送局については字幕付与率がかなり高い水準となってきていますが、地方局などの規模の小さめな放送局については地方系列局で86.6%、独立局で35.5%とまだ字幕付与の達成率に課題があり、地方局のみなさんが字幕をかんたんに、人的コストをほとんどかけることなく付与できるようになることが重要なポイントだと考えています。 視聴者の皆さんが簡単に字幕を見ることができるようにするためには、データ放送やクローズドキャプション字幕への自動字幕の適用が必要だと考えていますが、自動字幕の認識率は前述の通りストレートニュースでは92%と向上しつつあるものの100%ではなく、ある程度の修正作業等が必要なのが現状です。 ヤマハが独自に放送局20局へ実施したヒアリング調査によると、自動字幕システムの導入に向けての課題は、 ・放送の電波を通じて字幕を配信するにあたっては、「自動字幕が誤っていた場合、訂正放送の対象になるかどうか」がわからず、現状は修正作業が必要だという判断 ・その上で、字幕修正や監視等の自動字幕システムの運用コストをかけるのが難しい という点が最も大きな課題だと考えています。 現状は「間違った字幕は放送しない」というスタンスのもと、自動字幕おこしは現在、字幕おこしの補助としていくつかの放送局で使用され始めています。最終的には人手による修正が行われた上で配信されています。また、放送外では「自動字幕なので間違う可能性があります」ということを告知した上で、イベント等で自動字幕が使われ始めています。 今後放送を通じて自動字幕を活用していくためには、データ放送やクローズドキャプションに自動字幕を使用した場合、誤りが発生した場合の取り決めが必要になると考えられます。「訂正放送の対象となるかどうか」「必要とされる認識精度は何%ぐらいか」などを当事者を含め議論していく必要があると考えます。 今後、精度向上や複数人の会話を識別可能な技術の向上に加え、上記内容についてこういった場で活発な議論が行われるとより自動字幕の放送への適用可能性が高まるかと思いますので、ぜひよろしくお願いいたします。