リコー 音声認識AIに関する論文が音声・言語処理技術の国際会議「INTERSPEECH 2024」で採択
リコー 2024年8月29日発表
リコーは、「音声認識AIのための自己教師学習とデータ拡張技術」に関する論文が、音声言語処理分野の国際会議「INTERSPEECH 2024」に採択されたと、8月29日に発表した。リコーの論文が、本会議で採択されるのは初めてとなる。
今回採択された論文では、音声認識AIモデルに、書き起こしテキストの無い音声データのみを用いて効果的かつ効率的に学習させる手法の技術開発について発表した。
従来の音声認識の学習過程では、入力する音声とそれに対応する書き起こしテキストのペアを用いて、それらの対応関係を学習させる『教師あり学習』を行うのが一般的である。その学習方法では、大量の書き起こし付き音声が必要となるため、学習データの入手に多大なコストがかかることが課題だった。
また、実際の使用環境で得られる音声は、用途・場所等により音声品質が異なるため、さまざまな環境で利活用できるようにするために、音響ノイズへの耐性の強化が必要となる。
今回、リコーが開発した独自の自己教師学習手法と、音響ノイズ耐性を強化するデータ拡張技術により、従来の学習方法と比べて低コストで、より精度の高い音声認識性能を実現した。