音声解析 AI の開発事例

タグ

投稿日: 2022/04/15 15:38:15

著者: 木村 優志

Convergence Lab.株式会社の木村です。今回は、音声解析 AI の開発事例について紹介します。

NDA のため具体的な解析対象を書くことができませんが、特定の場所で散発的に発生するノイズの分類を行うものです。この案件では、メル周波数スペクトルなどの音声特徴量を使う分類と、音声のピーク時間などの要約特徴量を使う分類の2つの事例がありました。この案件では、発生するノイズが自動車音などと近いため、どちらも、音声の他にセンサー情報を組み合わせて分類しています。

メル周波数スペクトルは、よく使われる音声特徴量の一つで、人間の聴覚特性を考慮した音声特徴です。以下に、メル周波数スペクトルを図示したグラフ(メルスペクトログラム)を示します。

Mel Spectrogram

この図は、私の声のメルスペクトログラムで、「あめんぼあかいなあいうえお」と発声しています。

実際に、ディープラーニングに入れるときには、このメル周波数スペクトルを変換し、フィルタバンク特徴量や、MFCC 特徴量に圧縮することが多いです。

ディープラーニングで音声を処理する際には、いくつかの方法がありえます。多くは、まず先程のスペクトログラムのような特徴を画像と同じように畳み込みニューラルネットワークで処理し、その後、LSTM や Transformer などで時系列処理することが多いと思います。

さらに、この事例では、ノイズの発生する周波数バンドが限られていたため、バンドパスフィルタにかけると過学習が抑制され、高精度化に有効でした。音声の機械学習・ディープラーニング処理でも前処理が大切なことを物語っています。

弊社で取り組んだ音声解析 AI の事例について紹介しました。音声解析 AI を開発したい場合は、是非弊社へお問い合わせください。