EUSIPCO 2024にて主著論文が採択されたデンソーアイティーラボラトリの太刀岡氏
信号処理分野におけるトップカンファレンスEUSIPCO 2024にて主著論文が採択
デンソーアイティーラボラトリ( デンソーITラボ / 本社:東京都港区 代表取締役社長:岸本正志 )の研究者・太刀岡勇気氏による論文 「Outlier Exposure with Efficient Division of Positive and Negative Examples for Anomalous Sound Detection」が、 2024年8月にフランス・リヨンで開催された研究者達の会合「European Signal Processing Conference( EUSIPCO 2024 )」で採択されるという栄誉に浴した。
このEUSIPCOというイベントは、信号処理分野での国際的なトップカンファレンスのひとつで、デジタル信号処理、画像処理、音声処理、通信、マルチメディア、 データ圧縮、機械学習、データ解析など、世界各国から幅広い分野の研究成果が公に発表される場となっている。
今回、論文を提出した太刀岡勇気氏が所属するデンソーITラボとは、デンソーグループのソフトウェア技術達で構成される25人ほどの研究者集団で、「自分たちで課題を見つけ、それを解決する技術の柱を作る」を主な研究テーマに掲げるシーズ提案型の先端基礎研究企業だ。
彼らの研究対象分野には、深層学習やニューラルネットワーク、画像認識、自然言語処理、認知科学、信号処理、 ユーザーインターフェース、センシング技術、量子コンピュータなどがあり、このデンソーITラボはデンソーの100%出資子会社となっている。
上記の論文タイトルで提出した当該研究では、機械の異常音を検知するモデルの精度を効率よく向上させる手法を提案したもの。 異常音検出では、異常音データの入手が難しいため、教師なし学習で異常音検知モデルを学習し、 高精度に異常音を検出することが、これれまでは解決することができない大きな課題となっていた。
例えば、従来からの手法では、ある機種( 対象機種 )の異常音を判定する際には、その機種の正常音と他の機種の正常音を区別するようにモデルを学習して、 正常音か異常音かを判定すればよいとされていた。
一方で今回提案した手法では、対象機種の異常音判定に有効な他の機種の正常音を判別し、 複数の機械の正常音を対象機種の正常音とみなして学習することで、異常音検知の精度向上を実現させている。 先の通り、正常音に加える機種の判別には膨大な計算を必要とすることが課題だったが、提案法ではこれを効率的に行うことができるようにしたのだ。
「よく似た音」を利用し異音検知する教師なしモデルの高精度化を実現
この研究成果を応用して、工場などに設置された設備機械の異常音検知に有用な、現場環境に於ける異常音検知モデルの構築を効率的に行えるようになることが期待でき、その画期的な手段が今回の論文採択に繫がった。
そもそも対象とする機械(以下対象機種)から発せられる音が正常か異常かを識別する異常音検知(ASD)は、工場の製造機械の故障を早期に検知するための 重要な技術だ。
但し現実の工場環境下では、異常はめったに発生せず、しかも異常の種類は多様なので異常音の種類も多様となってしまう。従って学習用のデータとして異常音を入手すること自体が極めて困難であり、また学習済みモデルでは、学習用データに含まれない異常音を検知する必要がある。こうした複合的な課題に対応するために、教師なし学習による異常音検知(教師なしASD)の手法が求められることは、誰もが前々から分かっていたことだった。
この教師なしでのASD手法は、大きくinlier modeling(IM)とoutlier exposure(OE)に分けられる。 IMは、対象機種の正常音の確率分布を作成して、分布から外れた音を異常音と識別する。そんなOEは、対象機種とは別の機種の正常音も学習データとして使用し、対象機種の正常音と他の機種の正常音を正例と負例として分類。
OEベースのモデルはIMベースのモデルに比べて精度の振れ幅が大きいため、ロバスト性を持たせるために、前段にOEベースの特徴抽出器を置き、 そこで得られた特徴量を後段のIMに投入して正規データの確率分布を作成する2段階ASDを提案した。
より詳細には、今研究成果としてまず、前段の特徴抽出器に対象の機種以外の機種の正常音を正例として同時に学習させるマルチコンディション学習によって、 ASDの精度が向上する場合があることを実験的に示した。
しかしどの機種のデータを正例に追加するのが最適かを決定するために、 全ての組み合わせを試すのは、モデルの数が増えすぎて現実的ではない。ASDの精度を向上するために、 正例に追加すべき機種のデータを効率的に選択する方法が課題となる。
そこで、対象機種とよく似た特徴の音を出す機種の正常音を正例に追加し、そうではない機種の正常音は負例として学習させることで、 ASDの精度が上がるという仮説を立てた。
この仮説を検証するために、まず、対象機種の正常音を正例、それ以外の音を負例として、ベースラインモデルを作成。この分類器は、正例と負例を識別し、なおかつ正例はコンディションID(収音環境を表すID)を識別できるように学習する。
このモデルは、正例と負例の埋め込みベクトルが離れているという仮定に基づく(図左)。別の機種の正常音も正例に追加して学習する場合、 追加されたのがよく似た特徴を持つ音であれば、その音のベクトルは同様に負例から分離されると考えられる(図右)と定義付けた。
図1:ベースラインモデル(左)と、他の機種の正常音を正例に加えた拡張モデル(右)
「対象機種と似た特徴を持つ音」を探すために、今研究では、機種毎に作成したベースラインモデルを使用。 使用したデータは、DCASE Challenge 2022 (DCASE Challenge:音響シーンやイベントの検出と分類に関する国際的な競技会)で提供された7種類の機械 (ベアリング、ファン、ギアボックス、スライダー、バルブ、トイカー、トイトレイン)のデータです。 7種類の機械それぞれのテストデータに対し、7種類のベースラインモデルで異常音検知を行う。
(表1)7種類のベースラインモデルを用いた機種別の異常音検知精度の評価
上記の表1の行は、学習に用いた機種、列はテストに用いた機種だ。表の対角成分はベースラインの学習とテストの機種が一致しているケースだが、 それ以外は不一致のケースとなる。
正例として学習に使用した機種と同じ機種の異常音を最も性能よく検知するように思えるが、 実際には不一致の方が精度が上がるケースもある。例えばベアリングで学習したモデルは、ベアリングよりも他の機種の方が異常音検知精度が 高くなっているという具合だ。
今回は、機種が不一致の場合の方が精度が高くなるケースがあった「ベアリング」「ファン」「トイトレイン」を、正例として他の機種のモデルにも追加した。これによりベースラインモデルと同研究で提案するモデルを比較すると、トイカー以外の6つの機種では異常音検知の精度が上がることが示せた。
(表2)ベースラインモデルと本研究で提案した拡張モデルの精度比較
ところでn種類の機種の中からどの機種を正例に含めるか決める組み合わせは、n×2(n-1)通りもある。単純に最適な組み合わせを選ぶには、この数のモデルを学習し、評価する必要があるが、 提案した手法によってあらかじめ表1のn個のモデルに対してn回の評価(=全部でnの2乗回の評価)行っておくことで、 どの機種を正例に含めるかを決められるため、モデルの学習は追加のn回で済む。
これにより、ほとんど通常の機種ごとに学習する方法と変わらない計算量まで減らすことができ、かつ、 異常音検知の精度が向上することが示せた。この例では、ナイーブな方法では7種類の機械それぞれについて正例に含める機種を選ぶ組み合わせは 7×26=448通りあるのでその回数分モデルの学習と評価が必要だが、提案した方法では7×7=49通りのモデルを評価し 表1を作成したのちに7機種分のモデル学習を行えば良いことになる。
本研究の論文
Yuuki Tachioka “Outlier Exposure with Efficient Division of Positive and Negative Examples for Anomalous Sound Detection”, in 32th European Signal Processing Conference
今後の展開
今回の研究発表では、2段階ASDに於ける特徴抽出器について、改良を行い精度を上げるための効率的な方法を提案した。実際に工場の製造機械の異常音検知を把握するには、設置された環境による音の違いを学習する必要がある。
この際、今回の研究成果を活かすことで、 より精度の高いモデルを短時間の学習で構築することが期待できる。また自動車の点検依頼で最も多い「異常音」は、 通常の使用時に発生していても別の環境では再現が難しいことがあるが、これも同研究を生かして、自動車の収音センサーのデータを利用した タイムリーな異常音検知の実現と予防保守の提案など、より安心・安全な自動車の実現への貢献が期待できると結んだ。