NEXT MOBILITY

MENU

2019年5月27日【テクノロジー】

NTT、音を言葉で説明する技術開発。音から擬音・説明を自動生成

NEXT MOBILITY編集部

  • このエントリーをはてなブックマークに追加

 

 

日本電信電話(NTT)は、様々な音について、それが「どんな音」であるのかを説明するテキスト(擬音語や説明文)を自動生成する技術を開発した。

 

マイクロホンで収録した音や録音物に対して、その音を描写した擬音語や説明文を自動生成するこの技術は、これまでの音声認識システムではテキストへの変換が困難だった人の話し声以外の様々な音を、文字に変換。見るだけでどんな音かを把握できるようになると云う。

 

NTTは、同技術によって、効果音や異常音などの音に基づいたメディアコンテンツの検索がより便利に。また今後、AIが人間に近い音の感覚を身につけることにも役立つとしている。

NTT・ロゴ

近年、音声認識技術の研究が進み、人の話し声を高い精度で認識し文字にすることが可能になってきている。

 

しかし、これまでの音声認識システムでは、話し声以外の様々な音を文字にすることには限界があった。また、ある音が「何の音か」を認識することを目的とした音響イベント認識の研究も近年盛んになってきているが、その音が「どんな音」で、「どう変化」しているかといった情報を擬音語や文章の形で書き出すことは難しかった。

 

今回、NTTコミュニケーション科学基礎研究所は、多層ニューラルネットワーク(※1)に、音の特徴の時系列と文字列(擬音語)や単語列(説明文)との対応を学習させることで、音からテキストへの変換を実現した。

 

※1)多層ニューラルネットワーク:神経回路網をモデルとした問題解決装置。神経回路網におけるニューロンに相当するノードを多層にわたって層状に結合させ、その結合強度を変化させることで入出力の関係を学習。深層学習と呼ばれる。

 

 

[技術のポイント]

 

(1)音響信号から文字列や単語列への変換

 

開発技術は、学習段階と生成段階から成り、学習段階では、音響信号に対してどのような擬音語や説明文が当てはまるかのデータを教師データとして、多層ニューラルネットワークに学習させる。

 

このニューラルネットワークは、音響信号特徴の時系列を潜在特徴と呼ばれる固定次元のベクトルに変換するエンコーダ(※2)と、その潜在特徴をテキストに変換するデコーダ(※3)の、2つで構成されており、学習段階ではこれら双方を学習させる。

 

生成段階では、学習済みのエンコーダに音響信号特徴の時系列を入力して潜在特徴を得た後、その潜在特徴を学習済みのデコーダに入力すると、文字列が得られる仕組みになっている。

 

※2)エンコーダ:ここでは、高次元のデータを低次元のデータに変換する機能をもつニューラルネットワークを指す。

※3)デコーダ:ここでは、低次元のデータを高次元のデータに変換する機能をもつニューラルネットワークを指す。

 

(2)人手による擬音語付与よりも受容度の高い擬音語を生成

 

NTTは、所定の音響データセットに対して、どの程度適切な擬音語生成ができるかを評価。人手で付与した擬音語を正解とみなした客観評価実験において、単語誤り率7.2%、平均音素誤り率2.8%という結果を得た。また、生成された擬音語が人間にとってどの程度受容できるかを主観評価実験で調べたところ、78.4%の受容率が得られた。

 

これ受けてNTTは、結果は人手による擬音語を上回る値であり、所定の音響データに対して、同技術により概ね妥当な擬音語が生成されることが裏付けられたと結論付けている。

 

(3)適切な詳細度での説明文生成を実現

 

音に対する説明文生成では、説明の仕方(詳しさ)に絶対的な正解が存在しない。そこで、同技術では、どの程度の詳しさで説明するか指定することによって目的に適った文を生成できるよう工夫。これを条件付き説明文生成法 (CSCG法: Conditional Sequence-to-sequence Caption Generation)と呼んでいる。

 

条件付き説明文生成法では、詳細度(※4)と呼ばれる数値を、デコーダへの補助入力として導入。

 

学習段階では、詳細度の値と出力されるテキスト系列の双方の誤差が少なくなるようにし、生成段階において、音響信号と詳細度を入力し、詳細度に応じたテキストを生成する。

 

以上の方法により、場面や用途に合うよう、短く端的な説明や、長く詳しい説明を得ることができると云う。

 

※4)詳細度:デコーダの動作を制御するための補助入力値。例えば単語単位で計算した「情報量」の総和を用いることができる。具体的な物体・動作を表す単語を用いた長い説明は、詳細度の値が高くなる。

 

 

同技術による説明文の生成例

同技術による説明文の生成例

 

 

(4)「聞こえ方」の近さに基づく「音の検索」

 

NTTは、様々な応用が可能と考えられる同技術の一つとして「音の検索」を挙げている。

 

従来、効果音などの音響データの検索は、対象となる音に対して事前にテキストタグを付けて検索するのが一般的だが、タグ付けに手間が掛かる上、付けられたテキストタグだけではどのような音かが分かりにくい等、検索結果から望みの音を探すために、幾つもの検索結果の音を実際に聞いて判断する必要があった。

 

対して、この技術では、事前にテキストのタグ付けなしで、潜在空間の近傍探索によって、擬音語や説明文を問合せる音響データベースの検索が可能。

 

任意の詳しさで説明文の問合せができ、検索結果は潜在空間で擬音語や説明文が近い音、つまり人にとって聞こえ方が近い音どうしが近くに位置付けられるため、主観的な「聞こえ方」の近さに基づく「音の検索」が実現できると云う。

 

 

音の聞こえ方に基づく音の検索への応用例

音の聞こえ方に基づく音の検索への応用例

 

 

NTTは今後、音の検索の他にも、動画音声の文字表現により動画視聴の幅の拡大や、AIが人間に近い音の感覚を身につけることで、AIと人間との日常のコミュニケーションを円滑にするなどの実現に向け、更に研究を進めていくとしている。

 

 

※5)研究協力の状況:開発の成果は、東京大学大学院情報理工学系研究科システム情報学専攻中村宏教授との共同研究の成果を含む。

CLOSE

坂上 賢治

NEXT MOBILITY&MOTOR CARS編集長。日刊自動車新聞を振り出しに自動車産業全域での取材活動を開始。同社の出版局へ移籍して以降は、コンシューマー向け媒体(発行45万部)を筆頭に、日本国内初の自動車環境ビジネス媒体・アフターマーケット事業の専門誌など多様な読者を対象とした創刊誌を手掛けた。独立後は、ビジネス戦略学やマーケティング分野で教鞭を執りつつ、自動車専門誌や一般誌の他、Web媒体などを介したジャーナリスト活動が30年半ば。2015年より自動車情報媒体のMOTOR CARS編集長、2017年より自動車ビジネス誌×WebメディアのNEXT MOBILITY 編集長。

松下次男

1975年日刊自動車新聞社入社。編集局記者として国会担当を皮切りに自動車販売・部品産業など幅広く取材。その後、長野支局長、編集局総合デスク、自動車ビジネス誌MOBI21編集長、出版局長を経て2010年論説委員。2011年から特別編集委員。自動車産業を取り巻く経済展望、環境政策、自動運転等の次世代自動車技術を取材。2016年独立し自動車産業政策を中心に取材・執筆活動中。

間宮 潔

1975年日刊自動車新聞社入社。部品産業をはじめ、自動車販売など幅広く取材。また自動車リサイクル法成立時の電炉業界から解体現場までをルポ。その後、同社の広告営業、新聞販売、印刷部門を担当、2006年に中部支社長、2009年執行役員編集局長に就き、2013年から特別編集委員として輸送分野を担当。2018年春から独立、NEXT MOBILITY誌の編集顧問。

片山 雅美

日刊自動車新聞社で取材活動のスタートを切る。同紙記者を皮切りに社長室支社統括部長を経て、全石連発行の機関紙ぜんせきの取材記者としても活躍。自動車流通から交通インフラ、エネルギー分野に至る幅広い領域で実績を残す。2017年以降は、佃モビリティ総研を拠点に蓄積した取材人脈を糧に執筆活動を展開中。

中島みなみ

(中島南事務所/東京都文京区)1963年・愛知県生まれ。新聞、週刊誌、総合月刊誌記者(月刊文藝春秋)を経て独立。規制改革や行政システムを視点とした社会問題を取材テーマとするジャーナリスト。

山田清志

経済誌「財界」で自動車、エネルギー、化学、紙パルプ産業の専任記者を皮切りに報道分野に進出。2000年からは産業界・官界・財界での豊富な人脈を基に経済ジャーナリストとして国内外の経済誌で執筆。近年はビジネス誌、オピニオン誌、経済団体誌、Web媒体等、多様な産業を股に掛けて活動中。

佃 義夫

1970年日刊自動車新聞社入社。編集局記者として自動車全分野を網羅して担当。2000年出版局長として「Mobi21」誌を創刊。取締役、常務、専務主筆・編集局長、代表取締役社長を歴任。2014年に独立し、佃モビリティ総研を開設。自動車関連著書に「トヨタの野望、日産の決断」(ダイヤモンド社)など。執筆活動に加え講演活動も。

熊澤啓三

株式会社アーサメジャープロ エグゼクティブコンサルタント。PR/危機管理コミュニケーションコンサルタント、メディアトレーナー。自動車業界他の大手企業をクライアントに持つ。日産自動車、グローバルPR会社のフライシュマン・ヒラード・ジャパン、エデルマン・ジャパンを経て、2010年にアーサメジャープロを創業。東京大学理学部卒。

福田 俊之

1952年東京生まれ。産業専門紙記者、経済誌編集長を経て、99年に独立。自動車業界を中心に取材、執筆活動中。著書に「最強トヨタの自己改革」(角川書店)、共著に「トヨタ式仕事の教科書」(プレジデント社)、「スズキパワー現場のものづくり」(講談社ピーシー)など。