富士通研究所は、学習に必要な量のデータを取得できない場合にも、高精度な判断が可能な機械学習技術「Wide Learning(ワイドラーニング)」を開発した。
同技術では、まずデータの項目同士をすべて組み合わせ、その大量の組合せを仮説として、重要度の高いものを選別。
仮説を構成する項目の重複関係に基づきそれぞれの影響度を制御することで、どの仮説に対しても均等に学習することができ、データに偏りがある場合でも、従来よりも高精度な判断が下せるようになると云う。
また、仮説は論理的な表現で記述されているため、人間にも判断理由が理解できるとのことだ。
[開発の背景]
近年、医療やマーケティング、金融などの様々な分野で、AIが導入されはじめ、AIの判断を活用した業務支援や自動化に対する期待が高まっている。
しかし、業界や業種によっては、判断したい対象に対してAI学習のための十分な量のデータを取得することが難しく、実用に耐える高い精度が出ない場合がある。
また、AIが十分に高い精度での認識・分類性能を発揮しても、その理由についての説明を専門家や開発者自身もできないため、AIの導入への大きな障壁となっている。
[課題]
ディープラーニングをベースとしたAIでは、判断したい対象のデータ(正解データ)を十分に含む大量のデータを学習させることで、高精度の判断を実現しているが、実際の現場では判断したい対象データが極端に不足することも少なくはなく、未知のデータに対する高精度な判断の実現は困難に。
また、ブラックボックス型従来の学習モデルでは、AIの判断理由の説明も難しい。
したがって、AIを活用していくためには、正解が少ないデータでも高精度の判断を実現し、透明性を兼ね備えた新たなAI技術が必要となる。
[新開発の技術]
富士通研究所では、正解データが少ない場合でも高精度に判断できる機械学習技術「Wide Learning」を新たに開発。その特長は、下記2点となっている。
1.データ項目を組み合わせて大量の仮説を抽出
すべてのデータ項目の組合せパターンを仮説とし、各仮説に対し分類ラベルのヒット率で、その仮説の重要度を判断。
例えば、商品購入に対しての傾向を分析する際、購入者・未購入者(分類ラベル)のデータ項目から、<女性・免許所有> <未婚・20~34歳>など、全パターンを組み合わせる。
続いてこれらを仮説とした際に、実際の商品購入者のデータとどれくらいヒットするかを分析。この時の一定以上のヒット率の仮説をナレッジチャンクと呼び、重要な仮説であると定義する。
これにより元々の判断対象となるデータが十分に揃っていない場合でも、注目すべき仮説をもれなく抽出し、新たな仮説の発見に貢献する。
2.ナレッジチャンクの影響度を調整し高精度な分類モデルを構築
抽出した複数のナレッジチャンクとラベルに基づき分類モデルを構築。その際、ナレッジチャンクを構成する項目が、他のナレッジチャンクを構成する項目と重複が多い場合には、分類モデルへの影響度が小さくなるよう制御。ラベルやデータに偏りがある場合にも、高精度な分類が可能なモデルを学習をする。
例えば、商品購入データの中で未購入の男性のデータが大多数を占めている場合に、影響度の制御なしで学習をすると、性別とは関係なく、得られた<免許所有>の項目を含むナレッジチャンクが、分類に影響を及ぼさなくなってしまう。
しかし開発方式では、項目の重複に応じて<男性>が含まれるナレッジチャンクの影響度を抑え、少数である<免許所有>が含まれるナレッジチャンクの影響度が相対的に大きくなるように学習することで、<男性>でも<免許所有>でも正しく分類できるモデルが構築できる。
[効果]
富士通研究所では、同技術について、デジタルマーケティングや医療などの領域のデータに適用し検証を実施。
UC Irvine Machine Learning Repository (注1)のマーケティングと医療領域のベンチマークデータを用いたテストでは、ディープラーニングに比べ、正解データを当てる精度が約10~20%向上。サービスに加入する見込みの高い客や、罹患患者を見逃す確率を、約20~50%低減。
約5,000件の顧客データの中、購入顧客が約230件と正解データが少ないマーケティング・データを使用した検証では、同技術を用いて販促する人を決定した場合、販促対象から除外する見込み客数を、ディープラーニング分析結果の120人から74人に減らすことができたと云う。
同社は、ナレッジチャンクが、論理的な表現形式を持ち、判断の理由が説明できることから、社会実装において有効であり、また、新たなデータに対する結果から、モデルの修正が必要だと判断した際に、より適切な修正が可能だとしている。
[今後]
富士通研究所は、不正利用や設備故障などの低頻度の事象を扱う業務や、金融取引、医療診断など、AIの判断理由が求められる業務においての実践を進め、富士通のAI技術「FUJITSU Human Centric AI Zinrai」を支える新たな機械学習技術として2019年度の実用化を目指す。
また、本技術のもつ説明可能な特性も有効に活用し、導入先の業務における判断・意思決定支援の高度化、人間との協働を含めた全体のシステムの設計などの研究開発を進めていくとしている。
注1)UC Irvine Machine Learning Repository:機械学習の比較評価用に数々のデータセットを提供するリポジトリ。