- HOME
- ベイジアンネットワークを使った要因分析について
2023年5月17日 17:00
本記事では、ベイジアンネットワークを使用した要因分析手法についてご紹介します。まず、ベイジアンネットワークとその基本的な分析手法となる確率推論について、具体例を用いながらご説明をします。次に、大域要因分析と局所要因分析の2つの要因分析のアプローチを説明したのち、それらの分析を BayoLinkS(ベイヨリンクエス)の機能を用いて行う方法についてご紹介します。
BayoLinkS とはNTTデータ数理システムが開発・販売しているソフトウェアで、大量のデータから依存関係を抽出し、わかりやすいインターフェースでベイジアンネットワークを構築します。
ベイジアンネットワークとは
ベイジアンネットワークは、事象間の確率的な因果関係をグラフ構造で表現するモデリング手法の一つです。故障診断や気象予測、医療的意思決定支援、マーケティング、レコメンドシステムなど様々な分野で利用や研究が行われています。
ベイジアンネットワークの例:化学製品の精製に関わる現象のモデル化
ベイジアンネットワークを具体的な例を用いてご説明します。
次のモデル(図1)は、ある工場で化学製品が精製される際の因果関係をベイジアンネットワークで表現したものです。化学製品の精製に関する以下の5つのことがらについての関係を表しています。
- 『溶液温度』
製品合成時の材料となる溶液の温度。『低い』・『高い』の2つの状態がある。 - 『反応時間』
化学製品の合成にかかった時間。『短い』・『長い』の2つの状態がある。 - 『品質』
化学製品の性質や特性が想定した範囲内であったかどうか。『不良』・『良』の2つの状態がある。 - 『残留物』
化学製品の精製工程中における残留物の量。『多い』・『少ない』の2つの状態がある。 - 『不純物』
化学製品の精製工程中で不純物が検出されたかどうか。『あり』・『なし』の2つの状態がある。
図1のネットワークは、次の因果関係を表現します。
- 製品の品質は、製品合成時の材料となる溶液の温度と精製にかかった時間に影響される。
- 精製された製品の品質の良・不良に従い、工程中で発生する不純物の有無や残留物の多少の傾向が変化する。
また、ベイジアンネットワークは確率的な因果構造を示すため、ノードのとり得る各状態に確率が与えられています。状態の隣のテーブルがその確率です。
確率推論
ベイジアンネットワークは全体が1つの確率的な事象を定めるため、特定の条件下の事象の事後確率を求めることができます。つまり、各事象で観測された状態を条件とした(エビデンスとして与えた)条件付き確率を計算します。この計算を確率推論と呼びます。
図3は、図1のベイジアンネットワークにおける製品の品質が不良であるときの確率について BayoLinkS を用いて求めた際の画面です。ここでは、化学製品が不良品であったとする観測結果をエビデンス(真ん中のテーブルの黄色の状態)とし、確率推論を行いました。図1のエビデンスを与える前と比べて、反応時間『短い』の確率値が他の項目より上昇したことが確認できます。
ベイジアンネットワークを使用した要因分析
要因の種類(大域要因と局所要因)
要因分析は、要因を特定するスケールで「局所要因分析」と「大域要因分析」の2つに分類できます。「局所要因分析」は、個別の事象の原因を、その他の具体的な事実の中から求める分析です。一方「大域要因分析」は、個別の結果には触れず、事象を生じさせるメカニズムの概観から要因を求める分析です。
- 局所要因
- ある結果について、他の事象のどのイベントが影響を与えていたか探る分析。
- (例)この製品が不良品となったのは、「溶液温度が高かったこと」と「反応時間が短かったこと」のどちらがより関係したかを求める分析。
- 大域要因分析
- 事象が決まるメカニズムで最も重要な部分はどこかを探る分析。
- (例)良品・不良品の結果を決めるのは、溶液温度と反応時間のどちらであるかを求める分析。
感度分析を使用した要因分析
BayoLinkS の感度分析では、ベイジアンネットワークを使用し、前述の「局所要因分析」と「大域要因分析」を同時に行えます。
感度分析は、エビデンスを変えながら確率推論を何回も繰り返します。結果への影響を確率推論から求めた事後確率の大小から確認します。最も確率を変化させたエビデンスを(局所要因分析としての)要因と解釈します。
図4は、変数がある値の時に『不良』となる確率を示したものです。反応時間が不十分の時に不良になる確率は3.2%であり、不良品となる確率を最も高くさせる要因であることが分かります。
また、大域要因分析として、確率推論の結果の集約した情報となる「相互情報量」を使い、システム全体で最も関係のある事象についての特定も可能です。
なお、相互情報量は0以上の数値をとり、値が大きれば大きいほど各事象と注目している事象(ここでは『品質』)との関係が強いことを表します。図5では、『反応時間』の値が『溶液濃度』より10倍以上の大きい値となっていることが確認できます。これは、2者のうち『品質』により強い依存関係にあるのが『反応時間』であることを表します。
おわりに
今回、ベイジアンネットワークを用いた要因分析手法の概要と BayoLinkS を用いた方法をご紹介させていただきました。
ベイジアンネットワークは、様々な要因分析に適したモデリングと言えます。1つのベイジアンネットワークを使い、システム全体を捉えた分析から個別の事象に関する分析まで、幅広い要因分析が行なえます。
加えて、ベイジアンネットワークでは、因果関係全体をネットワークの形状から視覚的に捉えられるといった利点があります。分析の経験がない方との間でも、ベイジアンネットワークを見せるだけで、詳細な説明なしにお互いの知見の共有ができます。(ベイジアンネットワーク媒介とし、分析者とベテラン作業員の知見を組み合わせ、生産プロセスの要因分析を行うといった利用もされています。)
「BayoLinkS」を使用したベイジアンネットワークによる分析をご紹介する、オンラインウェビナーを毎月無料で開催しております。ご興味をお持ちの方はぜひご参加ください。
http://www.msi.co.jp NTTデータ数理システムができること