Tech Trend Analysis 有門 経敏様 × NTTデータ数理システム テキストマイニングによる文献研究・分析事例

  • HOME
  • テキストマイニングによる文献研究・分析事例

文献研究は、 EndNoteとTMSが効果的です

2020年8月17日 19:09

進歩の早いエレクトロニクスの分野で、技術開発の情勢分析・レポート作成サービスを提供しているTech Trend Analysis代表の有門経敏様。より正確な情勢把握に膨大な量の論文を参照し、その中から技術開発の動向や未来を描き出す。こうした作業にユサコ株式会社が販売する文献管理・論文作成支援ソフトEndNote X9(以下、EndNote)と、NTTデータ数理システムのText Mining Studio(以下、TMS)を活用し、より確かな分析と効率の良い作業を両立させている。

Profile:有門 経敏 様
1978年3月、大阪大学大学院・工学研究科・応用化学専攻・博士後期課程修了、工学博士。東芝入社後、総合研究所で集積回路製造プロセス技術の開発に従事した後、半導体先端テクノロジーズ取締役・第1研究部長、東京エレクトロンで技術開発の専門職としてコーポレート開発全般を指導。2016年1月、Tech Trend Analysisを設立。

有門 経敏 様
Tech Trend Analysis代表
有門 経敏 様

大量の文献管理をEndNoteで、思いのままの分析をTMS

お仕事の内容を教えていただけますか。

有門 半導体やディスプレイにおける技術動向の調査・分析です。この分野は進化が激しく、日々たくさんの技術が生み出され、その活用や実用化が研究されています。次の成長のために今後どの技術に注力すべきか、どの程度のリソースを割くか、マネジメント層は常に頭を悩ませていますが、その判断に必要な技術動向を、論文や特許などの技術文書から分析してレポートにまとめています。

EndNoteTMSはどのようにお使いですか。

有門 レポート作成では論文などの文献をたくさん読み、多様な観点から情報を取得しておくことが欠かせません。限られた時間で可能な限り多くの論文を調査できるよう、私は主に2つのツールを使っています。1つはEndNoteで、これは多数の電子化された文献を整理 保管、参照するためにとても便利です。そしてもう1つはTMSで、文献から抽出したテキストの内容を分析するために利用しています。

EndNoteのメリットを教えてください。

有門 論文収集と整理に費やす時間がぐっと短縮されました。以前は論文ダウンロード後、その 情報を11件手作業で整理していたほか、ファイル名が記号になっているため自分が分かるようリネームしていました。整理すべき論文は通常100本以上あり、これらの作業に12時間はかかります。EndNote導入後は、あらかじめ技術分野や技術アイテムごとにフォルダを作っておき、そこに次々と論文を入れていくだけですので作業は5分程度。たったそれだけの作業で、自分だけの論文データベースが作れるわけです。リネームすることなく読みたい論文をすぐに見つけることができ、関連タイトルやアブストラクト、出典も一覧できるので、レポート作成で参照する際も楽です。さらにそこからワンクリックで引用したり、参考文献リストをまとめる機能もあり、大変助かっています。

TMSはどのような分析に役立っていますか。

有門 特に便利なのは、1つの事象を時系列でたどることです。10年ぐらいの期間で文献を集め、その中でどういう単語が頻出したか、それが時間の経過でどう増減したかを見ると、技術開発の推移やその技術周辺でどんなアイデアが生まれ、消えていったのかを可視化できます。それをもとに現在の技術開発の進捗状況を把握したり、今後の市場性を予測したりします。以前、印刷でエレクトロニクス部品を作る技術の分析をしたとき、関係性の強い単語として当初「display」が頻出しましたが、それが次第に「sensor」に代わっていきました。開発の軸足がディスプレイからセンサーに移っていった、その様子が時系列分析から浮かび上がりました。 さらに単語をグルーピングして調べることもあります。2000年代から10年間の半導体MOSトランジスタで、その性能に関する単語、容量に関する単語、信頼性に関わる単語でグルーピングして分析。その結果、開発の主軸が性能向上から信頼性確保へどの時期から移り変わったか、またこの開発では閾値の変動という大きな課題が出てくるのですが、それがどの時期から浮かび上がってきたのか、開発の全体像を見事に描き出すことができました。

TMSによる分析のコツがあれば教えてください。

有門 論文の全文章を分析する必要はないと思っています。本文のほかに用意されているアブストラクト(抜粋)のほうが文字数が少ない分、中身が研ぎ澄まされており、分析のノイズとなるような要素もありません。そのアブストラクトを分析するだけで充分な結果が得られます。

これらのツールはどのような人に役立つでしょうか。

有門 EndNoteは、大学の教員や学生だけでなく、企業や研究機関の研究職の方にとっても有効でしょう。またTMSによって、文献のテキスト情報をエビデンスとして説得力の高いレポートをまとめることができます。この2つのツールはどちらもサポート体制が充実しており、容易に利用スタートできます。私はテキストマイニングの知識や経験はあまりなかったのですが、NTTデータ数理システムの手厚いサポートにより、短期間で思い通りにTMSを使うことができるようになりました。

Practice EndNoteTMSを活用した有門様の文献研究方法(手順)

■ 論文を検索、ダウンロードし、事前整理

① IEEE(米国電気電子学会)の論文公開データベース(https://ieeexplore.ieee.org/)でテーマに応じた検索式を作成し検索。検索結果を被引用数でソートし、多い順から選ぶ。

その際、調査期間内の各年の情報量が均等になるように論文のテキスト量や本数を調整する。情報量に偏りがあると、TMS分析の結果に影響が出るため。論文内容のテキストは有料の本文ではなく、無料のアブストラクトを利用している。

ダウンロード後は、TMS用にタイトルやオーサー(執筆者)などのテキスト情報を、Excelシート上に年ごとにまとめておく。EndNoteからExcelに情報を出力できる手順を使っている場合、このの手順はほぼ自動的に行える。 

■ EndNoteで論文参照とレポート作成

ダウンロードした論文の電子ファイルをEndNoteにドラッグ&ドロップし、登録。またEndNote独自の文献検索・ダウンロード機能もあり、これを活用して必要な論文を追加ダウンロード・登録することもある。

あらかじめ技術分野や技術アイテムごとにグループを用意し、集めた論文を入れていく。

レポート作成中、参照したい論文にアクセスし、引用したい部分があればその箇所をレポートに反映させる。

④ レポート作成後、参考文献リストの体裁をエレクトロニクス業界の規定に合わせて整える。

■ TMSによる論文データのテキストマイニング

事前整理したExcelシートをTMSに投入後、まずTMSの基本情報を見て各年の単語数が不均等になっていないか、各年平等に分析してもいいデータ量があるかを確認。

[削除語辞書]により不要な単語を削除。分析に必要となる名詞や形容詞を残す(ちなみに英語の論文で最も出てくるBe動詞や動詞、itといった指示代名詞などは、TMSで自動的に省かれるので分析がとても楽です!)。削除語辞書には随時不要な単語を追加登録し、その精度や使い勝手を高めている。

単語頻度集計ツール[TMXText Mining eXpress)]により、名詞、形容詞など品詞ごとに出現頻度を横並びで確認。抽出した単語の全体像をつかむ。

[単語頻度解析][係り受け頻度解析]などを行い、それぞれの特徴的な状況を見ていく。

[グルーピング]を利用する前に、[ことばネットワーク]で単語同士の係り受けの状況や同時出現の確率などの結果を見て、グルーピングする単語を決めていく。グルーピング後は、全グループを対象に解析したり、グループ内の単語を深掘りする解析を行ったりしている。

TMSによる分析例

おわりに

今回は、簡単な操作で本格的なテキストマイニングが行えるツール「Text Mining Studio (TMStudio)」を活用していただいた事例についてご紹介しました。 テキストマイニングを活用した課題解決やText Mining Studioについて、少しでも興味をお持ちいただけたでしょうか?製品について詳しく知りたい方は、Text Mining StudioのページText Mining Studio 関連情報のページをご覧ください。製品紹介のオンラインウェビナーも定期的に開催しております。

また、弊社NTTデータ数理システムでは、長年培ってきた数理科学の技術を基に、お客様のご要望に合わせた受託開発を承っております。「データはあるから何となく何かをやりたい…」というきっかけでも大丈夫です。お客様が解きたい課題を弊社技術スタッフが一緒に課題整理を行いながら、ご要望に合わせたご利用形態で課題解決をサポートします! ぜひお気軽にお問い合わせ、ご相談いただけると幸いです。