生成AIとテキストマイニングは補い合う──レビュー分析の事例から

  • HOME
  • 生成AIとテキストマイニングは補い合う──レビュー分析の事例から

探偵ドラマには、独創的な名探偵と冷静な分析官という定番のコンビがいます。前者が大胆な推理を組み立て、後者が証拠を積み上げる。そのどちらかが欠けても、難事件を読み解くことはできないのです。

ビジネスにおける テキストデータ分析 でも、同じような“名コンビ”が存在することをご存じでしょうか。言葉で語る 生成AI と、数値で語る テキストマイニング 。全く異なる性質を持つふたつの技術が互いに補い合うことで、テキスト分析はより正確かつスピーディーなものへと進化しつつあるのです。

目次

  • テキスト分析:特徴の異なるふたつの技術
  • 真の価値は“補い合い”にある
  • レビュー分析事例:なぜこの商品は好かれ、なぜ不満が出たのか
  • おわりに:生成AIでデータ分析はもっと便利になる

※本記事の内容は、当社にて実施したセミナー「生成AIとテキストデータでマーケティングはこう変わる ~データドリブンな仮説立案へ~」の資料の内容から一部抜粋・再構成したものです。セミナー資料も併せてご覧ください。

セミナー資料はこちら

テキスト分析:特徴の異なるふたつの技術

テキストマイニング

ビジネスの場においては、日々さまざまな種類のテキストデータが蓄積していきます。これらのデータをただ溜めておくだけでは、いずれ人間が読み切れる量ではなくなり、せっかくのデータも宝の持ち腐れとなってしまいます。
そこで、このような大量のテキストデータに含まれている 単語の情報を定量的に分析する ことで有用な知見を発掘しよう、という営みが盛んに行われてきました。このような手法は テキストマイニング と呼ばれています。
以下の図のように、単語を集計したり関連性の強い単語どうしをグラフィカルにまとめたりすることで、テキストデータの全体像を素早く掴むことができます。

定量的な手法でテキストの全体像を可視化

テキストマイニングには以下のメリットがあります。

  • 人間がテキストに目を通すことなく内容を素早く把握できるようになる
  • 定量的な分析なので、読み手の主観によって分析が歪められるリスクが軽減できる
  • 分析結果をグラフィカルに可視化できる

そのため、大量のテキストデータを有効に活用するための方法として広く用いられてきました。

●関連記事: テキストマイニングとは?

生成AI

その一方で、近年は 生成AI が目覚ましい勢いで進歩を続けています。 LLM(大規模言語モデル)に代表される生成AIは、自然言語の扱いに非常に長けており、アイデア出し・資料作成・論文要約など、日々の業務をあらゆる場面でサポートしてくれる優れものです。

チャット形式で与えられたタスクに対して優れた回答を示す生成AI

こちらの依頼や質問に対して流暢な日本語で的確にこたえてくれる様子を見ていると、テキストデータの分析も生成AIにすべて任せてしまえば良いように思えます。

しかしながら、生成AIには 回答の信頼性に課題がある ため、テキスト分析に使う際には注意が必要です。
例えば、生成AIに数値計算を行わせると、以下の図のように意外なほど単純なミスをすることがある点には気を付けなければいけません。

賢い生成AIだが、数値計算では小学生のようなミスをすることも

このように生成AIが誤った回答を自信満々に生成してしまう現象は ハルシネーション として知られており、ユーザーはこのハルシネーションに留意しつつ生成AIの回答内容をチェックする必要があります。

つまり、従来のテキストマイニングも最新の生成AIもそれぞれ一長一短であると考えるべきなのです。
テキスト分析に興味のある方にとっては、いったいこれからどちらを活用していくべきなのか迷いどころかもしれません。

真の価値は“補い合い”にある

ここで私たちが皆さんにお伝えしたいのは、実は テキストマイニングと生成AIは長所と短所を互いに補い合う関係にある ということです。

テキストマイニング 生成AI
データ処理コスト

安い

処理自体にはほとんどコストがかからない

高い

定量的な考察

しやすい

可視化や統計手法と組み合わせることが可能

しにくい

基本的な計算も間違うことがある

文脈を踏まえた
高度な考察

苦手

単語・構文レベルの情報しか使えず、厳しい

得意

高度な自然言語処理による高い推論力

安定性・再現性

高い

シンプルなアルゴリズムは安定性・再現性が高い

低い

入力が少し変化すると回答が大幅にバラつく場合も

データの前処理の
必要性

必要

データクレンジングを丁寧にする必要がある

省略可能

高い解釈能力を前処理自体に活用できる

テキストマイニングと生成AI──これらの技術を組み合わせて利用することで、双方の長所を活かし、テキスト分析を効率よく正確に進めていくことができます。

従来のテキストマイニングにおいては、以下のような点がネックとなっていました:

  • データの前処理が大変
  • 複数の話題が混在したテキストの扱いが難しい
  • 皮肉などを含んだハイコンテクストなテキストの扱いが難しい

しかし生成AIは、膨大な言語表現を事前に学習しており、単語単位ではなく文脈全体を踏まえた推論が得意です。そのため、こうした課題にも比較的容易に対応できます。

逆に、ハルシネーションや計算ミスなど、生成AIのミスが生じやすい部分については、従来のテキストマイニングで用いられてきた定量的な分析を活用することでリスクを軽減できます。

このように生成AIとテキストマイニングが互いの弱点をカバーし合うことで、テキスト分析に新たな可能性が拓かれるつつあると言えるでしょう。
それでは、この組み合わせがどのように実際の分析に活かされるのか、具体的な分析例をご紹介します。

レビュー分析事例:なぜこの商品は好かれ、なぜ不満が出たのか

生成AIとテキストマイニングの補い合いを活用した分析例として、商品のレビュー分析を取り上げます。今回は架空の商品「ポテトチップス じゃがいも味」のレビューデータを例に説明します。
好き嫌いがはっきり分かれそうな商品ですが、この商品が好きな人と嫌いな人では何が違うのでしょうか。これが分かれば、今後どのような顧客層をターゲットとしてどのような広告を打つべきかといったマーケティング施策への参考とすることができます。

好き嫌いの理由を知るには、レビューをポジティブ・ネガティブで分類したうえで、それぞれの傾向を見るのがよいでしょう。そのためには、まず生成AIを用いてレビューをポジティブ・ネガティブで分類し、その後それぞれの結果をテキストマイニングを用いて可視化します。これにより、ポジティブ・ネガティブそれぞれの意見の違いを把握することができます。

今回の分析の流れは以下の図の通りです。

生成AIとテキストマイニングを組み合わせた分析の流れ

レビューのポジネガ分類には生成AI

レビューをポジティブ・ネガティブで分類する場合、従来のテキストマイニングでは、特定の単語(「美味しい」「まずい」など)の有無をベースに判定していました。
しかし、文章が長くなり内容が複雑なレビューの場合は、単語レベルではなく全体の文脈を踏まえなければ正しく分類できないことが多くなります。
そこで今回は、このポジネガ分類生成AIに任せています。以下の図のように、各レビューの文脈を踏まえ、表面的な単語に惑わされず、皮肉や複数話題が含まれる文でも的確に判断できました。これは生成AIならではの強みと言えるでしょう。

話題が混在していたり皮肉を含んでいたりしても高い精度で処理が可能

全体像の可視化にはテキストマイニング

ポジネガ分類の次に登場するのが、テキストマイニングの定量的な分析です。分類されたレビュー群ごとに、頻出単語とその共起関係をグラフィカルに可視化することで、それぞれの顧客層がどのような視点で商品を捉えているのかを示しています。今回はテキストマイニングツールとして、当社のデータ分析プラットフォームである Alkano を利用し、共起ネットワーク分析を行うことで以下のような結果が得られました。

共起ネットワーク分析では、一緒に使われやすい単語どうしがクラスタを形成することで、テキスト中の主な話題が示唆される

ポジティブなレビュー群では、「素材の味」「自然な甘み」などのキーワードがクラスタ(単語どうしの塊)を形成しており、素朴さや素材感を重視する意見の多かったことが伺えます。
一方、ネガティブなレビュー群では、「塩気が足りない」「物足りない」といった声が多く、濃い味への期待があったことが読み取れます。

共起ネットワークには、上記のクラスタ以外にも複数の話題に対応するクラスタが形成されています。そのため、ポジティブ・ネガティブ問わず、レビュー中の話題を漏れなく把握するのに役立つでしょう。
また、例えば「物足りない」という単語は20回出現しているといった数値の情報もネットワーク図から得られるため、どの話題がどのくらい多いのかも具体的に把握できます。

なお、テキストマイニングに頼ることなく、ポジネガ分類の結果をそのまま生成AIに渡して解釈させる、という方法も考えられます。
しかし、今回はテキストマイニングにより、テキスト中に登場する単語や共起関係の数(≒どんな話題が主に語られているか)に基づいて定量的に分析しています。これにより、情報量・信頼性を保ちながらテキストの全体像をわかりやすく示すことができました。テキストマイニングの強みが活かされた場面だと言えるでしょう。

分析結果の解釈・考察も生成AIがアシスト

さらに今回は、生成AIにネットワーク図の画像を入力することで、以下のようにネットワーク分析の結果の解釈まで行わせることにしました。

テキストマイニングの結果を生成AIが解釈し、知見の発掘をサポート

ポジティブなレビュアーとネガティブなレビュアーでは、商品に対する見方や期待がどのように異なっていて、それがどのように好評・不評につながっているのか……分析者が最終的に知りたいポイントについて、生成AIが素早く的確な示唆を与えてくれています。
業務知見を持った分析者自身がグラフを解釈することも大切ですが、生成AIを活用すれば、「言われてみれば確かにこういうことも言えそうだな……」「その視点は自分にはなかった!」のように解釈のヒントが得られることでしょう。

以上のように、今回の分析例は、文脈を読み解く力(生成AI)」と「客観的に俯瞰する力(テキストマイニング)」を組み合わせることでスムーズな商品理解・顧客理解を実現した例となっています。

おわりに:生成AIでデータ分析はもっと便利になる

本記事でご紹介したように、生成AIとテキストマイニングはそれぞれ強みと弱みがはっきり分かれている技術です。
だからこそ、両者を適切に組み合わせることで、分析の質と信頼性を同時に高めることが可能になります。これはテキスト分析に限らず、一般のデータ分析においても言えます。

私たちNTTデータ数理システムは、生成AI単体での導入支援にとどまらず、データ処理・分析技術を基盤とした総合的なソリューションをご提供しています。 生成AIだけでなく周辺技術にも精通したデータサイエンティストが、お客様の課題に応じた最適な技術構成を提案。PoCから業務導入までワンストップで支援し、柔軟な技術組み合わせを実現いたします。
ご関心をお持ちの方は、どうぞお気軽にご相談ください。

生成AIのビジネス活用に役立つホワイトペーパーを無料でダウンロードいただけます。話題のRAGAIエージェントなど、生成AIの近年の動向をわかりやすく解説しておりますので、ぜひお申し込みください。

資料お申込みはこちら

監修:株式会社NTTデータ数理システム
監修:株式会社NTTデータ数理システム 機械学習、統計解析、数理計画、シミュレーションなどの数理科学を 背景とした技術を活用し、業種・テーマを問わず幅広く仕事をしています。
http://www.msi.co.jp NTTデータ数理システムができること
「数理科学の基礎知識」e-book無料ダウンロードはこちら

関連記事