Next: テキストマイニング研究事例 Up: テキストマイニング Previous: テキストマイニングとは目次

Hearstによるテキストマイニングの定義

Hearstは、テキストマイニングの定義について、マイニングという語義の観点から整理している。 Hearstが分類したものを表 2.1に示す。

データマイニングにおけるマイニングは、データから新しい情報を発見するという意味ではなく、大きなデータ集合の中から、自動的に傾向やパターンを発見するという意味で使われている。これをテキストデータを対称としてテキストマイニングにそのまま適用すると、コーパスに基づく言語処理になってしまう。しかし、コーパスに基づく言語処理は、情報検索など文書集合内の処理には貢献しているが、文書集合の傾向をつかむといった文書集合自身を超えた一般的な知識の発見には不十分である。

一方、テキストマイニングと情報検索との違いは、文書集合から得られる情報が新しいかどうかという点にある。情報検索はユーザが必要とする情報を含む文書を検索するが、この情報は検索された文書の著者にとっては既知の情報であり、新しい情報を発見したとはいえない。つまり、単なるパターンではなく、新しい情報を発見するというマイニングという言葉の本来の意味をもつものこそが、真のテキストマイニングである、とHearstは述べている。

**表 2.2:** テキストマイニング関連研究[2]
$\scalebox{0.65}{ \begin{tabular}{\vert l\vert l\vert l\vert l\vert}\hline タ�... ...書一般&相関ルール&Ahonen\cite{ahonen1,ahonen2}\\ \hline \end{tabular} }$

Deguchi Lab. 2010年3月5日