Next: 自然言語処理 Up: テキストマイニング Previous: テキストマイニング目次

テキストマイニング [2]

テキストマイニング（Text Mining）とは、大量のテキストデータの中に埋もれている法則性や相関関係を見つけ出すことを目標とする技術の総称である。一般的な用途として、アンケートの自由回答やコールセンターへの意見などに適用してサービスの向上を図ったり、トピックの自動抽出により総合的な情報を得たりするのに利用されている。テキストマイニングという言葉は1990年代半ば頃から用いられるようになったが、これは既存の技術であったデータマイニングを、テキストデータにも応用出来ないかという発想が現れたことによる。通常のデータとテキストデータの違いは、後者には用語という概念やその頻出度といった情報が存在することが挙げられ、当然その分だけ処理は複雑になる。また日本を始めとする地域においては、その母語が英語に見られるように文が１単語ずつで区切られておらず、連なった文である為にその導入は難しいとされてきた。

しかし、近年では電子技術の発展とともに手軽にテキストデータが扱えるようになり、この技術が発展・注目されていった。今ではそれほど目新しい技術であるとは言えなくなっているが、一方でその有益性は認められており、様々な企業や研究室で用いられている。

ここでテキストマイニングと情報検索の違いについて述べておく。後者についてはユーザが事前にキーワードを入力し、システムがそのキーワードに該当する文書を提示するというものである。よって、これは検索結果が何件あろうと、そこにユーザが求めた情報が一件でも載っていれば良いことになる。一方、前者において求める情報は一件から求められるものではなく、検索した結果全体から得られる新たな情報を欲し、ここに両者の違いがある[4]。そういった分類がまとめられたものを表 2.1に示す。これはテキストマイニングの分野において有名なM. A. Hearst氏が論文[2]で記載したものを訳したものである。この表のように、新規のデータを発見するというのがテキストマイニングの目標である。

テキストマイニングの対象となるテキストデータは、あらかじめ形態素に分解されていなければならない。これについては2.2.1 節で後述する。

**表 2.1:** Hearst氏によるデータマイニングとテキストマイニングの分類
$\scalebox{0.9}{ \begin {tabular}{\vert c\vert c\vert c\vert c\vert} \hline & ... ...処理 & テキストマイニング & 情報検索 \\ \hline \end {tabular} }$

-1cm

Deguchi Lab. 2011年3月4日