しかし、近年では電子技術の発展とともに手軽にテキストデータが扱えるようになり、この技術が発展・注目されていった。今ではそれほど目新しい技術であるとは言えなくなっているが、一方でその有益性は認められており、様々な企業や研究室で用いられている。
ここでテキストマイニングと情報検索の違いについて述べておく。後者についてはユーザが事前にキーワードを入力し、システムがそのキーワードに該当する文書を提示するというものである。よって、これは検索結果が何件あろうと、そこにユーザが求めた情報が一件でも載っていれば良いことになる。一方、前者において求める情報は一件から求められるものではなく、検索した結果全体から得られる新たな情報を欲し、ここに両者の違いがある[4]。そういった分類がまとめられたものを表 2.1に示す。これはテキストマイニングの分野において有名なM. A. Hearst氏が論文[2]で記載したものを訳したものである。この表のように、新規のデータを発見するというのがテキストマイニングの目標である。
テキストマイニングの対象となるテキストデータは、あらかじめ形態素に分解されていなければならない。これについては2.2.1 節で後述する。
-1cm