Next: 自然言語処理 Up: テキストマイニング Previous: テキストマイニング目次

テキストマイニング

テキストマイニングとは、膨大な文書（テキスト）情報の中から有用な情報を掘り出す（マイニング）ことで、定型化されていないテキストデータを、一定のルールに従って定型化して整理し、データマイニングの手法を用いながら、相関関係などの定量分析を行う手法である。

一般的な用途として、アンケートの自由回答やコールセンターへの意見などに適用してサービスの向上を図ったり、トピックの自動抽出により総合的な情報を得たりするのに利用されている。通常のデータとテキストデータの違いは、後者には用語という概念やその頻出度といった情報が存在することが挙げられ、当然その分だけ処理は複雑になる。また日本を始めとする地域においては、その母語が英語に見られるように文が１単語ずつで区切られておらず、連なった文である為にその導入は難しいとされてきた。ところが近年のコンピュータの処理能力の向上を受けて、手軽にテキストデータが扱えるようになり、この技術が発展・注目されていった。今ではそれほど目新しい技術であるとは言えなくなっているが、一方でその有益性は認められており、様々な企業や研究室で用いられている。

Deguchi Lab. 2013年2月28日