Next: 自然言語処理 Up: テキストマイニング Previous: データマイニング目次

テキストマイニング[2]

テキストマイニングという言葉は1990 年代半ばから世の中に広まり始め、近年では既に目新しいものではなくなっている。しかし、この言葉の定義は未だに曖昧である。テキストマイニングは非常に多様であり、一般的な定義が存在しない。しかし、テキストからの知識発見ということでは一致している。テキストデータに埋もれている法則性や相関関係などを掘り出し、情報を得ることを目的とする。

テキストマイニングの考え方は大きく2つに分類される。1つは、データマイニングの研究から派生して、データマイニングの手法を数値データだけでなくテキストデータにも適用するアプローチである。つまり、データマイニングの延長線上でテキストマイニングを考えているものであり、特に定量的な変数だけではなく、テキスト（例えば、アンケートの自由筆記欄など）を対象にすることを目的とするものである。もう1つのアプローチは自然言語処理の研究をベースとしてテキスト分類や情報検索を発展させてテキスト集合から知識発見につなげるアプローチである。しかし、この方向性は両者ともに歩み寄るようになってきている。

テキストマイニングは一般的な定義がなく多様であるため、多くの関連領域を持つ。テキストマイニングの関連領域としては、

1..: 自然言語処理あるいは計算機言語学
2..: 人工知能、エキスパートシステム、知識工学
3..: 認知科学及び認知モデリング
4..: 計量言語学および計量文献学
5..: 言語学、社会学、行動科学
6..: 記号論、テキスト論、カテゴリー論、意味論
7..: 内容分析あるいはテキスト分析

などがある。

Deguchi Lab. 2016年3月4日