next up previous contents
Next: 自然言語処理 Up: テキストマイニング Previous: テキストマイニング   目次


類似技術との比較

膨大な量の文書データを活用しようとする場合に思い浮かぶ技術、また最も用いられる技術として「検索」である。さらに、「分類整理」の技術も人手による分析に近いことから、文書データ活用の技術として用いられる。そのため、検索や分類整理の技術をテキストマイニングと呼んでいる場合もある。そこで、「分析」の技術としてのテキストマイニングと「検索」および「分類整理」の技術との違いを示す。

まず、検索とは文書データの選択をすることが目的である。求めたい情報がいずれかの文書に存在すると、その情報を含む文書データに絞り込む必要がある。つまり、対象とするデータに含まれると予想される特定のキーワードや文字列を検索の条件として、その特定のキーワードや文字列を含む文書集合を選択、絞り込むことが検索技術である。

次に、分類整理とは、データの振り分けとグループ化することが目的である。あらかじめ設定された分類クラスもしくは分類カテゴリーに個々の文書データを振り分けるクラシフィケーションもしくはカテゴリゼーションと呼ばれる技術と、似たような内容の文書データをグループ化してまとめ上げることで、1つの大きな文書データの集合をより少数の文書データからなる複数の集合に自動的に分けるクラスタリングという技術である。 このような分類技術には、クラシフィケーションでは、各文書データにあらかじめユーザが定義したラベルが付けられ、クラスタリングでは、自動的に分けられた各集合を識別するラベルが付けられる。


=1pt
表 2.1: 大量文書を活用する技術の比較[9]
          自然言語
 
           
           
 
 
 
 
           

検索の技術及び分類整理の技術と、分析の技術との比較を表2.1[8]に示す。 表2.1より、役に立つ知見を抽出するために文書データ中の意見的概念を対象として、自然言語処理・データマイニング・視覚化の技術を組み合わせて意味や関係の分析を行い、知識発見を志向したものがテキストマイニングである。 すなわち、検索の技術がほしい文書を集めることを目的とし、分類整理の技術が文書を仕分けたり似たような文書をまとめたりすることを目的としているのに対し、テキストマイニングは、文書内に記述された内容の傾向や特徴を把握することを目的としており、目的が異なる上に、処理単位が文書ではなく内容であることに違いがある。


next up previous contents
Next: 自然言語処理 Up: テキストマイニング Previous: テキストマイニング   目次
Deguchi Lab. 2012年3月9日