next up previous contents
Next: 候補語の抽出 Up: テキストマイニング Previous: 自然言語処理の精度と意義   目次

テキストマイニングのための自然言語処理技術

基本的にテキストマイニングで行うことは、文章で示されている内容の統計的な分析である。すなわち、 どのような内容が多いか少ないか、増えているか減っているか、またどのような内容とどのような内容が 統計的に関連性が高いか、といった分析を行うことになる。

そこで文章の内容として、どのような語句をどのような単位で抽出するかが分析結果の有効性に大きく影響する。

抽出対象としてまず考えられるのは、情報検索などで用いられるキーワードであろう。 情報検索の世界では付属語は対象外として、自立語、特に、名詞概念をキーワードとして抽出する傾向が強い。 単に名詞を抽出するだけなら形態素解析ツールを利用すれば、その品詞情報を利用した単純な処理で実現できる。

しかし同じ名詞であっても、その内容は多種多様である。例えば、「物」、「文」、「数」といった比較的抽象度の 高い内容の語よりも、より具体性の高い語のほうが情報検索においてはキーワードとしての重要性が高いとみなされることが多い。

また、文書が人手によりなんらかのカテゴリに分類されている場合には、その分類に寄与している語ほど重要度が高いという 考え方もできる。 このようなカテゴリ分類能力という観点での語の重要性と、語の出現頻度(語を含む文書数)を調査した論文[25]に よれば、基本的には出現頻度の低い語ほど重要性が高くなり、同じ頻度であれば、 動詞よりも名詞のほうが重要性が高いという結果が出ている。

テキストマイニングでは統計的な分析を行うため、統計的に有意な結果を導出するうえでは、ある程度以上の出現頻度をもつ語が 対象になる。したがって、頻度が低い語は、重要性が高くても、ノイズとなって分析結果から外れてしまう。 また、頻度が高くても、重要性が低い語であれば、分析結果における有効性は低くなるという問題が生じる。 この問題に関しては、抽出の単位をどう取るかで頻度の調整を行えるのが文書データの特長でもある。

例えば、「東京基礎研究所」という表現が形態素解析の結果「東京」、「基礎」、「研究所」の三つの要素単語に分割される場合、 「東京」や「研究所」といった単位では頻度が高く重要性が低いならば、「基礎研究所」や「東京基礎研究所」という、より長い 単位で語句を抽出することによる語の重要性を上げることができ、頻度が低ければ、より短い単位にして抽出することで、 より頻度の高い単位で分析を行うことができる。



Subsections

Deguchi Lab. 2010年3月5日