next up previous contents
Next: 単名詞バイグラムを用いる重要度の計算 Up: テキストマイニングのための自然言語処理技術 Previous: 候補語の抽出   目次


重要度の計算[26]

重要度の計算の一つに $ tf \times idf$ という値がよく用いられる。これは、文書内での重要性が高い語ほど 文書内で頻繁に出現し、抽象度が高い語ほど多くの文書に出現するだろう、という考え方から近似される値である。 しかし、この $ tf \times idf$ といえども表層表現を利用した近似表現に過ぎない。それは、 やはり書き手の持っている概念を直接には表していないことと、ある単名詞が対象分野の重要な概念を 表しているなら、書き手はこの単名詞を単独で頻繁に使うのみならず、新規な概念を表す表現として この単名詞を含む複合名詞を作り出すことも多いということである。

このような理由により、複合名詞と単名詞の関係を利用する用語抽出法の検討が重要であることが理解できる。



Subsections

Deguchi Lab. 2010年3月5日