next up previous contents
Next: 実験で使用した技術 Up: 自然言語処理 Previous: 自然言語の精度と意義   目次


重要度の計算方法

形態素解析を終えた後に行う各単語の重要度の計算には、その単語が文書内でどれだけ現れたかや複合語となっているかなどの要素が考慮される。例として、重要度の計算に良く使われる方を説明する。これは文書中に出現した単語がどれほど特徴的であるかを識別するための指標であり、(Term Frequency)と(Inverse Document Frequency)はそれぞれ次式のように表される。


$\displaystyle tf(t,d)$ $\displaystyle =$ $\displaystyle \frac {\mbox {文書$d$における単語$t$の出現回数}} {\mbox {文書$d$における総単語数}}$ (2.1)
$\displaystyle idf(t)$ $\displaystyle =$ $\displaystyle 1 + \log \left (\frac {\mbox {全文書数}} {\mbox {単語$t$が出現する文書数}} \right )$ (2.2)
$\displaystyle tf \mathchar\lq - idf(t,d)$ $\displaystyle =$ $\displaystyle tf(t,d) \times idf(t)$ (2.3)

このようにtfは文書中の単語の出現頻度を表し、idfはその単語がどれだけ他の文書にも含まれているかを表す。このidfを取り入れることによって、多くの文書で見受けられる語句は一般的であり、特定の文書で頻繁に出現する語句が特徴的であることが示せるのである。なお、式(2.2)は文献によって1が足されなかったり、対数の底の値が異なったりする。



Deguchi Lab. 2012年3月9日