Next: ベクトル空間法による文書の類似度の算出
Up: 重要度の計算
Previous: 複合名詞への拡張
目次
式(2.3)の
は単名詞、複合名詞の出現頻度における情報を考慮しなかった。
そこで、候補語が独立で使用された場合の頻度
を考慮すべく式(2.3)を次のように補正した
を定義する。
|
(2.4) |
は候補語
が単独で出現した頻度である。
例えば、図 2.2の場合、
「単語トリグラム」という複合名詞の重要度の計算は以下のようになる。
単語
,
トリグラム
として、
,
は
それぞれ式(2.1), 式(2.2)より
単語単語トリグラムトリグラム単語トリグラム
となる。
これらより、
単語トリグラム
は式(2.3)より
となる。
は、式(2.4)より
よって、例における「単語トリグラム」の重要度は9.39となる。
Next: ベクトル空間法による文書の類似度の算出
Up: 重要度の計算
Previous: 複合名詞への拡張
目次
Deguchi Lab.
2010年3月5日