next up previous contents
Next: ベクトル空間法による文書の類似度の算出 Up: 重要度の計算 Previous: 複合名詞への拡張   目次

候補語の出現頻度情報

式(2.3)の $ LR(CN)$ は単名詞、複合名詞の出現頻度における情報を考慮しなかった。 そこで、候補語が独立で使用された場合の頻度 $ f(N)$ を考慮すべく式(2.3)を次のように補正した $ FLR(CN)$ を定義する。

$\displaystyle FLR(CN)=f(CN) \times LR(CN)$ (2.4)

$ f(CN)$ は候補語 $ CN$ が単独で出現した頻度である。

例えば、図 2.2の場合、 「単語トリグラム」という複合名詞の重要度の計算は以下のようになる。

$ N_1=$単語 , $ N_2=$トリグラム として、$ \char93 LN(N)$ , $ \char93 RN(N)$ は それぞれ式(2.1), 式(2.2)より

$ \hspace{2em}\char93 LN_1($単語$ )=0\\
\hspace{3em}\char93 RN_1($単語$ )=3\\
\hspace{3em}\char93 LN_2($トリグラム$ )=5\\
\hspace{3em}\char93 RN_2($トリグラム$ )=3\\
\hspace{3em}f($単語トリグラム$ )=3$



となる。 これらより、 $ LR($単語トリグラム$ )$ は式(2.3)より

    $\displaystyle LR($単語トリグラム$\displaystyle )$  
  $\displaystyle =$ $\displaystyle \Bigl(\char93 LN_1($単語$\displaystyle )+1\Bigr)\Bigl(\char93 RN_1($単語$\displaystyle )+1\Bigr)
\Bigl(\char93 LN_2($トリグラム$\displaystyle )+1\Bigr)\Bigl(\char93 RN_2($トリグラム$\displaystyle )+1\Bigr)$  
  $\displaystyle =$ $\displaystyle (1 \times 4 \times 6 \times 4)^\frac{1}{4}$  
  $\displaystyle =$ $\displaystyle 3.13$  

となる。

$ FLR{(\mbox{単語トリグラム})}$ は、式(2.4)より

    $\displaystyle FLR($単語トリグラム$\displaystyle )$  
  $\displaystyle =$ $\displaystyle f($単語トリグラム$\displaystyle ) \times LR($単語トリグラム$\displaystyle )$  
  $\displaystyle =$ $\displaystyle 3\times 3.13$  
  $\displaystyle =$ $\displaystyle 9.39$  

よって、例における「単語トリグラム」の重要度は9.39となる。


next up previous contents
Next: ベクトル空間法による文書の類似度の算出 Up: 重要度の計算 Previous: 複合名詞への拡張   目次
Deguchi Lab. 2010年3月5日