next up previous contents
Next: 潜在的意味解析 Up: テキストマイニング Previous: ベクトル空間法による文書の類似度の算出   目次


日本語Wordnetを用いた文書の類似度の算出

日本語Wordnetとは日本語の意味辞書である。 語を類義関係のセット(synset)でグループ化しており、各synsetは上位下位関係などの多様な関係で結ばれており、 一つのsynsetが一つの概念に対応すると考えられている。 そこで、synsetの上位関係ancestorを用いて語と語の距離を関連度とし、関連度を用いて類似度の計算に反映させる。

図 2.3: 単語間の関連の略図
\includegraphics[scale=0.3]{figure/japanese_wordnet.eps}

日本語Wordnetにおける、二つの単語$ w_1,w_2$ の単語間の関連の略図を図2.3に示す。 図2.3において、$ w_1,w_2$ の最も近い共通のancestorまでの距離を$ L_1, L_2$ 、 一番上位のancestorまでの距離を$ L_n, L_m$ とする。 このとき、$ w_1$ $ w_2$ との関連度 $ Rel(w_1,w_2)$ を式(2.7)で表す。 関連度は日本語Wordnet上での単語間の距離が少しでも遠ければ値が0に近くなるよう反比例の関数で設計した。 そうすることで類似度が無駄に増加してしまうことを避けるためである。 $ \frac{L_n}{L_1} + \frac{L_m}{L_2}$ とすることで反比例の関数とし、 $ L_n+L_m$ を分母とすることで0〜1に正規化している。

$\displaystyle Rel(w_1,w_2) = \frac{ \displaystyle\frac{L_n}{L_1} + \frac{L_m}{L_2} }{ L_n + L_m }$ (2.7)

また、文書D,Eの関連度を含めた類似度は式(2.8)で表す。

$\displaystyle sim(D,E) = \frac{ \displaystyle \sum_{w_i \in D} \sum_{w_j \in E}...
...\sum_{w_i \in D} I(w_i,D)^2 } \sqrt{\displaystyle\sum_{w_j \in E} I(w_j,E)^2} }$ (2.8)

ここで、$ I(w_i,D)$ は文書$ D$ における重要語$ w_i$ の重要度を表している。



Deguchi Lab. 2012年3月12日