next up previous contents
Next: 多次元尺度法 Up: 実験に使用した技術 Previous: 潜在的意味解析   目次


ベクトル空間法

2.2.5節ではある文書における各単語の重要度を算出した。 次にその重要度を利用して、ベクトル空間法という計算方法を用い、複数の文書同士の類似度を計算する。

ベクトル空間法とは、文書を多次元空間上のベクトルとして表現し、 二つのベクトルを比較することにより類似度を調べるものである。 つまり、ベクトルの方向は文書の特徴であるので、二つのベクトルのなす角が小さいほど似ているということである。

$m$個のタームを持つ文書$D$を形態素解析し、各ターム毎の重要度を $w_{D1},w_{D2},\ldots,w_{Dm}$としたとき、 文書$D$のベクトルは以下のように表される。


$\displaystyle \overrightarrow{\rm D}=(w_{D1},w_{D2},\ldots,w_{Dm})$     (3.14)

今、 $n$個のタームを持つ文書$E$が文書$D$と どの程度類似しているのかということを考えたとき、 文書$E$も式3.14から同様に $\overrightarrow{\rm E}=(w_{E1},w_{E2},\ldots,w_{En})$となる。 これらベクトルDとベクトルEの類似度の計算は以下の式で実現できる。


$\displaystyle sim (\overrightarrow{\rm D},\overrightarrow{\rm E})=\cos (\theta)...
...arrow{\rm E}}{\vert\overrightarrow{\rm D}\vert\vert\overrightarrow{\rm E}\vert}$     (3.15)

ここで、 $\theta$はベクトル $\overrightarrow{\rm D}$とベクトル $\overrightarrow{\rm E}$のなす角であり、 $\sim (\overrightarrow{\rm D},\overrightarrow{\rm E})$は、文書$D$と文書$E$の類似度である。

以上のことを用いて、実際に計算を行う例を示す。例文としては以下のものを用いる。

例文D
ベクトルは大きさと向きを持っている。
基本ベクトルはある成分が1、それ以外は0のベクトルである。

例文E
ベクトルの成分による計算を行う。

次に、この例文$D$、例文$E$を形態素解析し、重要度を計算したものを表3.1に示す。


表 3.1: 例文ごとの単語の重要度
用語 例文Dにおける重要度 例文Eにおける重要度
ベクトル 2.83 1.41
基本ベクトル 1.41 0.00
成分 1.00 1.00
向き 1.00 0.00
計算 0.00 1.00

この例文$D$、例文$E$は式3.14の形式に表すと、


$\displaystyle \overrightarrow{\rm D}$ $\textstyle =$ $\displaystyle (2.83,1.41,1.00,1.00,0.00)$  
$\displaystyle \overrightarrow{\rm E}$ $\textstyle =$ $\displaystyle (1.41,0.00,1.00,0.00,1.00)$  

となる。重要度はそれぞれ、左の要素から( ベクトル , 基本ベクトル , 成分 , 向き , 計算 )と対応している。 次に、この2つのベクトルの大きさを計算する。


$\displaystyle \vert\overrightarrow{\rm D}\vert$ $\textstyle =$ $\displaystyle \sqrt{2.83^2+1.41^2+1.00^2+1.00^2+0.00^2}$  
  $\textstyle \simeq$ $\displaystyle 3.467$  
$\displaystyle \vert\overrightarrow{\rm E}\vert$ $\textstyle =$ $\displaystyle \sqrt{1.41^2+0.00^2+1.00^2+0.00^2+1.00^2}$  
  $\textstyle \simeq$ $\displaystyle 1.997$  

最後に式3.15より、この2つの例文の類似度を計算する。


$\displaystyle sim (\overrightarrow{\rm D},\overrightarrow{\rm E})=\cos (\theta)$ $\textstyle =$ $\displaystyle \frac{\overrightarrow{\rm D}\cdot \overrightarrow{\rm E}}{\vert\overrightarrow{\rm D}\vert\vert\overrightarrow{\rm E}\vert}$  
  $\textstyle =$ $\displaystyle \frac{2.83 \times 1.41+1.00 \times 1.00}{3.467 \times 1.997}$  
  $\textstyle \simeq$ $\displaystyle 0.720$  

よって、例文$D$、例文$E$の類似度は0.72であることがわかる。


next up previous contents
Next: 多次元尺度法 Up: 実験に使用した技術 Previous: 潜在的意味解析   目次
Deguchi Lab. 2013年2月28日