ベクトル空間法とは、文書を多次元空間上のベクトルとして表現し、 二つのベクトルを比較することにより類似度を調べるものである。 つまり、ベクトルの方向は文書の特徴であるので、二つのベクトルのなす角が小さいほど似ているということである。
個のタームを持つ文書
を形態素解析し、各ターム毎の重要度を
としたとき、 文書
のベクトルは以下のように表される。
今、
個のタームを持つ文書
が文書
と どの程度類似しているのかということを考えたとき、 文書
も式3.14から同様に
となる。
これらベクトルDとベクトルEの類似度の計算は以下の式で実現できる。
ここで、
はベクトル
とベクトル
のなす角であり、
は、文書
と文書
の類似度である。
以上のことを用いて、実際に計算を行う例を示す。例文としては以下のものを用いる。
| 例文D |
| ベクトルは大きさと向きを持っている。 |
| 基本ベクトルはある成分が1、それ以外は0のベクトルである。 |
| 例文E |
| ベクトルの成分による計算を行う。 |
次に、この例文
、例文
を形態素解析し、重要度を計算したものを表3.1に示す。
| 用語 | 例文Dにおける重要度 | 例文Eにおける重要度 |
| ベクトル | 2.83 | 1.41 |
| 基本ベクトル | 1.41 | 0.00 |
| 成分 | 1.00 | 1.00 |
| 向き | 1.00 | 0.00 |
| 計算 | 0.00 | 1.00 |
この例文
、例文
は式3.14の形式に表すと、
となる。重要度はそれぞれ、左の要素から( ベクトル , 基本ベクトル , 成分 , 向き , 計算 )と対応している。 次に、この2つのベクトルの大きさを計算する。
最後に式3.15より、この2つの例文の類似度を計算する。
![]() |
|||
![]() |
|||
よって、例文
、例文
の類似度は0.72であることがわかる。