まず、ある文書
を形態素解析して
個の用語があると分かり、その重要度が
であった時、文書
は以下のようにベクトル表現される。
また、別のある文書
が
個の用語をもち、その重要度が
であった時、この文書ベクトルは先程と同様に表すことが出来る。
ここで文書
と
がどれほど似ているかを知るには、これらの文書ベクトルの成す角
を求めればよいので、その類似度
は以下の式から算出される。
以上のことを用いて、実際に計算を行う例を示す。例文としては以下のものを用いる。
| 例文 |
| ベクトルは大きさと向きを持っている。 |
| 基本ベクトルはある成分が1、それ以外は0のベクトルである。 |
| 例文 |
| ベクトルの成分による計算を行う。 |
これらの文書の用語抽出をMeCabによって行ったところ、表 3.1のような結果になった。これを用いて例文
,
を式(3.14), 式(3.15)のようにベクトル表現すると、次のようになった。
| 用語 | 例文書Dにおける重要度 | 例文書Eにおける重要度 |
| ベクトル | 2.83 | 1.41 |
| 基本ベクトル | 1.41 | 0.00 |
| 成分 | 1.00 | 1.00 |
| 向き | 1.00 | 0.00 |
| 計算 | 0.00 | 1.00 |

これらと式(3.16)を用いると、以下に示すように2つの文書の類似度を計算することが出来た。
