まず、ある文書を形態素解析して
個の用語があると分かり、その重要度が
であった時、文書
は以下のようにベクトル表現される。
また、別のある文書が
個の用語をもち、その重要度が
であった時、この文書ベクトルは先程と同様に表すことが出来る。
ここで文書と
がどれほど似ているかを知るには、これらの文書ベクトルの成す角
を求めればよいので、その類似度
は以下の式から算出される。
以上のことを用いて、実際に計算を行う例を示す。例文としては以下のものを用いる。
例文![]() |
ベクトルは大きさと向きを持っている。 |
基本ベクトルはある成分が1、それ以外は0のベクトルである。 |
例文![]() |
ベクトルの成分による計算を行う。 |
これらの文書の用語抽出をMeCabによって行ったところ、表 3.1のような結果になった。これを用いて例文,
を式(3.14), 式(3.15)のようにベクトル表現すると、次のようになった。
用語 | 例文書Dにおける重要度 | 例文書Eにおける重要度 |
ベクトル | 2.83 | 1.41 |
基本ベクトル | 1.41 | 0.00 |
成分 | 1.00 | 1.00 |
向き | 1.00 | 0.00 |
計算 | 0.00 | 1.00 |
これらと式(3.16)を用いると、以下に示すように2つの文書の類似度を計算することが出来た。