クラスター分析を用いた類似度計算

日本語WordNetのsynsetを用いて名詞間の概念距離を計算し、結果から次元圧縮用の変換行列を作成する。TfIdfの行列に次元圧縮用の変換行列をかけ、クラスター-文書行列とした。また、日本語WordNetに登録されていない名詞が499語あり、概念距離を求められたのは978語だった。クラスター-文書行列をユークリッド距離として類似度計算する方法とcos類似度により類似度を計算する方法の2種類で結果を求めた。次元圧縮用の変換行列の計算方法を3パターン用意したので、それぞれ2種類の方法を使用すると、６つの組み合わせができ、結果は6種類となった。

実験は以下の手順で行った。