クラスター分析を用いた類似度計算
日本語WordNetのsynsetを用いて名詞間の概念距離を計算し、結果から次元圧縮用の変換行列を作成する。TfIdfの行列に次元圧縮用の変換行列をかけ、クラスター-文書行列とした。また、日本語WordNetに登録されていない名詞が499語あり、概念距離を求められたのは978語だった。クラスター-文書行列をユークリッド距離として類似度計算する方法とcos類似度により類似度を計算する方法の2種類で結果を求めた。
次元圧縮用の変換行列の計算方法を3パターン用意したので、それぞれ2種類の方法を使用すると、6つの組み合わせができ、結果は6種類となった。
実験は以下の手順で行った。
- TfIdfの文書行列を求める。
- Rで形態素解析した名詞をcsv形式のファイルに書き出す。
- 日本語WordNetを用いて、名詞間の概念距離を計算する。
- 名詞間の概念距離をcsv形式でファイル書き出す。
- Rで概念距離を読み込み、次元圧縮用の変換行列を作成する。
- TfIdfの文書行列に次元圧縮用の変換行列をかけたものを、クラスター-文書行列とする。
- クラスター-文書行列をクラスター分析し、結果の樹形図を求める。
- cos類似度を求める。
- cos類似度を使用してクラスター分析し、結果の樹形図を求める。
Subsections
Deguchi Lab.
2017年3月6日