クラスター分析を用いた類似度計算

日本語WordNetのsynsetを用いて名詞間の概念距離を計算し、結果から次元圧縮用の変換行列を作成する。TfIdfの行列に次元圧縮用の変換行列をかけ、クラスター-文書行列とした。また、日本語WordNetに登録されていない名詞が499語あり、概念距離を求められたのは978語だった。クラスター-文書行列をユークリッド距離として類似度計算する方法とcos類似度により類似度を計算する方法の2種類で結果を求めた。 次元圧縮用の変換行列の計算方法を3パターン用意したので、それぞれ2種類の方法を使用すると、6つの組み合わせができ、結果は6種類となった。

実験は以下の手順で行った。

  1. TfIdfの文書行列を求める。
  2. Rで形態素解析した名詞をcsv形式のファイルに書き出す。
  3. 日本語WordNetを用いて、名詞間の概念距離を計算する。
  4. 名詞間の概念距離をcsv形式でファイル書き出す。
  5. Rで概念距離を読み込み、次元圧縮用の変換行列を作成する。
  6. TfIdfの文書行列に次元圧縮用の変換行列をかけたものを、クラスター-文書行列とする。
  7. クラスター-文書行列をクラスター分析し、結果の樹形図を求める。
  8. cos類似度を求める。
  9. cos類似度を使用してクラスター分析し、結果の樹形図を求める。



Subsections

Deguchi Lab. 2017年3月6日