次元圧縮用の変換行列の作成

ここでは、手順5の新しい係数の求め方ついて説明を行う。実験では、R言語で関数を作成し、次元圧縮用の変換行列の作成を行った。次にその関数について示す。
  1. 式(3.17)により、名詞間の類似度の行列を作成する。
  2. 名詞をクラスター分析し、名詞を31のクラスターに分ける。
  3. クラスター分析の結果から、式(3.18)の行列を求める。
  4. 31の要素と名詞の行列ができるので、これを次元圧縮用の変換行列とする。

名詞を31のクラスターに分けたのは、4.2.2節の主成分の数と同じにすることで、次元圧縮した後の次元数を、4.4節の実験と揃えるためである。 概念距離を使ったクラスター分析には最遠隣法と群平均法とウォード法の3つの手法を使用した。これは、概念距離はユークリッド距離ではないので、一番いいクラスター分析の方法がわからなかったためである。そこで、クラスター分析の3つの手法を比較することで、4.5.2節で最も合ったクラスター分析の手法を見つける。



Deguchi Lab. 2017年3月6日