次元圧縮用の変換行列の作成
ここでは、手順5の新しい係数の求め方ついて説明を行う。実験では、R言語で関数を作成し、次元圧縮用の変換行列の作成を行った。次にその関数について示す。
- 式(3.17)により、名詞間の類似度の行列を作成する。
- 名詞をクラスター分析し、名詞を31のクラスターに分ける。
- クラスター分析の結果から、式(3.18)の行列を求める。
- 31の要素と名詞の行列ができるので、これを次元圧縮用の変換行列とする。
名詞を31のクラスターに分けたのは、4.2.2節の主成分の数と同じにすることで、次元圧縮した後の次元数を、4.4節の実験と揃えるためである。
概念距離を使ったクラスター分析には最遠隣法と群平均法とウォード法の3つの手法を使用した。これは、概念距離はユークリッド距離ではないので、一番いいクラスター分析の方法がわからなかったためである。そこで、クラスター分析の3つの手法を比較することで、4.5.2節で最も合ったクラスター分析の手法を見つける。
Deguchi Lab.
2017年3月6日