LSIを用いた類似度計算

TfIdfを用いて重要度を計算し、LSIにより次元圧縮し、cos類似度により類似度を計算する。 LSIを用いて、58科目のシラバスを対象に類似度を計算する。この結果を比較対象とすることで、クラスター分析を用いた類似度計算が有用な手段か判断する基準になると考えた。

実験は以下の手順で行った。

  1. TfIdfの文書行列を求める。
  2. LSIを行う。
  3. cos類似度を求める。
  4. cos類似度を使用してクラスター分析し、結果を樹形図を表示する。



Subsections

Deguchi Lab. 2017年3月6日