クラスター分析による次元圧縮
クラスター分析は次元圧縮の方法ではない。しかし、概念距離を使用して名詞のクラスター分析を行うことより、名詞をいくつかのクラスターに分類することはできる。ここで、概念距離が近いものは、類似度が高いものである。これを利用し、分類した名詞をクラスターごとにまとめることを次元圧縮として行った。この次元圧縮の方法を、名詞のクラスター分析による次元圧縮とする。
TfIdfを重要度とした式(3.13)のような文書行列に、名詞のクラスター分析による次元圧縮を行うことで、クラスターと文書からなるクラスター-文書行列が作成される。このとき、クラスター-文書行列の重要度は、式(3.18)で表されるクラスターと名詞の行列と元の文書行列との積で求められる。
 |
(18) |
各クラスターを
、単語を
とする。
は次の式で与えられる。
 |
(19) |
Deguchi Lab.
2017年3月6日