クラスター分析による次元圧縮

クラスター分析は次元圧縮の方法ではない。しかし、概念距離を使用して名詞のクラスター分析を行うことより、名詞をいくつかのクラスターに分類することはできる。ここで、概念距離が近いものは、類似度が高いものである。これを利用し、分類した名詞をクラスターごとにまとめることを次元圧縮として行った。この次元圧縮の方法を、名詞のクラスター分析による次元圧縮とする。

TfIdfを重要度とした式(3.13)のような文書行列に、名詞のクラスター分析による次元圧縮を行うことで、クラスターと文書からなるクラスター-文書行列が作成される。このとき、クラスター-文書行列の重要度は、式(3.18)で表されるクラスターと名詞の行列と元の文書行列との積で求められる。

$\displaystyle CW= \left( \begin{array}{@{ }c\vert cccc@{ }} Term&w_1&w_2&\cdo... ...\vdots&\ddots&\vdots C_{N}&a_{N,1}&a_{N,2}&\cdots&a_{N,M} \end{array} \right)$

(18)

各クラスターを $C_i(i=1,2,\ldots,N)$ 、単語を $w_j(j=1,2,\ldots,M)$ とする。 $a_{i,j}$ は次の式で与えられる。

$\displaystyle a_{i,j}= \begin{cases}\displaystyle\frac{1}{\vert C_i\vert}\sum_{k \in C_i}S_{k,j} & (j \in C_i) 0 & (j \notin C_i) \end{cases}$

(19)

Deguchi Lab. 2017年3月6日