潜在的意味インデキシング

潜在的意味解析(LSA:latent semantic analysis)は、文書行列を圧縮することで、分類を効果的に行う技法である。ここでいう文書行列とは式(3.13)で表すような、重要度と文書の行列である。

$\displaystyle TD= \left( \begin{array}{@{ }c\vert cccc@{ }} Term&doc_1&doc_2&...
...dots w_M&I_{w_M,doc_1}&I_{w_M,doc_2}&\cdots&I_{w_M,doc_N} \end{array} \right)$ (13)

ここで、$ doc,w$ はそれぞれ$ N$ 個の文書、$ M$ 個の重要語を示し、 $ I_{w_1,doc_1}$ $ doc_1$ における$ w_1$ の重要度を表す。

このような文書行列は高次元であるため、分類や検索などの処理を行うには相当量の計算が必要になるのに加え、 次元が増えるにつれて分類の妨げになる単語も増え、これがノイズのように邪魔になることがある。 潜在的意味解析は、高次元の文書行列を低次元で近似的に表現する技術である。 以下に、このLSAの中身について簡単に説明する。

ある文書行列$ TD$ に、次の行列式で表される分解(特異値分解)を行う。

$\displaystyle TD = U \Sigma V^T$ (14)

この式で $ U,\Sigma,V^T$ は行列を表す記号であり、右辺は三つの行列の積を表している。 $ U$ は左特異(ターム)ベクトル、$ \Sigma$ は特異値を含むベクトル、$ V^T$ は右特異(文書)ベクトルと呼ばれる。 この分解によって出た左特異ベクトルの列ベクトルは左にあるものほど重要度が高いので、 左から最初の$ k$ 個だけで表される行列を$ U_k$ とする。 すると、3.15の行列積を求めることで、もとの文書行列に近似した行列を作成することができる。

$\displaystyle TD_k = U_k^T TD$ (15)



Deguchi Lab. 2017年3月6日