潜在的意味インデキシング

潜在的意味解析（LSA：latent semantic analysis）は、文書行列を圧縮することで、分類を効果的に行う技法である。ここでいう文書行列とは式(3.13)で表すような、重要度と文書の行列である。

$\displaystyle TD= \left( \begin{array}{@{ }c\vert cccc@{ }} Term&doc_1&doc_2&... ...dots w_M&I_{w_M,doc_1}&I_{w_M,doc_2}&\cdots&I_{w_M,doc_N} \end{array} \right)$

(13)

ここで、

はそれぞれ

個の文書、

個の重要語を示し、 $I_{w_1,doc_1}$ は

における

の重要度を表す。

このような文書行列は高次元であるため、分類や検索などの処理を行うには相当量の計算が必要になるのに加え、次元が増えるにつれて分類の妨げになる単語も増え、これがノイズのように邪魔になることがある。潜在的意味解析は、高次元の文書行列を低次元で近似的に表現する技術である。以下に、このLSAの中身について簡単に説明する。

ある文書行列に、次の行列式で表される分解（特異値分解)を行う。