まず文書が個のデータ行列
がある時、これを特異値分解すると左特異(ターム)ベクトル
, 右特異(文書)ベクトル
,
個の特異値を含むベクトル
が得られる。
![]() |
![]() |
![]() |
(3.10) |
![]() |
![]() |
![]() |
(3.11) |
![]() |
![]() |
![]() |
(3.12) |
なお、ここでの各記号の意味は3.3項と同じであり、先に述べたように結合係数(固有ベクトル)が右特異ベクトルで与えられていることが分かる。データ行列 はこのように表せるので、式3.4の右辺の各行列から数行あるいは数列取り出すことで次元を圧縮することが出来る。その圧縮の方法としては、左特異ベクトルを用いて以下のように表せる。
![]() |
(3.13) |
の成分は式3.9のように添字の若いものほど大きく、ここから最初の
個を取り出して、
との行列積により元のデータ行列を
次元に縮約することが出来る。