Next: ベクトル空間法の実行と２値化処理 Up: 実験３ : PLSAを用いた類似度計算 Previous: 実験３ : PLSAを用いた類似度計算目次

データ準備

3.5 項にあるように、PLSAは重要度ではなく文書中にいくつその単語があるかという数が必要になる。そこでMeCabによって得られた全ての形態素の間に区切り文字を挿入し、TermExtractのget_imp_wordにより用語頻度を求めた。それを基に実験２の表 5.4のように文書／用語行列を作成し、これをプログラムに読み込ませることにした。

Deguchi Lab. 2011年3月4日