next up previous contents
Next: ベクトル空間法の実行と2値化処理 Up: 実験3 : PLSAを用いた類似度計算 Previous: 実験3 : PLSAを用いた類似度計算   目次


データ準備

3.5 項にあるように、PLSAは重要度ではなく文書中にいくつその単語があるかという数が必要になる。そこでMeCabによって得られた全ての形態素の間に区切り文字を挿入し、TermExtractのget_imp_wordにより用語頻度を求めた。それを基に実験2の表 5.4のように文書/用語行列を作成し、これをプログラムに読み込ませることにした。



Deguchi Lab. 2011年3月4日