Next:
序論
Up:
hayashi_ad2
Previous:
hayashi_ad2
目次
序論
テキストマイニング[1,2,3]
テキストマイニングとは
自然言語処理[4]
自然言語とは
自然言語処理の必要性
形態素解析
自然言語処理の難しさ
自然言語処理の精度と意義
テキストマイニングのための自然言語処理技術
候補語の抽出
重要度の計算[6]
ベクトル空間法による文書の類似度の算出[7]
日本語Wordnetを用いた文書の類似度の算出
潜在的意味解析[8]
潜在的意味解析とは
Rでの特異値分解
主成分分析[9,10,11]
主成分分析とは
分析の手順
主成分の寄与率
Rでの主成分分析
日本語Wordnetを利用した重要度の補正
実験
使用言語について
実験結果について
実験1:ベクトル空間法による類似度の計算
Xpdfを用いてpdfをテキスト化
MeCabを用いて形態素解析
TermExtractを用いて重要語の抽出および重要度を計算
シラバス特有の語の除去
termmiを用いた類似度の計算
実験1の結果
実験2:日本語Wordnetを利用した類似度の計算
重要語同士の関連度の計算
類似度の計算
実験2の結果
実験3:LSAを使った類似度の計算
文書行列の作成
主成分数とLSA
ベクトル空間法により類似度を計算
実験3の結果
実験4:日本語Wordnetによる文書行列補正後の類似度の計算
単語の意味を考慮した文書行列の作成
主成分数
実験4の結果
結論
参考文献
Deguchi Lab.
2012年3月12日