Next: TermExtractを用いて重要語の抽出および重要度を計算
Up: 実験1:ベクトル空間法による類似度の計算
Previous: Xpdfを用いてpdfをテキスト化
目次
MeCabを用いて形態素解析
前項のようにpdf形式のシラバスをテキストファイル化したあと、そのテキストファイルに対して形態素解析する。
MeCabは京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトを通じて開発されたオープンソース形態素解析エンジンである。
コーパスに依存しない汎用的な設計で、ChaSen やKAKASIに比べ高速であり、また、後にも書くが重要語の抽出および重要度の計算を行うTermExtractというツールが、MeCabとChaSenに対応しているため今回はMeCabを用いることとした。
形態素解析については2.2.3 項を参照されたい。
Deguchi Lab.
2012年3月12日