Next: TermExtractを用いて重要語の抽出および重要度を計算
Up: シラバスの類似度の計算
Previous: Xpdfを用いてpdfをテキスト化
目次
前節のようにpdf形式のシラバスをテキストファイル化したあと、
そのテキストファイルに対して形態素解析する。
形態素解析ツールについては以下のようなものがある。[28]
- Mecab
- ChaSen
- JUMAN
- KAKASI
Mecabは京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクト
を通じて開発されたオープンソース形態素解析エンジンである。
コーパスに依存しない汎用的な設計で、ChaSen やKAKASIに比べ高速であり、
また、後にも書くが重要語の抽出および重要度の計算を行うTermExtractというツールが
MecabとChaSenに対応しているため今回はMecabを用いることとした。
形態素解析については第2.4.3節を参照されたい。
Deguchi Lab.
2010年3月5日