next up previous contents
Next: TermExtractを用いて重要語の抽出および重要度を計算 Up: シラバスの類似度の計算 Previous: Xpdfを用いてpdfをテキスト化   目次

Mecabを用いて形態素解析

前節のようにpdf形式のシラバスをテキストファイル化したあと、 そのテキストファイルに対して形態素解析する。 形態素解析ツールについては以下のようなものがある。[28] Mecabは京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクト を通じて開発されたオープンソース形態素解析エンジンである。 コーパスに依存しない汎用的な設計で、ChaSen やKAKASIに比べ高速であり、 また、後にも書くが重要語の抽出および重要度の計算を行うTermExtractというツールが MecabとChaSenに対応しているため今回はMecabを用いることとした。 形態素解析については第2.4.3節を参照されたい。



Deguchi Lab. 2010年3月5日