next up previous contents
Next: TermExtractによる用語抽出 Up: データ準備 Previous: テキストファイルの前処理   目次


Mecabを用いて形態素解析

シラバスの文章を形態素に分解する為に、MeCabというソフトウェアを用いた。和文対応の形態素解析ソフトとしては以下のようなものが挙げられるが、中でも後述するTermExtractというモジュールが使用可能なのはMeCabとChaSenのみであり、MeCabはChaSenより高速だと謳われていることから、これをインストールして実際に解析させた。

MeCabは京都大学情報学研究科と日本電信電話株式会社コミュニケーション科学基礎研究所の共同研究ユニットプロジェクトを通じて開発された、オープンソース形態素解析エンジンである。言語・辞書・コーパスに依存しない汎用的な設計が基本方針であり、インターネット上から無償で入手することが出来る。



Deguchi Lab. 2012年3月9日