next up previous contents
Next: TermExtractによる用語抽出 Up: データ準備 Previous: Xpdfによるシラバスのテキスト化   目次


MeCabによる形態素解析 [3]

4.1.1 節から得られた文章を形態素に分解する為に、MeCab(Ver.0.98)というソフトウェアを用いた。和文対応の形態素解析ソフトとしては以下のようなものが挙げられるが、中でも後述するTermExtractというモジュールが使用可能なのはMeCabとChaSenのみであり、MeCabはChaSenより高速だと謳われていることから、これをインストールして実際に解析させた。

MeCabは京都大学情報学研究科と日本電信電話株式会社コミュニケーション科学基礎研究所の共同研究ユニットプロジェクトを通じて開発された、オープンソース形態素解析エンジンである。言語・辞書・コーパスに依存しない汎用的な設計が基本方針であり、インターネット上から無償で入手することが出来る。実験で使用した辞書はIPA(Ver.2.7.0)であるが、ここにない語句でもユーザ辞書にそれを登録しておけば、MeCabがそれを考慮して結果を出力してくれる。そこで``%''や``:''を始めとするシラバスに現れる記号を、記号として認識するように設定した。これらの記号の類は初期状態では名詞として設定されていることが多く、名詞であると用語抽出されてしまう。これを防ぐ為に、このような処置を施した。



Deguchi Lab. 2011年3月4日