前項のようにPDF形式のシラバスをテキストファイル化したあと、そのテキストファイルに対して形態素解析を行う。 和文対応の形態素解析ソフトとしては以下のようなものが挙げられるが、 今回はMeCabを用いてシラバスの形態素解析を行った。
MeCabは京都大学情報学研究科-日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトを 通じて開発されたオープンソース形態素解析エンジンである。 コーパスに依存しない汎用的な設計で、ChaSenやKAKASIに比べ高速であり、 また、重要語の抽出および重要度の計算を行うTermExtractというツールが、 MeCabとChaSenに対応している。