形態素とは、文書の要素のうち、意味を持つ最小の単位である。形態素解析とは、文書データを意味のある単語に区切り、辞書を利用して品詞や内容を判断することである。英語やドイツ語のように、原則として文書の単語と単語との間に空白があるものは、形態素ごとに分割するのは容易である。それに対して、日本語では単語と単語の間には空白はないので非常に複雑な処理になる。しかし、最近ではその精度が上がってきており、このような形態素解析を行うツールがフリーで公開されており、簡単に入手できるようになっている。そのソフトの例を以下に示す。
MeCab (和布蕪) : http://mecab.sourceforge.net/
ChaSen(茶筅) : http://chasen-legacy.sourceforge.jp/
本研究ではMeCabというソフトを用いる。これを使用して「私は岐阜高専の生徒です。」という文を形態素解析した結果を以下に示す。
私は岐阜高専の生徒です。
私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
岐阜 名詞,固有名詞,地域,一般,*,*,岐阜,ギフ,ギフ
高専 名詞,一般,*,*,*,*,高専,コウセン,コーセン
の 助詞,連帯化,*,*,*,*,の,ノ,
生徒 名詞,一般,*,*,*,*,生徒,セイト,セイト
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。
これが形態素解析である。本研究では、文書中の名詞を重要視して研究を行う。これはシラバスに名詞の専門用語が多く含まれているからである。