next up previous contents
Next: 自然言語処理の難しさ Up: 自然言語処理 Previous: 自然言語処理の必要性   目次


形態素解析

文書データは、特に日本語の場合、基本的に連続した文字列で構成されている。形態素解析は、 この一連の文字列を文法的に意味のある単位の構成要素に分割し、 各要素の文法的素性(品詞など)を決定する。

例えば、「この製品を使いたい。」という文は

この 連体詞,*,*,*,*,*,この,コノ,コノ

製品 名詞,一般,*,*,*,*,製品,セイヒン,セイヒン

を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ

使い 動詞,自立,*,*,五段・ワ行促音便,連用形,使う,ツカイ,ツカイ

たい 助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ

。 記号,句点,*,*,*,*,。,。,。

というように分析される。この処理に関しては

MeCab (和布蕪) : http://mecab.sourceforge.net/

ChaSen(茶筅) : http://chasen-legacy.sourceforge.jp/

といった形態素解析ツールがフリーで公開されており、これらを利用することで、名詞句や終止形に直した動詞を 文から抽出する処理が簡単に実現できる。

ここで形態素というのは、いわゆる単語よりも若干細かい言語単位である。 上記の例では「使いたい」が「使い」という語幹と「たい」という助動詞に分けられる。 すなわちこの語幹のように、活用によって変化しない形態的に安定したレベルの要素が形態素と呼ばれる。

自然言語処理の代表的な技術として他に「構文解析」というものがあるが、本論文では割愛する。



Deguchi Lab. 2010年3月5日