next up previous contents
Next: 自然言語の難しさ Up: 自然言語処理 Previous: 自然言語とは   目次

形態素解析

形態素とは、文書の要素のうち、意味を持つ最小の単位である。形態素解析とは、 文書データを意味のある単語に区切り、辞書を利用して品詞や内容を判断することである。 英語の文``This is a pen.''では、``This''、``is''、``a''、``pen''がそれぞれ形態素に当たる。 この時、``i''や``p''などのアルファベットは、それのみでは意味を持たないため、形態素とは呼ばない。 英語では原則として文章を単語ごとに区切って書く(分かち書き)ため、形態素ごとに分割することは容易である。 一方、日本語では単語ごとに区切らず続けて書くために、形態素ごとの分割が難しい。 例えば、かな漢字変換の場合には、ひらがなのみで与えられた文章を区切る必要があるが、これは辞書を引きながら、 色々な区切り方を試していくことになる。この時、辞書にある名詞を形態素として区切ったり、 前後の品詞を見て文法的におかしい区切り方は省くなどの処理をするが、 複数の解釈が可能な文章もあり、区切り方を一意に決定することはなかなか難しい。

日本語用の形態素解析システムは各社のワープロソフトやかな漢字変換ソフト(IME)などに内蔵されているほか、 単体のソフトとしてはフリーソフトウェアのChaSen(茶筌)や本研究でも使用したMeCab(和布蕪)などが有名である。

MeCab (和布蕪) : http://mecab.sourceforge.net/

ChaSen(茶筅) : http://chasen-legacy.sourceforge.jp/

以下にはMeCabを用いて「吾輩は猫である。」という文を解析した結果を示す。

吾輩 名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ

は 助詞,係助詞,*,*,*,*,は,ハ,ワ

猫 名詞,一般,*,*,*,*,猫,ネコ,ネコ

で 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ

ある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル

。 記号,句点,*,*,*,*,。,。,。



Deguchi Lab. 2013年2月28日