next up previous contents
Next: 重要度の計算方法 Up: 自然言語処理 Previous: 自然言語処理   目次


形態素解析

ある文章を文法規則や辞書に沿って、その言葉が意味をもつ最小単位である形態素に分割し、その品詞を判別することを形態素解析と言う。英語やドイツ語など、語と語の間に空白がある場合にはそう大した処理にならないが、そういった分かち書きをしない日本語やタイ語などにとっては非常に複雑な処理となる。しかし、近年では大分その精度や速度が上がってきており、このような形態素解析ソフトを簡単に入手出来るようになっている。本研究ではMeCab[3]というソフトウェアを用いたが、これを利用して「吾輩は猫である。」という文を解析した結果を以下に示す。


    吾輩 名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ
    は  助詞,係助詞,*,*,*,*,は,ハ,ワ
    猫  名詞,一般,*,*,*,*,猫,ネコ,ネコ
    で  助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
    ある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
    。  記号,句点,*,*,*,*,。,。,。
    EOS


これが形態素解析であり、本研究ではここで名詞として得られる「吾輩」や「猫」のような語句を重要視する。これは対象となる文章に名詞の専門用語が多い為であるが、動詞よりも名詞の方が重要性が高いという結果があることも考慮に入れている[5]。形態素解析の精度は100%には到達しておらず、それは翻訳サイトや検索エンジンで思うような結果が得られないことからも窺える。一方で、大量のデータと辞書を扱うこの仕事は人間には向いておらず、今後の自然言語処理の発展に期待したい。



Deguchi Lab. 2011年3月4日