next up previous contents
Next: テキストマイニングのための自然言語処理技術 Up: 自然言語処理 Previous: 曖昧性の問題   目次

自然言語処理の精度と意義

前述したような難しさから、コンピュータによる自然言語処理の精度にはどうしても限界がある。

現状の技術レベルでは新聞記事のような出版物の文章であれば、形態素解析における 形態素分割の精度は99%を超えると言われている。ただし、この精度は正しく解析できた形態素 の数を全形態素の数で割ったものなので、仮に99.5%としても、200の形態素に一つの誤りが含まれることになる。 句点で区切られる一つの文に組まれる形態素の数が例えば20程度だとすれば、10文に1文の割合で形態素の 分割誤りを含むことになる。

このような自然言語処理技術の精度を実感するには、自然言語処理の代表的なアプリケーションである 機械翻訳システムを使ってみると良い。いろいろな文、特に長文を入力してみると、意に沿うような翻訳結果が 得られない場合が多い。

しかし、それでもコンピュータによる自然言語処理には意義がある。 第一に、人間ではできない膨大なデータを処理することが可能である。 例えば機械翻訳であれば、何十万語というレベルの訳語辞書を備えることで、 難解な専門用語まで正確に訳出してくれる可能性がある。

このように、膨大なデータを高速に処理し、かつ大規模の辞書を扱えるという機械の得意な部分と、 柔軟な解釈が可能という人間の得意な部分は異なる。 したがって、コンピュータによる自然言語処理の難しさを踏まえ、完全な精度が期待できないことを 前提とした上で機械の得意な部分を活かすことが、テキストマイニングで有効な結果を出すために重要である。



Deguchi Lab. 2010年3月5日