next up previous contents
Next: 形態素解析 Up: 自然言語処理 Previous: 自然言語とは   目次

自然言語処理の必要性

テキストマイニングの目的は、文書中に記述されている文章を分析し、他の文書とその分析結果を照らし合わせて新しい情報を獲得することである。そのため、自然言語を扱うのは必須であり、自然言語処理は必要不可欠な技術となる。

例えば、タイプライターのような文字入力装置を開発する際、どのような文字がどのような頻度で出現するか、どの文字の後にはどのような文字が続きやすいかといった知識は有用である。このように、個々の文字の配置を分析するような処理であれば自然言語処理の必要性は低いが、テキストマイニングはそうではない。

テキストマイニングでは、一連の文字列から文章の内容を代表させられるような情報を抽出する必要がある。 ところが自然言語による表現は多種多様なため、同じような内容を示している文であっても表層的に全く同じ文字列で表現されていることはまれである。 例えば、以下の文は各々が製品Aに対する好意的なコメントと考えることができる。

文1 「製品Aは使いやすい。」

文2 「製品Aが使いやすい。」

文3 「製品Aは使いやすいので良い。」

文4 「製品Aは購入したくなる。」

文5 「製品Aを購入したい。」

文6 「製品Aは良い。」

文7 「製品Aを使いたい。」

文8 「製品Bよりも製品Aのほうが使いやすい。」

このようなコメントが顧客アンケートの中にどのくらいの割合で含まれているか、増えているのか減っているのかを調査したい場合にはどうすればよいだろうか。 これらの文章はすべて微妙に表現が異なるため、単純に「製品Aが良い」と書いてある文章を探しても、まったく同じ文字列はほとんど見つからないであろう。そこで、対象の文章をなんらかの要素に分解し、その要素を単語として文章の内容を比較する処理が必要になる。

文章をなんらかの要素に分解するという場合、まず考えられる要素の単位は単語であろう。 例えば「製品Aが良い。」という文を「製品A」、「が」、「良い」、「。」に分解する。 これは形態素解析という技術で実現できる。

形態素解析や構文解析は自然言語処理における基礎的な技術であり、この処理には文法的な知識が不可欠である。 しかし、近年では、これらの処理を実現するツールがフリーソフトとして公開されている。 そのため、自然言語処理の専門家でなくともこれらの技術を比較的簡単に利用することができる。

そこで、このような技術を利用して「製品A」を表現している語句を抽出し、それらの語句の重要度を算出、さらにその重要度から文章同士の関連度を算出できると考えられる。 以下で形態素解析について詳しく説明する。



Deguchi Lab. 2012年3月12日