next up previous contents
Next: 実験1:ベクトル空間法を用いた類似度計算 Up: 実験で使用した技術 Previous: ベクトル空間法   目次


2値化処理[12]

2値化というのは画像処理の分野で良く耳にする言葉であるが、そこでは各画素の濃淡を一定の基準値によって黒と白の2つの値に変換する処理のことを指す。この基準値のことをしきい値(threshold value)と呼ぶ。本研究では3.3 節で述べたベクトル空間法を用いるが、これによって得られる結果は2つのベクトルの成す角度であるので、その値は最小値から最大値までの間に分布することになる。なお用語・文書ベクトルにおいてはその成分に負が無く、この場合最小値から最大値に分布する。ここで例えば類似度を計算した結果が0.6であった時、これでは似ているか似ていないかがはっきりしない。そこで計算結果に2値化処理を適用することで、似ているか否かというの2つの状態に分けることにする。しきい値処理の種類としては代表的なものとして、Pタイル法や判別分析法、モード法などが存在する。

Pタイル法(Percentile Method)は、2値化したい領域が全データの領域に占める割合をパーセント(%)で指定し2値化する手法である。例えば23%を1にしたいとすると、丁度割合がそうなるようにしきい値を設定する。この方法では、データのバイアスが変化しても、2値化した後の結果は変化しないというメリットがある一方で、2値化するデータ数が大きい時は不向きであると言ったデメリットが有る。

判別分析法(Discriminant Analysis Method)は、分離度という値が最大となるしきい値を求め、2値化を行う手法である。分離度はクラス間分散とクラス内分散を使って計算することができ、概ね良好な結果が得られるが、やや比率の大きい方に閾値が偏るという欠点がある。

モード法(Mode Method)はデータが図3.2のような双峰性をもっている時に、その谷の値をしきい値とする方法である。明確な谷が出来る、すなわちデータとデータに大きな差がある時には良いが、データの増減が平坦な場合に対しては適用が難しいという特徴をもつ。 本研究においてはモード法を用いて2値化を行った。

図 3.2: モード法が有効なデータ分布
\includegraphics[scale = 0.8]{figure/fig02.eps}



Deguchi Lab. 2016年3月4日