next up previous contents
Next: 実験1:用語の重要度を考慮しない類似度計算 Up: 実験で使用した技術 Previous: ベクトル空間法   目次


2値化処理[10]

2値化というのは画像処理の分野で良く耳にする言葉であるが、そこでは各画素の濃淡を一定の基準値によって黒と白の2つの値に変換する処理のことを指す。この基準値のことをしきい値(threshold value)と呼ぶ。本研究では3.3 項で述べたベクトル空間法を用いるが、これによって得られる結果は2つのベクトルの成す角度であるので、その値は最小値から最大値までの間に分布することになる。なお用語・文書ベクトルにおいてはその成分に負が無く、この場合最小値から最大値に分布する。ここで例えば類似度を計算した結果が0.6であった時、これでは似ているか似ていないかがはっきりしない。そこで計算結果に2値化処理を適用することで、似ているか否かというの2つの状態に分けることにする。しきい値処理の種類としてはPタイル法やモード法、判別分析法、微分ヒストグラム法、動的しきい値法など様々なものが存在するが、今回使用したのはモード法であったので、それについて説明する。

モード法(Mode Method)はデータが図3.2のような双峰性をもっている時に、その谷の値をしきい値とする方法である。明確な谷が出来る、すなわちデータとデータに大きな差がある時には良いが、データの増減が平坦な場合に対しては適用が難しいという特徴をもつ。

図 3.2: モード法が有効なデータ分布
\includegraphics[scale=0.8]{fig02.eps}



Deguchi Lab. 2012年3月9日