日本語WordNetによる単語間概念距離

日本語WordNetのsynsetにはルートsynsetから上位下位のsynsetが木構造のように存在し、概念の関係を表している。このsynsetの関係から単語間の概念距離を求め、類似度計算に使用する。二つの単語のsynsetの関係により、概念距離を求める式が異なるので、以下にその方法を示す。
同じsynsetに存在する場合
概念距離は0とする。
違うsynsetに存在する場合
概念距離は式(3.17)を使用して求める。
違うsynsetに存在し、synset間に複数のルートが存在する場合
それぞれの距離を式(3.17)を使用して求め平均を概念距離とする。
複数のsynsetに属する場合
それぞれ式(3.17)を使用して求め、最小値を概念距離とする。
synsetの関係が見つからない場合
概念距離は1とする。
単語AとBがあるとき、それぞれのルートsynsetからの段数を$ L_a$ $ L_b$ とし、二つの共通のsynsetの段数を$ C_{ab}$ とする。このとき、求める概念の類似度$ S_{a,b}$ は次の式で表せる。[4]

$\displaystyle S_{a,b} = \frac{2C_{ab}}{L_a+L_b}  $ (16)

式(3.16)は最大値が1になるよう正規化されているので、式(3.17)で類似度$ S_{a,b}$ は概念距離$ D_{a,b}$ に変換できる。

$\displaystyle D_{a,b} = 1 - S_{a,b} $ (17)



Deguchi Lab. 2017年3月6日