日本語WordNetによる単語間概念距離
日本語WordNetのsynsetにはルートsynsetから上位下位のsynsetが木構造のように存在し、概念の関係を表している。このsynsetの関係から単語間の概念距離を求め、類似度計算に使用する。二つの単語のsynsetの関係により、概念距離を求める式が異なるので、以下にその方法を示す。
- 同じsynsetに存在する場合
- 概念距離は0とする。
- 違うsynsetに存在する場合
- 概念距離は式(3.17)を使用して求める。
- 違うsynsetに存在し、synset間に複数のルートが存在する場合
- それぞれの距離を式(3.17)を使用して求め平均を概念距離とする。
- 複数のsynsetに属する場合
- それぞれ式(3.17)を使用して求め、最小値を概念距離とする。
- synsetの関係が見つからない場合
- 概念距離は1とする。
単語AとBがあるとき、それぞれのルートsynsetからの段数を
、
とし、二つの共通のsynsetの段数を
とする。このとき、求める概念の類似度
は次の式で表せる。[4]
 |
(16) |
式(3.16)は最大値が1になるよう正規化されているので、式(3.17)で類似度
は概念距離
に変換できる。
 |
(17) |
Deguchi Lab.
2017年3月6日