日本語WordNetの限界

実験を行ったところ、日本語WordNetに登録されていない名詞も多くあった。それらは大半が固有名詞や数字、アルファベットの略語だが、中には科目の要素としてふさわしい専門用語もあった。しかし、日本語WordNetは概念辞書であるため、簡単に名詞を整備することができなかった。その対策として、日本語の名詞を英語の名詞に訳し、英語で登録されているか確かめた。英語で登録されていた単語はTable 4.1のように変換し、そのsynsetから概念距離を求めた。日本語WordNetの限界として、固有名詞を扱うことができないこと、単語の登録が複雑なため辞書の整備ができないことがあった。4.5節で述べたが、文書に含まれていた1,477語の名詞の中で、日本語WordNetに登録されていない名詞が499語あり、概念距離を求められたのは978語だった。


表 4.1: conversion
日本語 英語
電流 electric_current
周波数 frequency
電磁 electromagnetism
材料 material
波動 oscillation
磁気 magnetism
磁性 magnetism
学力 knowlege
変圧 transformation
以下 following
以上 above
コンピュータアーキテクチャ computer_architecture
コンピュータグラフィクス computer_graphics
エクセル excel




Deguchi Lab. 2017年3月6日