next up previous contents
Next: シラバスと用語の行列生成 Up: データ整理 Previous: テキスト中の記号の置換   目次


特別な用語の登録

5.1.1 節で述べたように、教官名また教書の出版社名、著者名も類似度に影響するものであると考えられる。そこで、これらを全て形態素解析時に使用するユーザ辞書に登録することにした。その他に、初期状態ではアラビア数字、漢数字の連なる語は名詞として認識されないという致命的な問題が見つかったので、これを回避する為に重要な用語を目視で確認し、辞書登録を行った。中でも「三相」という言葉は、電気系において極めて重要な語句だと考えられる。また``/''や``/''で繋がる用語も認識されておらず、辞書に加えたこのような用語の一部を表 5.1に示す。



表 5.1: 辞書登録を行った用語
・A/D ・D/A ・S/N ・C/N ・dB
・C言語 ・X線 ・Z変換 ・定K型 ・定K形
・2値 ・単相 ・二相 ・三相 ・多相
・1次 ・2次 ・3次 ・二次 ・二種
・2進 ・16進 ・二端子 ・四端子 ・三角波


シラバスを書く人間というのは、もちろんその教科を担当する人間である為、必然的に書き方に若干の差異が出来る。それは句読点やスペースの有無であったり、途中で使用する記号の種類であったりするが、中でも英数字の全角半角が混在してしまうのが非常に厄介である。また表 5.2に示すように、同一内容の語がシラバスによって少し異なる表現で書かれることがある。単語の完全一致は類似度の上昇に大きな変化を与える為に、これは回避したい点である。加えてシラバスを書くのは人間である為に、語句の書き間違えがしばしば起こる。その例を表 5.3に示す。このようなことが積み重なると、高い類似度であるはずなのに低く見積もられることに繋がりかねない。

上記の事例を少しでも減少させる為に、まず用語中で英字のみで構成されたものは、全角英字を全て半角英字に変換することにした。この英字のみで構成されたという点は文字化けを防ぐ為である。また全角数字も同様に変換出来れば良かったが、変換時に文字化けが起こってしまう為、表 5.1の「2次」と「二次」のように数字の種類に分けてユーザ辞書に登録する処理を行った。

また語句のゆらぎを減らす為に、表 5.2や表 5.3にある語句を代表語句に置換することにした。例えば「センサー」という語が見つかった時はこれを「センサ」に置き換え、「センサ」があった時はそのままにして重要度を計算した。



表 5.2: 同一事物を指す名称が異なる語句
教科名 用語
5E電気材料II センサ
2E電気情報工学実験 センサー
4E計算機アーキテクチャ ソフトウェア
4EJデータ構造とアルゴリズム ソフトウエア
5EJ電磁波工学 電場
3E電気磁気学I 電界
5EJ電磁波工学 磁場
3E電気磁気学I 磁界



表 5.3: 語句の書き間違え
教科名 用語
  マクスウェル
 
  ニューラルネットワーク
 


next up previous contents
Next: シラバスと用語の行列生成 Up: データ整理 Previous: テキスト中の記号の置換   目次
Deguchi Lab. 2011年3月4日