・A/D | ・D/A | ・S/N | ・C/N | ・dB |
・C言語 | ・X線 | ・Z変換 | ・定K型 | ・定K形 |
・2値 | ・単相 | ・二相 | ・三相 | ・多相 |
・1次 | ・2次 | ・3次 | ・二次 | ・二種 |
・2進 | ・16進 | ・二端子 | ・四端子 | ・三角波 |
シラバスを書く人間というのは、もちろんその教科を担当する人間である為、必然的に書き方に若干の差異が出来る。それは句読点やスペースの有無であったり、途中で使用する記号の種類であったりするが、中でも英数字の全角半角が混在してしまうのが非常に厄介である。また表 5.2に示すように、同一内容の語がシラバスによって少し異なる表現で書かれることがある。単語の完全一致は類似度の上昇に大きな変化を与える為に、これは回避したい点である。加えてシラバスを書くのは人間である為に、語句の書き間違えがしばしば起こる。その例を表 5.3に示す。このようなことが積み重なると、高い類似度であるはずなのに低く見積もられることに繋がりかねない。
上記の事例を少しでも減少させる為に、まず用語中で英字のみで構成されたものは、全角英字を全て半角英字に変換することにした。この英字のみで構成されたという点は文字化けを防ぐ為である。また全角数字も同様に変換出来れば良かったが、変換時に文字化けが起こってしまう為、表 5.1の「2次」と「二次」のように数字の種類に分けてユーザ辞書に登録する処理を行った。
また語句のゆらぎを減らす為に、表 5.2や表 5.3にある語句を代表語句に置換することにした。例えば「センサー」という語が見つかった時はこれを「センサ」に置き換え、「センサ」があった時はそのままにして重要度を計算した。
教科名 | 用語 |
5E電気材料II | センサ |
2E電気情報工学実験 | センサー |
4E計算機アーキテクチャ | ソフトウェア |
4EJデータ構造とアルゴリズム | ソフトウエア |
5EJ電磁波工学 | 電場 |
3E電気磁気学I | 電界 |
5EJ電磁波工学 | 磁場 |
3E電気磁気学I | 磁界 |