next up previous contents
Next: シラバスと用語の行列生成 Up: データ整理 Previous: シラバス特有の語の除去   目次

テキスト中の記号や語句の置換

 

シラバスをテキスト化した時に単語間に半角スペースが入り込む点が見つかった。 この半角スペースを文書中に挿入したのは書き手の意思だろうが、 例として電子回路では「pn接合」という用語が「pn_接合」(_は半角スペース)と表記されてしまい、 また教官名が「名字名前」となって欲しいところ、 「名字_名前」となる時が見受けられた。「pn_接合」では「pn」と「接合」という別々の単語として扱われてしまう。 また教官というのはその専門分野の授業を行うので、同じ教官が行う授業には多少の類似性があると考えられ、 このようにスペースで区切られてしまうと同性の人がいた時に困り、 ユーザ辞書に登録したフルネームの人名が考慮されない。 それを防止する為にテキスト中の改行に加え、スペースも全て削除することにした。

また、表5.2に示すように、同一内容の語がシラバスによって少し異なる表現で書かれることがある。 単語の完全一致は類似度の上昇に大きな変化を与える為に、これは回避したい点である。 加えてシラバスを書くのは人間である為に、語句の書き間違えがしばしば起こる。 よって、語句のゆらぎを減らす為に表5.2にあげたような語句を代表語句に置換することにした。 例えば「センサー」という語が見つかった時はこれを「センサ」に置き換えた。


表 5.2: 同一事物を指す名称が異なる語句の例
教科名 用語
電気材料 センサ
応用物理 センサー
計算機アーキテクチャ ソフトウェア
オペレーティングシステム ソフトウエア
電気磁気学 電界
電子物性 電場



Deguchi Lab. 2013年2月28日