next up previous contents
Next: 特別な用語の登録 Up: データ整理 Previous: データ整理   目次


テキスト中の記号の置換

シラバスをテキスト化した時に中途半端な箇所で改行されてしまうことは4.1.1 節でも述べたが、この他の問題として単語間に半角スペースが入り込む点が見つかった。この半角スペースを文書中に挿入したのは書き手の意思だろうが、例として3E電子回路では「pn接合」という用語が「pn_接合」(_は半角スペース)と表記されてしまい、また教官名が「名字名前」となって欲しいところ、「名字_名前」となる時が見受けられた。「pn_接合」では「pn」と「接合」という別々の単語として扱われてしまう。また教官というのはその専門分野の授業を行うので、同じ教官が行う授業には多少の類似性があると考えられ、このようにスペースで区切られてしまうと同性の人がいた時に困り、ユーザ辞書に登録したフルネームの人名が考慮されない。それを防止する為にテキスト中の改行に加え、スペースも全て削除することにした。

4.1.2 節で述べたように、シラバス中に現れる記号は全て名詞ではなく記号として形態素解析されるように設定した。しかし中点``・''が名詞の近くに存在する時に限り、これが記号と認識されずに周りの名詞と繋がってしまい、新たな用語として認識されてしまう現象が起こった。これは4E数値計算の用語である「ルンゲ・クッタ」のように接続される方が望ましい場面がある一方、5EJパワーエレクトロニクスの「チョッパ・スイッチングレギュレータ」のように存在しない用語が生まれてしまい、これは他にチョッパやスイッチングレギュレータという語があっても、重要度や類似度の上昇にはなんら影響しないことを示す。このことを受けて、シラバス中の``・''は全て``|''という記号に置き換えることにした。これにより「ルンゲ・クッタ」は「ルンゲ」と「クッタ」に分かれることになるが、その影響を考慮しても置換前よりましであると考えられる。



Deguchi Lab. 2011年3月4日