next up previous contents
Next: ベクトル空間法の実行と2値化処理 Up: データ準備 Previous: Mecabを用いて形態素解析   目次


TermExtractによる用語抽出

TermExtractは「専門用語自動抽出システム」として東京大学情報基盤図書館電子化部門中川裕志教授および、横浜国立大学環境情報研究院森辰則助教授が共同で開発したもので、それを主として中川教授、 東京大学経済学部図書館前田朗、東京大学経済学部資料室助手小島浩之の三者で検討を重ね、「専門用語自動抽出システム」を改良したものの一部である。

このTermExtractでは、単名詞と専門用語では多い単語と単語の組み合わせから成る複合語を対象として専門用語抽出を行い候補となる語を抽出してくれる。さらに、形態素解析によらない英文及び中文の専門用語自動抽出も行なってくれる。そして、抽出された各候補語の重要度を計算して、スコアの高い順に候補語をソートしたものを出力してくれる。

今回使用するTermExtractのMeCab版には、get_imp_wordという関数のみが実装されている。この関数は形態素解析を行って抽出された単語を、個々の単語の語順と品詞情報を元に複合語を生成するものである。第1引数には処理対象のデータを、第2引数としては第1引数の種別を与え、生成された語とその重要度が戻り値として得られる。これにより前研究と同じ形式のデータを得て、複合語はそのままに重要度を全て1とした、重要度を考慮しないデータの2つを得た。

この用語抽出の際、シラバスにあって当然の語句は省略するようにした。これはシラバスの書き方が似ていることから、ある教科と全く関係のない教科が似てしまうことを少しでも防ぐ為の処置であり、その語句を表4.2に示す。このような語句を含む用語は、全て計算の対象外にすることにした。なお、この処理による効果は前研究により明らかにされているので今年度は、除去語句を使用して実験を行う。


表 4.2: 用語から排除した語句
・概要 ・基礎 ・通年 ・学年 ・平成
・中間 ・期末 ・前期 ・後期 ・試験
・目標 ・達成 ・評価 ・理解 ・成績
・基準 ・課題 ・演習 ・学習 ・復習
・予習 ・予定 ・講義 ・授業 ・板書
・宿題 ・提出 ・解答 ・解説 ・資料
・科目 ・項目 ・単位 ・合計 ・重み
・担当 ・教員 ・記入 ・方法 ・考え
・心得 ・必修 ・合格 ・習得 ・改訂
・教科書 ・参考書 ・報告書 ・非常勤 ・得点率
・進め方 ・書き方 ・使い方 ・ノート ・レベル
・シラバス ・アドバイス ・レポート    
・まとめ ・岐阜工業高等専門学校 ・電気情報工学科
・フォローアップ      

また表4.3に示すように、同一内容の語がシラバスによって少し異なる表現で書かれることがある。単語の完全一致は類似度の上昇に大きな変化を与える為に、これは回避したい点である。加えてシラバスを書くのは人間である為に、語句の書き間違えがしばしば起こる。 よって、語句のゆらぎを減らす為に表4.3にある語句を代表語句に置換することにした。今回置換を行った語句を表4.4に示す。例えば「センサー」という語が見つかった時はこれを「センサ」に置き換え、「センサ」があった時はそのままにして重要度を計算した。



表 4.3: 同一事物を指す名称が異なる語句
教科名 用語
5E電気材料II センサ
2E電気情報工学実験 センサー
4E計算機アーキテクチャ ソフトウェア
4Eデータ構造とアルゴリズム ソフトウエア


表 4.4: 置き換えた用語
用語 置換した用語
C C言語
dB,dB デシベル
CN C/N
SN S/N
Δ-Δ,Y-Δ 三角結線
Y-Y,Δ-Y 星形結線
電場 電界
磁場 磁界
伝搬 伝播
手続 手続き
取り扱い 取扱い
ひずみ 歪み
エネルギ エネルギー
コンデンサー コンデンサ
スカラー スカラ
センサー センサ
ソフトウエア ソフトウェア
デジタル ディジタル
ニュウーラルネットワーク ニューラルネットワーク
プレゼン プレゼンテーション
マクスウエル,マックスウエル,マックスウェル マクスウェル
レーザー レーザ


next up previous contents
Next: ベクトル空間法の実行と2値化処理 Up: データ準備 Previous: Mecabを用いて形態素解析   目次
Deguchi Lab. 2012年3月9日