next up previous contents
Next: 実験2:LSAを用いた類似度計算 Up: 実験1:用語の重要度を考慮しない類似度計算 Previous: ベクトル空間法の実行と2値化処理   目次


実験結果

結果を評価する基準として、岐阜工業高等専門学校のホームページに掲載されている教育課程表と科目構成図[12]をグラフに見立てて用いた。その評価方法は以下に示す通りである。

比較回数$ c = 0$ , 教科番号$ i = 1$ , シラバス数$ M$ , 抽出教科数$ N$ とする。 $ j = 1$ とする。 ある教科$ A_{i}$ を選択し、$ A_{i}$ に対して類似度が$ j$ 番目に高かった教科$ B_{ij}$ を抽出する。 $ B_{ij}$ の類似度が0であれば vii に進み、そうでなければ v に進む。 科目構成図において$ A_{i}$ $ B_{ij}$ を結び、その距離$ d_{ij}$ を求めて$ c$ に1を足す。 $ j == N$ なら vii に進み、そうでないなら$ j$ に1を足して iii に戻る。 $ i == M$ なら viii に進み、そうでないなら$ i$ に1を足して ii に戻る。 得点$ S$ を計算する。

上記の得点$ S$ は以下の式によって計算される。

$\displaystyle S = \frac {G   c} {\sum^M_{i=1} \sum^N_{j=1} d_{ij}} \times 100$ (4.1)

ここで$ G$ は目標距離であり、$ A$ $ B$ がどれだけ離れていれば望ましいかを表す。実験ではこの値を2としたので、$ N$ が1で$ S$ が100に近ければ、多くの教科が一番似ているとされる教科と科目構成図において2つほどしか離れておらず、適切な類似度が求められていることが分かる。

この$ S$ を用いて4つのデータを比較した結果を表4.6に示す。


表 4.6: シラバスの編集と重要度の有無による得点の変化
  編集無 編集有
  重要度無 重要度有 重要度無
1 37.79 38.78 40.96
2 36.27 38.20 38.27 38.20
3 35.31 38.25 38.01 40.05
4 35.16 37.71 37.16 39.80
5 35.11 37.75 36.77 39.84

図 4.1: 編集と重要度と除去語の有無による得点の変化
\includegraphics[scale=1.0]{fig03.eps}

重要度に着目すると、重要度を考慮しなかった時よりも、考慮したときの方が得点が高いことが分かる。この結果から重要度は考慮した方がよいと考えられる。次に、シラバスのテキストファイルに編集しているかどうかに着目してみる。表とグラフから分かるように、前処理をしている方が得点が高いことが分かる。つまり、前処理をした方がより正確な結果が得られるといえる。これは、シラバスをPDF形式からテキストファイルに変化する時にPDF形式のレイアウトのままで行が改行されてしまうことが原因だと考えられる。このとき、一つの単語が改行により分解され別々の単語に分けられてしまうことになる。 今回の実験結果でも1E電気電子設計製図のTermExtractの結果ファイルに「コンピュー」という単語が結果に表示されていた。これは、「コンピュータ」という単語が改行により「コンピュー」と「タ」に分けられたと考えられる。このような現象がほかのシラバスの結果にも見られた。したがって、類似度が下がり得点率が下がっている原因だと言える。


next up previous contents
Next: 実験2:LSAを用いた類似度計算 Up: 実験1:用語の重要度を考慮しない類似度計算 Previous: ベクトル空間法の実行と2値化処理   目次
Deguchi Lab. 2012年3月9日