Next: 実験2:LSAを用いた類似度計算 Up: 実験1:用語の重要度を考慮しない類似度計算 Previous: ベクトル空間法の実行と2値化処理目次

実験結果

結果を評価する基準として、岐阜工業高等専門学校のホームページに掲載されている教育課程表と科目構成図[12]をグラフに見立てて用いた。その評価方法は以下に示す通りである。

比較回数 , 教科番号 , シラバス数 , 抽出教科数とする。とする。ある教科 $A_{i}$ を選択し、 $A_{i}$ に対して類似度が番目に高かった教科 $B_{ij}$ を抽出する。 $B_{ij}$ の類似度が0であれば vii に進み、そうでなければ v に進む。科目構成図において $A_{i}$ と $B_{ij}$ を結び、その距離 $d_{ij}$ を求めてに1を足す。なら vii に進み、そうでないならに1を足して iii に戻る。なら viii に進み、そうでないならに1を足して ii に戻る。得点を計算する。

上記の得点は以下の式によって計算される。

$\displaystyle S = \frac {G c} {\sum^M_{i=1} \sum^N_{j=1} d_{ij}} \times 100$

(4.1)

ここでは目標距離であり、とがどれだけ離れていれば望ましいかを表す。実験ではこの値を2としたので、が1でが100に近ければ、多くの教科が一番似ているとされる教科と科目構成図において2つほどしか離れておらず、適切な類似度が求められていることが分かる。

このを用いて4つのデータを比較した結果を表4.6に示す。

**表 4.6:** シラバスの編集と重要度の有無による得点の変化
	編集無		編集有
		重要度無	重要度有	重要度無
	1	37.79	38.78	40.96
2	36.27	38.20	38.27	38.20
3	35.31	38.25	38.01	40.05
4	35.16	37.71	37.16	39.80
5	35.11	37.75	36.77	39.84

**図 4.1:** 編集と重要度と除去語の有無による得点の変化
$\includegraphics[scale=1.0]{fig03.eps}$

重要度に着目すると、重要度を考慮しなかった時よりも、考慮したときの方が得点が高いことが分かる。この結果から重要度は考慮した方がよいと考えられる。次に、シラバスのテキストファイルに編集しているかどうかに着目してみる。表とグラフから分かるように、前処理をしている方が得点が高いことが分かる。つまり、前処理をした方がより正確な結果が得られるといえる。これは、シラバスをPDF形式からテキストファイルに変化する時にPDF形式のレイアウトのままで行が改行されてしまうことが原因だと考えられる。このとき、一つの単語が改行により分解され別々の単語に分けられてしまうことになる。今回の実験結果でも1E電気電子設計製図のTermExtractの結果ファイルに「コンピュー」という単語が結果に表示されていた。これは、「コンピュータ」という単語が改行により「コンピュー」と「タ」に分けられたと考えられる。このような現象がほかのシラバスの結果にも見られた。したがって、類似度が下がり得点率が下がっている原因だと言える。

Next: 実験2:LSAを用いた類似度計算 Up: 実験1:用語の重要度を考慮しない類似度計算 Previous: ベクトル空間法の実行と2値化処理目次

Deguchi Lab. 2012年3月9日