next up previous contents
Next: 参考文献 Up: ito Previous: 実験結果   目次

結論

本研究では岐阜工業高等専門学校電気情報工学科(Jコース)のシラバスを用いて、テキストマイニングにより各教科の類似度を求めた。 その計算方法としてまず初めに、あるシラバスがもつ用語と他のシラバスがもつ用語の完全一致から求める手法を用いたて各教科の類似度を求めた。さらに用語が持つ重要度を考慮する必要があるかどうかと、シラバスのテキストファイルに編集を行う必要があるかどうかを検討するために、計4つのデータを用意して結果を比較した。 その結果、重要度は考慮した方が得点が上がることが分かった。シラバスのテキストファイルにはおかしなところでの改行や空白を考慮して人が読んで違和感がないような文章に前処理をした方が良いことが分かった。 次にLSAを用いて類似度を求めることにした。この時、シラバス内の語句の類義語や書き間違えを減少させる為に少し工夫を入れ、先程と同じシラバスの編集の有無と重要度の有無に加えて、複合語の有無を検証する為に8つのデータを用意して結果を比較してみた。 その結果、どちらの方法も重要度有りで複合語無しの場合が最も精度が良いことが分かった。やはり、シラバスに編集を加えたものの方が良い得点だとLSAの結果からも得られた。つまり、このように文章データが改行や空白などで単語が切れてしまうようなもののときには、人の手によって前処理を加えてやった方が得点が上がると言える。 今年度は、全体的に得点率40ぐらいであったが昨年度は、得点率は80ぐらいであった。これは、ユーザ辞書に教員名を登録していなかったことが原因ではないかと考えられる。教員が同じであれば、類似度が上がることになる、それによってつながりのない教科が似ていると判断され、得点率の計算で影響が出ると考えられる。得点率を上げようと思えば、教員名はユーザ辞書に登録するほうがいいと言える。 以上の結果から、文書の類似度計算においては重要度を考慮し、かつ複合語を生成しない方が得点が高くなることが分かった。しかし、前処理を行った文書で複合語を有効にして、抽出教科数が1つだった時は、得点が高くなった。つまり、抽出する教科が1つの場合、複合語を有効にする利点はあると言える。

謝辞
最後に本研究を進めるにあたり、御多忙中にもかかわらず多大な御指導を賜わりました出口利憲先生に深く感謝するとともに、 同研究室において助言をいただいた専攻科の林郁真氏、福田純也氏、 共に勉学に励んだ溝口裕哉氏、牧野奏氏、三和未佐希氏、吉田靖司氏に厚くお礼を申し上げます。



Deguchi Lab. 2012年3月9日