next up previous contents
Next: データ準備 Up: yoshimura Previous: 確率的潜在意味解析   目次


実験1 : 用語の重要度を考慮しない類似度計算

本研究室においては、以前に用語の重要度を考慮してシラバスの類似度計算を行った研究があったが、この重要度を無視して用語の有無によって類似度計算を行った場合、どのような結果が現れるのだろうか。第 2 章でも述べたように、重要度はその用語が文書中にどれだけ存在するかや、他の用語と繋がっているかなどによって算出される。もしこれらを考慮しなくてもいいのなら余計な計算を省くことが可能になり、容易に文書が似ているか否かを判断することが出来る。本章ではこれが成立するかどうかを追っていき、その結論を導いていく。その為にも、前回の研究と同様に岐阜工業高等専門学校のシラバスを実験対象として選び、計算結果を比較することにした。その処理手順は以下に示す通りである。

Xpdfによるシラバスのテキスト化 MeCabによる形態素解析 TermExtractによる用語抽出 ベクトル空間法による類似度計算 高類似度の教科を抽出 結果を比較し、重要度の有無を考察

これらを実現する為に、プログラミング言語としてはPerl(Ver.5.8.8)を用いた。このPerl(Practical Extraction and Report Language また Pathologically Eclectic Rubbish Lister という意味がある)はL. Wall氏によって開発されたインタプリタ型の言語であり、文字列を扱う処理に非常に優れており、開発が容易なことからこれを採用した。



Subsections

Deguchi Lab. 2011年3月4日