next up previous contents
Next: 参考文献 Up: hayashi Previous: 除去後の類似度   目次

結論

本研究では、テキストマイニングを用いて、本校電気情報工学科のシラバスにおける シラバス同士の類似度について調べた。

まず、本校ホームページより調査対象のシラバスをダウンロードし、 それらをXpdfツールを用いてテキストファイル化した。 テキストファイル化したものを、Mecabツールを用いて形態素解析し、 形態素解析したものから名詞を取り出して、それらを単名詞または複合名詞として重要語を抽出、 さらに重要語の重要度を計算した。 そして、それら重要語および、その重要度を基にシラバス同士の類似度をベクトル空間法により計算した。

その結果、例えば「3Eプログラミング」では「2Eプログラミング」や、「4E数値計算」といった、 情報系の科目のシラバスが類似しており、結果は問題がないように見えるが、 類似度が2番目に高い教科が「2E電気回路I」となっている。 この2科目は専門用語が全く違い、本来類似しない文書である。 類似してしまった原因は「シラバス特有の単語」が類似度を高めてしまうことにあった。

シラバスには「授業」や「前期」、「後期」といった、どのシラバスにも必ず記述されている単語がある。 これらが重要語として抽出されることによって、全く種類の違う教科でさえも類似してしまう可能性がある。 これらの語はシラバスを特徴づける、という意味では重要な単語だが、 今回はシラバスにおける類似度を算出しているため、それらを除くことでより顕著な結果があらわれると考えた。

除いた結果、やはり、さきほどの「3Eプログラミング」では、「2E電気回路I」は類似度が低くなり、 「5E情報数学」や「4EJデータ構造とアルゴリズム」といった教科の類似度があまり変わらなかった。

今回の実験では、ベクトル空間法により類似度を算出したため、全く同じ単語でなければ類似度に反映されない。 例えば、「コンピュータ」と「コンピューター」などのゆらぎ表記を認識せず、別々な単語として扱ってしまう。 また、「回路」と「電気回路」といった意味の似たような語を考慮しないし、 第4章で述べたように「ひずみ波交流」の「ひずみ」を動詞として扱ってしまうなど、 まだまだ改善をしなければならない点は多い。

謝辞
最後に本研究を進めるにあたり、御多忙中にもかかわらず多大な御指導を賜わりました出口利憲先生に深く感謝するとともに、 同研究室において助言をいただいた専攻科の松野圭将氏、木村俊貴氏、 共に勉学に励んだ岡晋之介氏、小野木祐太氏、福田純也氏に厚くお礼を申し上げます。



Deguchi Lab. 2010年3月5日