next up previous contents
Next: LSAによる類似度計算 Up: 実験1:ネットワーク分析による類似度計算 Previous: N-gram解析結果からネットワーク図の作成   目次

結果

結果を評価する基準はそれぞれのネットワーク図の形が似ているかどうかである。 ネットワーク図は語や文字の頻度だけではなく,文字と文字,あるいは語と語のつながりや共起関 係がグラフ化されたものなのでネットワーク図の形が似ているほど類似度が高いと言える。 4.1項の処理をすべてのシラバスに行いネットワーク図を作成した。 その中で形の似ていたものを抜粋し、それぞれのネットワーク図を以下に示す。

図 4.1: 電子工学のネットワーク図
図 4.2: 通信工学のネットワーク図
\includegraphics[clip,width=11cm]{densikou.eps} \includegraphics[clip,width=11cm]{tuusin.eps}

図 4.3: プログラミングのネットワーク図
図 4.4: ディジタル回路のネットワーク図
\includegraphics[clip,width=15cm]{puro.eps} \includegraphics[clip,width=15cm]{diji.eps}

図 4.5: 技術英語のネットワーク図
図 4.6: 応用物理のネットワーク図
\includegraphics[clip,width=15cm]{gijutuei.eps} \includegraphics[clip,width=15cm]{oubutu.eps}

電子工学(図4.1)と通信工学(図4.2)は共に、右下にネットワークの密集している部分があり、そこから左上に伸びていっている形になっている。 この2つは共通の語や共起関係がよく似ているので似た形のネットワーク図が出来上がっている。 プログラミング(図4.3)とディジタル回路(図4.4)は全体的に少ないノードでネットワークの広がっている形になっている。 この2つは共通の語はあまり見られないが、語のつながりが少し似ているためだと考えられる。 技術英語(図4.5)と電気材料(図4.6)は中心につながりの関係が深い単語があり、そこからネットワークが広がっている形になっている。 しかし、形は似ているが共通の語やつながりがあまり見られないため偶然同じような形になったとも考えられる。

次に、ネットワークの密度という観点結果をみてみる。 密度の高低で分類した時、密度が低いと分かるものは以下の6つであった。

また、密度が高いと分かるものは、以下の5つであった。

このことから密度が低いもの情報コースと回路系の科目、密度が高いものは電気コースと専門的な難しい単語が出てくる科目であることがわかる。 だが、これは筆者が主観的にが類似している部分があると思っただけで実際に類似しているかは疑問である。

以上の結果からネットワーク分析によって文書の類似関係を見ることができる。しかし、類似度の評価が主観であるため基準が曖昧になってしまい、実際に文書の類似度が高いのかどうか確かめることができない致命的な欠点がある。 次の実験2では評価の基準を明確にすることにより、類似度をしっかりと示した上で実験1の結果と比較してみたい。



Deguchi Lab. 2013年2月28日