Subsections

クラスター分析を用いた類似度計算

実験の結果は4.5節で述べた通り、6つの組み合わせが存在する。4.5.2節で述べた概念距離を使ったクラスター分析の方法ごとに実験の結果を示す。

最遠隣法

ユークリッド距離

概念距離を使ったクラスター分析の方法として最遠隣法を使用し、求めた重要度をユークリッド距離として、最遠隣法でクラスター分析した結果をFigure 4.3に示す。全てのグループについて確認した。結果を以下に示す。

数学系
応用数学A3、応用数学B4、応用数学C4は、一つのクラスターを形成している。 応用数学D4は、物理系の応用物理14とクラスターを形成している。 数値計算4は、プログラム系のプログラミング2、プログラミング3とクラスターを形成している。
物理系
応用物理13は、プログラム系のデータ構造とアルゴリズム4、電気回路12、光工学系の電子工学4の3科目とクラスターを形成している。 応用物理14は、数学系の応用数学D4とクラスターを形成している。 応用物理25と電子物性3は、一つのクラスターを形成している。
実験系
電気情報工学実験2、電気情報工学実験4、電気電子設計製図1は、プログラム系の情報工学実験4とクラスターを形成している。 工学基礎研究4、情報工学実験5、電気情報工学実験3は技術者倫理5とクラスターを形成している。 卒業研究5は独立したクラスターを形成している。
光工学系
光工学5は、他の7科目とクラスターを形成している。 電子工学4は、物理系の応用物理13で述べた通りのクラスターを形成している。 光・量子エレクトロニクス5は、他の5科目とクラスターを形成している。
電気回路
電気回路12は、物理系の応用物理13で述べた通りのクラスターを形成している。 電気回路13は、ソフトウェア工学とクラスターを形成している。 電気回路25は、光工学5と同じクラスター内に含まれている。
電気磁気学
電気磁気学13、電気磁気学14、電気磁気学25は、プラズマ工学と電磁エレクトロニクス5とクラスターを形成している。
エネルギー
電気機器3、パワーエレクトロニクス5は、光工学5と同じクラスター内に含まれている。 エネルギー変換工学5は、計算機アーキテクチャ4、コンパイラ5、オペレーティングシステム5とクラスターを形成している。
システム
ディジタル回路12、ディジタル回路25、電子回路3は、光工学5と同じクラスター内に含まれている。 情報伝送工学5は、画像処理工学5とクラスターを形成している。
プログラム系
データ構造とアルゴリズム4は、光工学5と同じクラスター内に含まれている。 プログラミング2とプログラミング3は、同じクラスター内に含まれている。 情報工学実験4は、実験系の電気情報工学実験2、電気情報工学実験4、電気電子設計製図1とクラスターを形成している。

同じグループだけで、一つのクラスターを形成したグループは存在しなかった。電気磁気学だけは、プラズマ工学5を含んでいるものの、一つのクラスターを形成している。数学系、実験系、エネルギー、システムはいくつかの科目に他の科目が加わったクラスターを形成した。また、物理系、光工学系、電気回路、プログラム系は科目がバラバラになっている。このことから、あまり類似度を計算できたとは言えない。また、卒業研究5が単体で存在している。これは拡散現象が発生したためと考えられる。

図 4.3: Cluster dendrogram using euclidean distance for similarity calculation and complete for cluster analysis
\includegraphics[width=14cm]{Rplotcu.eps.eps}

cos類似度

概念距離を使ったクラスター分析の方法として最遠隣法を使用し、求めた重要度をcos類似度を用いて、最遠隣法を使用しクラスター分析した結果をFigure 4.4に示す。全てのグループについて確認した。結果を以下に示す。
数学系
応用数学A3、応用数学B4、応用数学C4、応用数学D4は、人工知能5とクラスターを形成している。 数値計算4は、電気材料14、電気材料25とクラスターを形成している。
物理系
応用物理13、実験系の電気電子設計製図1と光工学系の電子工学4とクラスターを形成している。 応用物理14は、光工学系の光・量子エレクトロニクス5とクラスターを形成している。 応用物理25と電子物性3は、同じクラスター内に含まれている。
実験系
電気情報工学実験2、電気情報工学実験3、電気情報工学実験4、工学基礎研究4、情報工学実験5は、一つのクラスターを形成している。 電気電子設計製図1は、応用物理13と同じクラスター内に含まれている。 卒業研究5は、技術英語3とプログラム系のプログラミング2、プログラミング3とクラスターを形成している。
光工学系
光工学5は、電磁エレクトロニクス5とクラスターを形成している。 電子工学4は、卒業研究5と同じクラスター内に含まれている。 光・量子エレクトロニクス5は、応用物理14とクラスターを形成している。
電気回路
電気回路12は、情報数学4とクラスターを形成している。 電気回路13と電気回路25は、システムの電子回路3とクラスターを形成している。
電気磁気学
電気磁気学13、電気磁気学14、電気磁気学25は、プラズマ工学とクラスターを形成している。
エネルギー
電気機器3とパワーエレクトロニクス5は、システムのディジタル回路12とクラスターを形成している。 エネルギー変換工学5は、画像処理工学と言語理論4、情報ネットワークとクラスターを形成している。
システム
ディジタル回路12は、エネルギー系の電気機器3、パワーエレクトロニクス5とクラスターを形成している。 ディジタル回路25と情報伝送工学5は、一つのクラスターを形成している。 電子回路3は、電気回路の電気回路13と電気回路25とクラスターを形成している。
プログラム系
データ構造とアルゴリズム4、情報工学実験4は、電子計測5、ソフトウェア工学とクラスターを形成している。 プログラミング2は、エネルギー変換工学5と同じクラスター内に含まれている。 プログラミング3は、卒業研究5と同じクラスター内に含まれている。
同じグループだけで、一つのクラスターを形成したグループは存在しなかった。電気磁気学だけは、プラズマ工学5を含んでいるものの、一つのクラスター内に含まれている。また、数学系と実験系は半分以上の科目が同じクラスター内に含まれている。他のグループはバラバラになっていた。科目がグループごとに別れなかったことから、類似度計算はうまくできなかったがユークリッド距離を使用した結果よりはよく分類できた。

図 4.4: Cluster dendrogram using cos similarity for similarity calculation and complete for cluster analysis
\includegraphics[width=14cm]{Rplotcc.eps.eps}

群平均法

ユークリッド距離

概念距離を使ったクラスター分析の方法として群平均法を使用し、求めた重要度をユークリッド距離として、最遠隣法でクラスター分析した結果をFigure 4.5に示す。全てのグループについて確認した。結果を以下に示す。

数学系
応用数学A3は、物理系の応用物理13、電気回路の電気回路13とクラスターを形成している。 応用数学B4、応用数学C4は、物理系の応用物理14と一つのクラスターを形成している。 応用数学D4は、実験系の工学基礎研究4、情報工学実験5、卒業研究5とクラスターを形成している。 数値計算4は、コンパイラ5、プログラム系のプログラミング2、プログラミング3とクラスターを形成している。
物理系
応用物理13は、応用数学A3と同じクラスター内に含まれている。 応用物理14は、数学系の応用数学B4、応用数学C4とクラスターを形成している。 応用物理25は、他の7科目とクラスターを形成している。 電子物性3は、信号処理4、エネルギーの電気機器3、システムの電子回路3とクラスターを形成している。
実験系
電気情報工学実験2、電気情報工学実験4、電気電子設計製図1は、ソフトウェア工学、プログラム系の情報工学実験4とクラスターを形成している。 電気情報工学実験3は、技術英語、技術者倫理、電子計測とクラスターを形成している。 工学基礎研究4、情報工学実験5、卒業研究5は、応用数学D4とクラスターを形成している。
光工学系
光工学5は、電磁エレクトロニクス、電気磁気の電気磁気学4、プラズマ工学とクラスターを形成している。 光・量子エレクトロニクス5は、システムのディジタル回路25、情報数学4、人工知能5とクラスターを形成している。 電子工学4は、計算機アーキテクチャ、電気回路の電気回路12、自動制御5、通信工学4とクラスターを形成している。
電気回路
電気回路12は、電子工学4と同じクラスター内に含まれている。 電気回路13は、応用数学A3と同じクラスター内に含まれている。 電気回路25は、電気磁気学13、電気磁気学14とクラスターを形成している。
電気磁気学
電気磁気学13、電気磁気学14は、電気回路25とクラスターを形成している。 電気磁気学25は、光工学5と同じクラスター内に含まれている。
エネルギー
電気機器3は、電子物性3と同じクラスター内に含まれている。 エネルギー変換工学5は、言語理論4、オペレーティングシステム、情報ネットワークとクラスターを形成している。 パワーエレクトロニクス5は、システムのディジタル回路12とクラスターを形成している。
システム
ディジタル回路12は、パワーエレクトロニクス5とクラスターを形成している。 ディジタル回路25は、光・量子エレクトロニクス5と同じクラスター内に含まれている 電子回路3は、電子物性3と同じクラスター内に含まれている。 情報伝送工学5は、情報伝送工学、電子工学3、画像処理工学とクラスターを形成している。
プログラム系
データ構造とアルゴリズム4と情報工学実験4は、応用物理25と同じクラスター内に含まれている。 プログラミング2とプログラミング3は、数値計算4と同じクラスター内に含まれている。

全てのグループが同じクラスターで形成されていなかった。一番大きなクラスターは、卒業研究5から工学基礎研究4までの4科目とそれ以外に分かれた。またそれ以外の科目は、4つの大きなクラスターに分けられている。その内で一つのクラスターに、グループで分類されたのは電気磁気学、プログラム系の二つだけだった。大きなクラスターが多いものの、その中にグループで分類できていないことから、類似度計算はうまくできていなかった。

図 4.5: Cluster dendrogram using euclidean distance for similarity calculation and average for cluster analysis
\includegraphics[width=14cm]{Rplotau.eps.eps}

cos類似度

概念距離を使ったクラスター分析の方法として群平均法を使用し、求めた重要度をcos類似度を用いて、最遠隣法を使用しクラスター分析した結果をFigure 4.6に示す。全てのグループについて確認した。結果を以下に示す。
数学系
応用数学A3は、コンパイラ5、技術者倫理5とクラスターを形成している。 応用数学B4は、他の6科目とクラスターを形成している。 応用数学C4は、実験系の卒業研究5、技術英語3、人工知能5とクラスターを形成している。 応用数学D4は、電子計測5、物理系の応用物理13とクラスターを形成している。 数値計算4は、プログラム系のプログラミング2、プログラミング3とクラスターを形成している。
物理系
応用物理13は、応用数学D4と同じクラスター内に含まれている。 応用物理14は、光工学系の光・量子エレクトロニクス5とクラスターを形成している。 応用物理25は、システムのディジタル回路25、実験系の電気電子設計製図1、電気回路の電気回路12とクラスターを形成している。 電子物性3は、エネルギーの電気機器3、情報ネットワークとクラスターを形成している。
実験系
電気情報工学実験2、電気情報工学実験3、電気情報工学実験4、工学基礎研究4、情報工学実験5は、数学系の応用数学B4、プログラム系の情報工学実験4とクラスターを形成している。 電気電子設計製図1は、応用物理25と同じクラスター内に含まれている。 卒業研究5は、応用数学C4と同じクラスター内に含まれている。
光工学系
光工学5は、電磁エレクトロニクス、電気磁気学の電気磁気学25、プラズマ工学とクラスターを形成している。 電子工学4は、計算機アーキテクチャ4、言語理論4、自動制御5とクラスターを形成している。 光・量子エレクトロニクス5は、物理系の応用物理14とクラスターを形成している。
電気回路
電気回路12は、応用物理25と同じクラスター内に含まれている。 電気回路13と電気回路25は、電気磁気学の電気磁気学13と電気磁気学14、システムの電子回路3とクラスターを形成している。
電気磁気学
電気磁気学13、電気磁気学14は、電気回路の電気回路13と電気回路25と同じクラスター内に含まれている。 電気磁気学25は、光工学5と同じクラスター内に含まれている。
エネルギー
電気機器3は、電子物性3と同じクラスター内に含まれている。 エネルギー変換工学5は、システムのディジタル回路25とクラスターを形成している。 パワーエレクトロニクス5は、電子物性3とクラスターを形成している。
システム
ディジタル回路12は、応用物理25と同じクラスター内に含まれている。 ディジタル回路25は、エネルギー変換工学5とクラスターを形成している。 電子回路3は、電気回路13と電気回路25と同じクラスター内に含まれている。 情報伝送工学5は、情報数学4とクラスターを形成している。
プログラム系
データ構造とアルゴリズム4は、ソフトウェア工学、システム工学5とクラスターを形成している。 プログラミング2とプログラミング3は、数値計算4とクラスターを形成している。 情報工学実験4は、応用数学B4と同じクラスター内に含まれている。
全てのグループが一つのクラスターで形成されなかった。実験系は他の科目を含むものの同じクラスターに分類されている。一番大きなクラスターの片方には、数学系、実験系、プログラム系の科目が全て含まれている。しかし、グループとしてはバラバラに分類されており、類似度計算はできていない。

図 4.6: Cluster dendrogram using cos similarity for similarity calculation and average for cluster analysis
\includegraphics[width=14cm]{Rplotac.eps.eps}

ウォード法

ユークリッド距離

概念距離を使ったクラスター分析の方法としてウォード法を使用し、求めた重要度をユークリッド距離として、最遠隣法でクラスター分析した結果をFigure 4.7に示す。全てのグループについて確認した。結果を以下に示す。

数学系
応用数学A3と応用数学B4は、一つのクラスターを形成している。 応用数学C4は、技術者倫理5、ソフトウェア工学5とクラスターを形成している。 応用数学D4は、電子計測5とクラスターを形成している。 数値計算4は、システム工学とクラスターを形成している。
物理系
応用物理13と電子物性3は、一つのクラスターを形成している。 応用物理14は、技術英語とクラスターを形成している。 応用物理25は、他の5科目とクラスターを形成している。
実験系
電気情報工学実験2、電気情報工学実験3、電気情報工学実験4は、プログラム系の情報数学4とクラスターを形成している。 電気電子設計製図1は、プログラム系のプログラミング2、プログラミング3とクラスターを形成している。 工学基礎研究4、情報工学実験5、卒業研究5は、一つのクラスターを形成している。
光工学系
光工学5と光・量子エレクトロニクス5は、一つのクラスターを形成している。 電子工学4は、電気回路の電気回路12と電気回路25とクラスターを形成してしている。
電気回路
電気回路12、電気回路25は、電子工学4とクラスターを形成している。 電気回路13は、電気磁気学の3科目、電磁エレクトロニクスとクラスターを形成している。
電気磁気学
電気磁気学13、電気磁気学14、電気磁気学25は、一つのクラスターを形成している。
エネルギー
電気機器3、パワーエレクトロニクス5は、システムの電子回路3とクラスターを形成している。 エネルギー変換工学5は、システムのディジタル回路12、言語理論4、自動制御5とクラスターを形成している。
システム
ディジタル回路12は、エネルギー変換工学5と同じクラスター内に含まれている。 ディジタル回路25は、人工知能5、情報数学4とクラスターを形成している。 電子回路3は、エネルギーの電気機器3とパワーエレクトロニクス5と同じクラスター内に含まれている。 情報伝送工学5は、他の7科目とクラスターを形成している。
プログラム系
データ構造とアルゴリズム4は、コンパイラ5とクラスターを形成している。 プログラミング2とプログラミング3は、実験系の電気電子設計製図1とクラスターを形成している。 情報工学実験4は、実験系の3科目とクラスターを形成している。

電気磁気学が一つのクラスターを形成している。光工学系とシステムはそれぞれ近くのクラスターに分類されている。また、実験系は電気電子設計製図1以外の科目で二つのクラスターに分かれた。一番大きなクラスターは工学基礎研究4、情報工学実験5、卒業研究5で構成されたクラスターとそれ以外の科目でわかれた。数学系、物理系、電気回路、エネルギー、プログラム系は分類に失敗している。ある程度グループごとに分類することができており、類似度計算は良い結果となった。

図 4.7: Cluster dendrogram using euclidean distance for similarity calculation and ward for cluster analysis
\includegraphics[width=14cm]{Rplotwu.eps.eps}

cos類似度

概念距離を使ったクラスター分析の方法としてウォード法を使用し、求めた重要度のcos類似度を、最遠隣法でクラスター分析した結果を、Figure 4.7に示す。全てのグループについて確認した。結果を以下に示す。
数学系
応用数学A3は、電子計測とクラスターを形成している。 応用数学B4は物理系の応用物理13とクラスターを形成している。 応用数学C4、 応用数学D4は、プログラム系のデータ構造とアルゴリズム4、システム工学とクラスターを形成している。 数値計算4
物理系
応用物理13、応用物理14は、数学系の応用数学B4とクラスターを形成している。 応用物理25、電子物性3は一つのクラスターを形成している。
実験系
電気情報工学実験2、電気情報工学実験3、電気情報工学実験4、電気電子設計製図1、工学基礎研究4、情報工学実験5は、プログラム系の情報工学実験4とクラスターを形成している。 卒業研究5は、プログラム系のプログラミング2、プログラミング3とクラスターを形成している。
光工学系
光工学5と光・量子エレクトロニクス5は、一つのクラスターを形成している。 電子工学4は、電気回路の3科目とクラスターを形成している。
電気回路
電気回路12、電気回路13、電気回路25は、光工学系の電子工学4とクラスターを形成している。
電気磁気学
電気磁気学13、電気磁気学14、電気磁気学25は、一つのクラスターを形成している。
エネルギー
電気機器3とパワーエレクトロニクス5は、システムの電子回路3とクラスターを形成している。 エネルギー変換工学5は、システムの情報伝送工学5とクラスターを形成している。
システム
ディジタル回路12は、エネルギーのエネルギー変換工学5とクラスターを形成している。 ディジタル回路25は、人工知能5、情報数学4とクラスターを形成している。 電子回路3は、エネルギーの電気機器3とパワーエレクトロニクス5とクラスターを形成している。 情報伝送工学5は、エネルギーのエネルギー変換工学5とクラスターを形成している。
プログラム系
データ構造とアルゴリズム4は、応用数学D4と同じクラスター内に含まれている。 プログラミング2とプログラミング3は、卒業研究5とクラスターを形成している。 情報工学実験4は、実験系の5科目とクラスターを形成している。
電気磁気学が一つのクラスターを形成している。電気回路は電子工学を含むが一つのクラスターを形成している。エネルギーとシステムの互いの科目でクラスターを形成しているが、それぞれのグループとしてはバラバラになっている。数学系だけはすべての科目が別のクラスターに分類された。また、実験系は比較的近くのクラスターに分類され、プログラム系といくつかの科目を合わせた大きなクラスターが形成されている。結果として、分類できたグループが一番多く、類似度計算は今までで一番良い結果となっている。

図 4.8: Cluster dendrogram using cos similarity for similarity calculation and ward for cluster analysis
\includegraphics[width=14cm]{Rplotwc.eps.eps}

実験結果の考察

クラスター分析を用いた類似度計算の6つの結果では、ウォード法とcos類似度計算を用いた方法が一番良い結果となった。最遠隣法と群平均法を用いた結果からは、最遠隣法と群平均法では類似度計算がよくできていないことが分かった。また、最も良かったウォード法とcos類似度計算を用いた方法より、基準としたcos類似度による類似度計算とLSIによる類似度計算の方法の方が類似度計算の結果は良かった。

クラスター分析を用いた類似度計算で、うまくグループごとに分類できなかった理由として次のことが考えられる。それは日本語WordNetに登録されていない名詞が3分の1近くあったことである。類似度計算に影響する名詞は、登録されていない名詞の中には少ないと考えていたが、数が多すぎることが計算に影響を与え得たと考えられる。

また、クラスター分析を用いた類似度計算には改善の余地があると考えている。 一つは、4.5.3節のクラスター分析の方法を変えることである。実験結果が増えすぎるため、4.5.3節で述べたクラスター-文書行列のクラスター分析の手法では、最遠隣法のみを採用した。しかし、このクラスター分析の手法も群平均法やウォード法に変えて比較することで、結果が改善される可能性がある。二つめは、4.5.2節で名詞を31のクラスターに分けたが、この数を変えることである。4.5.2節で述べたように、LSIによる類似度計算と合わせるために、クラスターの数を31にした。しかし、クラスター分析を用いた類似度計算で類似度計算に使用した名詞は、LSIによる類似度計算より少ない。なので、クラスターの数を変えることによって結果が改善される可能性がある。

Deguchi Lab. 2017年3月6日