next up previous contents
Next: テキストマイニング Up: osaki Previous: 目次   目次


序論[1]

近年、世間一般におけるインターネットの普及とIT技術の進化によって、電子化された文章の量は増加し続けている。 しかし、膨大なテキストデータの中から意味のある、本当に欲しい情報を抜き出すことは難しく、文書の傾向をつかむといった技術は確立されていない。 従来あるいは現代においても、文章の分析は数値あるいはデータをほとんど使わず、膨大な歴史的資料の検討と、哲学的な思索と、文学的な想像力によって支えられてきた。だがそういった分析方法では、現在の膨大な文章データを分析しきることは不可能である。ここで、自然言語で書かれた文章を統計学的に分析するために現れたのがテキストマイニングである。

文章の分析に数が持ち込まれるようになった歴史は意外に古く、19世紀頃から行なわれている。すなわち、文章中に登場する単語の種類や長さ、1つの文の間に含まれる平均的な単語数といった数を数えることによって、文献の特徴を捉えようとする試みがなされるようになったのである。この時代にそのような文章解析手法が世間に広く普及することはなかったが、コンピュータの性能が向上するに連れ、効率よく文章を処理できるようになると、研究室や企業においてテキストマイニングが使われるようになり、今日では様々なテキストマイニングツールが我々の生活に活用されている。

本研究では、テキストマイニングを使用して、岐阜工業高等専門学校・電気情報工学科のシラバスに対し、複数の方法で類似度を計算することによって、よりよい計算方法を模索し、どのような処理をすればいいのか模索する。シラバス間の類似度を計算して類似度を求めるということは、すなわちどの科目同士が似通っていて、ある科目の勉強が他のどの科目に繋がるか知ることができる、ということである。これによって、学生は今勉強している教科が今後どのような教科の勉強につながるか、理解を深めることに役立てることができる。本年度から全てのシラバスに評価項目(ルーブリック)の項が追加されたため、それがシラバス間の類似度計算にどういった影響をおよぼすか調べることで、類似度計算の精度向上に寄与することを意識して研究を進めた。



Deguchi Lab. 2016年3月4日