next up previous contents
Next: バックプロパゲーション[#kiso##1#] Up: 第3章 学習法 Previous: 第3章 学習法

一般化デルタルール[4]

本研究におけるニューラルネットワークの学習は, バックプロパゲーション法(back-propagation,誤差逆伝搬法) を用いた。 まずバックプロパゲーションについて説明する前に, 一般デルタルールについて説明する。 ある素子 j の入力総和 tex2html_wrap_inline1120 は,他の素子 i の出力 tex2html_wrap_inline1124 と, 重み tex2html_wrap_inline1126 をかけて加えたものである。 また,出力 tex2html_wrap_inline1128 は入力の総和に単調増加関数 f に 代入したもので表されることにする。 すると,

  equation106

となる。ただし,閾値は重みの一つとして含まれていると考える。 ここで,出力関数 f はシグモイド関数を用いることにする。 これは微分可能な関数であり,解析的に問題を解くことが可能になるからである。

次に,神経回路における学習を一般化して考える。 tex2html_wrap_inline1134 はある入力 c に対して 出力素子 j が出すべき望ましい出力, tex2html_wrap_inline1140 はその時の出力素子が実際にした出力である。 この時の学習評価として,次のような「誤差関数 E」を考えると

  equation113

上式のようになる。このような形の誤差関数を最小にする手続きを一般に 「最小2条平均誤差法」(least mean square ,LMS)という。 tex2html_wrap_inline1144 はその時の素子間の結合の強さ, すなわち重み tex2html_wrap_inline1126 で決まるため, 誤差関数も重みに関して陰に定義された関数となる。 したがって,各重みの値を軸としてできる空間を考え, さらにこの誤差関数 E によって定義される値を高さと考えれば, E は重み空間上の超曲面として「誤差曲面」を与えることになる。 任意の重み状態から,この誤差曲面の極小値に達するには, 例えば各重みを, tex2html_wrap_inline1152 に比例した量

  equation125

ずつ変化させていけばよいことになる。 これは,誤差曲面上を最も急な傾斜方向に進んでいくことに相当し, このような学習則を一般に 「最急降下法」(gradient decent method)という。

さて,式(3.1)のように素子の性質が定義されていれば, 式(3.3)は合成関数の微分公式により,

equation133

と展開できる(添字 c は省略)。 式(3.1)を微分して代入すれば,

  eqnarray144

であるので,結局式(3.3)は,

  equation152

となる。中間層が学習しない場合, tex2html_wrap_inline1156 の項は 式(3.2)を微分することにより簡単に

equation159

と求めることができるので,式(3.7)より,

equation165

という学習則が得られる。 これを一般化デルタルールと呼ぶ。



Deguchi Toshinori
Tue Feb 23 15:28:33 JST 1999