next up previous contents
Next: バックプロパゲーション [#nakano1##1#] Up: 学習法 Previous: 学習の分類

一般化デルタルール [1]

本研究におけるニューラルネットワークの学習は, バックプロパゲーション法(back-propagation,誤差逆伝播法) を用いた. まずバックプロパゲーションについて説明する前に, 一般デルタルールについて説明する. ある素子 j の入力総和 tex2html_wrap_inline1295 は,他の素子 i の出力 tex2html_wrap_inline1299 と, 重み tex2html_wrap_inline1301 をかけて加えたものである. また,出力 tex2html_wrap_inline1303 は入力の総和を関数 tex2html_wrap_inline1305 に 代入したもので表されることにする. 即ち,

  equation107

と表せる.ただし,閾値は重みの一つとして含まれていると考える. ここで,出力関数 tex2html_wrap_inline1305 はシグモイド関数を用いることにする. 次に,神経回路における学習を一般化して考える. tex2html_wrap_inline1309 はある入力 c に対して 出力素子 j が出すべき望ましい出力, tex2html_wrap_inline1315 はその時の出力素子が実際にした出力である. この時の学習評価として,次のような「誤差関数 E

  equation114

を考える.このような形の誤差関数を最小にする手続きを一般に 「最小2乗平均誤差法」(least mean square ,LMS)という. tex2html_wrap_inline1319 はその時の素子間の結合の強さ, すなわち重み tex2html_wrap_inline1301 で決まるため, 誤差関数も重みに関して陰(implicit)に定義された関数となる. したがって,各重みの値を軸としてできる空間を考え, さらにこの誤差関数 E によって定義される値を高さと考えれば, E は重み空間上の超曲面として「誤差曲面」を与えることになる. 任意の重み状態からこの誤差曲面の極小値に達するには, 例えば各重みを, tex2html_wrap_inline1327 に比例した量

  equation126

ずつ変化させていけばよいことになる. これは誤差曲面上を最も急な傾斜方向に進んでいくことに相当し, このような学習則を一般に 「最急降下法」(gradient decent method)という.

さて,式( 4.1 )のように素子の性質が定義されていれば, 式( 4.3 )は合成関数の微分公式により,

equation134

と展開できる(添字 c は省略). 式( 4.1 )を微分して代入すれば,

  eqnarray145

であるので,結局式( 4.3 )は,

  equation153

となる.中間層が学習しない場合, tex2html_wrap_inline1331 の項は 式( 4.2 )を微分することにより簡単に

equation160

と求めることができるので,式( 4.7 )より,

equation166

という学習則が得られる. これを一般化デルタルールと呼ぶ.



Toshinori DEGUCHI
2003年 4月11日 金曜日 11時42分54秒 JST