next up previous contents
Next: 第5章 周期パターンの検出 Up: 第4章 ニューラルネットワークの学習則 Previous: 4.2 一般化デルタルール

4.3 バックプロパゲーション

いくつかの中間層を持つ階層型ニューラルネットワークを考える。このネットワークについて中間層に対する学習式を導こうとしたとき、式(4.8)の tex2html_wrap_inline1516 の値はすぐに求めることはできない。 この微分値を出力層より逆向きに順々に計算していく、つまり出力の誤差を前の層へ前の層へと伝えていくというのが、バックプロパゲーションのアイデアである。すなわち、ある素子 jtex2html_wrap_inline1516 の計算は、次の層の素子 ktex2html_wrap_inline1528 を用いて

  equation263

と展開することができる。式(4.3)より

  equation275

これと式(4.7)を代入すれば式(4.14)は

  equation283

となる。これがバックプロパゲーションのアルゴリズムである。

これは誤差があたかも逆方向に進んでいくように見えることから誤差逆伝搬法ともいわれている。

バックプロパゲーションでは、いかなる結合荷重の初期値からでも誤差が極小となる(最小ではない)ことが保証されるわけだが、一般に誤差曲面は極小値の近くでは非常に緩やかな谷底を持つため学習は非常に遅くなる。 しかし、式(4.2)の tex2html_wrap_inline1518 を大きくすると学習は振動してしまう。振動させずに学習を早めるためいくつかの方法が提案されているが、その一つに誤差曲面の傾きを結合荷重空間の位置でなく速度の変化に用いる、

  equation292

という形の加速法が良く使われている。ここで t は学習回数を表す。

また、結合荷重が最初全てゼロであると、中間層の素子に子性が現れず中間層を用いるいみがなくなってしまう。この対称性を破るためには、各結合荷重に小さなランダム値を与えておけば良い。

注意すべきこととして、多層な階層型ネットワークにおいて式(4.1)で表される誤差曲面には複数の極小値が存在しうるということである。このため、誤差は必ずしも最小になるとは限らない。 [5]

バックプロパゲーションの特徴は、出力すべき出力を得られるように入力の特徴により中間層の結合荷重が構成されていくことである。また、ある素子の学習に使われている情報は後の素子から得られる情報のみであり、学習の局所性が保たれていることになる。ただし、実際の生体の神経回路においては、 tex2html_wrap_inline1516 といった値が神経軸索を通って逆向きに伝わるはずもなく、バックプロパゲーションは実際の脳の学習則の生理的モデルにはなりえないことになる。実際の脳にどのような学習則が用いられているかはまだ分かっていない。



Deguchi Toshinori
1996年12月18日 (水) 11時08分12秒 JST