図 6.5 に示すような、いくつかの中間層を持つ多層のネットワークを考える。同じ層の素子間に結合はなく、どの素子も1つ前の層からのみ入力を受け、つぎの層へのみ出力を送るものとする。
このようなネットワークの中間層に対して同様に学習則を導こうとしたとき、式 (3.8) の の値はすぐに求めることはできない。
この微分値を出力層より逆向きに順々に計算していく。
つまり、出力の誤差を、前の層へ、前の層へと伝えていく、というのがバックプロパゲーションのアイデアである。
すなわち、ある層の素子 j の
の計算は、つぎの素子 k の
を用いて
と展開することができる。式 (##245>
これと式 (##251>
となる。これが、バックプロパゲーションのアルゴリズムである。
バックプロパゲーションはいかなる結合加重の初期値からでも誤差が極小になる(最小ではない)ことが保証される。 一般に神経回路形計算は、規則性と例外とが入り混じった関係を表現し、未知の入力パターンに対して出力を推測する必要がある場合に能力を発揮する。 このような例として、英単語の発音規則の学習や凹凸画像の判別にバックプロパゲーションが応用され成果をあげている。[2]