まず、素子の特性を次のように一般化する。
ある素子 j は、ほかの素子 i の出力 を入力として受け、結合荷重
をかけて加えたものを入力の総和
とする。
そして、出力 は入力の総和に単調増加関数を施したものとする。
ただし、しきい値は結合荷重の1つとして含まれていると考える。 ここで関数 f として式 (2.4) のようなシグモイド関数を用いる。 これは、微分可能な関数なので、以下で解析的に問題を解くことができる。
つぎに、神経回路における学習を一般化して考える。
パーセプトロンでは、入力されるベクトルを2つのグループに分け、それぞれ0か1の出力を持って判定することを目的としたが、これは、それぞれの入力ベクトルを0か1に対応させる写像であると見ることができる。
もし、パターンベクトルの要素が0か1であれば、これは1つの論理関数である。
つまりパターン認識問題は、1つの論理関数を作り上げる問題に一般化できる。
そこで、以下ではパターン認識に限らず、一般に、1つ1つの入力ベクトルに対して、何らかのスカラ値を(出力素子が複数であるならベクトルを)対応させる写像を神経回路に学習させることを考える。
そして、 をある入力ベクトル(パターン) c に対して出力素子 j が出すべき望ましい出力、
をそのときの出力素子 j の実際の出力としたとき、学習の評価として、つぎのような``誤差関数'' E を考える。
このような形の誤差関数を最小にする方法を一般に``最小2乗平均誤差''(least mean square,LMS)法という。
はそのときの素子間の結合の重み
で決まるため、誤差関数も重みに関して陰(implicit)に定義された関数となる。
したがって、各重みの値を軸としてできる空間を考え、さらにこの誤差関数 E によって定義される値を高さとして考えれば、E は重み空間上の超曲面として``誤差曲面"を与えることになる。
任意の重みの状態から、この誤差曲面の極小値に達するには、例えば、各重みを、
に比例した量
ずつ変化させていけばよいことになる。 これは、誤差曲面上を、最も急な傾斜方向に進んでいくことに相当し、このような学習則を一般に最急降下法(gradient decent method)という。
さて、式 (##128>
と展開できる。式 (##142>
であるので、結局式 (##155>
となる。パーセプトロンのように中間層が学習しない場合、 の項は式 (##166>
と求めることができるので、式 (3.8) より
という学習則が得られる。 これを、一般化デルタルールと呼ぶ。 例えば、f が式 (2.4) で与えられている場合
より
という形になる。
この方法では、すべての入出力パターンが与えられた後にはじめて結合荷重を変化させることになるが、 が十分に小さければ、パーセプトロンのように各入出力が与えられるごとに結合荷重を反復的に変化させる、つまり
としても、全体の変化量は最急降下法とほぼ等しくなる。 また、シミュレーションに当たってのメモリも少なくてすむ。このとき f が
のように線形に動作するなら
より、学習則はパーセプトロンと同様の
という形となる。[2]