デルタルール

Next: バックプロパゲーション Up: バックプロパゲーション（逆伝搬誤差法） Previous: バックプロパゲーション（逆伝搬誤差法）

デルタルール

まず、素子の特性を次のように一般化する。ある素子 j は、ほかの素子 i の出力を入力として受け、結合荷重をかけて加えたものを入力の総和とする。

そして、出力は入力の総和に単調増加関数を施したものとする。

ただし、しきい値は結合荷重の1つとして含まれていると考える。ここで関数 f として式 (2.4) のようなシグモイド関数を用いる。これは、微分可能な関数なので、以下で解析的に問題を解くことができる。

つぎに、神経回路における学習を一般化して考える。パーセプトロンでは、入力されるベクトルを2つのグループに分け、それぞれ0か1の出力を持って判定することを目的としたが、これは、それぞれの入力ベクトルを0か1に対応させる写像であると見ることができる。もし、パターンベクトルの要素が0か1であれば、これは1つの論理関数である。つまりパターン認識問題は、1つの論理関数を作り上げる問題に一般化できる。そこで、以下ではパターン認識に限らず、一般に、1つ1つの入力ベクトルに対して、何らかのスカラ値を（出力素子が複数であるならベクトルを）対応させる写像を神経回路に学習させることを考える。そして、をある入力ベクトル（パターン） c に対して出力素子 j が出すべき望ましい出力、をそのときの出力素子 j の実際の出力としたとき、学習の評価として、つぎのような``誤差関数'' E を考える。

このような形の誤差関数を最小にする方法を一般に``最小２乗平均誤差''（least mean square,LMS）法という。はそのときの素子間の結合の重みで決まるため、誤差関数も重みに関して陰（implicit）に定義された関数となる。したがって、各重みの値を軸としてできる空間を考え、さらにこの誤差関数 E によって定義される値を高さとして考えれば、E は重み空間上の超曲面として``誤差曲面"を与えることになる。任意の重みの状態から、この誤差曲面の極小値に達するには、例えば、各重みを、に比例した量

ずつ変化させていけばよいことになる。（は学習定数を表し、この値は大きいほど学習が早くなるが、学習の精度は下がる。逆に学習定数が小さいと、学習の精度が上がるが、学習回数が増え、尚且つ極小解へ陥りやすくなる。）これは、誤差曲面上を、最も急な傾斜方向に進んでいくことに相当し、このような学習則を一般に最急降下法（gradient decent method）という。