next up previous contents
Next: バックプロパゲーション Up: バックプロパゲーション(逆伝搬誤差法) Previous: バックプロパゲーション(逆伝搬誤差法)

デルタルール

まず、素子の特性を次のように一般化する。 ある素子 j は、ほかの素子 i の出力 tex2html_wrap_inline1491 を入力として受け、結合荷重 tex2html_wrap_inline1493 をかけて加えたものを入力の総和 tex2html_wrap_inline1495 とする。

  equation88

そして、出力 tex2html_wrap_inline1491 は入力の総和に単調増加関数を施したものとする。

  equation92

ただし、しきい値は結合荷重の1つとして含まれていると考える。 ここで関数 f として式 (2.4) のようなシグモイド関数を用いる。 これは、微分可能な関数なので、以下で解析的に問題を解くことができる。

つぎに、神経回路における学習を一般化して考える。 パーセプトロンでは、入力されるベクトルを2つのグループに分け、それぞれ0か1の出力を持って判定することを目的としたが、これは、それぞれの入力ベクトルを0か1に対応させる写像であると見ることができる。 もし、パターンベクトルの要素が0か1であれば、これは1つの論理関数である。 つまりパターン認識問題は、1つの論理関数を作り上げる問題に一般化できる。 そこで、以下ではパターン認識に限らず、一般に、1つ1つの入力ベクトルに対して、何らかのスカラ値を(出力素子が複数であるならベクトルを)対応させる写像を神経回路に学習させることを考える。 そして、 tex2html_wrap_inline1501 をある入力ベクトル(パターン) c に対して出力素子 j が出すべき望ましい出力、 tex2html_wrap_inline1507 をそのときの出力素子 j の実際の出力としたとき、学習の評価として、つぎのような``誤差関数'' E を考える。

  equation100

このような形の誤差関数を最小にする方法を一般に``最小2乗平均誤差''(least mean square,LMS)法という。 tex2html_wrap_inline1507 はそのときの素子間の結合の重み tex2html_wrap_inline1493 で決まるため、誤差関数も重みに関して陰(implicit)に定義された関数となる。 したがって、各重みの値を軸としてできる空間を考え、さらにこの誤差関数 E によって定義される値を高さとして考えれば、E は重み空間上の超曲面として``誤差曲面"を与えることになる。 任意の重みの状態から、この誤差曲面の極小値に達するには、例えば、各重みを、 tex2html_wrap_inline1521 に比例した量

  equation113

ずつ変化させていけばよいことになる。 ( tex2html_wrap_inline1523 は学習定数を表し、 この値は大きいほど学習が早くなるが、学習の精度は下がる。 逆に学習定数が小さいと、学習の精度が上がるが、学習回数が増え、尚且つ極小解へ陥りやすくなる。) これは、誤差曲面上を、最も急な傾斜方向に進んでいくことに相当し、このような学習則を一般に最急降下法(gradient decent method)という。

さて、式 (##120>) 、 (##121>) のように素子の性質が定義されていれば、式 (##122>) は合成関数の微分公式により

  equation123

と展開できる。式 (##134>) 、 (##135>) を微分して代入すれば

  equation136

equation142

であるので、結局式 (##147>) は

  equation148

となる。パーセプトロンのように中間層が学習しない場合、 tex2html_wrap_inline1525 の項は式 (##158>) を微分することにより簡単に

equation159

と求めることができるので、式 (3.8) より

equation167

という学習則が得られる。 これを、一般化デルタルールと呼ぶ。 例えば、f が式 (2.4) で与えられている場合

equation177

より

  equation179

という形になる。

この方法では、すべての入出力パターンが与えられた後にはじめて結合荷重を変化させることになるが、 tex2html_wrap_inline1523 が十分に小さければ、パーセプトロンのように各入出力が与えられるごとに結合荷重を反復的に変化させる、つまり

  equation190

としても、全体の変化量は最急降下法とほぼ等しくなる。 また、シミュレーションに当たってのメモリも少なくてすむ。このとき f

equation199

のように線形に動作するなら

equation201

より、学習則はパーセプトロンと同様の

  equation203

という形となる。[2]



Toshinori DEGUCHI
2005年 4月 1日 金曜日 17時11分43秒 JST