next up previous contents
Next: 実験方針 Up: 誤差逆伝播法 Previous: 最急降下法(勾配法)   目次

誤差逆伝播法の導出

実際にバックプロパゲーションを適応させる場合について説明する。 いくつかの中間層を持つ階層型のネットワークを考える。 同じ層の素子間に結合はなく、どの素子も1つ前の層からのみ入力を受け、次の層へのみ出力を送るものとする。 このようなネットワークの中間層に対して学習則を導くとき、 $\frac{\partial E}{\partial y_j}$ (学習信号)の値は すぐには求めることが出来ない。 そのため、この学習信号を出力層から逆向きに順々に計算していく。 すなわち出力の誤差を前の層へ、前の層へと伝えていく。学習の評価基準として、次のような誤差関数Eを定義する。


\begin{displaymath}
E = \frac{1}{2} \sum_{k,c}{ ( y_{k,c} - \hat{y}_{k,c} )^2 }\\
\end{displaymath} (4.3)

式 (4.3)での $\hat{y}_{k,c}$ とは、ある入力 $c$ に対して出力素子 $k$ がすべき望ましい出力、 $y_{k,c}$ はそのときの出力を指している。 この誤差を $y_k$について微分をすると


\begin{displaymath}
\frac{\partial E}{\partial y_k} = ( y_k - \hat{y}_{k} )\\
\end{displaymath} (4.4)

よって、ある層の素子 $j$ $\frac{\partial E}{\partial y_j}$ の計算は、次の層の素子 $k$ $\frac{\partial E}{\partial y_k}$ を用いて


\begin{displaymath}
\frac{\partial E}{\partial y_j} = \sum_{k} \frac{\partial E...
...t \frac{dy_k}{du_k} \cdot \frac{\partial u_k}{\partial y_j}\\
\end{displaymath} (4.5)

と展開することができる。 また、出力 $y_i$ と結合荷重 $w_{kj}$ の積和が入力総和 $u_k$ であることから


\begin{displaymath}
\frac{\partial u_k}{\partial y_j} = w_{kj}\\
\end{displaymath} (4.6)

となる。そして、この関係式を 代入すれば式 (4.5)は


\begin{displaymath}
\frac{\partial E}{\partial y_j} = \sum_k \frac{\partial E}{\partial y_k} f'(u_k)w_{kj}\\
\end{displaymath} (4.7)

となる。 これがバックプロパゲーションのアルゴリズムである。 バックプロパゲーションは、いかなる重みの初期値からでも誤差が極小となる (最小ではない)ことが保証されるわけだが、 一般に誤差曲面は極小値の近くでは非常に緩やかな谷底をもつため、学習は非常に遅くなる。 しかし、学習係数の $\eta$ を大きくすると、学習は振動してしまう。 $\eta$ を振動させずに学習を早めるため幾つかの方法が提案されている。例えば、誤差曲面の傾きを結合荷重空間の位置でなく速度の変化に利用させている。即ち、


\begin{displaymath}
\Delta w_{ji}(t) = -\eta \frac{\partial E}{\partial w_{ji}} + \alpha \Delta w_{ji}(t-1) ( 0 < \alpha < 1 )
\end{displaymath} (4.8)

という形の加速法がよく使われる。 ここで $\alpha$ は安定化定数であり、$t$ は学習の回数を表す。また重みが最初すべて0であると、中間層の素子に個性が現れず中間層を用いる意味がなくなってしまう。 この対称性を破るために、重みに小さなランダム値を与えることが必要である[5]。

図 4.2に誤差逆伝播法のネットワーク図を示す。 誤差逆伝播法の特徴としては、

図 4.2: 誤差逆伝搬法のネットワーク図
\includegraphics[scale=0.7]{eps/07.eps}

  1. 入力信号と正確な出力教師信号のセットを次々と与えるだけで、個々の問題の特徴を抽出する内部構造が中間層の隠れニューロン群のシナプス結合として自己組織化される。
  2. 誤差計算が出力方向への情報の流れと類似している。

ということが挙げられる。 すなわちある素子の学習に使われている情報は、あとの素子から得られる情報のみであり、学習の局所性が保たれていることになる。 この学習の局所性は、人工的な神経回路型計算機をハードウェア化する時の学習則に要求される性質である。 実際の生体における神経回路においては、 $\frac{\partial E}{\partial y_j}$ といった学習信号が神経軸索を通って逆向きに伝わることはない。

誤差逆伝播法は実際の脳の学習則の生理学的モデルにはなりえないことになる。 実際の脳の多層神経回路において、どのような学習則が用いられているのかは今だ解明されていない。


next up previous contents
Next: 実験方針 Up: 誤差逆伝播法 Previous: 最急降下法(勾配法)   目次
Deguchi Lab. 2015年3月4日