モデルの訓練と評価

cross_entropy = -tf.reduce_sum(y_*tf.log(y_conv))
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
sess.run(tf.initialize_all_variables())
for i in range(20000):
  batch = mnist.train.next_batch(50)
  if i\%100 == 0:
    train_accuracy = accuracy.eval(feed_dict={
        x:batch[0], y_: batch[1], keep_prob: 1.0})
    print "step \%d, training accuracy \%g"\%(i, train_accuracy)
  train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 
  0.5})

print "test accuracy \%g"\%accuracy.eval(feed_dict={
    x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0})

ここでは、交差エントロピー誤差（cross entropy error）が損失関数として用いられている。交差エントロピー誤差は、ニューラルネットワークの出力を、正解ラベルをとすると、式（5.1）で表される。また、最適化手法としてはAdamと呼ばれるものが用いられ、この場合の学習係数は0.0001である。最適化を行う際には、微分計算が関わることがあるが、tf.Optimizerクラスでは、微分計算式をユーザーが記述することなく行うことができる。

$\begin{displaymath} E = -\sum_k t_{k}\ln y_k \end{displaymath}$

(24)

この場合の学習回数は、20,000回である。また、ニューラルネットワークにはバッチ処理というテクニックがあり、バッチには、「束」という意味があり、即ち、データをいくつかの束に分けて処理することで、処理時間を短縮することができる。ここでは、バッチサイズを50として処理を行っている。尚、この条件での学習の正確性は、約99％程度になることが示されている。

Deguchi Lab. 2017年3月6日