从零开始学keras之神经网络的数学表示

一、初识神经网络

我们来看一个具体的神经网络示例，使用 Python 的 Keras 库来学习手写数字分类。如果你没用过 Keras 或类似的库，可能无法立刻搞懂这个例子中的全部内容。甚至你可能还没有安装 Keras。没关系，下一章会详细解释这个例子中的每个步骤。因此，如果其中某些步骤看起来有些随意，或者像魔法一样，也请你不要担心。下面我们要开始了。

我们这里要解决的问题是，将手写数字的灰度图像（28 像素×28 像素）划分到 10 个类别中（0~9）。我们将使用 MNIST 数据集，它是机器学习领域的一个经典数据集，其历史几乎和这个领域一样长，而且已被人们深入研究。这个数据集包含 60 000 张训练图像和 10 000 张测试图像，由美国国家标准与技术研究院（National Institute of Standards and Technology，即 MNIST 中的 NIST）在 20 世纪 80 年代收集得到。你可以将“解决”MNIST 问题看作深度学习的“Hello World”，正是用它来验证你的算法是否按预期运行。当你成为机器学习从业者后，会发现 MNIST 一次又一次地出现在科学论文、博客文章等中。

PS下面的代码都是在anaconda里面编译的

from keras.datasets import mnist(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
#这里下载要多试几次，不翻墙能下。train_images 和 train_labels 组成了训练集（training set），模型将从这些数据中进行学习。
#然后在测试集（test set，即 test_images 和 test_labels）上对模型进行测试。

train_images 和 train_labels 组成了训练集（training set），模型将从这些数据中进行学习。然后在测试集（test set，即 test_images 和 test_labels）上对模型进行测试。

图像被编码为 Numpy 数组，而标签是数字数组，取值范围为 0~9。图像和标签一一对应。

我们来看一下训练数据：

train_images.shape#看下数据的维度输出为(60000, 28, 28)

len(train_labels)输出为60000

train_labels输出为array([5, 0, 4, ..., 5, 6, 8], dtype=uint8)

看下测试数据：

test_images.shape
输出为 (10000, 28, 28)len(test_labels)
输出为10000test_labels
输出为array([7, 2, 1, ..., 4, 5, 6], dtype=uint8)

接下来的工作流程如下：

首先，将训练数据（train_images 和 train_labels）输入神经网络；

其次，网络学习将图像和标签关联在一起；

最后，网络对 test_images 生成预测，而我们将验证这些预测与 test_labels 中的标签是否匹配。

下面我们来构建网络。再说一遍，你现在不需要理解这个例子的全部内容。

from keras import models
from keras import layersnetwork = models.Sequential()
network.add(layers.Dense(512, activation='relu', input_shape=(28 * 28,)))
network.add(layers.Dense(10, activation='softmax'))

神经网络的核心组件是层（layer），它是一种数据处理模块，你可以将它看成数据过滤器。进去一些数据，出来的数据变得更加有用。具体来说，层从输入数据中提取表示——我们期望这种表示有助于解决手头的问题。大多数深度学习都是将简单的层链接起来，从而实现渐进式的数据蒸馏（data distillation）。深度学习模型就像是数据处理的筛子，包含一系列越来越精细的数据过滤器（即层）。

本例中的网络包含 2 个 Dense 层，它们是密集连接（也叫全连接）的神经层。第二层（也是最后一层）是一个 10 路 softmax 层，它将返回一个由 10 个概率值（总和为 1）组成的数组。每个概率值表示当前数字图像属于 10 个数字类别中某一个的概率。

要想训练网络，我们还需要选择编译（compile）步骤的三个参数。

损失函数（loss function）：网络如何衡量在训练数据上的性能，即网络如何朝着正确的方向前进。
优化器（optimizer）：基于训练数据和损失函数来更新网络的机制。
在训练和测试过程中需要监控的指标（metric）：本例只关心精度，即正确分类的图像所占的比例。

后续两章会详细解释损失函数和优化器的确切用途。

network.compile(optimizer='rmsprop',loss='categorical_crossentropy',metrics=['accuracy'])

在开始训练之前，我们将对数据进行预处理，将其变换为网络要求的形状，并缩放到所有值都在 [0, 1] 区间。比如，之前训练图像保存在一个 uint8 类型的数组中，其形状为 (60000, 28, 28)，取值区间为 [0, 255]。我们需要将其变换为一个 float32 数组，其形状为 (60000, 28 * 28)，取值范围为 0~1。

train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype('float32') / 255test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype('float32') / 255

我们还需要对标签进行分类编码，第 3 章将会对这一步骤进行解释。

from keras.utils import to_categoricaltrain_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

现在我们准备开始训练网络，在 Keras 中这一步是通过调用网络的 fit 方法来完成的—— 2 我们在训练数据上拟合（fit）模型。

network.fit(train_images, train_labels, epochs=5, batch_size=128)

训练结果是：

训练过程中显示了两个数字：一个是网络在训练数据上的损失（loss），另一个是网络在训练数据上的精度（acc）。我们很快就在训练数据上达到了 0.989（98.9%）的精度。现在我们来检查一下模型在测试集上的性能。

test_loss, test_acc = network.evaluate(test_images, test_labels)print('test_acc:', test_acc)
输出为：test_acc: 0.9785

测试集精度为 97.8%，比训练集精度低不少。训练精度和测试精度之间的这种差距是过拟合（overfit）造成的。过拟合是指机器学习模型在新数据上的性能往往比在训练数据上要差，它是第 3 章的核心主题。

第一个例子到这里就结束了。你刚刚看到了如何构建和训练一个神经网络，用不到 20 行的 Python 代码对手写数字进行分类。下一章会详细介绍这个例子中的每一个步骤，并讲解其背后的原理。接下来你将要学到张量（输入网络的数据存储对象）、张量运算（层的组成要素）和梯度下降（可以让网络从训练样本中进行学习）。

从零开始学keras之神经网络的数学表示相关推荐

从零开始学keras之使用预训练的卷积神经网络
想要将深度学习应用于小型图像数据集,一种常用且非常高效的方法是使用预训练网络. 预训练网络(pretrained network)是一个保存好的网络,之前已在大型数据集(通常是大规模图像分类任务)上训 ...
从零开始学keras之卷积神经网络介绍
卷积神经网络简介我们将深入讲解卷积神经网络的原理,以及它在计算机视觉任务上为什么如此成功.但在此之前,我们先来看一个简单的卷积神经网络示例,即使用卷积神经网络对 MNIST 数字进行分类,这个任务我 ...
从零开始学keras之过拟合与欠拟合
在预测电影评论.主题分类和房价回归中,模型在留出验证数据上的性能总是在几轮后达到最高点,然后开始下降.也就是说,模型很快就在训练数据上开始过拟合.过拟合存在于所有机器学习问题中.学会如何处理过拟合对掌 ...
从零开始学keras之kaggle猫狗识别分类器
使用很少的数据来训练一个图像分类模型,这是很常见的情况,如果你要从事计算机视觉方面的职业,很可能会在实践中遇到这种情况."很少的"样本可能是几百张图像,也可能是几万张图像.来看一个 ...
从零开始学keras之电影二分类
二分类问题可能是应用最广泛的机器学习问题.在这个例子中,你将学习根据电影评论的文字内容将其划分为正面或负面. 本博客使用 IMDB 数据集,它包含来自互联网电影数据库(IMDB)的 50 000 条严 ...
从零开始学keras之变分自编码器生成图像
自编码器由 Kingma 和 Welling 于 2013 年 12 月 a 与 Rezende.Mohamed 和 Wierstra 于 2014 年 1 月同时发现,它是一种生成式模型,特别适用 ...
《从零开始学keras之神经风格迁移
神经风格迁移由 Leon Gatys 等人于 2015 年夏天提出.自首次提出以来,神经风格迁移算法已经做了许多改进,并衍生出许多变体,而且还成功转化成许多智能手机图片应用. 神经风格迁移是指将参考图 ...
从零开始学keras之使用 LSTM 生成文本
下面用 Keras 来实现这些想法.首先需要可用于学习语言模型的大量文本数据.我们可以使用任意足够大的一个或多个文本文件--维基百科.<指环王>等.本例将使用尼采的一些作品,他是 19 世 ...
从零开始学keras之预测房价
前面讲的都是分类问题,其目标是预测输入数据点所对应的单一离散的标签.另一种常见的机器学习问题是回归问题,它预测一个连续值而不是离散的标签,例如,根据气象数据预测明天的气温,或者根据软件说明书预测完成软 ...

从零开始学keras之神经网络的数学表示

一、初识神经网络

从零开始学keras之神经网络的数学表示相关推荐

最新文章

热门文章