神经网络训练解决loss、validation loss(损失函数)波动或不收敛问题

1.没有对数据进行预处理。数据分类标注是否准确？数据是否正确对应标签或者是否有错误数据？
2.将数据进行归一化。将像素值从0~255映射到（0，1）或者（-1，1）直接。
3.调整网络模型结构。是否网络结构设计不合理，卷积层都得大小和通道数是否合理？层数是否合理？全连接层神经元个数是否合理？全连接层是否合理（隐藏层一般1~2层，全连接层为2到4层较为合适）
4.Batch size 过大。Batch size 设置的过大会降低网络的准确度，因为它降低了梯度下降的随机性。另外，batch size 越大那么要达到相同的精确度通常需要训练更少的的epoch，训练时间会更低，但缺点是模型的泛化能力降低，训练曲线波动可能会很大。我们可以尝试一些较小的batch size 如 16 ，8 甚至是1(常用为16、32)。使用较小的batch size 那么一个epoch就可以进行更多次的权值更新。这里有两个好处，第一，可以跳出局部最小点。其二可以表现出更好的泛化性能。
5.增加数据集的尺寸。数据集大小越大，训练损失越小，曲线越平滑。(但数据集并非越多越好，数据集的大小也与设计的网络架构有关，过多的数据集或许不会提高准确率，但会增加训练时间)
6.池化层与padding层如果不使用可能会增加网络模型的训练准确度，并且训练结果更快收敛以及收敛效果更好。此外，或许可以尝试添加dropout已防止过拟合。

数据集划分比例

对于小规模样本集（几万量级），常用的分配比例是 60% 训练集、20% 验证集、20% 测试集。
对于大规模样本集（百万级以上），只要验证集和测试集的数量足够即可，例如有 100w 条数据，那么留 1w 验证集，1w 测试集即可。1000w 的数据，同样留 1w 验证集和 1w 测试集。
超参数越少，或者超参数很容易调整，那么可以减少验证集的比例，更多的分配给训练集。

输入层

在构建神经网络时就一定得注意，输入图片是按照rows, cols的逻辑来，也就是高和宽，而不是我们所认为的宽高输入，这在输入图片长宽不同时很重要！！！