卷积层数量过多的缺点,卷积积分的被积函数

将原模型中的卷积层（卷积核为55）全部替换成两个33级联的卷积层（就像VGG模型）训练误差一直为2.3不变

用局部连接而不是全连接，同时权值共享。

局部连接的概念参考局部感受域，即某个视神经元仅考虑某一个小区域的视觉输入，因此相比普通神经网络的全连接层（下一层的某一个神经元需要与前一层的所有节点连接），卷积网络的某一个卷积层的所有节点只负责前层输入的某一个区域（比如某个3*3的方块）。

这样一来需要训练的权值数相比全连接而言会大大减少，进而减小对样本空间大小的需求。权值共享的概念就是，某一隐藏层的所有神经元共用一组权值。这两个概念对应卷积层的话，恰好就是某个固定的卷积核。

卷积核在图像上滑动时每处在一个位置分别对应一个“局部连接”的神经元，同时因为“权值共享”的缘故，这些神经元的参数一致，正好对应同一个卷积核。

顺便补充下，不同卷积核对应不同的特征，比如不同方向的边（edge）就会分别对应不同的卷积核。

激活函数f(x)用ReLU的话避免了x过大梯度趋于0（比如用sigmoid）而影响训练的权值的情况（即GradientVanishing）。同时结果会更稀疏一些。

池化之后（例如保留邻域内最大或平均以舍弃一些信息）一定程度也压制了过拟合的情况。

综述总体来说就是重复卷积-relu来提取特征，进行池化之后再作更深层的特征提取，实质上深层卷积网络的主要作用在于特征提取。

最后一层直接用softmax来分类（获得一个介于0~1的值表达输入属于这一类别的概率）。

谷歌人工智能写作项目：神经网络伪原创

cnn训练准确率很高，测试准确率很低（loss有一直下降）是为什么?

可能的原因：有可能是层数较少，可以尝试增加卷积层；可能性不大A8U神经网络。之前我有出现过类似的情况，数据本身质量太低，就算训练层可以保证很高的准确率也没有什么意义，此时已经过拟合了。

这种情况是没有办法的，因为你的数据本身就有问题，无解。

你可以尝试用机器学习的方法提取特征值来验证，如果此时准确率比CNN结果要好，那么就是你网络本身的问题，如果准确率也很差，那就应该是你数据本身质量的问题。

高斯过程模型会过拟合吗?

会的。

减少过拟合的方法：获取更多数据：从数据源头获取更多数据；数据增强（DataAugmentation)•使用合适的模型：减少网络的层数、神经元个数等均可以限制网络的拟合能力•dropout，丢弃一些数据•正则化，在训练的时候限制权值变大•限制训练时间，earlystoptraining•增加噪声Noise,例如高斯模糊数据清洗(datackeaning/Pruning)：将错误的label纠正或者删除错误的数据•结合多种模型：用不同的模型拟合不同度、饱和度、对比度变化。

如何判断卷积神经网络是否过拟合

原则上RSquare值越高（越接近1），拟合性越好，自变量对因变量的解释越充分。但最重要的是看sig值，小于0.05，达到显著水平才有意义。

可以看回你spss的结果，对应regression的sig值如果是小于0.05的，就可以了。

卷积神经网络训练精度高,测试精度很低的原因

过拟合了，原因很多，解决方案也有很多。百度/谷歌搜索过拟合overfitting个人会优先尝试减小网络规模，比如层数、卷积滤波器个数、全连接层的单元数这些。

其他的比如Dropout，数据增强/扩充，正则，earlystop，batchnorm也都可以尝试。

深度网络中为何引入池化层？

减少大量的计算量。引入空间过滤器的层级结构，从而让连续卷积层的观察窗口变大，这样可以更加充分地获得信息。池化（Pooling）：也称为欠采样或下采样。

主要用于特征降维，压缩数据和参数的数量，减小过拟合，同时提高模型的容错性。

主要有：MaxPooling：最大池化AveragePooling：平均池化MaxPooling：选取最大的，我们定义一个空间邻域（比如，2*2的窗口），并从窗口内的修正特征图中取出最大的元素，最大池化被证明效果更好一些。

AveragePooling：平均的，我们定义一个空间邻域（比如，2*2的窗口），并从窗口内的修正特征图中算出平均值。

输出层（全连接层）经过前面若干次卷积+激励+池化后，终于来到了输出层，模型会将学到的一个高质量的特征图片全连接层。其实在全连接层之前，如果神经元数目过大，学习能力强，有可能出现过拟合。

因此，可以引入dropout操作，来随机删除神经网络中的部分神经元，来解决此问题。还可以进行局部归一化（LRN）、数据增强等操作，来增加鲁棒性。

当来到了全连接层之后，可以理解为一个简单的多分类神经网络（如：BP神经网络），通过softmax函数得到最终的输出。整个模型训练完毕。

CNN中卷积层、池化层和全连接层分别有什么作用和区别？

如下：卷积层：提取特征。“不全连接，参数共享”的特点大大降低了网络参数，保证了网络的稀疏性，防止过拟合。之所以可以“参数共享”，是因为样本存在局部相关的特性。

池化层：有MaxPool和AveragePool等。其中MaxPool应用广泛。因为经过MaxPool可以减小卷积核的尺寸，同时又可以保留相应特征，所以主要用来降维。

全连接层：在全连接的过程中丢失位置信息，可以理解为降低了学习过程中的参数敏感度；很多分类问题需要通过softmax层进行输出；进行非线性变换等等。但是现在已经有很多网络结构去掉了最后的全连接层。

我也是入坑没多久，对这一点理解仍很粗浅。

人工智能的原理是什么

人工智能的原理，简单的形容就是：人工智能=数学计算。机器的智能程度，取决于“算法”。最初，人们发现用电路的开和关，可以表示1和0。

那么很多个电路组织在一起，不同的排列变化，就可以表示很多的事情，比如颜色、形状、字母。再加上逻辑元件（三极管），就形成了“输入（按开关按钮）——计算（电流通过线路）——输出（灯亮了）”这种模式。

想象家里的双控开关。为了实现更复杂的计算，最终变成了，“大规模集成电路”——芯片。电路逻辑层层嵌套，层层封装之后，我们改变电流状态的方法，就变成了“编写程序语言”。程序员就是干这个的。

程序员让电脑怎么执行，它就怎么执行，整个流程都是被程序固定死的。所以，要让电脑执行某项任务，程序员必须首先完全弄清楚任务的流程。就拿联控电梯举例：别小看这电梯，也挺“智能”呢。

考虑一下它需要做哪些判断：上下方向、是否满员、高峰时段、停止时间是否足够、单双楼层等等，需要提前想好所有的可能性，否则就要出bug。某种程度上说，是程序员控制了这个世界。

可总是这样事必躬亲，程序员太累了，你看他们加班都熬红了眼睛。于是就想：能不能让电脑自己学习，遇到问题自己解决呢？而我们只需要告诉它一套学习方法。

大家还记得1997年的时候，IBM用专门设计的计算机，下赢了国际象棋冠军。

其实，它的办法很笨——暴力计算，术语叫“穷举”（实际上，为了节省算力，IBM人工替它修剪去了很多不必要的计算，比如那些明显的蠢棋，并针对卡斯帕罗夫的风格做了优化）。

计算机把每一步棋的每一种下法全部算清楚，然后对比人类的比赛棋谱，找出最优解。一句话：大力出奇迹！但是到了围棋这里，没法再这样穷举了。力量再大，终有极限。

围棋的可能性走法，远超宇宙中全部原子之和（已知），即使用目前最牛逼的超算，也要算几万年。在量子计算机成熟之前，电子计算机几无可能。

所以，程序员给阿尔法狗多加了一层算法：A、先计算：哪里需要计算，哪里需要忽略。B、然后，有针对性地计算。——本质上，还是计算。哪有什么“感知”！在A步，它该如何判断“哪里需要计算”呢？

这就是“人工智能”的核心问题了：“学习”的过程。仔细想一下，人类是怎样学习的？人类的所有认知，都来源于对观察到的现象进行总结，并根据总结的规律，预测未来。

当你见过一只四条腿、短毛、个子中等、嘴巴长、汪汪叫的动物，名之为狗，你就会把以后见到的所有类似物体，归为狗类。不过，机器的学习方式，和人类有着质的不同：人通过观察少数特征，就能推及多数未知。

举一隅而反三隅。机器必须观察好多好多条狗，才能知道跑来的这条，是不是狗。这么笨的机器，能指望它来统治人类吗。它就是仗着算力蛮干而已！力气活。具体来讲，它“学习”的算法，术语叫“神经网络”（比较唬人）。

（特征提取器，总结对象的特征，然后把特征放进一个池子里整合，全连接神经网络输出最终结论）它需要两个前提条件：1、吃进大量的数据来试错，逐渐调整自己的准确度；2、神经网络层数越多，计算越准确（有极限），需要的算力也越大。

所以，神经网络这种方法，虽然多年前就有了（那时还叫做“感知机”）。但是受限于数据量和计算力，没有发展起来。神经网络听起来比感知机不知道高端到哪里去了！

这再次告诉我们起一个好听的名字对于研（zhuang）究（bi）有多重要！现在，这两个条件都已具备——大数据和云计算。谁拥有数据，谁才有可能做AI。

目前AI常见的应用领域：图像识别（安防识别、指纹、美颜、图片搜索、医疗图像诊断），用的是“卷积神经网络（CNN）”，主要提取空间维度的特征，来识别图像。

自然语言处理（人机对话、翻译），用的是”循环神经网络（RNN）“，主要提取时间维度的特征。因为说话是有前后顺序的，单词出现的时间决定了语义。神经网络算法的设计水平，决定了它对现实的刻画能力。

顶级大牛吴恩达就曾经设计过高达100多层的卷积层（层数过多容易出现过拟合问题）。当我们深入理解了计算的涵义：有明确的数学规律。那么，这个世界是是有量子（随机）特征的，就决定了计算机的理论局限性。

——事实上，计算机连真正的随机数都产生不了。——机器仍然是笨笨的。更多神佑深度的人工智能知识，想要了解，可以私信询问。