深度学习之图像处理---七级浮屠

用深度学习玩图像的七重关卡

第一个重境界：图像识别

我们进化的方向，也就是用更高级的网络结构取得更好的准确率，比如像下图这样的残差网络（已经可以在猫狗数据集上达到99.5%以上准确率）。分类做好了你会有一种成为深度学习大师，拿着一把斧子眼镜里都是钉子的幻觉。分类问题之所以简单，一要归功于大量标记的图像，二是分类是一个边界非常分明的问题，即使机器不知道什么是猫什么是狗，看出点区别还是挺容易的，如果你给机器几千几万类区分，机器的能力通过就下降了（再复杂的网络，在imagenet那样分1000个类的问题里，都很难搞到超过80%的准确率）。

第二重境界：物体检测

很快你发现，分类的技能在大部分的现实生活里并没有鸟用。因为现实中的任务啊，往往是这样的：

那么多东西在一起，你拿猫狗大头照训练的分类网络一下子就乱了阵脚。即使是你一个图片里有一个猫还有一个狗，甚至给猫加点噪声，都可以使你的分类网络分寸大乱。

现实中，哪有那么多图片，一个图里就是一个猫或者美女的大图，更多的时候，一张图片里的东西，那是多多的，乱乱的，没有什么章法可言的，你需要自己做一个框，把你所需要看的目标给框出来，然后，看看这些东西是什么。

于是你来到机器视觉的下一层挑战 - 目标检测（从大图中框出目标物体并识别），随之而来的是一个新的网络架构，又被称为R - CNN，图片检测网络，这个网络不仅可以告诉你分类，还可以告诉你目标物体的坐标，即使图片里有很多目标物体，也一一给你找出来。

第三重境界：图像切割

你不仅需要把图片中边边角角的物体给检测出来，你还要做这么一个猛料的工作，就是把它从图片中扣出来。要知道，刚出生的婴儿分不清物体的边界，比如桌上有苹果这种事，什么是桌子，什么是苹果，为什么苹果不是占在桌子上的？所以，网络能不能把物体从一个图里抠出来，事关它是否真的像人一样把握了视觉的本质。这也算是对它的某种“图灵测试” 。而把这个问题简化，我们无非是在原先图片上生成出一个原图的“mask”，面具，有点像phtoshop里的蒙版的东西。

这个Segmentation任务，作用不可小瞧哦，比如现在私人卫星和无人机普及了，要不要去看看自己小区周围的地貌，看是不是隐藏了个金库？清清输入，卫星图片一栏无余。哪里有树，哪里有水，哪里有军事基地，不需要人，全都给你抠出来。

第四重境界：聚类

淘宝的一个功能，输入一张服装的图片，然后得到一组推荐的服装，注意啊，我可以从网络上爬一大堆图出来，但是这些数据是没有标注的。怎么办？哥告你还是有的搞，这个搞法，就是聚类。哥教你最简单的一招聚类哦，那就是，把图片统统放进卷积网络，但是我们不提取分类，而只是提取一些网络中间层的特征，这些特征有点像每个图片的视觉二维码，然后我们对这些二维码做一个k-means聚类，也会得到意想不到的效果。为什么要深度？因为深度提取的特征，那是与众不同的。然后以图搜图呢？不过是找到同一聚类里的其它图片啊。

第五层境界：降噪

我们开始晋升为仰望星空的人，之前那些分类赚钱的应用太无聊了。机器视觉搞科学怎么搞？作为一群仰望星空后观察细胞的人，我们最常发现的是我们得到的天文或者细胞图片的噪声实在太大了，这简直没法忍啊，然后，深度学习给了你一套降噪和恢复图像的方法。一个叫auto-encoder的工具，起到了很大的作用，刷的一下，图像就清楚了。

这还不是最酷炫的，那个应用了博弈理论的对抗学习，也可以帮你谋杀噪点！如果你会对抗所谓GAN，也是一种图像生成的工具，让网络去掉噪声的图片，与没有噪声的自然图片，连卷积网络都判别不出来。

第六重境界：图像翻译

在工业界赚够了钱，我们来玩艺术思考哲学，第一招，图像风格迁移：

然而真正能玩好这一事项的，还是那个刚刚提过的对抗学习GAN，比如大名鼎鼎的CycleGAN，几乎可以实现一种你自定义的“图像翻译” 功能，而且你不用做标注哦，拿出冬天和夏天的两组图片，它会自动的在两组图片中找出对应来。

第七重境界：GAN

图像翻译也懒的玩了，你神经网络不是号称能够理解图像，看你来个无中生有，在噪声里生成图片来？对，依然是GAN，而且是最基础的卷积GAN (DCGAN)就可以给你干出来。看看GAN所幻想的宾馆情景，你能想到是计算机做的图吗？哈哈哈！

写到这里，你会觉得GAN是非常有前途的，以前我还以为只是好玩呢。

这里展示的七级浮屠，也不过深度学习被人类discover的冰山一角，醉卧沙场君莫笑，古来征战几人回。

一个稍微清晰一些的大纲：