深度学习：让电脑像人一样看世界

发表于2015-08-28 09:33| 5269次阅读| 来源NDTV Gadgets| 4 条评论| 作者Gopal Sathe

云计算人工智能深度学习

width="22" height="16" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-08-28%2F2825564&type=3&count=&appkey=&title=%E5%AF%B9%E4%BA%8EBlippar%EF%BC%8C%E5%85%B6%E5%88%9B%E5%A7%8B%E4%BA%BAOmar%20Tayeb%20%E8%A1%A8%E7%A4%BA%E5%85%B6%E7%9B%AE%E6%A0%87%E6%98%AF%E5%B0%86%E4%BB%BB%E4%B8%80%E7%85%A7%E7%9B%B8%E6%9C%BA%E5%9D%87%E8%BD%AC%E5%8F%98%E4%B8%BA%E6%99%BA%E8%83%BD%E8%AE%BE%E5%A4%87%EF%BC%8C%E4%B8%8D%E8%AE%BA%E5%85%B6%E8%BF%9E%E6%8E%A5%E4%BA%86%E9%AB%98%E7%AB%AF%E6%99%BA%E8%83%BD%E6%89%8B%E6%9C%BA%E4%B8%8E%E5%90%A6%E3%80%82%E6%88%91%E4%BB%AC%E5%8F%AA%E9%9C%80%E8%A6%81%E4%B8%80%E4%B8%AA%E4%B8%8D%E4%BD%8E%E4%BA%8E2%E6%88%963%E5%85%86%E5%83%8F%E7%B4%A0%E7%9A%84%E7%9B%B8%E6%9C%BA%E5%8D%B3%E5%8F%AF%E4%BB%A5%E5%AE%8C%E6%88%90%E6%89%80%E6%9C%89%E7%9A%84%E5%B7%A5%E4%BD%9C%E3%80%82%E6%89%80%E6%9C%89%E7%9A%84%E2%80%9C%E6%80%9D%E7%BB%B4%E2%80%9D%E9%83%BD%E5%9C%A8%E6%88%91%E4%BB%AC%E8%BF%99%E8%BE%B9%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1442496130240" frameborder="0" scrolling="no" allowtransparency="true">摘要：对于Blippar，其创始人Omar Tayeb 表示其目标是将任一照相机均转变为智能设备，不论其连接了高端智能手机与否。我们只需要一个不低于2或3兆像素的相机即可以完成所有的工作。所有的“思维”都在我们这边。

谷歌的 DeepDream——一个可以帮助人们了解神经网络的可视化工具——这不仅是当前十分火热的项目，这在一定程度上凸显了图像识别领域所面临的挑战。图像处理显然不是简单地将一幅图片与数据库相对比得出结果那么简单。实际上，图像处理是一个很复杂的问题。世界上有很多大公司正在图像处理上面大展拳脚。

NDTV Gadgets（一家媒体）对Omar Tayeb十分关注，当时这位Blippar （扩增实境公司）的创始人兼CTO连同合伙人兼CEO Ambarish Mitra正从位于英国的公司办事处出发一道访问Delhi，同时NDTV Gadgets也了解了blippar是如何理解图像识别的概念，对其运作原理有了基本的认识。

Blippar连同其他创业公司，比如Wowsome 和Times Internet's Alive公司，对AR的使用主要集中在市场营销方面。Alive推出了智能婚礼卡片，与此同时其他公司，在杂志和报纸广告，也试图使用AR，电子商务网站同样利用其作为虚拟购物体验。

然而，事情才刚开始，Mitra告诉NDTV Gadgets：“现在，当你启动Blippar应用程序时，它不会告诉你前方有个椅子，或者是你的桌上有个苹果，但它能识别出一瓶可乐【可口可乐】，也可以识别一个运动品牌或者其他类似的物体。”

在未来的5-6个月里，Blippar将会推出一个“视觉网络”，在该网络中，Blippar应用程序将能够识别目录中不必要的对象，并显示用户这些对象的相关信息。

“如果你看一辆车，即使在此之前你从来没见过那种型号，你也能够说出它是哪一种车型，”Blippar的CTO Omar Tayeb说到，“ Blippar现在还不能做到那样。它必须在此之前已经了解此类型的车，然后才能识别，否则将不会识别出。”

“这是一个极限，但通过深度学习，在迭代的过程中，系统确实开始学习，”他解释到。“机器学习意味着系统所知道的越多，它最终就变得越精确。这有点像婴儿的学习—作为婴儿你会看到数以百万计的不同面孔，从而使得你学会识别面部特征。该系统是用相同的方式，当越多人使用它时，它就会变的越发智能。”

从本质上讲，这个过程有它的基础，称之为模式识别。为此，计算机把图像分成若干层，然后尝试着从这些集合中去识别个体数据，而非识别整个图像。这有点像搜索引擎———你输入越多的检索词，你得到的结果越准确，根据Tayeb所说，模式识别的目标是将图像打破成足够多的数据点，以便在问题中建立一个很容易理解的认识对象。

“显然，你不可能拥有一个包含所有你需要的图像的数据库，”Tayeb说“所以仅能识别特殊图像是远不够的；你需要能够看到它然后说出这是一把椅子，而不是只识别一个特定的椅子。

机器学习比模式识别更进一步，它尝试用逻辑分组的模式，以便更快速、更准确地识别对象。通过使用大量的复杂的数学公式，计算机正在通过机器学习而变得更为聪明，但是再进一步，使计算机更加接近人类的思维方式，就是所谓的深度学习。

这些也被描述为神经网络，它们以神经元命名，因为这些系统（特别是大脑）是建立在动物的中枢神经系统的基础上。神经网络就是让电脑以人类的方式思考问题， Tayeb 解释道。

“没有目录——这是不可能的-所以你必须提取出来结构。这也是人类大脑所做的，”他解释到。“当你看到某些事物时，你的眼睛中的会接受大量的数据，但数据对眼睛本身来说没有任何意义。你的大脑必须处理你眼所接受的9-10百万数据点，来判断这些对象是如何形成的，在分析这些对象是什么、并判断出它们的属性。”

2014年，微软、谷歌和Facebook均发布了各自的图像识别软件。从中你就可以发现不同公司对图像识别的侧重点存在差异——用过Picasa和Facebook的人会对其软件中的标记功能印象深刻；相对而言谷歌和必应在识别图像上做的更加出色。如果你阅读了这三家公司关于这方面的相关研究文献，你就会了解他们是如何利用神经网络的-------多次遍历原图像以便确认其图像身份的。深度学习是实现这样一个过程的基础前提。

他补充道：“对我们来说，这款APP的核心在于收集数据，无论何时你因为这样或那样的原因打开这款App的同时，数据就已经自动存入了。它从你看到的每一件事开始学习。首先，他可能需要人工识别。一旦有足够的用户显示给他椅子并告诉它这是椅子时，这个过程就变得自动了。然后这款App开始能够自行识别凳子甚至于没有任何提示。这同样适用于其他对象。在某个时候，你可能会得到一个苹果，然后得到它的营养数据，或看到一个电话，可以看到你能在哪里购买。”

对于Blippar，Tayeb 解释道：目标是将任一照相机均转变为智能设备，不论其连接了高端智能手机与否。我们只需要一个不低于2或3兆像素的相机即可以完成所有的工作。所有的“思维”都在我们这边，因此也就不存在其他限制，我们想要得到的结果是其能成为任一相机的“大脑”。