机器学习和图像识别是怎样彻底改变搜索的？

简介

文本内容一般很好搜索，但有很多信息是以其他形式存在的。语音识别将音频-以及视频配乐-转换成可以索引和搜索的文本。但如果是视频本身，或其它的图片内容呢？

如果不仅仅是在页面上寻找指出图片相关性的文字或是说明，那么在网络上搜索图片将准确很多。幸好有使用神经网络和深度学习的机器学习技术，使得这个设想成为可能。

标题之争

微软和Facebook的研究人员创建了一个含有人工标记250万个物品、超过300,000张图片的大规模数据库（被称为Common Objects in Context），他们声称四岁孩子都可以识别出这些对象。所以微软的一批机器学习方面的研究人员决心看看他们的系统对同样的图片能处理到何种程度——不仅仅是识别它们，还要把它们分离为不同的对象，为每个对象命名并写下能描述整张图片的标题。

为了评测结果，他们请一部分人写下个人认为的图片标题，再请另外一部分人比较图片的两个标题并选出他们认为比较适合的标题。

“这是真正能检测质量的办法，”微软研究院的著名科学家约翰·普莱特（John Platt）说道，“到底人们对这些标题是什么看法呢？23%的标题被认为和人总结写下的标题水平相当。也就是说大概有四分之一的时候这台机器能够达到人的水平。”

部分问题是视觉识别器。有时它可能会把猫识别成狗，或是认为长毛的都是猫，又或是把人指着雕塑的图片识别为包含足球。这是一个小团队历经夏天的四个月就能达到的水平，而且这是他们第一次标记这么大规模的数据集来训练和测试。

“我们可以做得更好，”普莱特自信地说道。

机器优势

机器学习在辨别只包含一种事物的简单图片上已经做的相当不错了。“这个系统已经被赋予一个未经训练的人的水平了，”普莱特解释道。这是针对一个称作ImageNet的图片集的测试，图片集中的图片被标记为2200个不同分类。

“那包含了一些未经训练的人不知道的细微区别，”他宣称。“像彭布鲁克威尔士柯基犬和卡迪根威尔士柯基犬一样——其中一个的尾巴稍长。人可以研究很多小狗的特征然后学会了解之前并不知道的一些不同之处。如果是你非常熟悉的物体，识别它们会很简单，但当2200个陌生物体放在你面前时，你可能会完全混淆。”人在ImageNet测试中会有5%的错误率，而机器学习系统则会降至6%。

这意味机器学习系统在识别事物如狗的种类或是有毒植物方面可能比普通人的能力更好。另外一个叫作Project Adam的识别系统也正尝试在手机端做到这些，就是MSR的负责人Peter Lee今年早些时候炫耀的那个。

Adam项目

Project Adam专注于研究是否能够使用分布式系统而不是配置较高的单机来提高图片识别的速度（所以它就可以运行在云端然后在你的手机端工作）。然而，它的训练集合中只有仅包含一种物品的图片。

“他们会问‘图片里的是什么东西？’”普莱特解释道，“我们将图片分解为小方格然后去估测这个图片的碎片，检测其共同内容。图片中物体是什么？这些都是名词。他们在干什么？这些都是如飞行和看之类的动词。”

“然后还有一些邻接和上下关系，以及物品的属性，一些形容词如红的，紫的，漂亮的。识别完整张图片后自然就是将一张图片中的多个物品放在一起然后提出一个具体的描述。你可以看着图片能检测出一些动词和形容词，这是非常有趣的一件事。”

强大的搜索

让图片更加有用

很多自动给图片写标题做标记的方法将会派上用场，特别在当你是一个主动去图片库或新闻网站寻找正确图片的敏锐摄影师的时候。

“想到整理图片很自然就想到了用图片中的人物索引该图片，”普莱特指出。有了更强大的标签技术，就能够搜索图片中的对象（比如猫的图片）或是动作（猫在喝水的图片）又或是图片中不同对象之间的关系。“如果我只记得我有一张图片，其中有一个男孩和一匹马，我希望能为它建立索引——既有男孩和马，又要有他们的关系——然后将他们放到一个索引中以便我以后能搜索到他们。”

如果你正在汇总一个产品目录，有一个能自动产生的标题将是非常有用的，但普莱特没有发现太多这种特定需求。在微软，不同的产品团队对此都很有兴趣，他说，但不是创建标题，他希望的是“这些板块能被不同产品复用；在不同的场景下，这些代码都能运行。”

检索相关

处理视频意味着需要加速识别过程，并研究出如何发现感兴趣的地方（因为并不是每一帧都有用）。但这里重要的不仅仅是速度，还有那些潜存于复杂图片自动标题技术之下的理解方式，它将改变搜索。

这里图片识别使用的深度学习神经网络和机器学习系统是相同的技术，都彻底变革了近几年的语音识别和翻译技术（促使微软推出Skype翻译）。“每次你对着手机上的必应搜索引擎说话就是在和一个深度网络说话，”普莱特表示。微软的视频搜索系统，MAVIS，使用的就是深度网络。

下一步就是要做到不只能识别，还能理解事物实际代表的意义。

他还表示，他们的目标是“真正理解对象的语义，这里的对象包括视频、语音、图片、文本。而不是停留在语言或颜色的表面形式上。”