机器学习和图像识别是怎样彻底改变搜索的?

简介

文本内容一般很好搜索,但有很多信息是以其他形式存在的。语音识别将音频-以及视频配乐-转换成可以索引和搜索的文本。但如果是视频本身,或其它的图片内容呢?

如果不仅仅是在页面上寻找指出图片相关性的文字或是说明,那么在网络上搜索图片将准确很多。幸好有使用神经网络和深度学习的机器学习技术,使得这个设想成为可能。

标题之争

微软和Facebook的研究人员创建了一个含有人工标记250万个物品、超过300,000张图片的大规模数据库(被称为Common Objects in Context),他们声称四岁孩子都可以识别出这些对象。所以微软的一批机器学习方面的研究人员决心看看他们的系统对同样的图片能处理到何种程度——不仅仅是识别它们,还要把它们分离为不同的对象,为每个对象命名并写下能描述整张图片的标题。

为了评测结果,他们请一部分人写下个人认为的图片标题,再请另外一部分人比较图片的两个标题并选出他们认为比较适合的标题。

“这是真正能检测质量的办法,”微软研究院的著名科学家约翰·普莱特(John Platt)说道,“到底人们对这些标题是什么看法呢?23%的标题被认为和人总结写下的标题水平相当。也就是说大概有四分之一的时候这台机器能够达到人的水平。”

部分问题是视觉识别器。有时它可能会把猫识别成狗,或是认为长毛的都是猫,又或是把人指着雕塑的图片识别为包含足球。这是一个小团队历经夏天的四个月就能达到的水平,而且这是他们第一次标记这么大规模的数据集来训练和测试。

“我们可以做得更好,”普莱特自信地说道。

机器优势

机器学习在辨别只包含一种事物的简单图片上已经做的相当不错了。“这个系统已经被赋予一个未经训练的人的水平了,”普莱特解释道。这是针对一个称作ImageNet的图片集的测试,图片集中的图片被标记为2200个不同分类。

“那包含了一些未经训练的人不知道的细微区别,”他宣称。“像彭布鲁克威尔士柯基犬和卡迪根威尔士柯基犬一样——其中一个的尾巴稍长。人可以研究很多小狗的特征然后学会了解之前并不知道的一些不同之处。如果是你非常熟悉的物体,识别它们会很简单,但当2200个陌生物体放在你面前时,你可能会完全混淆。”人在ImageNet测试中会有5%的错误率,而机器学习系统则会降至6%。

这意味机器学习系统在识别事物如狗的种类或是有毒植物方面可能比普通人的能力更好。另外一个叫作Project Adam的识别系统也正尝试在手机端做到这些,就是MSR的负责人Peter Lee今年早些时候炫耀的那个。

Adam项目

Project Adam专注于研究是否能够使用分布式系统而不是配置较高的单机来提高图片识别的速度(所以它就可以运行在云端然后在你的手机端工作)。然而,它的训练集合中只有仅包含一种物品的图片。

“他们会问‘图片里的是什么东西?’”普莱特解释道,“我们将图片分解为小方格然后去估测这个图片的碎片,检测其共同内容。图片中物体是什么?这些都是名词。他们在干什么?这些都是如飞行和看之类的动词。”

“然后还有一些邻接和上下关系,以及物品的属性,一些形容词如红的,紫的,漂亮的。识别完整张图片后自然就是将一张图片中的多个物品放在一起然后提出一个具体的描述。你可以看着图片能检测出一些动词和形容词,这是非常有趣的一件事。”

强大的搜索

让图片更加有用

很多自动给图片写标题做标记的方法将会派上用场,特别在当你是一个主动去图片库或新闻网站寻找正确图片的敏锐摄影师的时候。

“想到整理图片很自然就想到了用图片中的人物索引该图片,”普莱特指出。有了更强大的标签技术,就能够搜索图片中的对象(比如猫的图片)或是动作(猫在喝水的图片)又或是图片中不同对象之间的关系。“如果我只记得我有一张图片,其中有一个男孩和一匹马,我希望能为它建立索引——既有男孩和马,又要有他们的关系——然后将他们放到一个索引中以便我以后能搜索到他们。”

如果你正在汇总一个产品目录,有一个能自动产生的标题将是非常有用的,但普莱特没有发现太多这种特定需求。在微软,不同的产品团队对此都很有兴趣,他说,但不是创建标题,他希望的是“这些板块能被不同产品复用;在不同的场景下,这些代码都能运行。”

检索相关

处理视频意味着需要加速识别过程,并研究出如何发现感兴趣的地方(因为并不是每一帧都有用)。但这里重要的不仅仅是速度,还有那些潜存于复杂图片自动标题技术之下的理解方式,它将改变搜索。

这里图片识别使用的深度学习神经网络和机器学习系统是相同的技术,都彻底变革了近几年的语音识别和翻译技术(促使微软推出Skype翻译)。“每次你对着手机上的必应搜索引擎说话就是在和一个深度网络说话,”普莱特表示。微软的视频搜索系统,MAVIS,使用的就是深度网络。

下一步就是要做到不只能识别,还能理解事物实际代表的意义。

他还表示,他们的目标是“真正理解对象的语义,这里的对象包括视频、语音、图片、文本。而不是停留在语言或颜色的表面形式上。”

机器学习和图像识别是怎样彻底改变搜索的?相关推荐

  1. 张长水:机器学习与图像识别

    http://www.cbdio.com/BigData/2015-12/23/content_4371155.htm 本讲座选自清华大学自动化系张长水老师于2015年11月26日在 RONG v2. ...

  2. AI公开课:19.04.03周明—MSRA副院长《NLP的进步如何改变搜索的体验》课堂笔记以及个人感悟

    AI公开课:19.04.03周明-MSRA副院长<NLP的进步如何改变搜索的体验>课堂笔记以及个人感悟 导读        周明博士,1999年加入微软研究院(MSRA).现任微软亚洲研究 ...

  3. 清华大学张长水教授:机器学习和图像识别(附视频、PPT下载)

    本篇干货整理自清华大学自动化系教授张长水于2018年4月27日在清华大学数据科学研究院第二届"大数据在清华"高峰论坛主论坛所做的题为<机器学习和图像识别>的演讲. 注: ...

  4. 北大AI公开课2019 | 微软亚洲研究院周明:NLP的进步将如何改变搜索体验?

    本文由InfoQ家整理首发,未经授权请勿转载 4月3日,北大AI公开课第七讲如期开讲,微软亚洲研究院副院长周明与大家分享了近期自然语言技术取得的进展和创新成果,并探讨了自然语言技术和搜索引擎如何进一步 ...

  5. qlabel文本改变信号_周明:NLP进步将如何改变搜索体验

    编者按:4月3日,微软亚洲研究院副院长周明受邀参加北大AI公开课,与大家分享了近期自然语言技术取得的进展和创新成果,并探讨了自然语言技术和搜索引擎如何进一步结合并创造新的可能.在课后问答环节,周明解读 ...

  6. 周明:NLP进步将如何改变搜索体验

    https://www.toutiao.com/a6682254230226469384/ 来源:AI 前线(ID:ai-front) 本文约4500字,建议阅读8分钟. 本文详细描述了周明如何在NL ...

  7. 周明:NLP进步将如何改变搜索体验(附视频)

    来源:AI 前线(ID:ai-front) 本文约4500字,建议阅读8分钟. 本文详细描述了周明如何在NLP进步中探索. 课程导师:雷鸣, 天使投资人,百度创始七剑客之一,酷我音乐创始人,北大信科人 ...

  8. 机器学习系列之交叉验证、网格搜索

    第一部分:交叉验证 机器学习建立和验证模型,常用的方法之一就是交叉验证.在机器学习过程中,往往数据集是有限的,而且可能具有一定的局限性.如何最大化的利用数据集去训练.验证.测试模型,常用的方法就是交叉 ...

  9. 五大方面:机器学习如何在不久的将来改变教育

    全文共1558字,预计学习时长5分钟 来源:Pexels 科技正在改变我们的生活.工作和娱乐方式,教育领域也不例外. 就像改变其他领域一样,机器学习也将彻底改变教育部门,这需要新一代教育工作者和学生计 ...

最新文章

  1. You Don't Know JS: Scope Closures(翻译)
  2. zepto的ajax使用,Ajax的实现及使用-zepto
  3. 第五届省赛(软件类)真题----Java大学B组答案及解析
  4. 中文字体其实也可以用在网页上的
  5. 蓝桥杯 ALGO-28 算法训练 星际交流
  6. android连接service,android连接webservice
  7. 师妹问我:如何在7分钟内彻底搞懂word2vec?
  8. iOS开发中设置UITextField的占位文字的颜色,和光标的颜色
  9. win用户计算机批量添加用户,在WIN2K3AD中用dsadd批量添加域用户
  10. 谈谈Mysql主从同步延迟分析及解决方案
  11. 网络攻防技术——SQL注入
  12. Oracle中的数据类型---NUMBER
  13. OpenGL 简化点光源与平行光的对比实验
  14. linux sdl windows.h,SDL入门教程(十):1、多语言支持,Win32下的GetText
  15. numpy 是否为零_玩数据必备 Python 库:Numpy 使用详解
  16. @mysql数据库面试手册
  17. 服务器装win10 稳定吗,其实不必太过纠结 谈谈Mac装不装Win10
  18. FFmpeg —— MP4转FLV(带关键帧)
  19. ZooKeeper的节点类型有哪些?
  20. 大坑:c++如何输入带空格的字符串?

热门文章

  1. linux/centos/集群安装ntp时间同步,自身实验成功
  2. python word2vector (三)
  3. 14. Leetcode 80. 删除有序数组中的重复项 II (数组-同向双指针-快慢指针)
  4. 重温强化学习之马尔可夫决策过程(MDPs)
  5. 深度神经网络(DNN)模型与前向传播算法
  6. Hadoop学习之Hadoop集群的定制配置(二)
  7. matlab 小波变换_matlab小波工具箱实例(二):时频分析和连续小波变换
  8. AttributeError: module ‘tensorflow‘ has no attribute ‘app‘
  9. LeetCode-动态规划-213. 打家劫舍 II
  10. numpy.empty详解