这两天生病了,于是停下了手中的工作和申请的事情。闲下来时候重新看了看百度十年来相关的资料。这些阅读加深我的一个观念:成功人士都是“偏执”狂。这种“偏执”其实就是对于信念的坚定。李彦宏从上大学开始就没有离开过搜索。在大学里面他就认识到了“人人都需要信息,人人都需要搜索”,这种预见能力是令人叹服的。

但更令我佩服的是他的“偏执”:在他毕业申请出国的时候应该知道转专业一定会影响到了他的申请,但他毅然从图书馆管理专业 转到计算机专业;在他布法罗念书的时候一定渴望顺利完成博士学位,成为一个令人尊敬的研究人员,至今他提到自己学位只是硕士时仍略带遗憾, 但他毅然转硕进入工业界;在他成为搜信的高级工程师的时候应该知道创业成功的人只是百万分之一,回国就可能一无所有,但他毅然放弃了国外的车子、房子、老婆独自回国。

如果他今天没有成功,他一定会被人嘲笑为“傻人”。李现在的名气大多因为他的样貌,财富和地位,这也是许多人所歆羡的。但当初做他做这些选择的不易估计也是常人难以体会和忍受的。

以前我认为,一个人的力量决定于他知识的多少,现在我更加倾向于,一个人的力量决定于他内心是否强大。这个世界上聪明的人很多,但是真正内心强大的人却不多。李彦宏就是这样一个人。他肯定算不上是最优秀的,他读书的时候一直都很少拿第一名。但是昔日的那些比他聪明的学生早已消失在茫茫人海之中,籍籍无名,而李彦宏却凭着自己内心对于搜索的坚定实现了他的人生信念:“让每个中国人都能够更加方便的获取信息”。

*************

闲话扯完,进入正题。百度去年提出了框计算,相较于谷歌的云计算,框计算更加贴近于市场,贴近于用户。如果说过去十年里,百度成功的实现了让人们能够更加“方便”的获取信息。未来李彦宏希望能让人们更加“舒服”的获取信息。框计算就是这个指导思想下的产物。

在我的理解里,框计算有前台和后台之分。前台分析用户需求,后台匹配海量数据。这些技术都不新鲜,每年各大实验室也有N多相关论文问世。所以李彦宏认为基于这样的思路的下一代搜索引擎将成为主流也是在情理之中的。

我同意在未来搜索引擎需要让人们更加舒服的获取信息。但是框计算或许难于成为下一代搜索引擎的主流。原因主要在于框计算的前台和后台的各项技术都是由机器还完成的,缺乏人的参与。

在人工智能完善之前,机器计算出来的结果是人感到完全满意是几乎不可能的事情。做过模糊聚类和评价的人都知道。在现今的理论框架下,几乎不存在一种模型在什么情况下都能够达到100%的分类准确率,不可能存在一种评价体系式式每个评价都合情合理。人心太复杂,现在对人的任何建模都不过式一种简单的抽象,是难于用于实际了。这种情况在最近的将来不会得到明显的改善。这些技术依赖于人工智能的发展,而人工智能的发展又依赖于生物学的发展。

我一直找不到一个合适的词汇来描述我对未来技术的预见。后来看到CMU提出的人计算(human computing),我觉得还是比较符合我的构想的。我相信,在不远的将来,人计算或者具有与之类似原理的计算将会广泛应用到各大搜索引擎的后台,慢慢积累而形成质变。当然,也有可能异军突起一个基于此的IT领袖,像当年的微软、雅虎和谷歌一样。结果如何,大家拭目以待吧。

转一篇关于人计算的小文:

------------------------------------------------------------------------------

转载自(http://blog.sina.com.cn/s/blog_5e718bc90100g6ei.html)

人计算-Human Computing

最近一直在思考关于social computing 的方面问题,并想把它作为10年后的研究方向和重点,恰巧老板发来一片science上的文章《reCAPTCHA: Human-Based Character Recognition via Web Security Measures》,深感云计算太远,人计算开来更实际。简单介绍一下。

路易斯.凡.安(Luis Von Ahn),卡耐基梅隆(CMU)的研究者,28岁那年,获得麦克阿瑟(MacArthur)天才奖金,或许大家并不熟悉,但他的发明机会所有的网站所有的网民都要引用得到。2000年还是学生的他在导师的指导下,发明了验证码(CAPTCHA)使用机制,就是我们在网站登录时,需要添加的校验码。当初的发明初衷,是防止密码被盗用或者反垃圾邮件(anti-spamming),这项技术发明后短短五年内,每天就有2亿个检验码在被使用,十年之后的今天,几乎所有的网站都采用这个技术来校验用户身份,保证信息安全。

然而Luis Von Ahn并没有在安全认证领域止步,一方面将校验码的模式与程序公布在自己的网站上,供更多的网站使用,另外,Luis进一步拓展这个发明背后的实际上是一门新的学科,叫做“Human Computation”或者“Human-based Computation”。有人称之为“人本计算”或者“人计算”。即利用网络的分众性和协同性,可以轻易完成很多计算机不可能完成的事情。这门学科正是研究如何把人的这个优势发挥出来,与计算机互动,达到一个最佳结果。当所有的人都在思考如果是计算机替代人的时候,Luis Von Ahn却在想利用互联网,利用社会化的协同工作模式,实现计算机根本不可能完成的事情,以达成群体智能的效果。这就是《科学》上的另一个伟大实现,reCaptchas,与检验码身份验证如出一辙,却是另外一番天地的创造性应用。

《纽约时报》创刊与1851年,158年的历史,作为传统传媒业的需求是简单的,就是想把所有的报纸电子化,对于电子化出版之后的工作相对简单,但过往故纸堆上的文字就显得十分困难,传统OCR的技术不能实现百分之百的准确,如果如果人工录入的方式,整个工作耗时耗力不说,一个字一个字的打印录入,校对,短期内基本上是不可完成的任务。Luis Von Ahn的校验码2005年已经得到了广泛的使用,两者之间有什么联系吗?Luis给出的解决方案,当时互联网上每天有2亿个校验码被使用,虽然每个用户在录入校验码的时候只需要10秒钟,但如果把这些时间全部利用起来,就是20亿秒,相当于50多万个小时。Luis Von Ahn把这些事件利用起来,实现不可想象的伟大实践。现在看来,方法很简单,把扫描的《纽约时报》通过简单的分词形成,然后入库编码,作为校验码的素材提供给用户,用户每一次填注校验码的过程就是对文字的一次录入,通过众多用户的协同,当所有的人都对一个图片给出相同的单词结果时,这个结果就是正确的。无数的用户输入的内容整合链接起来,就是一个完整的数字化的《纽约时报》。

Luis Von Ahn的脚步依然没有停止,通过reCaptchas,他利用人的群体智慧和集体计算的模式,做了很多开创性的事情。他最常用的实现模式就是利用SNS的互动游戏的模式,来实现传统模式识别与计算科学中。他的主要应用成果在www.gwap.com上可以体验获得(Game With A Purpose)。

基于内容的图像识别与搜索中,样本的标注是一个很繁琐的问题,为了让计算机内识别图片里的内容,必须要用到许多标注好的图像样本来训练识别核,传统的方式只能通过人工进行大量的手工标准。2006年,Luis推出了一个著名的游戏,叫ESP Game。这一游戏的玩法其实很简单:进入游戏,网站会给你随机配一个伙伴,两人同时看一张图,让你在两分钟内给图片写出关键词,如天空、鸟、足球、奔跑等等。如果你们两人写的关键词一样,就可以得分。通过积分的方式激发用户参与的积极性,网站每天公布得分最高的游戏者,Luis通知这种方式收集的关键字超过了5000万。这个发明已经被谷歌所采用,在谷歌推出的产品Google Image Labeler中,使用的方式就是通过游戏互动的方式来实现图像标注,之后用户谷歌的图片检索引擎。人们在游戏中,已经为科学与商业过程做出来贡献。

Luis一招鲜,吃遍天,他又将这种思想用到了歌曲识别的样本标注上。一首歌曲,听到的人可以在上面进行标注,如“摇滚”“迈克尔杰克逊”“颤栗”……这样进行音乐搜索的时候,标注的人越多,搜索识别结果越精确。之后的游戏还有用于计算机视觉的Squigl(涂鸦)的游戏,还有用于收集语言网语料的Verbosity(唠叨)的游戏。Luis在他的研究中总结了三种常见的GWAP方式:

Output-agreement games.
Inversion-problem games.
Input-agreement games.

这三种方式,都是通过互动游戏的方式,利用协同计算或者人本计算的模式,解决了计算机不可能准确实现的问题。Luis Von Ahn利用人擅长做而计算机不擅长的能力,并通过游戏把这方面的资源尽可能开发收集起来,服务与科学过程。

当我们都在考虑云计算的时候,基于人的互动协同计算其实离我们很近,每天的校验码的登录填注,百度知道与维基网的点击阅读……我们可能都在不知不觉中,贡献了自己的力量。

附:

对我们的启示:

1、              自由的、不受束缚的思想更容易产生创新的智慧。看似废话,如果Luis Von Ahn接受了老师的安排,只停留在校验码的安全机制研究上,就不可能产生今天的人本计算(Human Computation)。如果瓦茨(小世界理论的发现者)只是授意与导师,研究昆虫共鸣的理论,没有与人类社会对应,就不会有今天的小世界模型。

2、              科学需要开放的胸怀,互联网的本质就是回归人原始本性的共享与开放。Luis Von Ahn将校验码的研究成果与源码在自己的网站上与人共享,也是今天所有的网站都在使用校验码模式的原因。倘若当初,Luis Von Ahn通过专利控制这项技术的扩散与使用,估计今天他也就是一篇学术论文而已。

3、              科研与实践需要持续积累。Luis Von Ahn在2000年开始做检验码方面的研究与实践,并在之后提出Human Computation的概念。之后的9年里,他将这种思想与理论应用到了极致,从文本识别,图像内容识别,语音识别,语义网等传统模式识别与机器学习领域,都有他的尝试。实践积累非一日之功,虽然没有复杂的公式推导与理论,但利用互联网的大量实践工作也同样证明了协同计算与演进式学习的有效性。

4、              结合中国的实践还有哪些应用。中国是人口大国,拥有最多的互联网用户与手机上网用户,这些人口资源与上网资源如何有效的利用与收集起来,服务科学上的突破,将会是中国学者需要深入思考和探讨的。比如淘宝网上将会有世界上最大的商品图片库与用户商品标注信息,这些信息将用于商品搜索;维基网与百度知道上有最全面的常识与词语解释,这个将成为语义网学习的语料,而这个语料是通过协同工作的方式,保证了语料的准确性和有效性。抛砖引玉,从事机器学习、模式识别、数据挖掘、web搜索的学者可以沿着这条思路,看看还有哪些需要人与机器互动来实现的过程。

百度十周年感想 和 人计算相关推荐

  1. ChinaSys十周年感想

    ChinaSys是由国内一批计算机系统方向的学者于2011年创办,今年已经十周年了.5月22-23日,第20届ChinaSys在杭州举办.满满的两天日程,我认真地听完了80%的报告,说说自己的体会和感 ...

  2. 李彦宏百度联盟十周年演讲实录

    百度CEO李彦宏百度联盟十周年演讲实录:移动互联网要尽早考虑商业模式     2012年,6月1日,百度联盟峰会在张家界盛大揭幕.此次峰会主题为"千峰竞秀,盟聚十年".百度创始人兼 ...

  3. 涿州凯诺计算机学校实训基地,【涿州职教中心·芳华·记忆】06计算机(九)班毕业十周年聚会感想 ——班主任写给学生的心里话...

    原标题:[涿州职教中心·芳华·记忆]06计算机(九)班毕业十周年聚会感想 --班主任写给学生的心里话 06计算机(九)班毕业十周年聚会感想 --班主任写给学生的心里话 亲爱的同学们: 大家好!首先,我 ...

  4. 人月神话 四十周年_14个神话般的节日礼物

    人月神话 四十周年 Opensource.com 2014节日礼物指南 年度Opensource.com礼物指南提供了开放源代码的小工具和礼物,儿童,成人,爱好和初学者一定会喜欢和欣赏. 让某人开始使 ...

  5. 互联网日报 | 1月15日 星期五 | 百度App上线出行政策查询功能;铁路部门调整车票预售期为15天;知乎十周年宣布品牌升级...

    今日看点 ✦ 铁路部门调整车票预售期为15天,开车前8天及以上退票免费 ✦ 百度App上线出行政策查询功能,全国各地隔离政策快速了解 ✦ 联想集团计划科创板上市融资100亿,选择中金作为保荐人 ✦ 知 ...

  6. 作为一名职场新人,入职四博公司十周年的感想

    作为一名刚毕业不到一年的学生,我有幸成为陕西四博互联通信有限公司的一名员工.更让我感到荣幸的是在四博工作的第一年也是陕西四博互联通信有限公司(以下简称四博公司)成立的十周年.机缘巧合,全都是缘分. 我 ...

  7. 活动预告丨SMP十周年系列论坛第一期:社交机器人论坛开幕

    「全国社会媒体处理大会十周年系列论坛」第一期:<SMP2021社交机器人论坛>将于2021年11月13日(周六)上午线上举办,旨在探讨社交机器人领域的热点和前沿,探索构建更智能的社交机器人 ...

  8. 拼多多在海外暂时不会上线砍一刀功能;微软落户中国三十周年;JDK 19 GA发布|极客头条

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  9. SAP HANA:持续创新十周年

    SAP HANA:持续创新十周年 今年是 SAP HANA 发布十周年.随着 SAP HANA 的诞生,SAP 成为了世界领先的内存计算数据库厂商.SAP HANA 也是 SAP 历史上成长最快的产品 ...

最新文章

  1. 网站SEO优化介绍搜索引擎给网站排名的过程
  2. nginx lua示例
  3. 5、oracle下数据完整性约束
  4. tomcat9-jenkins:insufficient free space available after evicting expired cache entries-consider
  5. 怎么样使element ui 的table某列变色
  6. java加互斥锁关键字_Java中用于给对象加“互斥锁”标记的关键字是。( )
  7. [开源][J2ME]J2ME手机应用程序UI开发框架
  8. 服务器需要哪些芯片,云计算的服务器需要芯片
  9. 利用D3D抓取GPU数据
  10. 中美线径对照表_美国线规对照表
  11. Win10黑屏的时候显示时钟怎么设置
  12. python二元一次方程组用鸡兔同笼的思路来写编程_应用二元一次方程组——鸡兔同笼教学设计方案...
  13. 学习51单片机之前需要的基础学科
  14. jsp+ssm计算机毕业设计学校缴费系统【附源码】
  15. [Winows 软件推荐] 四款常用精品的软件
  16. vue运行(Emitted value instead of an instance of Error)
  17. ELK日志分析Elasticsearch模块——语法基础CRUD
  18. 基于SPSS Moderler和R语言的数据挖掘宽表处理
  19. python 高德地图交通态势爬取(存入mysql)
  20. Learning to Rank 简介

热门文章

  1. 成龙在北大的演讲:值得每一个中国人看
  2. linux中PS1变量用法
  3. arduino学习笔记五
  4. JAVA 使用if选择结构判断某一年份是否是闰年。闰年的条件:普通闰年:能被4整除但不能被100整除的年份为普通闰年。(如2004年就是闰年);世纪闰年:能被400整除的为世纪闰年。
  5. 雨林木风 Windows server 2003
  6. 海康威视摄像头 onvif 鉴权
  7. 微服务整合公众号告警系统
  8. grads 相关系数_era interim说明文件
  9. 怎样使html兼容各个浏览器,怎样使CSS兼容浏览器?
  10. 51单片机学习笔记之新建工程、点亮一盏小灯