从Clarifai的估值聊聊深度学习

[转载请注明出处]

前几天和 Ayden @叶瀚中 聊天时,提到了 www.clarifai.com 这家公司。

此前,我已经从各方消息中听说过创始人Matt Zeiler最近打算卖公司。甚至还和朋友打赌说这个公司能不能以$5M出手。

先说结论:

这个公司的水准在13年称得上世界第一 。但是这并不能给该公司以世界级的价值。

Clarifai创始人Matt Zeiler 是 New York University (NYU) Rob Fergus教授门下的学生。要知道,从上个世纪开始,NYU就一直是neural computation的重镇。现在Deep net的前身ConvNet,就是出自 NYU 的 Yann LeCun教授组。
Matt在PhD期间,还曾经在Google跟Jeff Dean实习过。不知道有没有学到什么独门绝技。总之,2013年Image Net Challenge以来,他在Computer vision圈子就非常出名了。

讲到这里就不得不提Image Net Challenge。以前的Computer vision的数据集都非常小,最多不过几百类,几万张图,这带来一个问题——我们无法设计特别复杂的计算视觉模型。否则模型的复杂度太高,数据量太少,就会有 Overfitting 的问题。

2012年,华人教授李菲菲牵头搞了一个巨大的数据库 ImageNet。到今天为止,Image Net上已经有了14,197,122张图片了。对每张图片,由人来手工记录图片中物体的名字,并向业界宣布,同学们,如果你们谁开发出来了新的物体识别算法,就在我家的数据库上试试吧。

于是2012年,就有了这个LSVRC - Large Scale Visual Recognition Challenge. 最终比赛结果在2012年底的NIPS会议上公布。

当时,大多数的研究小组还都在用传统computer vision算法的时候,多伦多大学的Hinton祭出deep net这样一个大杀器。差距是这样的:
第一名Deepnet的错误率是0.16422
第二名日本东京大学的错误率是0.2617
第三名牛津大学的错误率是0.2679

如果我们仔细看看第二名和第三名的实现,会发现大家使用的技术框架非常接近,都是local descriptor + feature compression这套。而在这套实现上,二者的差距几乎是可以忽略的——都完全不是deep net的对手。
具体结果参见:ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012)

说来也巧,我恰好也参加了NIPS 12,亲身感受了这在后来看来的历史时刻。Hinton当时放话说:“如果你没有参加前面十几年的NIPS,没关系,因为直到今年,Deep net才真正work了”。虽然deepnet取得了如此瞩目的成绩,但是就在当时,还是有大量与会教授表示不愿意接受deepnet。这里面指的“不愿意”分几个层次
1. Deepnet很可能是某种形式的overfitting,因为它里面有6000万个参数。
2. Deepnet作为一个黑盒子,不可解释。所以对cv的贡献非常有限
3. Deepnet只能解决物体识别这一个问题,而物体检测、分割等经典问题还需要其他人的努力。

在1%的性能提升都可以称之为“major contribution”的时代,被一个和最近10年computer vision,尤其是object recognition领域的进展几乎没有交集的方法,超过了10个百分点,这也难怪大家纷纷表示不承认也不接受deepnet的革命。但是,洪水的闸门已经打开。。。

一年后,新一轮的Large Scale Visual Recognition Challenge又开始了,这时候我们不难发现,Deep net的计算框架已经一统江湖了:
ImageNet Large Scale Visual Recognition Competition 2013 (ILSVRC2013)

其中Matt Zeiler (Clarifai.com) 的算法排名第一,在不用额外训练数据的情况下,跑到了error rate 0.1174这样的成绩。
这个成绩是这样解读的:
任选一张图片,扔给算法,算法返回5个结果。如果5个结果中,有一个猜对了物体类别,就算正确。换言之,如果允许猜5次,Clarifai已经有接近90%的准确率了。这里的物体类别包括了英语中两万多个名词,几乎涵盖了各大类别。

但是,2013年和2012年的情况又有很大不同。

排名第二的新加坡国立大学的误差,是0.129,第三名ZF的误差是0.133,这都与Clarifai非常接近。再也无法出现Hinton组独步江湖的场面了。

今年的结果还没出来,要等到12月份的NIPS 2014啦。我听到过一些小道消息,在LSVRC 12的训练集(因为测试集保密,所以线下研究的时候,大家都会辟出一部分训练集做测试),某公司已经能跑到10%以内的误差了。当然Clarifai也没闲着,在他主页上已经更新了准确率到10.7%了。

那么Deepnet的难点在什么地方呢?从最近CVPR 14的情况来看,圈子在这个方面作出的改进,几乎见不到什么质的飞跃。调整deepnet在大多数时候变成了一门实验科学:一方面,对2012年原作的修改太大,会导致识别率惨不忍睹,另一方面,很少有人能有Stefan Mallat那样的数学功底能从理论层面分析deep learning到底在干什么。但是,由于图片的数据量实在太大,站在工程角度上,如何能够在几周甚至几天内完成几百万甚至上千万图片的训练,就是一个非常非常技术的活儿了。

在工程实现方面,deepnet开山paper的一作Alex Krizhevsky已经开源了他的代码https://code.google.com/p/cuda-convnet/ ,并且又另起了一个convnet2的项目https://code.google.com/p/cuda-convnet2/。

必须提到的,是UC-Berkeley Trevor Darrel的贾扬清,把他写的deepnet开源了。https://github.com/BVLC/caffe 这个功能很全面,性能很高的deep net,不断被大量的开发者完善。目前来看,它是最有希望成为deep net通用架构的一个基础框架。目前,基于Caffe的识别误差,已经降到0.131了——非常接近Matt Zeiler的结果。但是要注意,这些结果几乎都是开源的。

换言之,一群有过几年cv经验的初创小团队,基本都可以超过Hinton 2012年的世界纪录,与2013年Matt Zeiler的纪录非常接近。这简直让我想起战争之王检阅娃娃兵的片段:一个本科生训练出来的deepnet,和一个有30年经验的大学教授训练出来的deepnet,其实并没有区别。

有这么个传说,真假待考,权当八卦说说吧。当年Hinton组在NIPS 12会场上,就被各家公司争相竞购。Hinton带着Google/MS/Baidu等公司的负责人,找了间屋子说我们团队竞拍,每次加价一百万。后来嫌一百万太慢,改加价两百万。再后来的故事,大家就都知道了。。。

但是Clarifai.com的估价和Hinton组被收购的故事又有所不同。一方面,Hinton本人是当今世界上最杰出(哪怕是2012年deepnet火爆之前)的machine learning研究者,20多年前back propagation也是他的杰作,而且deepnet的正宗首创效应也不可忽视。另一方面,deepnet席卷整个cv圈子带来的各种效应(比如开源),可能也是大家所始料不及的。

最后,一方面,我希望Clarifai.com能被收购,引起更多对cv的关注。另一方面也希望学术圈能尽快找准方向,尽早结束实验报告为主的探索期,能够真正从本质上解释这个伟大的理论究竟为什么work。

从Clarifai的估值聊聊深度学习相关推荐

  1. 当AlphaGo战胜李世石以后,我们来聊聊深度学习

    当AlphaGo战胜李世石以后,我们来聊聊深度学习 作者 黄文坚 发布于 2016年5月26日 | 大家好,我是黄文坚,今天给大家讲讲深度学习.我不讲技术原理,讲讲技术应用. 深度学习是我们明略重要的 ...

  2. 聊聊深度学习这档子事(1):待定系数法

    聊聊深度学习这档子事(1):待定系数法 作者: 许野平 2016-06-16 于济南 序 深度学习这几年很火,写算法不和深度学习沾点边都不好意思和人家打招呼.面对新生事物,老朽我总觉得好奇,就想看看深 ...

  3. 深度学习三巨头共同发文,聊聊深度学习的过去、现在与未来

    作者|Yoshua Bengio,Yann LeCun,Geoffrey Hinton 译者|香槟超新星 出品|AI科技大本营(ID:rgznai100) 人工神经网络领域的研究是基于对人类智能的观察 ...

  4. 大白话聊聊“深度学习”和“大模型”

    1950年图灵发表论文<计算机器与智能>( Computing Machinery and Intelligence),提出了"机器智能"(Machine Intell ...

  5. 互联网世界的“人工智能”——探秘“深度学习”的前世今生

    转载自:http://blog.sina.com.cn/s/blog_990865340101gl2g.html 编者按:本文来自"流浪汉"投稿(@ZhangLumin),一个在硅 ...

  6. 障碍期权定价 python_Python王牌加速库2:深度学习下的障碍期权定价

    作者:Yi Dong 编译:1+1=6 1.前言 上一期推文中,我们使用了Numba和CuPy来运行蒙特卡罗模拟来确定亚式障碍期权的价格.Python王牌加速库:奇异期权定价的利器​mp.weixin ...

  7. 从1到无穷大--深度学习篇

    0x01 在上一篇的最后提及了深度学习与机器学习的渊源,这次我们就来聊聊深度学习在网络安全中应用. 首先需要强调一点,目前深度学习的定义并不一致,有的定义强调自动发现特征.有的强调复杂的非线性模型构造 ...

  8. 【AI创新者】TensorFlow 贡献者唐源:掌握 Google 深度学习框架的正确姿势

    自 2015 年底开源到如今更快.更灵活.更方便的 1.0 版本正式发布,由 Google 推出的第二代分布式机器学习系统 TensorFlow 一直在为我们带来惊喜,一方面是技术层面持续的迭代演进, ...

  9. 【第20期】实践深度学习?先接住这三板斧再说

    作者:木羊同学 来源:华章计算机(hzbook_jsj) 深度学习发展到现在,已经不是红不红的问题,真的是那种谈项目做课题不扯两句深度学习,别人就要来怀疑你用的技术是不是落后于时代.可是,深度学习的书 ...

最新文章

  1. java ajax datatype_理解jquery ajax中的datatype属性选项值
  2. c# Process类使用小例
  3. php程序监听node.js程序和go程序
  4. 求用1,2,5这三个数不同个数组合的和为100的组合个数
  5. 【HTML5】 web上的音频
  6. boost::neighbor_bfs_visitor用法的测试程序
  7. (转)MyBatis框架的学习(七)——MyBatis逆向工程自动生成代码
  8. sql server 监视_如何在SQL Server中监视对象空间增长
  9. “不做信奥比赛,不做等级考试”的童心制物,是如何在 STEAM 教育突出重围?
  10. 电脑耗电知多少及如何节能
  11. 拔染印花的主要特点和工艺技术
  12. android 编译系统make文件
  13. Android开机程序(自定义哦!)
  14. leetcode最小面积_LeetCode 题解 |力扣杯 LCP 13.寻宝
  15. 138.复制带随机指针的链表
  16. Ubuntu18.04下编译tslib触摸屏驱动
  17. Proe/Creo元件替换的方法
  18. VBA增加sheet,重名时自动命名
  19. C# 获取适配器网络连接IP地址,子网掩码,DNS,数据包等信息
  20. VMXNET3 vs E1000E and E1000

热门文章

  1. 哐!英特尔的无人机砸中你头顶
  2. 201771010101 白玛次仁《面向对象程序设计(Java)》第十一周学习总结
  3. [20180503]珅与分隔符.txt
  4. thinkphp实现动态下拉菜单(补充 设置默认值)
  5. (转)python的range()函数用法
  6. Ubuntu 12.04.1 mysql从5.5升级到5.6
  7. 神秘的40毫秒延迟与 TCP_NODELAY
  8. ajaxpro.2.dll使用【转帖】
  9. jquery 2.0.3代码结构
  10. TurboMail成功建设某省建工集团邮件系统