摘要:数据和算法究竟哪个更重要并没有一个明确的界定,根据不同的情境和应用,它们发挥的作用不同。虽然实际情况确实如此,但是在数据为王的时代,算法的关心似乎已只停留在某些领域或者某些公司里面。

【编者按】随着服务器愈加的廉价,集群计算框架愈加成熟,大家似乎已经完全把眼光放到海量的数据上,算法的精心调校似乎已成为某些领域或者某些公司才去钻研的事情。那么,数据为王的时代,算法真的已无用武之地?下面我们一起看看Rio和邓毅的辨析。


免费订阅“CSDN大数据”微信公众号,实时了解最新的大数据进展!

CSDN大数据,专注大数据资讯、技术和经验的分享和讨论,提供Hadoop、Spark、Imapala、Storm、HBase、MongoDB、Solr、机器学习、智能算法等相关大数据观点,大数据技术,大数据平台,大数据实践,大数据产业资讯等服务。


以下为原文:

谷歌的强不是强在 PageRank 算法,而在于它是第一个在排名时把链接——而不只是文字和标题——考虑进去的。又以自己教的数据挖掘课为例。他让学生以 Netflix 用户对一万八千多部电影的打分为基础数据,写程序为她们推荐别的电影。其中有组学生的算法较优,另外一组学生算法一般,但使用了外部数据——IMDB 对电影类型的归类。结果第二组的结果胜过了第一组。

那么到底是数据重要还是算法重要呢?

来自Rio的观点:

————————————————————————————————————————————

虽然不能这么绝对的判断一定谁比谁重要,但在实际应用中很多时候的确是数据更加重要。有几方面的原因:

在很多问题中,算法的“好坏”在没有大量有效数据的支撑下是没有意义的。换句话说,很多算法得到的结果的质量完全取决于其和真实数据的拟合程度。如果没有足够的数据支撑、检验,设计算法几乎等于闭门造车。

很多算法会有一堆可调参数。这些参数的选择并没有什么标准可依,无非是扔给大量数据,看参数的变化会带来什么样的结果的变化。大量、有效的数据成为优化这类算法的唯一可行方法。

更极端的例子是,算法本身很简单,程序的完善全靠数据训练。比如神经网络。

对于很多成熟的算法,优化算法的增量改善通常远小于增大输入数据(这是个经济性的考虑)。

比如问题中举例的 Google。在它之前的搜索引擎已经把基于网页内容的索引算法做得很好了,要想有更大的改善需要换思路。PageRank 算法的采用大大增加了输入的数据量,而且链接数据本身对于网页排名相当关键(当然他们也做了大量算法的优化)。【插话:在这样的思想指导下,Google 想要插手社交网络或微博也不足为奇了吧?实时搜索、排名没有真人的互动怎么可能。】

Netflix 挑战赛的例子中,Netflix 本身的推荐算法也是优化到极致了。再从算法本身去找改进之处,投入产出比太低。引文中的学生仅仅是加入了 IMDB 数据库关于电影分类(从而更加明确观众的偏好)就能带来比复杂算法更加显著的改善,试想如果他们能拿到 Rotten Tomatoes 的数据会怎样?

When people are equally smart, big data wins。这个结论的悲摧之处在于,在类似行业中,今后小的创业公司想要打败巨头就不那么容易。要么要改变思路,要么要改变策略。指望靠小聪明扳倒大象会很成问题。

当然这也不是绝对的。比如典型的反例(算法比数据重要)是 Google 刚被批准收购的 ITA Software。这家牛 B 烘烘(估计是现存最大的 Lisp shop)的公司的机票搜索引擎驱动着世界各大航空公司、票务中介的后台系统。它的数据来自一个各大航空公司授权的公司,其他竞争者也可以花钱(虽然不便宜)买到同样的数据。但它的牛 B 之处在于能从同样的数据里比别人更快挖出更好的结果。

来自邓毅的观点:

———————————————————————————————————————————

程序 = 数据结构 + 算法,数据结构用来干啥的,装数据的呀。

数据能干啥?数据是信息的源泉,没有足够的数据,就没有信息,信息技术没有信息啥都没有。

算法能干啥?把数据中信息提取出来,不经过提取,数据还是数据,变不成有用的信息。

这俩不是并列的关系,而是一体的,如何能说谁重要呢?脑子重要还是心脏重要,你给我说说。

此外,数据的好坏如何衡量?不是越多越好,当然数据越多往往所蕴含的信息越大,这个容易看得出来;算法的好坏如何衡量?不是越复杂约好,能从海量的垃圾中找到有用的信息的算法就是好的算法,虽然不这么复杂,不是所有的人都能看到这点。

我最想说的是什么?如果不是事不关己的旁观者,数据往往是自己能拿到最多的数据,然后根据自己的这些数据去找最合适的算法。

原文链接: 纠结,到底是数据重要还是算法重要呢?

数据vs.算法,究竟谁更重要相关推荐

  1. 未来3大趋势:人工智能 产业互联网 大数据与算法

    https://www.toutiao.com/a6663751400771551747/ 2019-03-02 19:19:25 过去几十年是互联网飞速发展的时代,从90年代的网页互联网到新千年的P ...

  2. 数据“成精”究竟有多可怕?网络怎么知道我快秃了?

    全文共3108字,预计学习时长9分钟 图: Franki Chamaki/Unsplash 我们的数据知道一些我们不知道的事-- 今年早些时候,Facebook给我推送了一项调查:"我们需要 ...

  3. 大数据算法python_闲谈大数据和算法

    0x00 前言 本篇总结一下自己对大数据算法认知的过程.正文包含两部分:自己对算法的认知过程和对大数据算法的理解. 写这篇博客的原因有很多,总的来讲有下面几点: 自己在算法的路上一直懵懵懂懂,现在刚刚 ...

  4. 大数据常用算法及场景

    大数据常用算法及场景 大数据的挖掘是从海量.不完全的.有噪声的.模糊的.随机的大型数据库中发现隐含在其中有价值的.潜在有用的信息和知识的过程,也是一种决策支持过程.其主要基于人工智能,机器学习,模式学 ...

  5. 李彦宏说数据秒杀算法,BAT金融大数据如何运作?

    李彦宏说数据秒杀算法,BAT金融大数据如何运作? 李彦宏 大数据 算法 BAT 金融 深几度 | 2017-02-13 14:50 [数据猿导读] 新年开工,李彦宏的内部信就在朋友圈中引发了一波刷屏. ...

  6. 数据科学家,究竟能挣多少钱?

    作者 | 熊猫教授    编辑  | Emma 来源 | 熊猫教授(ID:IT_ProfPanda) 我博士毕业后,先后在微软亚洲研究院.eBay中国.IBM工作过,最近几年我的Title是数据科学家 ...

  7. 数据 + 进化算法 = 数据驱动的进化优化?进化算法 PK 数学优化

    数据 + 进化算法 = 数据驱动的进化优化?进化算法 PK 数学优化 https://baijiahao.baidu.com/s?id=1600164518587031730&wfr=spid ...

  8. 周志华:“数据、算法、算力”,人工智能三要素在未来还要加上“知识”

    点击蓝字  关注我们 作者丨李雨晨 来源丨AI科评论 2020 年 8 月 7 日,全球人工智能和机器人峰会(CCF-GAIR 2020)正式开幕.CCF-GAIR 2020 峰会由中国计算机学会(C ...

  9. 自动驾驶 | MINet:嵌入式平台上的实时Lidar点云数据分割算法,速度可达 20-80 FPS!...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 这篇文章是激光雷达点云数据分割算法的嵌入式平台上的部署实现.主要的创新点有两点:一是利用多路分支采用不 ...

最新文章

  1. linux 每日学一点《Linux架设代理服务器(2)》
  2. 乔治华盛顿大学计算机科学专业,乔治华盛顿大学计算机专业排名如何
  3. java tempfile read_Java 文件操作
  4. 2017已过半,这半年,你累吗?
  5. nssl1351-矩形反色【离散,差分】
  6. PHP即将退出,PHP4即将退出历史舞台
  7. 大话项目管理工具之Confluence篇
  8. Qt 线程基础(QThread、QtConcurrent等)
  9. php xml namespaces,PHP getDocNamespaces()函数讲解
  10. Vquery PHP 简单爬虫类
  11. wpf 深度复制控件,打印控件
  12. 免费网站地图制作工具 —— Sitemap X
  13. Qt编写安防视频监控系统65-子模块9数据调试
  14. 他把菜品变成远销省外的零食,经过口口相传,月卖70万
  15. iPhoneXR为最畅销iPhone难解外界对苹果的担忧
  16. 单片机AD转换程序 TLC2543
  17. 解决移动硬盘符丢失不显示的问题
  18. MIPS指令集:运算指令、访存指令、分支和跳转、协处理器0指令
  19. 移动端软件测试面试题及答案-2021年最新版
  20. 计算机网络上要用复数吗,深度学习应该使用复数吗?

热门文章

  1. arcgis中的python字符串比较
  2. 【转】最为详尽的WPF类继承关系*!
  3. 【转】DICOM的常用Tag分类和说明!!!!
  4. MockPlus原型设计介绍
  5. 第十九节: 结合【表达式目录树】来封装EF的BaseDal层的方法
  6. 35解释器模式(Interpreter Pattern)
  7. android webview url scheme,Android Webview ERR_UNKNOWN_URL_SCHEME错误
  8. PWN-PRACTICE-BUUCTF-26
  9. 增效工具_【危中寻机】降本增效生存之道 运用IE基础工具提升制造效率
  10. 【CodeForces - 208C 】Police Station(单源最短路条数,起点终点建图,枚举顶点)