在机器学习方面始终有个基础性的误会,即更大的数据会形成更快的学习效果。殊不知,更大的数据并非意味着能发现更深刻的信息。事实上,与数据的规模相较,数据的质量、价值和多样性更最该关注,即数据的“深度”胜于“广度”。文中从三个角度思索了大数据时代的问题并提出了一些建议的做法以改进这些问题。

现今,人们看待数据理应更为深思熟虑,而不是不加刷选地搜集全部可获取的数据来实现“大数据”。我们如今需要让某些数据落实到位,并搜寻数量和质量的多样性。这一措施将产生很多长久的利益。

四种大数据神话:

任何数据都能够而且理应被捕捉和储存。

大量的数据总是有利于创建更精确的分折模型。

存储大量数据的成本基本上为零。

计算大量数据的成本基本上为零。

殊不知:

来自物联网和网络流量的数据明显超出了人们的捕捉能力。许多数据都需要在抓取时进行预处理便于存储和监管。人们需要按照其价值对数据做好归类与筛选。

重复使用一千次同样的数据开展训练并不会提升预测模型的精确性。

储存更多数据的成本不仅是亚马逊网络服务向您收取的以 TB 计费的美金。同时也包含系统在查寻和监管好几个数据源的超额复杂性,及其员工移动和运用该数据的“模拟重量”。这些成本一般高过储存和计算费用。

人工智能算法对计算资源的需求会迅速超过弹性云基础设施能够提供的算力。在沒有专业的管理模式的情形下,计算资源会呈线性增长,而计算需求则会出现超线性增长,乃至指数级增长。

假如轻信了这些神话,你所构筑的信息系统将会看上去会好似纸上谈兵,或从长久角度看上去非常好,但在即时性的架构中实现起来则是繁杂且低效的。

四种大数据问题:

重复的数据对模型无益。在为 AI 构建机器学习模型时,训练样本的多样性尤为重要。缘故是模型试图明确概念界限。比如,假如您的模型试图通过年纪和职业来界定“退休人员”的概念,那么像“32 岁的注册会计师”这样的重复样本对该模型并没什么价值,因为这些人大也没有退休。在 65 岁的概念边界中获得样本并掌握退休怎样随职业而转变则更具备价值。

低质量数据会对模型有害。在 AI 试图学习两个概念之间边界的过程中,如果新数据是不精确的,或存在错误,那么它会混淆这个边界。在这种情况下,更多数据无济于事,并且还有可能会降低现有模型的准确性。

大数据增加了时间成本。针对不一样学习算法,在 TB 级的数据上构建模型将会会比在数 GB 的数据上构建模型多花费约千倍、乃至万倍的时间。数据科学本就是迅速实验,虽不完美却轻量的模型更具备未来趋势。数据科学一旦失去了速度,则失去了未来。

大数据环境下便于实现的模型。任何预测模型的最后目的都是构建一个可用于商业部署的高度精确的模型。有时使用来自数据库深处阴暗面的模糊数据将会会产生更高的精确性,但所使用的数据针对实际部署可能是有风险的。应用一个不太准确却能够快速部署和运行的模型往往更好。

四种更好的措施

学会在准确性和执行性之前权衡。数据科学家大都喜爱将目标定为更精确的模型。事实上,你理应依据准确性和部署速度,测算合理的 ROI 期待,随后再开始你的项目。

应用随机样本搭建每一模型。如果你已经获取了大数据,那么没理由不采用它。假如能使用好的随机抽样方法,那么你可以先使用小样本建立模型,随后在全部数据库上开展训练和调节以获取更精确的预测模型。

丢弃一些数据。倘若你对来源于物联网设施和其它来源的流数据觉得手足无措,请抛下一些数据,不必有太大的负担。如果你没法购买足够的磁盘来储存多余的数据,它会损毁你在计算机科学生产线末期的全部工作。

找寻更多数据源。人工智能近期的很多突破并非归因于更大的数据集,而是能够将机器学习算法成功的应用于这些数据,这在以前是没法实现的。比如,现今普遍存在的大中型文本,图像,视频和声频数据集在20年前并非存在。你理应持续探寻新的数据以找出更好的机会。

四说大数据时代“神话”:从大数据到深数据相关推荐

  1. 大数据时代的历史机遇——产业变革与数据科学

    <大数据时代的历史机遇--产业变革与数据科学> 基本信息 作者: 赵国栋 易欢欢 糜万军 鄂维南 出版社:清华大学出版社 ISBN:9787302325352 上架时间:2013-6-14 ...

  2. 《智能数据时代:企业大数据战略与实战》一3.5 步步为营

    本节书摘来自华章出版社<智能数据时代:企业大数据战略与实战>一书中的第3章,第3.5节,作者 TalkingData ,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  3. 大数据时代 树大数据意识

    大数据时代 树大数据意识 一,大数据及其特点 1.什么是大数据? 美国首屈一指的咨询公司麦肯锡给大数据的定义是:大小超出常规的数据库工具获取.存储.管理和分析能力的数据集.全球最大的电子商务公司亚马逊 ...

  4. 《智能数据时代:企业大数据战略与实战》一2.3 自我评估、完善度、信息架构...

    本节书摘来自华章出版社<智能数据时代:企业大数据战略与实战>一书中的第2章,第2.3节,作者 TalkingData ,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  5. 大数据时代---告诉你大数据为世界带来的改变

    · 什么是大数据,相信有很多人只是听过,而并不了解大数据的真正含义. 我们正逐渐被海量的数据吞噬,现代的科技让我们的每一个举动都可以转化为数据,从这些数据中我们可以得到很多有价值的信息.全球知名咨询公 ...

  6. 数据时代的我们,应该怎么挖掘数据价值

    通过各种商业智能系统对历史数据进行系统分析,找出规律或者发现潜在问题,再结合管理者的智慧制订出策略来,这是很多企业的决策者习惯的决策流程.随着市场竞争日趋激烈,很多组织越来越依赖于商业智能系统来辅助决 ...

  7. 四说大数据时代“神话”:从大数据到深数据\n

    作为国内最大的电商平台之一,苏宁每天要处理数量巨大的数据.为了更快速高效地处理这些数据,苏宁调度平台采取了哪些措施呢? 本文是苏宁大数据离线任务开发调度平台实践系列文章之上篇,详解苏宁的任务调度模块. ...

  8. 第一章 身处数据时代,揭开大数据的面纱

    科技的迅速发展,互联网金融的兴起和繁荣,把数据推到了所有金融元素的核心位置.越来越多的企业逐渐认识到只有掌握正确的数据并看透数据背后的故事,才能够获得源源不断的财富.大数据时代伴着铿锵有力的节奏引领了 ...

  9. 在大数据时代,每家公司都要有大数据部门吗?

    如果这个问题换做是:在电气时代,每家公司都要有个发电厂吗?是不是会更好回答一些? 事实上每一种重大技术的出现,都会对产业产生大的变化.在蒸汽时代,采矿机采用蒸汽机后,会带来生产效率的极大提升,而轮船加 ...

最新文章

  1. g++报错解决:error: ‘setw’ is not a member of ‘std’
  2. 智能制造大潮下,机器视觉产业迎来春天?
  3. 实验电路的放大器伴侣:LMV358
  4. python读取xml数据并显示为表格_用Python解析XML数据,然后用SQL创建一个数据库
  5. python 正则re模块
  6. ubuntu安装vscode的两种方法
  7. 面向对象 - 继承/组合 - 总结
  8. 安卓开发toolbar设置logo_Android之ToolBar的使用
  9. ubuntu vim保存退出命令_【学员分享】程序员效率神器,最常用VIM插件安装大全...
  10. JAVA移慎_java里面给对象赋值,慎用赋值符号(=) (转)
  11. 键盘向上箭头代码中怎么表示_Altium Designer中的快捷键汇总(收藏必备)
  12. python-jenkins 操作
  13. 360浏览器:中国为什么没有自主研发的浏览器内核?
  14. 正则表达式修正符的学习
  15. Python学习-第二天-字符串和常用数据结构
  16. android 圆形自定义进度条,Android自定义漂亮的圆形进度条
  17. 如何提升原创文章排名与百度冰桶算法
  18. Linux on IBM Cloud - Port Knocking
  19. 计算机图形学的数学基础
  20. PyCharm中的iCCP: known incorrect sRGB profile报错问题

热门文章

  1. golang操作文件
  2. MySQL第3天:MySQL的架构介绍之linux版安装
  3. C语言将两个正整数连接
  4. static的三种用法,定义静态变量,静态函数,静态代码块!
  5. 数据结构:堆排序一(heap sort)
  6. LNMP添加、删除虚拟主机及伪静态使用教程
  7. Vue2.0 Transition常见用法全解惑
  8. Oracle数据库实例的创建、删除、修改
  9. 微信小程序图表插件 echarts-for-weixin
  10. kali burpsuite 安装与使用