作为国内最大的电商平台之一,苏宁每天要处理数量巨大的数据。为了更快速高效地处理这些数据,苏宁调度平台采取了哪些措施呢?

本文是苏宁大数据离线任务开发调度平台实践系列文章之上篇,详解苏宁的任务调度模块。

在机器学习领域一直有一个基础性的误解,即更大的数据会产生更好的学习效果。然而,更大的数据并不一定意味着能发现更深刻的信息。实际上,与数据的规模相比,数据的质量、价值和多样性更值得关注,即数据的“深度”重于“广度”。本文从四个角度思考了大数据时代的问题并提出了一些建议的做法以改善这些问题。

最近一段时间,对大数据的炒作正在减弱。云计算,Hadoop及其他类似的工具已经有效地解决了大数据的处理问题。但是,仍有大部分人愿意在基础设施上加大投资力度,以期望处理、保存和组织这些大型数据库。一味的地追求“大”,会在基础设施和人力资源方面产生一定程度上的不必要成本。

而现在,是时候将热点从“大数据”改为“深数据”了。如今,我们对待数据应当更加深思熟虑,而不是不加筛选地收集所有可获得的数据来实现“大数据”。我们现在需要让一些数据落实到位,并寻求数量和质量的多样性。这一举措将带来许多长期利益。

四种大数据神话

要理解从“大”到“深”的这种转变,首先让我们看一下对大数据的一些错误观念。以下是一些严重夸大的大数据神话:

  1. 所有数据都可以并且应当被捕获和存储。
  2. 更多的数据总是有助于建立更准确的预测模型。
  3. 储存更多数据的成本几乎为零。
  4. 计算更多数据的成本几乎为零。

然而:

  1. 来自物联网和网络流量的数据显然超过了我们的捕获能力。很多数据都需要在获取时进行预处理以便储存和管理。我们需要依照其价值对数据进行分类与筛选。
  2. 重复使用一千次相同的数据进行训练并不会提高预测模型的准确性。
  3. 存储更多数据的成本不仅仅是亚马逊网络服务向您收取的以TB计费的美元。同时也包括系统在查找和管理多个数据源的额外复杂性,以及员工移动和使用该数据的“虚拟重量”。这些成本通常高于存储和计算费用。
  4. 人工智能算法对计算资源的需求会快速超越弹性云基础设施所能提供的算力。在没有专业的管理策略的情况下,计算资源会呈线性增长,而计算需求则会出现超线性增长,甚至指数级增长。
    如果轻信了这些神话,你所构建的信息系统可能看起来会像是纸上谈兵,或从长期角度看起来很好,但在即时性的框架中实现起来则是复杂且低效的。

四种大数据问题

以下是在数据方面盲目相信“越多越好”会导致的四个问题:

  • 重复的数据对模型无益。在为AI构建机器学习模型时,训练样本的多样性至关重要。原因是模型试图确定概念边界。例如,如果您的模型试图通过年龄和职业来定义“退休工人”的概念,那么像“32岁的注册会计师”这样的重复样本对该模型并没有什么价值,因为这些人大都没有退休。在65岁的概念边界中获得样本并了解退休如何随职业而变化则更具有价值。
  • 低质量数据会对模型有害。在AI试图学习两个概念之间边界的过程中,如果新数据是不精确的,或存在错误,那么它会混淆这个边界。在这种情况下,更多数据无济于事,并且还有可能会降低现有模型的准确性。
  • 大数据增加了时间成本。对于不同学习算法,在TB级的数据上构建模型可能会比在数GB的数据上构建模型多花费约千倍、甚至万倍的时间。数据科学本就是快速实验,虽不完美却轻量的模型更具有前景。数据科学一旦失去了速度,则失去了未来。
  • 大数据环境下易于实现的模型。任何预测模型的最终目的都是创建一个可用于商业部署的高度准确的模型。有时使用来自数据库深处阴暗面的模糊数据可能会产生更高的准确性,但所使用的数据对于实际部署可能是有风险的。使用一个不太准确却可以快速部署和运行的模型往往更好。

四种更好的措施

您可以采取一些措施来对抗大数据的“阴暗面”并转为深度数据思维:

  • 学会在准确性和执行性之前权衡。数据科学家普遍喜欢将目标定为更准确的模型。实际上,你应当根据准确性和部署速度,计算合理的ROI期望,然后再开始你的项目。
  • 使用随机样本构建每个模型。如果你已经获得了大数据,那么没有理由不使用它。如果可以使用好的随机抽样方法,那么你可以先使用小样本建立模型,然后在整个数据库上进行训练和调试以获得更准确的预测模型。
  • 丢弃一些数据。如果您对来自物联网设备和其他来源的流数据感到不知所措,请抛弃一些数据,不要有太大的负担。如果你无法购买足够的磁盘来存储多余的数据,它会破坏你在数据科学生产线后期的所有工作。
  • 寻找更多数据源。人工智能最近的许多突破并不是因为更大的数据集,而是能够将机器学习算法成功的运用于这些数据,这在之前是无法实现的。例如,如今普遍存在的大型文本,图像,视频和音频数据集在二十年前并不存在。你应当不断寻找新的数据以找到更好的机会。

四种得到的改善

如果您专注于深度数据而不仅仅是数据的广度,您将享受到许多好处。以下是一些关键问题:

  • 一切都会更快。使用较小的数据,您的数据迁移、实验、训练和模型测试都会快得多。
  • 更少的存储和计算需求。专注于深度数据意味着您将更加智能地使用更小的磁盘以及云平台占用空间。这将为你节省一笔可观的基础设施成本,用你节省的资金聘请更多数据科学家和AI专家吧!
  • 低压的IT人员和更高幸福感的数据科学家。凭借深厚的数据文化,您的IT团队将不会愿意听从数据科学家的意见行事,或者不得不终止所有因沉浸于云资源而失控的作业。同样,当数据科学家花费更多时间构建和测试模型,而不是将这些时间消耗在迁移数据或等待长时间的训练过程时,他们会更加高兴。
  • 更难的问题可以解决。构建AI模型并不是一种神奇的体验,只能由类似巫师的研究人员执行。事实上,逻辑远比魔术更重要。这类似于一位艺术老师的故事,他告诉半个班级,他们的成绩将取决于他们制作的艺术品的数量,另一半的成绩将根据他们最好的作品的质量进行评分。很多学生都创造了大量的艺术品,并且令人震惊的是,这些艺术品的质量也都不差。数量和质量很多时候并不矛盾。这则例子是想说明:在相同资源约束下尝试的更多模型可能意味着可以获得质量更高的模型。

许多公司的决策过程都在逐渐转变为数据驱动的方式,这与大数据及其技术方面的突破密不可分。随着人工智能的兴起以及对这些强大资源的处理能力的饱和,我们现在需要更加精确地根据我们的数据需求建立一种理解深度数据而不仅仅是广度数据的文化。

查看英文原文:https://www.kdnuggets.com/2019/01/4-myths-big-data-deep-data.html

四说大数据时代“神话”:从大数据到深数据\n相关推荐

  1. 大数据时代的历史机遇——产业变革与数据科学

    <大数据时代的历史机遇--产业变革与数据科学> 基本信息 作者: 赵国栋 易欢欢 糜万军 鄂维南 出版社:清华大学出版社 ISBN:9787302325352 上架时间:2013-6-14 ...

  2. 《智能数据时代:企业大数据战略与实战》一3.5 步步为营

    本节书摘来自华章出版社<智能数据时代:企业大数据战略与实战>一书中的第3章,第3.5节,作者 TalkingData ,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  3. 大数据时代 树大数据意识

    大数据时代 树大数据意识 一,大数据及其特点 1.什么是大数据? 美国首屈一指的咨询公司麦肯锡给大数据的定义是:大小超出常规的数据库工具获取.存储.管理和分析能力的数据集.全球最大的电子商务公司亚马逊 ...

  4. 《智能数据时代:企业大数据战略与实战》一2.3 自我评估、完善度、信息架构...

    本节书摘来自华章出版社<智能数据时代:企业大数据战略与实战>一书中的第2章,第2.3节,作者 TalkingData ,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  5. 大数据时代---告诉你大数据为世界带来的改变

    · 什么是大数据,相信有很多人只是听过,而并不了解大数据的真正含义. 我们正逐渐被海量的数据吞噬,现代的科技让我们的每一个举动都可以转化为数据,从这些数据中我们可以得到很多有价值的信息.全球知名咨询公 ...

  6. 数据时代的我们,应该怎么挖掘数据价值

    通过各种商业智能系统对历史数据进行系统分析,找出规律或者发现潜在问题,再结合管理者的智慧制订出策略来,这是很多企业的决策者习惯的决策流程.随着市场竞争日趋激烈,很多组织越来越依赖于商业智能系统来辅助决 ...

  7. 四说大数据时代“神话”:从大数据到深数据

    在机器学习方面始终有个基础性的误会,即更大的数据会形成更快的学习效果.殊不知,更大的数据并非意味着能发现更深刻的信息.事实上,与数据的规模相较,数据的质量.价值和多样性更最该关注,即数据的" ...

  8. 第一章 身处数据时代,揭开大数据的面纱

    科技的迅速发展,互联网金融的兴起和繁荣,把数据推到了所有金融元素的核心位置.越来越多的企业逐渐认识到只有掌握正确的数据并看透数据背后的故事,才能够获得源源不断的财富.大数据时代伴着铿锵有力的节奏引领了 ...

  9. 在大数据时代,每家公司都要有大数据部门吗?

    如果这个问题换做是:在电气时代,每家公司都要有个发电厂吗?是不是会更好回答一些? 事实上每一种重大技术的出现,都会对产业产生大的变化.在蒸汽时代,采矿机采用蒸汽机后,会带来生产效率的极大提升,而轮船加 ...

最新文章

  1. 学习笔记26_MVC前台强类型参数
  2. 快速排序简便记_建立和测试股票交易策略的快速简便方法
  3. 比特币:生于 2009,亡于 2016?
  4. sv_labs学习笔记——sv_lab4(System Verilog)
  5. 【多模态】来自Facebook AI的多任务多模态的统一Transformer:向更通用的智能迈出了一步...
  6. 大数据分析,带你认识一个你从未见过的周杰伦
  7. 解决Tomcat 乱码问题简洁版
  8. Groovy~Groovy运算符
  9. Eureka自我保护机制原理及作用enable-self-preservation
  10. 如何集成指纹验证到网站系统
  11. ESXI 通过naa在主机上找到物理磁盘的位置
  12. HS6621CG 片上 Flash 读写
  13. 酷6 期待“化茧成蝶”
  14. 我总结了五种常用聚类分析算法,推荐收藏
  15. 程序员必备的软技能-金字塔原理拆解(下)
  16. 5G MEC场景下移动终端IP地址固定方法研究
  17. linux 445端口连不上,Linux配置防火墙,开启访问端口
  18. 地表最强的 9 则程序员笑话
  19. Python中mechanize库的简单使用说明
  20. Python程序设计第三章测验总结

热门文章

  1. android如何暂停倒计时,在Android中暂停和恢复倒计时器和进度条?
  2. mysql 修复_mysql修复表的三个方法
  3. java实现多个接口_java允许实现多个接口
  4. c 正则去除a以外的html,正则表达式:去除除SRC以外的HTML属性
  5. c语言程序中的基本功能,c语言程序中的基本功能模块为什么?
  6. 【FPGA】FIFO的Verilog设计之同步FIFO的设计
  7. Verilog 中的移位(算术移位, 逻辑移位, 循环移位)
  8. VUE2.X组件之间通信的2种方式(针对子组件值变化去改变相应父组件的值)
  9. css控制显示行数,多出部分显示省略号
  10. C#编程(十六)----------匿名类型