2019独角兽企业重金招聘Python工程师标准>>>

自从阿法狗战胜人类顶级棋手之后,深度学习、人工智能变得再一次火热起来。有些人认为,深度学习的再一次兴起是源于硬件的提升、数据量的增多以及高效算法的研究。这并不完全精确,有一个基本的误解是更大的数据会产生更好的机器学习结果。然而,更大的数据池/仓库并不一定有助于模型学习到更深刻的见解。正确的答案是,要把重心专注于数据的质量、价值以及多样性,而不仅仅是数据的规模——“深度数据”(deep data)比大数据(big data)好。

随着研究的进行,人们对大数据的炒作逐渐在减弱。云计算、Hadoop及其变种已经能够解决一些大数据的问题。但是“大数据”是指许多人仍在花费大量资金建设更大的基础设施来处理、保存和管理的庞大数据库。这种盲目追求“大”的做法,在基础设施和人力资源方面产生了巨大的、且本可避免的成本。

目前,越来越多的声音讨论是否从“大数据”转向为“深度数据”了,我们现在需要更加的明智和思考全面,而不是收集所有可能的数据来实现“大数据”。我们现在需要让一些数据落实到位,并寻求数量和质量的多样性,这将给我们带来许多长期的收益。

被神话的大数据

要理解从“大”到“深”的这种转变,让我们首先看一下我们对大数据的一些错误观念:

  • 可以并且应该捕获和存储所有数据;
  • 更多数据总是有助于构建更准确的预测模型;
  • 存储更多的数据,其存储成本几乎为零;
  • 更多数据的计算成本几乎为零;

以下是现实:

  • 来自物联网和网络流量的数据仍然超过了我们目前具备的捕获所有数据的能力。有些数据必须在摄取时被丢弃。我们需要变得聪明,这就需要我们根据价值对数据进行分类;
  • 重复一千次的相同数据示例并不会提高预测模型的准确性;
  • 存储更多数据的成本不仅仅是网络服务向用户收取的费用(比如云盘),这也是查找和管理多个数据源的额外复杂性以及员工移动和使用该数据的隐藏代价,这些成本通常高于存储和计算费用。
  • 人工智能算法对计算资源的需求甚至可以快速超越弹性云基础设施。虽然计算资源可以线性增长,但计算需求可以超线性增长,甚至指数级增长。

相信这些神话的问题在于,我们将以一种在纸上或长期看来都很好的方式构建信息系统,但在即时时间框架内过于繁琐,无法发挥作用。

大数据的四个问题

以下是在数据方面盲目相信“越多越好”时存在的四个问题:

  • 更多相同的数据是没有作用的。为人工智能构建机器学习模型时,训练示例的多样性至关重要,原因是模型是根据数据来试图确定概念边界。例如,如果模型试图通过使用年龄和职业来定义“退休工人”的概念,那么32岁的注册会计师的重复示例对该模型并没有什么好处,因为它们表示的含义都是没有退休。在65岁的概念边界获得示例并了解退休如何随职业而变化对模型会更有帮助;
  • 嘈杂的数据可能会伤害模型。如果新数据中存在错误或者不精确,那么它只会混淆模型试图学习的两个概念之间的界限。在这种情况下,更多的数据将无济于事,实际上可能会降低现有模型的准确性;
  • 大数据让一切都变慢了。在数TB的数据上构建模型可能比在数GB的数据上构建模型花费一千倍的时间,或者它可能需要一万倍的时间,这都取决于学习算法。数据科学就是快速实验,快速实验,快速更新以获得较为合适的模型;
  • 大数据可实现的模型。任何预测模型的最终目标都是创建一个可以为业务部署的高度准确的模型。有时使用来自数据池深处更加模糊的数据可能会导致更高的准确性,但所使用的数据对于实际部署可能是不可靠的。最好有一个不太准确的模型,它可以快速运行并可供企业使用。

能做得更好的四件事

以下是我们可以采取的一些措施来对抗大数据的“黑暗面”,并将大数据思维转向深度数据思维:

  • 了解准确性/执行权衡。数据科学家常常认为目标是获得更准确的模型。而是要根据准确性和部署速度,以明确的ROI预期启动项目;
  • 使用随机样本构建每个模型。如果你的数据集足够大,那么你就没有理由一次性全部使用整个数据集。如果数据集具有良好的随机抽样功能,那么我们就可以使用来自大数据集中的小样本构建模型,并进行准确预测。小样本使得模型迭代更新更加快速,然后使用整个数据库构建最终模型。
  • 丢弃一些数据。如果对来自物联网设备和其他来源的数据流感到不知所措,那么就可以聪明地随意丢弃一些数据。这个方法适合于构建模型的早期阶段,如果到后期的话,这样操作会使得后期工作一团糟。
  • 寻找更多的数据源。人工智能最近的许多突破并非来自更大的数据集,而是源于机器学习算法利用到了以前无法获得数据的能力。例如,二十年前,现在普遍存在的大型文本、图像、视频和音频数据集在那个时代并不存在,因此,我们应该不断寻找产生这些新的数据的机会。

变得更好的四件事

如果我们转换思路,专注于深度数据而不仅仅是大数据,这样将享受到以下这些好处:

  • 一切都会变得更快。使用较小的数据,对数据进行移动、实验、训练和模型评估都会快得多;
  • 需要更少的存储和计算资源。专注于深度数据意味着我们将更加智能地使用更小的磁盘并通过云计算,这样会直接降低基础设施的成本,节省下来的资金就可以聘请更多数据科学家和人工智能专家;
  • 减轻研究人员的压力并变得更加快乐。在有了深度数据思维后,团队将发现自己不太可能只是做一些打杂工作,比如制作数据集或者杀死那些占用所有云资源的错误程序等。同样,数据科学家也会花更多的时间在构建和测试模型上,而不是被数据移动或等待长时间的训练过程,这样也会使其变得更快乐。
  • 可以解决更难的问题。构建一个人工智能模型并不是一个只有像巫师一样的研究人员才能完成的神奇体验。与其说人工智能是魔法,不如说是一种逻辑。这类似于一个艺术老师告诉他班上一半的学生,他们的分数将基于他们制作的艺术作品的数量,另一半的学生将根据他们最好的作品的质量来评分。毫不奇怪,学生创作的艺术品数量会大大增加。令人震惊的是,在产量增多的同时,高品质的产品也会出现——数量有时会产生质量。在我们的例子中,在相同资源约束下尝试的更多模型可能意味着更好的最佳模型。

大数据和支持它的技术突破极大地促进了许多公司在决策过程中成为数据驱动的动力。随着人工智能的兴起以及处理这些强大资源的能力,现在需要更加精确地根据我们的数据需求建立一种理解深度数据的思维,而不仅仅是大数据。

原文链接

转载于:https://my.oschina.net/u/1464083/blog/3001083

被神话的大数据——从大数据(big data)到深度数据(deep data)思维转变相关推荐

  1. tof 相机的数据读取,depth data和amplitude data以及3D数据

    1.开发前提 如果相机带有SDK 也就是开发需要的工具以及包,就要用相机带的开发包,里面包含了相应的读取文件的函数,以及设置的相机的相关函数. 本文使用的是TTF相机,C++头文件代码如下: #inc ...

  2. Hadoop系列之二:大数据、大数据处理模型及MapReduce

    1.大数据(big data) 什么是大数据?wikipedia上面给出了这样的定义: In information technology, big data is a collection of d ...

  3. 2021年大数据Kafka(十):kafka生产者数据分发策略

    全网最详细的大数据Kafka文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 生产者数据分发策略 策略一:用户指定了partition 策 ...

  4. 2021年大数据Hadoop(十):HDFS的数据读写流程

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 HDFS的数据读写流程 ...

  5. 资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!

    奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧! 数据集 Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开 ...

  6. [转]Asp.Net 上传大文件专题(3)--从请求流中获取数据并保存为文件[下]

    转自:http://www.cnblogs.com/stg609/archive/2008/08/03/1259206.html 接着上一篇讲 3.4 读取剩余的请求       前面我们已经提到过R ...

  7. 我艹,MySQL数据量大时,delete操作无法命中索引。

    来自:Java面试那些事儿 最近,在脉脉上看到一个楼主提出的问题:MySQL数据量大时,delete操作无法命中索引:并且还附上了相关案例截图. 最终,楼主通过开启MySQL分析优化器追踪,定位到是优 ...

  8. 独家 | Kaggle 大神Dan Becker与你分享他的数据科学之旅!

    作者:ANALYTICS VIDHYA 翻译:吴振东 校对:和中华 本文约4000字,建议阅读10分钟 本文中Kaggle大佬Dan Becker谈论了自己从经济学向数据科学的转变,从零开始成为数据科 ...

  9. 数据蒋堂 | 大数据技术的4个E

    作者:蒋步星 来源:数据蒋堂 本文共1100字,建议阅读8分钟. 本文将大数据特点总结成4个E,可作为选择大数据技术解决方案的参考. 大数据的4个V说法在业界已经尽人皆知,这是指的大数据本身的特征.现 ...

最新文章

  1. HDU 5112 A Curious Matt 水题
  2. tablewidget字体显示不全_ios 容器内容显示原理及调整
  3. QT实现SameGame
  4. Fiori Error message Exception raised without specific error
  5. linux 下的gettimeofday 函数在windows上的替换方案
  6. centos7安装csvn
  7. redis 内存溢出_查漏补缺,Redis为什么会这么快,看完这七点你就知道了
  8. php savepath,php中session_save_path另外一种用法
  9. OpenShift 4 - 使用教程和免费试用环境
  10. 大量的数据做字符串匹配_Python Flashtext 实现大数据集下高效的关键词查找和替换...
  11. [paper reading] CenterNet (Triplets)
  12. 常见方案 目录 1. 发现目前 WEB 上主流的视频直播方案有 HLS 和 RTMP, 1 2. 实现直播的方法有很多,但是常用的,就这几个。 3个直播协议:rtmp、rtsp、hls。 和三个端:
  13. Ubuntu下安装osu
  14. Jsoup爬虫获取公司纳税识别号
  15. html 用户名正则表达式,独家解密实现:百度账号注册用户名正则表达式验证规则...
  16. 笔记本电脑怎么给别人开热点
  17. css-background-image 背景图片太大或太小
  18. 为了找到物美价廉的房子,连夜爬了某租房网站1W多条租房信息
  19. 枯燥的寒假生活(一) python爬虫模拟登录whu老教务系统获取期末考试成绩(已失效 , 老教务系统增加了新的反爬, 老教务系统已停用)
  20. Python-内置函数

热门文章

  1. centos 网卡配置(入门级)
  2. Spring_Spring@Transactional
  3. YII相关知识点记录
  4. Redhat linux5.5下Oracle 10g 安装配置手册一
  5. JavaScript中this关键字使用方法详解
  6. Spark学习之简介
  7. EOSIO 指南(创建测试帐户)
  8. LINUX API函数大全
  9. Cacti Weathermap 高级用法 (二)
  10. 网易有道CEO周枫:在线教育的冰山