被神话的大数据——从大数据（big data）到深度数据（deep data）思维转变

2019独角兽企业重金招聘Python工程师标准>>>

自从阿法狗战胜人类顶级棋手之后，深度学习、人工智能变得再一次火热起来。有些人认为，深度学习的再一次兴起是源于硬件的提升、数据量的增多以及高效算法的研究。这并不完全精确，有一个基本的误解是更大的数据会产生更好的机器学习结果。然而，更大的数据池/仓库并不一定有助于模型学习到更深刻的见解。正确的答案是，要把重心专注于数据的质量、价值以及多样性，而不仅仅是数据的规模——“深度数据”（deep data）比大数据（big data）好。

随着研究的进行，人们对大数据的炒作逐渐在减弱。云计算、Hadoop及其变种已经能够解决一些大数据的问题。但是“大数据”是指许多人仍在花费大量资金建设更大的基础设施来处理、保存和管理的庞大数据库。这种盲目追求“大”的做法，在基础设施和人力资源方面产生了巨大的、且本可避免的成本。

目前，越来越多的声音讨论是否从“大数据”转向为“深度数据”了，我们现在需要更加的明智和思考全面，而不是收集所有可能的数据来实现“大数据”。我们现在需要让一些数据落实到位，并寻求数量和质量的多样性，这将给我们带来许多长期的收益。

被神话的大数据

要理解从“大”到“深”的这种转变，让我们首先看一下我们对大数据的一些错误观念：

可以并且应该捕获和存储所有数据；
更多数据总是有助于构建更准确的预测模型；
存储更多的数据，其存储成本几乎为零；
更多数据的计算成本几乎为零；

以下是现实：

来自物联网和网络流量的数据仍然超过了我们目前具备的捕获所有数据的能力。有些数据必须在摄取时被丢弃。我们需要变得聪明，这就需要我们根据价值对数据进行分类；
重复一千次的相同数据示例并不会提高预测模型的准确性；
存储更多数据的成本不仅仅是网络服务向用户收取的费用（比如云盘），这也是查找和管理多个数据源的额外复杂性以及员工移动和使用该数据的隐藏代价，这些成本通常高于存储和计算费用。
人工智能算法对计算资源的需求甚至可以快速超越弹性云基础设施。虽然计算资源可以线性增长，但计算需求可以超线性增长，甚至指数级增长。

相信这些神话的问题在于，我们将以一种在纸上或长期看来都很好的方式构建信息系统，但在即时时间框架内过于繁琐，无法发挥作用。

大数据的四个问题

以下是在数据方面盲目相信“越多越好”时存在的四个问题：

更多相同的数据是没有作用的。为人工智能构建机器学习模型时，训练示例的多样性至关重要，原因是模型是根据数据来试图确定概念边界。例如，如果模型试图通过使用年龄和职业来定义“退休工人”的概念，那么32岁的注册会计师的重复示例对该模型并没有什么好处，因为它们表示的含义都是没有退休。在65岁的概念边界获得示例并了解退休如何随职业而变化对模型会更有帮助；
嘈杂的数据可能会伤害模型。如果新数据中存在错误或者不精确，那么它只会混淆模型试图学习的两个概念之间的界限。在这种情况下，更多的数据将无济于事，实际上可能会降低现有模型的准确性；
大数据让一切都变慢了。在数TB的数据上构建模型可能比在数GB的数据上构建模型花费一千倍的时间，或者它可能需要一万倍的时间，这都取决于学习算法。数据科学就是快速实验，快速实验，快速更新以获得较为合适的模型；
大数据可实现的模型。任何预测模型的最终目标都是创建一个可以为业务部署的高度准确的模型。有时使用来自数据池深处更加模糊的数据可能会导致更高的准确性，但所使用的数据对于实际部署可能是不可靠的。最好有一个不太准确的模型，它可以快速运行并可供企业使用。

能做得更好的四件事

以下是我们可以采取的一些措施来对抗大数据的“黑暗面”，并将大数据思维转向深度数据思维：

了解准确性/执行权衡。数据科学家常常认为目标是获得更准确的模型。而是要根据准确性和部署速度，以明确的ROI预期启动项目；
使用随机样本构建每个模型。如果你的数据集足够大，那么你就没有理由一次性全部使用整个数据集。如果数据集具有良好的随机抽样功能，那么我们就可以使用来自大数据集中的小样本构建模型，并进行准确预测。小样本使得模型迭代更新更加快速，然后使用整个数据库构建最终模型。
丢弃一些数据。如果对来自物联网设备和其他来源的数据流感到不知所措，那么就可以聪明地随意丢弃一些数据。这个方法适合于构建模型的早期阶段，如果到后期的话，这样操作会使得后期工作一团糟。
寻找更多的数据源。人工智能最近的许多突破并非来自更大的数据集，而是源于机器学习算法利用到了以前无法获得数据的能力。例如，二十年前，现在普遍存在的大型文本、图像、视频和音频数据集在那个时代并不存在，因此，我们应该不断寻找产生这些新的数据的机会。

变得更好的四件事

如果我们转换思路，专注于深度数据而不仅仅是大数据，这样将享受到以下这些好处：

一切都会变得更快。使用较小的数据，对数据进行移动、实验、训练和模型评估都会快得多；
需要更少的存储和计算资源。专注于深度数据意味着我们将更加智能地使用更小的磁盘并通过云计算，这样会直接降低基础设施的成本，节省下来的资金就可以聘请更多数据科学家和人工智能专家；
减轻研究人员的压力并变得更加快乐。在有了深度数据思维后，团队将发现自己不太可能只是做一些打杂工作，比如制作数据集或者杀死那些占用所有云资源的错误程序等。同样，数据科学家也会花更多的时间在构建和测试模型上，而不是被数据移动或等待长时间的训练过程，这样也会使其变得更快乐。
可以解决更难的问题。构建一个人工智能模型并不是一个只有像巫师一样的研究人员才能完成的神奇体验。与其说人工智能是魔法，不如说是一种逻辑。这类似于一个艺术老师告诉他班上一半的学生，他们的分数将基于他们制作的艺术作品的数量，另一半的学生将根据他们最好的作品的质量来评分。毫不奇怪，学生创作的艺术品数量会大大增加。令人震惊的是，在产量增多的同时，高品质的产品也会出现——数量有时会产生质量。在我们的例子中，在相同资源约束下尝试的更多模型可能意味着更好的最佳模型。

大数据和支持它的技术突破极大地促进了许多公司在决策过程中成为数据驱动的动力。随着人工智能的兴起以及处理这些强大资源的能力，现在需要更加精确地根据我们的数据需求建立一种理解深度数据的思维，而不仅仅是大数据。

原文链接

转载于:https://my.oschina.net/u/1464083/blog/3001083

被神话的大数据——从大数据（big data）到深度数据（deep data）思维转变相关推荐

tof 相机的数据读取，depth data和amplitude data以及3D数据
1.开发前提如果相机带有SDK 也就是开发需要的工具以及包,就要用相机带的开发包,里面包含了相应的读取文件的函数,以及设置的相机的相关函数. 本文使用的是TTF相机,C++头文件代码如下: #inc ...
Hadoop系列之二：大数据、大数据处理模型及MapReduce
1.大数据(big data) 什么是大数据?wikipedia上面给出了这样的定义: In information technology, big data is a collection of d ...
2021年大数据Kafka（十）：kafka生产者数据分发策略
全网最详细的大数据Kafka文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录系列历史文章生产者数据分发策略策略一:用户指定了partition 策 ...
2021年大数据Hadoop（十）：HDFS的数据读写流程
2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据目录 HDFS的数据读写流程 ...
资源 | 100+个自然语言处理数据集大放送，再不愁找不到数据！
奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧! 数据集 Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开 ...
[转]Asp.Net 上传大文件专题(3)--从请求流中获取数据并保存为文件[下]
转自:http://www.cnblogs.com/stg609/archive/2008/08/03/1259206.html 接着上一篇讲 3.4 读取剩余的请求前面我们已经提到过R ...
我艹，MySQL数据量大时，delete操作无法命中索引。
来自:Java面试那些事儿最近,在脉脉上看到一个楼主提出的问题:MySQL数据量大时,delete操作无法命中索引:并且还附上了相关案例截图. 最终,楼主通过开启MySQL分析优化器追踪,定位到是优 ...
独家 | Kaggle 大神Dan Becker与你分享他的数据科学之旅！
作者:ANALYTICS VIDHYA 翻译:吴振东校对:和中华本文约4000字,建议阅读10分钟本文中Kaggle大佬Dan Becker谈论了自己从经济学向数据科学的转变,从零开始成为数据科 ...
数据蒋堂 | 大数据技术的4个E
作者:蒋步星来源:数据蒋堂本文共1100字,建议阅读8分钟. 本文将大数据特点总结成4个E,可作为选择大数据技术解决方案的参考. 大数据的4个V说法在业界已经尽人皆知,这是指的大数据本身的特征.现 ...