1.算法。“算法”如何与大数据相关?即使算法是一个通用术语,但大数据分析使其在当代更受青睐和流行。

2.分析。年末你可能会收到一份来自信用卡公司寄来的包含了全年所有交易记录的年终报表。如果你有兴趣进一步分析自己在食物、衣服、娱乐等方面具体花费占比呢?那你便是在做“分析”了。你正从一堆原始数据中来吸取经验,以帮助自己为来年的消费做出决策。如果你正在针对整个城市人群对Twitter或Facebook的帖子做同样的练习呢?那我们便是在讨论大数据分析了。大数据分析的实质是利用大量数据来进行推断和讲故事。大数据分析有3种不同到的类型,接下来便继续本话题进行依次讨论。

3.描述性分析。刚刚如果你告诉我,去年你的信用卡消费在食物上花费了25%、在服装上花费了35%、娱乐活动上花费了20%、剩下的就是杂七杂八的事项,这种便是描述性分析。当然你还可以参考更多的细节。

4.预测分析。如果你根据过去5年的信用卡历史记录来进行分析,并且划分具有一定的连续性,则你可以高概率预测明年将与过去几年相差无几。此处需要注意的细节是,这并不是“预测未来”,而是未来可能会发生的“概率”。在大数据预测分析中,数据科学家可能会使用类似机器学习、高级的统计过程(后文将对这些术语进行介绍)等先进的技术去预测天气、经济变化等。

5.规范分析。沿用信用卡交易的案例,你可能想要找出哪方面的支出(级食品、服装、娱乐等)对自己的整体支出产生巨大的影响。规范分析建立在预测分析的基础之上,包含了“行动”记录(例如减少食品、服装、娱乐支出),并分析所得结果来“规定”最佳类别以减少总体支出。你可以尝试将其发散到大数据,并设想高管们如何通过查看各种行动的影响来做出数据驱动的决策。

6.批处理。虽然批量数据处理在大型机时代就早已出现,但大数据交给它更多大数据集处理,因此赋予了批处理更多的意义。对于一段时间内收集到的一组事务,批量数据处理为处理大量数据提供了一种有效的方法。后文将介绍的Hadoop便是专注于批量数据处理。超越批处理的世界:流计算 使用Spark SQL构建批处理程序。

7. Cassandra是由Apache Software Foundation管理的一款流行的开源数据库管理系统。很多大数据技术都归功于Apache,其中Cassandra的设计初衷便是处理跨分布式服务器的大量数据。

8. 云计算。显而易见云计算已经变得无所不在,所以本文可能无须赘述,但为了文章的完整性还是佐以介绍。云计算的本质是在远程服务器上运行的软件和(/或)数据托管,并允许从互联网上的任何地方进行访问。

9. 集群计算。它是一种利用多台服务器的汇集资源的“集群”来进行计算的奇特方式。在了解了更多技术之后,我们可能还会讨论节点、集群管理层、负载平衡和并行处理等。

10. 黑暗数据。依我看来,这个词适用于那些吓得六神无主的高级管理层们。从根本上来说,黑暗数据是指那些被企业收集和处理但又不用于任何有意义用途的数据,因此描述它是“黑暗的”,它们可能永远被埋没。它们可能是社交网络信息流、呼叫中心日志、会议笔记,诸如此类。人们做出了诸多估计,在60-90%的所有企业数据都可能是“黑暗数据”,但无人真正知晓。

11. 数据湖。当我第一次听到这个词的时候,我真的以为有人在开愚人节的玩笑。但它真的是个术语!数据湖是一个原始格式的企业级数据的大型存储库。虽然此处讨论的是数据湖,但有必要再一起讨论下数据仓库,因为数据湖和数据仓库在概念上是极其相似的,都是企业级数据的存储库,但在清理和与其他数据源集成之后的结构化格式上有所区别。数据仓库常用于常规数据(但不完全)。据说数据湖能够让用户轻松访问企业级数据,用户真正按需知道自己正在寻找的是什么、如何处理并让其智能化使用。拥抱开源技术的前提——认识数据湖 你知道数据湖泊(DATA LAKE)吗?

12. 数据挖掘。数据挖掘是指利用复杂的模式识别技术从大量数据中找到有意义的模式、提取见解。这与我们前文讨论的使用个人数据做分析的术语“分析”密切相关。为了提取出有意义的模式,数据挖掘者使用统计学(是呀,好老的数学)、机器学习算法和人工智能。

13.数据科学家。我们谈论的是一个如此热门的职业!数据科学家们可以通过提取原始数据(难道是从前文所说的数据湖中提取的?),处理数据,然后提出新见解。数据科学家所需具备的一些技能与超人无异:分析、统计、计算机科学、创造力、故事讲述和理解业务环境。难怪他们能获得如此高的薪水报酬。

14.分布式文件系统。由于大数据太大而无法在单个系统上进行存储,分布式文件系统提供一种数据存储系统,方便跨多个存储设备进行大量数据的存放,并有助于降低大量数据存储的成本和复杂度。

15. ETL。ETL分别是extract,transform,load的首字母缩写,代表提取、转化和加载的过程。 它具体是指“提取”原始数据,通过数据清洗/修饰的方式进行“转化”以获得 “适合使用”的数据,进而“加载”到合适的存储库中供系统使用的整个过程。尽管ETL这一概念源于数据仓库,但现在也适用于其它情景下的过程,例如在大数据系统中从外部数据源获取/吸收数据。

每个人都应该知道的15个大数据术语相关推荐

  1. 每个人都应该知道的25个大数据术语

    摘要: 如果你初来乍到,大数据看起来很吓人!根据你掌握的基本理论,让我们专注于一些关键术语以此给你的约会对象.老板.家人或者任何一个人带来深刻的印象. 让我们开始吧: 1.算法."算法&qu ...

  2. 每个人都应该知道的25个大数据术语 1

    摘要: 如果你初来乍到,大数据看起来很吓人!根据你掌握的基本理论,让我们专注于一些关键术语以此给你的约会对象.老板.家人或者任何一个人带来深刻的印象. 让我们开始吧: 1.算法."算法&qu ...

  3. 您应该知道的101个大数据术语

    由于每天都会产生大量的数据,因此了解大数据的复杂性变得至关重要.如果您打算进入大数据星球,则应该熟悉大数据术语.这些术语将帮助您深入了解大数据世界.因此,让我们从术语大数据本身开始- 由于业务专业人员 ...

  4. 每个人都应该知道的 18 个强大的 Excel 快捷键!

    Microsoft Excel 是一种程序,可让您在计算机或移动设备上高效地执行各种任务.它是全球小型和大型企业主要使用的重要工具. 如果您是一位经验丰富的用户,那么您可能知道 Excel 快捷键并正 ...

  5. 大数据时代你需要知道的7个大数据定义

    文章讲的是大数据时代你需要知道的7个大数据定义,大数据究竟是什么?很多人可能仍然有些混淆,本文让我们来看看大数据的一些主要的定义.首先要注意的是,行业内的所有人都普遍认同,大数据不只是更多的数据. ( ...

  6. 每个开发人员都应该知道的 15 个 IntelliJ IDEA 快捷方式

    作为开发人员,高效地工作非常重要.这包括快捷方式,这些快捷方式对于快速工作和减少鼠标移动至关重要. 但是,初学者往往不知道哪些快捷方式可用或忘记使用它们.出于这个原因,在这篇文章中,我将为您提供 15 ...

  7. 开发者都应该知道的15个API

    从AI到AR到运输和电话,这些Web API为开发人员提供了各种有趣的可能性. 艾萨克·牛顿说他站在巨人的肩膀上看得更远,对于编写代码的人来说,API就是精华.它们让程序员站在巨人的肩膀上看得更远. ...

  8. 科普丨你不得不知道的20个大数据术语

    1.算法."算法"如何与大数据相关?即使算法是一个通用术语,但大数据分析使其在当代更受青睐和流行. 2.分析.年末你可能会收到一份来自信用卡公司寄来的包含了全年所有交易记录的年终报 ...

  9. Python之每个人都应该知道的30个一行代码程序

    Python 语法简洁,能够用一行代码实现很多有趣的功能,现在整理 30 个常见的 Python 一行代码集合. ① 转置矩阵 old_list = [[1, 2, 3], [3, 4, 6], [5 ...

最新文章

  1. 【Android RTMP】Android Studio 集成 x264 开源库 ( Ubuntu 交叉编译 | Android Studio 导入函数库 )
  2. mysql 缓存监控_MySQL监控性能的一些方法总结
  3. 数据中心防火要把“十关”
  4. 导出EXCEL2003
  5. java判断读到末尾_IO流如何判断读取到了流的结尾,程序中以-1来判断,是流中写入一个EOF表示流结束吗,底层实现呢?...
  6. java 继承调用_【JAVA学习】继承中函数调用机制
  7. 「野性消费」也不怕!打造供应链数据平台,业务逻辑模板都在这了
  8. 大数据(流量表)任务问题清洗生成新分区表过程
  9. python是什么语言-python是什么语言?哪些人适合学习Python?
  10. 15-struct(构造函数,重载)
  11. vscode下载Visual Studio Code User System windows及 Mac安装文件下载
  12. Google AI 博客:Hum to Search 项目,使用机器学习来识别随口哼唱的旋律
  13. 操作系统的作用是什么?
  14. JS——背景色的滑动效果以及输入框的状态切换效果实现
  15. 爬取某视频网站电影,仅参考学习
  16. 电脑卸载神器 | 只有极客才会使用的卸载软件Geek Uninstaller
  17. 笔记工具:幕布 简要使用教程
  18. 中国没有乔布斯,美国没有史玉柱
  19. 用另一种方式解决机房管理助手!(非结束进程版)
  20. 【程序23】TestAge.java 题目:有5个人坐在一起,问第五个人多少岁?他说比第4个人大2岁。 //问第4个人岁数,他说比第3个人大2岁。问第三个人,又说比第2人大两岁。问第2个人,说比第一个

热门文章

  1. 数字图像处理——引导滤波
  2. Caffe训练过程:test_iter test_interval等概念
  3. boost解析xml文件
  4. 使用Def文件导出dll
  5. 安卓手机浏览器排行_安卓手机双11性价比排行发布|拯救者手机发透明版|小米发大光圈手机镜头...
  6. 小容量单片机生成pdf文件
  7. 微信支付配置参数:支付授权目录、回调支付URL
  8. codeforces 1060 A
  9. AM335x(TQ335x)学习笔记——GPIO关键驱动移植
  10. c#和WIN32 调用