Big Data 术语 | 你了解多少?

我从最近的大数据指南中做出了一个列表,其中列出了您需要了解的最重要的相关术语和定义。

▼▼▼

A

Algorithm:为人工智能、神经网络或其他机器提供的一组规则,用来帮助它自己学习;分类、聚类、推荐和回归是最流行的四种类型。

Apache Flink:一个开源流数据处理框架。它是用Java和Scala编写的,用作分布式流数据流引擎。

Apache Hadoop:一种开源工具,使用MapReduce跨机器处理和存储大型分布式数据集。

Apache Kafka:一种分布式流媒体平台,通过提高吞吐量,内置分区,复制,延迟和可靠性来改进传统的消息代理。

Apache NiFi:一种开源Java服务器,可以以可扩展,可插拔,开放的方式实现系统之间数据流的自动化。NiFi由美国国家安全局开源。

Apache Spark:一种开源大数据处理引擎,运行在Apache Hadoop,Mesos或云之上。

Artificial intelligence:机器做出决定和执行模拟人类智能和行为的任务的能力。

B

Big data:  大量数据的常用术语。要获得大数据的资格,数据必须以高速、大变化或大容量进入系统。

Blob storage:  一种在云中以Blob或对象的形式存储非结构化数据的Azure服务。

Business intelligence:  可视化和分析商业数据的过程,目的是做出可操作和知情的决策。

C

Cluster:  共享特定特征的数据子集。也可以参考几个协同工作来解决单个问题的机器。

COAP:  约束应用程序协议是用于有限资源设备的Internet应用程序协议,可根据需要转换为HTTP。

D

Data engineering:   数据的收集,存储和处理,以便数据科学家可以查询。

Data flow management:  在管理数千个生产者和消费者的流量的同时,摄取原始设备数据的专门过程。然后执行基本数据丰富,流分析,聚合,拆分,模式转换,格式转换以及其他初始步骤,以准备数据以进行进一步的业务处理。

Data governance:  管理数据湖中数据的可用性,可用性,完整性和安全性的过程。

Data integration:  组合来自不同来源的数据并为用户提供统一视图的过程。

Data lake:  一个存储库,以原始格式保存原始数据。

Data mining:  通过检查和分析大型数据库的过程生成新信息的实践。

Data operationalization:  将变量严格定义为可测量因素的过程。

Data preparation:  将数据收集,清理和合并到一个文件或数据表中的过程,主要用于分析。

Data processing:  机器检索,转换,分析或分类信息的过程。

Data science:  探索可重复过程和方法的领域,从数据中获取洞察力。

Data swamp:  如果没有适当的治理,数据湖会变成什么样。

Data validation:  检查数据集以确保所有数据在处理之前是干净,正确和有用的行为。

Data warehouse:  来自各种来源的大量数据,用于帮助公司做出明智的决策。

Device layer:  传输与环境和性能特征相对应的数据流的整个传感器,执行器,智能手机,网关和工业设备。

G

GPU-accelerated databases:  摄取流数据所需的数据库。

Graph analytics:  一种组织和可视化集合中不同数据点之间关系的方法。

H

Hadoop:  用于处理和存储大数据的编程框架,尤其是在分布式计算环境中。

I

Ingestion:  从任意数量的不同来源获取流数据。

M

MapReduce:  一种数据处理模型,用于对Map阶段中的数据进行过滤和排序,然后对该数据执行函数并在Reduce阶段返回输出。

Munging:  将数据从一种原始形式手动转换或映射到另一种格式以便于消费的过程。

N

Normal distribution:  表示大量随机变量概率的通用图,其中随着数据集的大小增加,这些变量接近常态。也称为高斯分布或钟形曲线。

Normalizing:  将数据组织到表中的过程,以便使用数据库的结果始终是明确的和预期的。

P

Parse:  将数据(如字符串)划分为较小的部分进行分析

Persistent storage:  一种不变的位置,例如磁盘,在创建数据的过程结束后保存数据。

Python:  一种通用编程语言,强调代码可读性,以便程序员可以使用更少的代码行来表达他们的概念。

R

R:  一种主要用于数据可视化和预测分析的开源语言。

Real-time stream processing:  通过并行使用机器来分析数据序列的模型,但功能较少。

Relational database management system (RDBMS):  管理,捕获和分析基于称为关系的共享属性分组的数据的系统。

Resilient distributed dataset:  Apache Spark抽象数据的主要方式,数据以容错方式存储在多台计算机上。

S

Shard:  数据库的单个分区。

Smart data:  格式化的数字信息,以便在发送到下游分析平台进行进一步的数据整合和分析之前,可以在收集点对其进行操作。

Stream processing:  数据的实时处理。数据连续,同时和逐个记录地处理。

Structured data:  具有高度组织性的信息。

T

Taxonomy:  根据预先确定的系统对数据进行分类,其结果目录用于提供易于访问和检索的概念框架。

Telemetry:  远程获取有关物体的信息(例如,来自汽车,智能手机,医疗设备或物联网设备)。

Transformation:  将数据从一种格式转换为另一种格式。

U

Unstructured data:  不具有预定义数据模型或未以预定义方式组织的数据。

V

Visualization:  分析数据并以可读的图形格式(如图表或图形)表达数据的过程。

Z

Zones:  数据湖中的不同区域,用于特定的,明确定义的目的。

希望我的文章对你有所帮助,喜欢的话就关注我吧。

长按二维码 ▲

订阅「架构师小秘圈」公众号

如有启发,帮我点个在看,谢谢↓

这51个大数据术语,你懂的有几个?相关推荐

  1. 您应该知道的101个大数据术语

    由于每天都会产生大量的数据,因此了解大数据的复杂性变得至关重要.如果您打算进入大数据星球,则应该熟悉大数据术语.这些术语将帮助您深入了解大数据世界.因此,让我们从术语大数据本身开始- 由于业务专业人员 ...

  2. 科普丨你不得不知道的20个大数据术语

    1.算法."算法"如何与大数据相关?即使算法是一个通用术语,但大数据分析使其在当代更受青睐和流行. 2.分析.年末你可能会收到一份来自信用卡公司寄来的包含了全年所有交易记录的年终报 ...

  3. 每个人都应该知道的25个大数据术语

    摘要: 如果你初来乍到,大数据看起来很吓人!根据你掌握的基本理论,让我们专注于一些关键术语以此给你的约会对象.老板.家人或者任何一个人带来深刻的印象. 让我们开始吧: 1.算法."算法&qu ...

  4. 每个人都应该知道的25个大数据术语 1

    摘要: 如果你初来乍到,大数据看起来很吓人!根据你掌握的基本理论,让我们专注于一些关键术语以此给你的约会对象.老板.家人或者任何一个人带来深刻的印象. 让我们开始吧: 1.算法."算法&qu ...

  5. 每个人都应该知道的15个大数据术语

    1.算法."算法"如何与大数据相关?即使算法是一个通用术语,但大数据分析使其在当代更受青睐和流行. 2.分析.年末你可能会收到一份来自信用卡公司寄来的包含了全年所有交易记录的年终报 ...

  6. 50例大数据术语英文翻译及详解

    一.大数据 英文:big data,mega data 大数据,或称巨量资料,指的是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 二.大数据的4V: ...

  7. 探寻51个大数据应用案例背后的故事

    企业A:案例提交了,选上要通知我啊! 有萌君:恩,放心吧. 企业B:我投4个案例,总有一个能选上. 有萌君:牛! 企业C:不选我,你就废了! 有萌君:呃-- 2016全域大数据应用论坛配套活动&quo ...

  8. 大数据术语的英文翻译

       一.大数据   英文:big data,mega data   大数据,或称巨量资料,指的是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产.    ...

  9. 超全的大数据术语,赶紧mark!

    每一个新事物出现总涌现很多概念术语,大数据也不例外,概念之多,也容易混淆,不太容易记住,因此,我们大圣众包(www.dashengzb.cn)小编为大家分享个常用的数据术语,按照字母分类容易记住,最好 ...

最新文章

  1. php rsa数字签名为空,如何使用PHP将数字签名(RSA,证书等)添加到任何文件?
  2. android smack源码分析——接收消息以及如何解析消息
  3. TL-ER5120路由器配置文档
  4. Windows server 2008文件服务器之二屏蔽影音文件以及指定文件名
  5. LeetCode解题的常见模式套路
  6. Qt模仿游戏拖装备(换装备)
  7. 小球(信息学奥赛一本通-T1363)
  8. 国内ip信息库的组建
  9. Decision Tree(DT)决策树
  10. 微课|玩转Python轻松过二级(2.2.2节):关系运算符
  11. 【matlab】直方图均衡化
  12. oracle优化查询前几条,一个查询优化的分析调整全过程!很值得一看
  13. RHCE-PXE无人值守装机一
  14. 10个Excel VBA实例教程-刘欢-专题视频课程
  15. 远程计算机用户名win7,Win7远程桌面连接设置的方法
  16. 如何构建你的认知体系?查理芒格的100个思维模型
  17. sql大全超详细【转】
  18. 华为U8150(IDEOS)手机USB驱动安装
  19. 冬天OS(八):加入调度
  20. 字符编码和字符集基础知识

热门文章

  1. 数据结构-图论-拓扑排序模板题(hdu3342)(poj1270)(hdu4857)
  2. 线段树 ---- CF1004F Sonya and Bitwise OR(线段树上分治合并区间信息 + or 前缀和的log性质)
  3. Codeforces Round #599A~D题解
  4. P4735 最大异或和(可持久化trie树、求最大区间异或和)
  5. 【牛客每日一题】 4.13 Xorto(前缀异或和,枚举优化/映射)
  6. win七系统如何卸载MySQL_win7系统卸载SQL2008R2数据库的详细教程
  7. python int str_python int str
  8. js控制文本栏只能输入数字
  9. Realm的简单使用
  10. [公告]欢迎您加入WF技术研究团队