目前,大数据领域每年都会涌现出大量新的技术,成为大数据获取、存储、处理分析或可视化的有效手段。大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为人类社会经济活动提供依据,提高各个领域的运行效率,甚至整个社会经济的集约化程度。那么下面我们就说说大数据方面的核心技术有哪些:
        1. 大数据生命周期

·        底层是基础设施,涵盖计算资源、内存与存储和网络互联,具体表现为计算节点、集群、机柜和数据中心。在此之上是数据存储和管理,包括文件系统、数据库和类似YARN的资源管理系统。然后是计算处理层,如hadoop、MapReduce和Spark,以及在此之上的各种不同计算范式,如批处理、流处理和图计算等,包括衍生出编程模型的计算模型,如BSP、GAS 等。

·       数据分析和可视化基于计算处理层。分析包括简单的查询分析、流分析以及更复杂的分析(如机器学习、图计算等)。查询分析多基于表结构和关系函数,流分析基于数据、事件流以及简单的统计分析,而复杂分析则基于更复杂的数据结构与方法,如图、矩阵、迭代计算和线性代数。一般意义的可视化是对分析结果的展示。但是通过交互式可视化,还可以探索性地提问,使分析获得新的线索,形成迭代的分析和可视化。基于大规模数据的实时交互可视化分析以及在这个过程中引入自动化的因素是目前研究的热点。

·        2.大数据技术生态

·        大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各处理环节中都可以采用并行处理。目前,Hadoop、MapReduce和Spark等分布式处理方式已经成为大数据处理各环节的通用处理方法。

·        3.大数据采集与预处理

在大数据的生命周期中,数据采集处于第一个环节。根据MapReduce产生数据的应用系统分类,大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。对于不同的数据集,可能存在不同的结构和模式,如文件、XML 树、关系表等,表现为数据的异构性。对多个异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。针对管理信息系统中异构数据库集成技术、Web 信息系统中的实体识别技术和DeepWeb集成技术、传感器网络数据融合技术已经有很多研究工作,取得了较大的进展,已经推出了多种数据清洗和质量控制工具。

·       4.大数据存储与管理

按数据类型的不同,大数据的存储和管理采用不同的技术路线,大致可以分为3类。第1类主要面对的是大规模的结构化数据。针对这类大数据,通常采用新型数据库集群。它们通过列存储或行列混合存储以及粗粒度索引等技术,结合MPP(Massive Parallel Processing)架构高效的分布式计算模式,实现对PB 量级数据的存储和管理。这类集群具有高性能和高扩展性特点,在企业分析类应用领域已获得广泛应用;第2类主要面对的是半结构化和非结构化数据。应对这类应用场景,基于Hadoop开源体系的系统平台更为擅长。它们通过对Hadoop生态体系的技术扩展和封装,实现对半结构化和非结构化数据的存储和管理;第3类面对的是结构化和非结构化混合的大数据,因此采用MPP 并行数据库集群与Hadoop集群的混合来实现对百PB 量级、EB量级数据的存储和管理。一方面,用MPP 来管理计算高质量的结构化数据,提供强大的SQL和OLTP型服务;另一方面,用Hadoop实现对半结构化和非结构化数据的处理,以支持诸如内容检索、深度挖掘与综合分析等新型应用。这类混合模式将是大数据存储和管理未来发展的趋势。

·        5.大数据计算模式与系统

·         所谓大数据计算模式,即根据大数据的不同数据特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象(abstraction)或模型(model)。例如,MapReduce 是一个并行计算抽象,加州大学伯克利分校著名的Spark系统中的“分布内存抽象RDD”,CMU著名的图计算系统GraphLab中的“图并行抽象”(Graph Parallel Abstraction)等。传统的并行计算方法,主要从体系结构和编程语言的层面定义了一些较为底层的并行计算抽象和模型,但由于大数据处理问题具有很多高层的数据特征和计算特征,因此大数据处理需要更多地结合这些高层特征考虑更为高层的计算模式。

根据大数据处理多样性的需求和以上不同的特征维度,目前出现了多种典型和重要的大数据计算模式。与这些计算模式相适应,出现了很多对应的大数据计算系统和工具。由于单纯描述计算模式比较抽象和空洞,因此在描述不同计算模式时,将同时给出相应的典型计算系统和工具。

·         6.大数据分析与可视化

大规模数据的可视化主要是基于并行算法设计的技术,合理利用有限的计算资源,高效地处理和分析特定数据集的特性。通常情况下,大规模数据可视化的技术会结合多分辨率表示等方法,以获得足够的互动性能。
在科学大规模数据的并行可视化工作中,主要涉及数据流线化、任务并行化、管道并行化和数据并行化4 种基本技术。微软公司在其云计算平台Azure 上开发了大规模机器学习可视化平台(Azure Machine Learning),将大数据分析任务形式为有向无环图并以数据流图的方式向用户展示,取得了比较好的效果。在国内,阿里巴巴旗下的大数据分析平台御膳房也采用了类似的方式,为业务人员提供的互动式大数据分析平台。

最后要感谢这个优秀的平台,可以让我们相互交流,如果想进一步学习交流,可以加群460570824,希望大家可以一起学习进步!

大数据方面的核心技术相关推荐

  1. 大数据基础知识总结和大数据方面的核心技术

    一.什么是大数据 一种规模大到在获取.存储 .管理.分析方面大大超出了传统数据库 软件工具能力范围的数据集合,具有海量的数据规模.快速的数据流转.多样的数据类型和价值密度低四大特征. 大数据需要特殊的 ...

  2. hadoop 传感器数据_hadoop为什么是大数据学习的核心技术?

    当今世界,科技进步日新月异,互联网.云计算.大数据等现代信息技术深刻改变着人类的思维.生产.生活.学习方式,深刻展示了世界发展的前景.未来的互联网就是大数据和云计算的天下,不管你是否认同,大数据时代已 ...

  3. 【干货】大数据和人工智能.pdf

    spark是目前大数据领域的核心技术栈,许多从事数据相关工作的小伙伴都想驯服它,变成"驯龙高手",以便能够驾驭成百上千台机器组成的集群之龙来驰骋于大数据之海. 但大部分小伙伴都没能 ...

  4. 大数据软件产品研发进展及挑战

    来源:科技导报 本文约2400字,建议阅读5分钟 本文从目前大数据的核心技术展开论述,结合当前中国大数据产品的现状,阐述了其所面临的问题和挑战. [ 导读 ]虽然中国大数据产品和解决方案众多,但是仍然 ...

  5. 大数据,大格局,大发展

    广东省佛山市南海区积极鼓励和帮助企业开展技术改造,推动移动互联网.云计算.大数据.物联网等与南海的制造业结合,让现代科技为传统产业插上腾飞的翅膀.为支持智能制造发展,打响"南海智造" ...

  6. 清华大学大数据研究中心成立

    近日,作为清华大学建设世界一流大学的重要举措,清华大学大数据研究中心揭牌成立.清华大学软件学院教授.中国工程院院士孙家广出任该中心首任主任. 据介绍,清华大学大数据研究中心将面向全球数字经济转型和国家 ...

  7. 新工科背景下的大数据体系建设探析

    新工科背景下的大数据体系建设探析 王元卓,于建业 中国科学院计算技术研究所,北京 100190 北京物资学院信息学院,北京 101149   摘要:大数据产业迅猛发展,对大数据人才培养提出了巨大挑战. ...

  8. 搭建高校AI大数据实训室,2019高校大数据科研教学整体解决方案,数道云

    伴随着互联网技术的迅猛发展,正在逐步改变传统的高校教育模式,以大数据.云计算.AI等等技术为核心的教育模式正在逐步发展. 高校实行AI大数据实训室有何实质性的效果呢? 大数据的出现催生出产业人才缺口瓶 ...

  9. 当我说转行大数据工程师时,众人笑我太疯癫,直到四个月后......

    [不要错过文末彩蛋] 申明: 本文旨在为[大数据自学者|大数据专业学生|工资低的程序员(Java/Python等)]提供一个从入门到入职的的大数据技术学习路径,不适合5年以上大数据工程师的进阶学习. ...

最新文章

  1. 联想G480类似没有小键盘开关的机器
  2. android 获取布局textview,android – 获取TextView中文本的位置
  3. HDFS集中式的缓存管理原理与代码剖析--转载
  4. 基本数据结构篇(三万字总结)
  5. python调用电脑蓝牙_python-从蓝牙设备获取响应
  6. nginx源码阅读(一).综述
  7. 今天面了个腾讯的大佬,让我见识到了基础的天花板!
  8. C++ 函数重载的实现原理
  9. AIR3.0针对移动设备的高性能渲染方案
  10. JavaScript·函数
  11. 文言文已经没啥用了?错!还能编程用!
  12. layui select 默认选中
  13. HTML|内联CSS-背景和字体
  14. [免费专栏] 车联网基础理论之车联网安全常见术语科普
  15. win7计算机节电模式,大师详解win7省电模式怎么关的方法介绍
  16. MMO 游戏服务器引擎设计
  17. 虚拟机安装和优盘启动盘制作
  18. 手机浏览器类型ua php,通过userAgent判断手机浏览器类型(示例代码)
  19. DFP算法_python
  20. Winform MDI窗体子窗体显示区域大小

热门文章

  1. LOL服务器维护奖励,LOL5.18版本改动内容 lol官网服务器维护公告
  2. c语言define作用范围,#define的作用(C语言)
  3. tiny core linux网络连接,用Tiny Core Linux打造纯Firefox上网系统(概要)
  4. nas安装emby_[Troy]瞎折腾 篇二:黑群晖安装Emby教程—Emby Server无法启动怎么办
  5. 【2020年APP-Flutter混合开发之路】01 - Flutter的初步思考和开发部署
  6. eds能谱图分析实例_基础理论丨一文了解XPS(概念、定性定量分析、分析方法等)...
  7. 异步fifo_正点原子开拓者FPGA开发板资料连载第十五章 IP核之FIFO实验
  8. 新学:DES加密 小知识点(S盒,初始置换)
  9. latex 分页_latex 排版 首页不会换页
  10. Python系列(五):bytes和str的区别与联系