大数据是什么?

大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据未来发展的趋势?

数据资源化:资源化是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。

与云计算的深度结合:大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一

科学理论的突破:随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新─轮的技术革命。

数据科学与数据联盟的成立:未来,数据科学将成为一门专门的学科,被越来越多的人所认知

数据泄露之滥

数据挖掘是什么?

数据挖掘是指从大量数据中通过算法搜索隐藏于其中信息的过程

数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘的特点

基于大量数据:小型数据可以人工分析总结规律,小数据量无法反应真实世界普遍特性

非平凡性:数据挖掘要发现深藏数据内部的知识,而不是直接浮

隐含性:数据挖掘要发现深藏数据内部的知识,而不是直接浮现在数据表面的知识

新奇性:挖掘的知识在以前是未知的,否则只是验证了经验

价值性:可以为企业带来直接间接的效益

数据挖掘步骤

1定义问题

2建立数据挖掘库

3分析数据

4准备数据

5建立模型

6评价模型和分析

数据挖掘经典算法

神经网络法

模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,它将每一个连接看作一个处理单元,试图模拟人脑神经元的功能,可完成分类、聚类、特征挖掘等多种数据挖掘任务

决策树法

决策树是根据对目标变量产生效用的不同而建构分类的规则,通过一系列的规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。比如,在贷款申请中,要对申请的风险大小做出判断。

遗传算法

遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。

粗糙集法

粗糙集法也称粗糙集理论,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。

模糊集法

模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高,模糊性就越强

关联规则法

关联规则反映了事物之间的相互依赖性或关联性。

数据仓库

从大量的事务型数据库中 提取数据,并清洗、转换为新的存储格式,即根据决策目标把数据聚集在一种特殊的格式中,这种支持决策的、特殊的数据存储称为数据仓库。

数据仓库的建立决策支持系统的基础。可以采用两层结构,也可以采用三层结构,就是在客户机/服务器模式的基础上,在中间加一个OLAP服务器,这个服务器作为应用服务器,执行数据过滤、聚集。

数据仓库的特点​​​​​​​

1. 主题性

数据仓库是一般从用户实际需求出发,将不同平台的数据源按设定主题进行划分整合,与传统的面向事务的操作型数据库不同,具有较高的抽象性。面向主题的数据组织方式,就是在较高层次对分析对象数据的一个完整、统一并一致的描述,能完整及统一地刻画各个分析对象所涉及的有关企业的各项数据,以及数据之间的联系。

2.集成性

数据仓库中存储的数据大部分来源于传统的数据库,但并不是将原有数据简单的直接导入,而是需要进行预处理。这是因为事务型数据中的数据一般都是有噪声的、不完整的和数据形式不统一的。这些“脏数据”的直接导入将对在数据仓库基础上进行的数据挖掘造成混乱。“脏数据”在进入数据仓库之前必须经过抽取、清洗、转换才能生成从面向事务转而面向主题的数据集合。数据集成是数据仓库建设中最重要,也是最为复杂的一步。

3.稳定性

数据仓库中的数据主要为决策者分析提供数据依据。决策依据的数据是不允许进行修改的。即数据保存到数据仓库后,用户仅能通过分析工具进行查询和分析,而不能修改。数据的更新升级主要都在数据集成环节完成,过期的数据将在数据仓库中直接筛除。

4.动态性

数据仓库数据会随时间变化而定期更新,不可更新是针对应用而言,即用户分析处理时不更新数据。每隔一段固定的时间间隔后,抽取运行数据库系统中产生的数据,转换后集成到数据仓库中。随着时间的变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求。当数据超过数据仓库的存储期限,或对分析无用时,从数据仓库中删除这些数据。关于数据仓库的结构和维护信息保存在数据仓库的元数据(Metadata)中,数据仓库维护工作由系统根据其中的定义自动进行或由系统管理员定期维护。

什么是元数据?

元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分成两类,即技术元数据业务元数据

技术元数据:数据仓库设计和管理人员用于开发和日常管理数据仓库时用的数据,包括数据源信息、数据转换的描述等等。

业务元数据是从单位业务的角度描述数据仓库中的数据,包括业务主题的描述、包含的数据、查询、报表等信息。

数据仓库和数据挖掘的关系

区别:

1、目的不同:

数据仓库是为了支持复杂的分析和决策。

数据挖掘是为了在海量的数据里面发掘出预测性的、分析性的信息多用来预测。

2、阶段不同:

数据仓库是数据挖掘的先期步骤,通过数据仓库的构建,提高了数据挖掘的效率和能力,保证了数据挖掘中的数据的宽广性和完整性。

3、处理方式不同:

数据挖掘是基于数据仓库和多维数据库中的数据找到数据的潜在模式进行预测,它可以对数据进行复杂处理。大多数情况下,数据挖掘是让数据从数据仓库到数据挖掘数据库中。

联系:

1、数据仓库是为了数据挖掘做预准备,数据挖掘可建立在数据仓库之上。

2、最终目的都为了提升企业的信息化竞争能力。

描述实时数据库

实时数据库是采用实时数据模型建立起来的数据库,用于处理不断更新的快速变化的数据及具有时间限制的事务处理。实时数据库技术是实时系统和数据库技术相结合的产物,利用数据库技术来解决实时系统中的数据管理问题,同时利用实时技术为实时数据库提供时间驱动调和资源分配算法。主要应用于工业监控,如:电力、石化、化工、钢铁、冶金、造纸、交通控制和证券金融等工业领域的监控。

时间约束实时数据库是其数据和事务都有明确的时间限制的数据库。在实时系统中,具有时间约束的数据主要是来自于外部的动态数据,以及由这些数据求导出的新的数据。数据库中的数据必须如实反映现场设备的运行情况。

事务调度:实时数据库系统的正确性不仅依赖于事务的逻辑结果,而且依赖于该逻辑结果所产生的时间。事务调度既要考虑事务的执行时间,也要考虑事务的截止期、紧迫程度等因素。

数据存储:实时数据库主要承担系统所有实时数据的存储和管理,为相关的功能提供快速、正确的实时信息。为了达到实时性,实时数据库在系统运行过程中,应常驻内存,以保证读取速度。对于实时性要求不高的数据可存放在外存储空间。因此,在实时数据库设计时,要妥善处理时间与存储空间的矛盾,以保证系统的实时性。

数据在线压缩:在实际的数据存储中,实时数据库还要解决如何高效处理海量数据的问题。如果数据被原封不动地存储势必需要大量内存和磁盘空间以及耗费大量的时间,因此必须对实时数据进行在线压缩存储。

什么是云计算?

狭义上讲,云计算就是一种提供资源的网络,从广义上说,云计算是与信息技术、软件、互联网相关的一种服务,这种计算资源共享池叫做"云",云计算把许多计算资源集合起来,通过软件实现自动化管理,只需要很少的人参与,就能让资源被快速提供。

特点虚拟化技术 、动态可拓展 、按需部署 、可靠性高 、灵活性高 、性价比高、可拓展性
服务类型: 1、基础设施即服务  2、平台即服务  3、软件即服务

人工智能?

人工智能(Artificial Intelligence),英文缩写为Al。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科。

应用 : 机器视觉,指纹识别,人脸识别,专家系统,自动规 划,智能搜索,定理证明,博弈,语言和图像理解 等。人工智能是一门边缘学科,属于自然科学和社会科学的交叉。

弱人工智能时代

弱人工智能观点认为不可能制造出能真正地推理( REASONING)和解决问题(PROBLEM_  SOLVING)的智能机器,这些机器只不过看起来像 是智能的,但是并不真正拥有智能,也不会有自主意 识。主流科研集中在弱人工智能上,并且一般认为这 一研究领域已经取得可观的成就。强人工智能的研究 则处于停滞不前的状态下。

强人工智能时代

强人工智能观点认为有可能制造出真正能推理( REASONING)和解决问题(PROBLEM_
SOLVING)的智能机器, 并且,这样的机器能将被 认为是有知觉的,有自我意识的。强人工智能可以有 两类:
类人的人工智能,即机器的思考和推理就像人 的思维一样。
非类人的人工智能,即机器产生了和人完全不一样的 知觉和意识,使用和人完全不一样的推理方式。
​​​​​​​
 

区块链

区块链是分布式数据存储、点对点传输、共识机制、 加密算法等计算机技术的新型应用模式。

区块链起源于比特币,是一个信息技术领域的术语。 从本质上讲,它是一个共享数据库,存储于其中的数 据或信息,具有“不可伪造”“全程留痕”“可以追溯”“公 开透明”“集体维护”等特征。基于这些特征,区块链 技术奠定了坚实的“信任“基础,创造了可靠的“合作” 机制,具有广阔的运用前景。

大数据复试面试总结(二)前沿技术相关相关推荐

  1. 大数据复试面试问题总结(一)

    前沿技术的相关知识--------加油!!!搏一搏 大数据的特征? IBM 提出大数据具有 5V 特点,分别为:Volume(大量).Velocity(高速).Variety(多样).Value(低价 ...

  2. 高性能计算系统——大数据/快速数据分析中的高性能技术

    大数据/快速数据分析中的高性能技术 高性能计算的目的是为了数据密集型以及处理密集型的工作实现少费而多用的目标.计算机.存储设备和网络解决方案也相应变得高性能和可扩展. 高通量计算(HTC)同高性能计算 ...

  3. 大数据学长面试之boss直聘面试题

    大数据学长面试之boss直聘面试题 1)技术部分 (1)hadoop二次排序 (2)小表关联大表怎么实现的|切片,shuffle,reduce阶段,map阶段,Yarn流程 (3)combiner使用 ...

  4. Interview:人工智能大数据岗位面试—【数据分析师】的简介、技能、待遇、进阶的详细攻略

    Interview:人工智能&大数据岗位面试-[数据分析师]的简介.技能.待遇.进阶的详细攻略 目录 数据分析师的简介 1.网友经验之谈 数据分析师的待遇 数据分析师的技能 数据分析师进阶 数 ...

  5. 阿里巴巴计算平台资深技术专家“一浪”对大数据领域近几年的技术趋势和变化的看法【强烈推荐数据岗细细品!】

    导读:计算和存储分离是近几年大数据架构领域颇受关注的一个技术风向.在对刚刚过去的 2019 天猫双 11 技术进行总结时,阿里巴巴 CTO 行癫也特别提到了阿里在计算存储分离上的进展.大数据最初兴起之 ...

  6. 大数据建模、分析、挖掘技术应用研修班的通知

    --- 关于举办 2021年数字信息化培训项目系列 --- 大数据建模.分析.挖掘技术应用研修班的通知 各企事业单位: 随着2015年9月国务院发布了<关于印发促进大数据发展行动纲要的通知> ...

  7. ApacheCN 大数据译文集(二) 20211206 更新

    Hadoop3 大数据分析 零.前言 一.Hadoop 简介 二.大数据分析概述 三.MapReduce 大数据处理 四.基于 Python 和 Hadoop 的科学计算和大数据分析 五.基于 R 和 ...

  8. SQL Server 大数据群集 部署(二)工具篇

    SQL Server 大数据群集 部署(二)工具篇 在进行部署大数据群集之前,先要安装一系列的工具,下表列出了常用的大数据群集工具以及如何安装它们: 工具 Required Description 安 ...

  9. 大数据开发笔记(二):Yarn分布式集群操作系统

      ✨大数据开发笔记推荐: 大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试​本文详细介绍大数据hadoop生态圈各部分知识,包括不限于hdfs.yarn.mapreduce.h ...

最新文章

  1. 汉诺塔(三)_栈的应用
  2. 突发!微信官方证实:“绞杀”了刷量平台
  3. 论jquery与vuejs结合时的部分问题
  4. 交货单批次拆分(BAPI_OUTB_DELIVERY_CHANGE )并更改拣配数量,发货过账(WS_DELIVERY_UPDATE)
  5. MFC复选框CheckBox使用
  6. use regular expression instead of ABAP function module to parse attachment
  7. 算法:转换二叉查找树为最大值加上当前值的数Convert BST to Greater Tree
  8. 智钜科技解读:单轨,双轨,多轨,三三复制的区别
  9. html小米秒杀倒计时,JavaScript_JQuery仿小米手机抢购页面倒计时效果,1、效果及功能说明 通过对时 - phpStudy...
  10. “小米汽车”商标被纺织品公司抢注
  11. mac菜单栏设置教程
  12. FPGA学习日志——半加器half_adder
  13. 关于最新版mumu模拟器(2.2.16)安装xposed框架
  14. 通过拼音模糊搜索汉字的功能实现
  15. (附源码)计算机毕业设计SSM流浪动物管理系统
  16. 教育行业一般用什么邮箱,教育邮箱推荐
  17. windows和linux下简单的软件级调整相机曝光时间(或其他参数)的方式
  18. Excel常用函数(一)
  19. 小安安日本文化行16 母亲节
  20. 将 Linux 移植到 M1 Mac 真的太难了!

热门文章

  1. Mysql 数据库(一)
  2. C/C++段错误问题排查和解决方法
  3. python提取txt关键内容_python爬取关键字所在行并输出到txt
  4. XSS能有什么危害?
  5. 软件测试基础面试常问问题(三)
  6. go语言的ini文件配置读取
  7. 深圳大学计算机博士好考吗,深圳大学在职博士好考吗?
  8. Markdown基本语法笔记
  9. 苏州大学信息与通信工程837考研上岸经验分享
  10. 利用公交刷卡数据分析北京职住关系和通勤出行