大数据学习第一章:初识大数据
大数据学习第一章:初识大数据
- 一 、大数据基本概念
- 1.1大数据概念
- 1.2大数据的特点
- 1.3 大数据应用
- 1.4 大数据发展前景
一 、大数据基本概念
1.1大数据概念
指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新模式才能具有更强大的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产。主要解决,海量数据的存储和海量数据的分析计算问题
1.2大数据的特点
1、大量。大数据的特征首先就体现为“大”,从先Map3时代,一个小小的MB级别的Map3就可以满足很多人的需求,然而随着时间的推移,存储单位从过去的GB到TB,乃至现在的PB、EB级别。随着信息技术的高速发展,数据开始爆发性增长。社交网络(微博、推特、脸书)-、移动网络、各种智能工具,服务工具等,都成为数据的来源。淘宝网近4亿的会员每天产生的商品交易数据约20TB;脸书约10亿的用户每天产生的日志数据超过300TB。迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。
2、多样。广泛的数据来源,决定了大数据形式的多样性。任何形式的数据都可以产生作用,目前应用最广泛的就是推荐系统,如淘宝,网易云音乐、今日头条等,这些平台都会通过对用户的日志数据进行分析,从而进一步推荐用户喜欢的东西。日志数据是结构化明显的数据,还有一些数据结构化不明显,例如图片、音频、视频等,这些数据因果关系弱,就需要人工对其进行标注。
3、高速。大数据的产生非常迅速,主要通过互联网传输。生活中每个人都离不开互联网,也就是说每天个人每天都在向大数据提供大量的资料。并且这些数据是需要及时处理的,因为花费大量资本去存储作用较小的历史数据是非常不划算的,对于一个平台而言,也许保存的数据只有过去几天或者一个月之内,再远的数据就要及时清理,不然代价太大。基于这种情况,大数据对处理速度有非常严格的要求,服务器中大量的资源都用于处理和计算数据,很多平台都需要做到实时分析。数据无时无刻不在产生,谁的速度更快,谁就有优势。
4、价值。这也是大数据的核心特征。现实世界所产生的数据中,有价值的数据所占比例很小。相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,发现新规律和新知识,并运用于农业、金融、医疗等各个领域,从而最终达到改善社会治理、提高生产效率、推进科学研究的效果。
1.3 大数据应用
从证券行业到医疗领域,越来越多公司意识到大数据的重要性。2015年Gartner调查显示,超过75%的公司正在投资或计划在未来两年内投资大数据。而在2012年进行的类似调查中,仅有58%的公司在未来两年内计划投资大数据。
增强客户体验、降低成本、精准营销以及提高流程效率、数据安全是公司关注大数据的主要目的。本文将研究正在使用大数据的10个垂直行业及面临的挑战,以及大数据如何解决这些难题。
1 银行和证券
挑战:
通过对10家投行券商的16个项目的研究表明,该行业面临的挑战包括:证券欺诈预警、蜱虫分析、检测卡片欺诈、审计跟踪档案、企业信用风险报告、贸易可视性、客户数据转换、用于交易的社交分析、IT运营分析和IT策略合规性分析等。
应用:
证券交易委员会(SEC)正在使用大数据网络分析和自然语言处理器来捕捉金融市场中的非法交易活动。
商业银行,对冲基金和其他金融公司在高频交易的交易分析,交易前的决策支持分析,情绪测量,预测分析等方向使用大数据。
该行业还严重依赖大数据进行风险分析,这其中包括:反洗钱,企业风险管理,客户画像,以及减少欺诈行为等。
2 通讯,媒体和娱乐
挑战:
每个观众消费着不同形式的娱乐,以及不同的娱乐设备,因此通信,媒体和娱乐行业正面临以下大数据挑战:
1 收集,分析和利用消费者习惯
2 利用移动和社交媒体内容
3 实时追踪媒体内容使用形式
应用:
公司同时分析客户数据和行为数据,以创建详细的客户档案,可用于:
1 个性化定制内容
2 按需推荐内容
3 衡量内容结果
一个典型的例子是国外视频网站YouTube上的温网比赛,它利用大数据实时向电视、移动和网络用户提供网球比赛的详尽的情感分析。亚马逊Prime大量使用大数据,在一站式商店提供视频,音乐和Kindle书籍来提供卓越的客户体验。
1.4 大数据发展前景
大数据技术目前正处在落地应用的初期,从大数据自身发展和行业发展的趋势来看,大数据未来的前景还是不错的,具体原因有以下几点:
第一:大数据自身能够创造出更多的价值。大数据相关技术紧紧围绕数据价值化展开,数据价值化将开辟出广大的市场空间,重点在于数据本身将为整个信息化社会赋能。随着大数据的落地应用,大数据的价值将逐渐得到体现。目前在互联网领域,大数据技术已经得到了较为广泛的应用。
第二:大数据推动科技领域的发展。大数据的发展正在推动科技领域的发展进程,大数据的影响不仅仅体现在互联网领域,也体现在金融、教育、医疗等诸多领域。在人工智能研发领域,大数据也起到了重要的作用,尤其在机器学习、计算机视觉和自然语言处理等方面,大数据正在成为智能化社会的基础。
第三:大数据产业链逐渐形成。经过近些年的发展,大数据已经初步形成了一个较为完整的产业链,包括数据采集、整理、传输、存储、分析、呈现和应用,众多企业开始参与到大数据产业链中,并形成了一定的产业规模,相信随着大数据的不断发展,相关产业规模会进一步扩大。
第四:产业互联网将推动大数据落地。当前互联网正在经历从消费互联网向产业互联网过渡,产业互联网将利用大数据、物联网、人工智能等技术来赋能广大的传统产业,可以说产业互联网的发展空间非常大,而大数据则是产业互联网发展的一个重点,大数据能否落地到传统行业,关乎产业互联网的发展进程,所以在产业互联网阶段,大数据将逐渐落地,也必然落地。
通过以上分析可以得出,未来大数据领域的发展空间还是比较大的,而且目前大数据领域的人才缺口比较大,所以从就业的角度来说,当前学习大数据相关知识是个不错的选择。
大数据学习第一章:初识大数据相关推荐
- 大数据学习笔记一:大数据的发展历程--MapReduce,Hive,Yarn,Hadoop,Spark,Flink
大数据学习系列文章:大数据-博客专栏 今天在学习极客时间专栏:<从0开始学大数据> 从预习 01 | 大数据技术发展史:大数据的前世今生到预习 03 | 大数据应用领域:数据驱动一切,系统 ...
- 第一章 初识OpenHarmony
序言 本书以3W1H教学法对每个知识点进行多维度介绍,笔者认为这样写更符合人类对新知识的学习.本书以教学场景续写,一章为半天知识点. 本书读者对象 阅读本书您需要具备html.css.js基础知识,所 ...
- c生万物【第一章 初识c语言】
c生万物---第一章 初识c语言 前言 1.什么是C语言 2.第一个C语言程序 3.数据类型 4.变量.常量 4.1定义变量的方法 4.2变量的分类 4.3变量的使用 4.4 变量的作用域和生命周期 ...
- Cocos2d-x 3.0 红孩儿私家必修 - 第一章 初识Cocos2d-x 3.0工程
Cocos2d-x 3.0 红孩儿私家必修 前言: 时光飞逝,每每看到博客上的回复和微博上的鼓励,总会觉得亏欠大家点什么.停下来太久,总是觉得不太对劲,哈哈,时习之吧,望以此勉励大家. 红孩儿C ...
- 第一章 初识EmguCV
第一章 初识EmguCV 1.1 EmguCV的基本介绍 1.1.1 计算机视觉.OpenCV和EmguCV 计算机视觉是一门研究如何使机器"看"的科学,更进一步的说,就是是指用摄 ...
- 《HBase 不睡觉》第一章 - 初识 HBase
<HBase 不睡觉书>是一本让人看了不会睡着的HBase技术书籍,写的非常不错,为了加深记忆,决定把书中重要的部分整理成读书笔记,便于后期查阅,同时希望为初学 HBase 的同学带来一些 ...
- 《起跑吧,Opa》 -- 中译本 第一章 初识Opa
第一章 初识opa 本章,你将初识opa.你将学习如何安装Opa,编写opa程序以及熟悉Opa开发周期中的各个步骤. 安装opa 需要你预先从opa网站(http://opalang.org/)下载适 ...
- 第一章 初识HTML
第一章 初识HTML 学习HTML: 开发网页.微信小程序.跨端界面开发.web游戏 hyper text markup language 超文本标记语言 网页的源码,解释和执行 w3c:万维网联盟/ ...
- 第一章 初识Docker
第一章 初识Docker 1.1 什么是Docker Docker开源项目 Docker是基于Go语言实现的云开源项目,诞生于2013年初,最初发起者是dotCloud公司.Docker自开源后受到广 ...
- 第一章 初识Mathematica
第一章 初识Mathematica 1.Mathematica是什么 Matematica是由美国Wolfram公司研究开发的一个著名的数学软件,它提供了非常强大的功能,能够完成符号运算.数学图 ...
最新文章
- 某月某日前包括当天吗_创恒国际投资平台介绍股票交易制度:股票是否可以当天买?当天卖?...
- java linux urlencode_iOS urlEncode编码解码(非过时方法,已解决)
- Python基本数据类型之整型
- 搭建基础架构-Page
- 安卓qpythonttsspeak_当python遇到Android手机 那么,万物皆可盘
- linux 查看登入记录_无时无刻,用 SimplyBook.me 管理者 App 查看客户预约排程!
- c++ 获得linux进程内存大小,C/C++获取进程常驻内存大小(get the process resident set size )...
- python数据分析-Python数据分析:可视化
- 归并排序(递归实现+非递归实现+自然合并排序)
- Django安装与开发虚拟环境搭建01
- Delphi中使用ReportMachine 6.5中汇总行不进行汇总的设置问题
- 鼎捷鼎新E10ERP软件介绍及资料
- 可见光通信在室内定位及IoT上的应用展示
- python控制qq添加好友_QQ增粉秘籍:QQ添加好友被限制 突破规则日增粉1000+
- 功能强大特别的5款浏览器,简直好用极了
- 双屏显示 鼠标不能从左侧滑入右侧竖屏
- LPS:美国国防部参与研发的操作系统
- 洛谷——P7583 [COCI2012-2013#1] DOM(java实现)
- 通过howler.js实现在Android下的微信浏览器自动播放音频
- 解决:com.mysql.cj.exceptions.InvalidConnectionAttributeException: The server time zone value '�й���ʱ�