“大数据”一词时下的热门程度无需赘言,这一两年来互联网相关的任何活动、会议必不可少“大数据”板块。刚刚结束的第13届“中国互联网大会”也专设了大数据论坛。
对于任何一个大数据的从业者或初接触者,或许都会有个共同的感触:大数据很有用!

大数据该怎么用?

关于大数据的著作和文章铺天盖地,似乎也共同在传递一个信息:越来越多的行业、人士开始关注并实际探索大数据的应用,我们正在一起描绘着大数据巨大效用的蓝图,但在实践的路上,我们都还在起步阶段小步前行。

大数据根基于互联网,数据仓库、数据挖掘、云计算等互联网技术的发展为大数据的应用奠定了基础。然而实践应用尚处于在探索中前进。同样作为探索学习,我想从我个人的理解角度,分享并与大家探讨四个问题:大数据是什么?大数据可以做什么?大数据实际做了什么?大数据要怎么做?

首先,大数据是什么?

引用3个比较常用的大数据定义:

(1)需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

(2)海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。

(3)或称巨量数据、海量数据、大资料,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

其他关于大数据的定义也大抵类似,我们可以用几个关键词对大数据做一个界定。

首先,“规模大”,这种规模可以从两个维度来衡量,一是从时间序列累积大量的数据,二是在深度上更加细化的数据。

其次,“多样化”,可以是不同的数据格式,如文字、图片、视频等,可以是不同的数据类别,如人口数据,经济数据等,还可以有不同的数据来源,如互联网、传感器等。

第三,“动态化”。数据是不停地变化的,可以随着时间快速增加大量数据,也可以是在空间上不断移动变化的数据。

这三个关键词对大数据从形象上做了界定。

**但还需要一个关键能力,就是“处理速度快”。**如果这么大规模、多样化又动态变化的数据有了,但需要很长的时间去处理分析,那不叫大数据。从另一个角度,要实现这些数据快速处理,靠人工肯定是没办法实现的,因此,需要借助于机器实现。

最终,我们借助机器,通过对这些数据进行快速的处理分析,获取想要的信息或者应用的整套体系,才能称为大数据。

我们可以用下面的图示给大数据定义:

对大数据概念有了界定后,那大数据可以做什么呢?

想要应用大数据,从流程上来说,大概是这样。

首先我们要有数据源,然后对数据进行收集和存储,在这基础上,再进行分析和应用,形成我们的产品和服务,而产品和服务也会产生新的数据,这些新数据会循环进入我们的流程中。

当这整个循环体系成为一个智能化的体系,通过机器可以实现自动化,那也许就会成为一种新的模式,不管是商业的,或者是其他。

然后具体到实际的应用中,我认为,大数据能够实现的应用,可以概括为两个方向,一是精准化定制,二是预测。

首先,精准化定制。

主要是针对供需两方的,获取需方的个性化需求,帮助供方定准定位目标,然后依据需求提供产品,最终实现供需双方的最佳匹配。

具体应用举例,也可以归纳为三类。

一是个性化产品,比如智能化的搜索引擎,搜索同样的内容,每个人的结果都不同。或者是一些定制化的新闻服务,或者是网游等。

第二种是精准营销,现在已经比较常见的互联网营销,百度的推广,淘宝的网页推广等,或者是基于地理位置的信息推送,当我到达某个地方,会自动推送周边的消费设施等。

第三种是选址定位,包括零售店面的选址,或者是公共基础设施的选址。

这些全都是通过对用户需求的大数据分析,然后供方提供相对定制化的服务。

应用的第二个方向,预测。

预测主要是围绕目标对象,基于它过去、未来的一些相关因素和数据分析,从而提前做出预警,或者是实时动态的优化。

从具体的应用上,也大概可以分为三类。

一是决策支持类的,小到企业的运营决策,证券投资决策,医疗行业的临床诊疗支持,
以及电子政务等。

二是风险预警类的,比如疫情预测,日常健康管理的疾病预测,设备设施的运营维护,公共安全,以及金融业的信用风险管理等。

第三种是实时优化类的,比如智能线路规划,实时定价等。

以上呢,是各种文献资料里,对于大数据可以用来做什么的一些畅想,事实上也许大数据可以做的事情,可以扩展到方方面面。

但是,我们再看现实中,大数据实际应用到了什么程度呢?

我认为,目前大数据真正实现了商业化的应用,只有一种,就是互联网营销。

其他我们前面列举的方向,会有些初步的应用,但基本都还停留在探索的阶段。比如疫情预测,无抵押信用贷款等,对于准确性、精细度、可推广性等方面还有待推敲。

造成大数据实际应用与目标蓝图之间差距的主要原因是什么,我认为是数据源的问题。
你必须先获得数据,然后才能应用数据。

因此,数据的可获取性,成为大数据在具体行业应用性评价的一个重要维度。

可以从数据的标准化、开放性和集中度几个维度衡量数据可获取性

同时,获取了数据之后,在应用数据方面,可以从大数据应用的潜在价值维度来衡量,包括效率的提升、成本降低或者是新模式的产生。

此外,还可以从大数据行业应用的可复制/推广性的角度来衡量,不仅包括在本行业内的推广,同时也包括跨行业的推广性。

从三个维度,我个人对大数据在各行业应用的可能性做了一个定位,但这个定位还是非常定性和粗略的,具体可能还需要对行业有更多的大数据应用的探讨和探索。

浅谈什么是大数据?大数据可以做什么?相关推荐

  1. 如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析

    浅谈 Python 爬虫技术的网页数据抓取与分析 吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...

  2. 一起谈.NET技术,浅谈如何使用.NET存储XML数据

    XML Bulk Load和Updategrams,这两种客户端技术使用带有注解的大纲指定XML文档内容和数据库的表之间的映射:OpenXML是一种服务器端技术,它允许你在XML文档上定义关系视图,有 ...

  3. 浅谈电信运营商的大数据应用探索

    如<大数据时代>作者迈尔-舍恩伯格所说,"大数据开启了一次重大的时代转型.--大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正在蓄势待发.&q ...

  4. 浅谈阀控型铅酸蓄电池在数据中心的应用与日常管理

    一.安装环境及配套设施 阀控型铅酸蓄电池安放位置各单位因设计及空间方面原因各不相同,经走访多个机房发现,有的蓄电池和 UPS 及直流设备在同一机房,有的单独设 蓄电池间安放.但以下几个方面应引起设计和 ...

  5. 【原创】浅谈在探索数分之路上“数据思维”培养

    数据说·思维季 真正成熟的人,看得清自己,做得出选择,付得起成本,担得起责任. 前言 我们上篇内容,从广泛的意义上出发,简单梳理了数据思维在工作上基本应用范围以及如何应用,不同行业有不同的情况或者属性 ...

  6. 浅谈网络代理的两大分类和简单实现

    目录 ●代理是什么 ●正向代理 ●正向代理服务器的简单实现 ●反向代理 ●反向代理服务器的简单实现 ●小结 ●代理是什么 代理一词在不同语境有不同的含义.汉语中的解释是"暂时代人担任某单位的 ...

  7. vue中级联选择器回填_浅谈Vue使用Cascader级联选择器数据回显中的坑

    业务场景 由于项目需求,需要对相关类目进行多选,类目数据量又特别大,业务逻辑是使用懒加载方式加载各级类目数据,编辑时回显用户选择的类目. 问题描述 使用Cascader级联选择器过程中主要存在的应用问 ...

  8. 【JAVAEE框架】浅谈 Spring 框架的两大核心思想 AOP 与 IOP

    哈喽~大家好呀,这篇来看看Spring 框架的两大核心思想.

  9. 浅谈远心镜头选择十大参数

    远心镜头(Telecentric)是为纠正传统镜头视差而设计的一种高端光学镜头,相比一般镜头而言,它在放大倍率.畸变.视差.解析度等方面都具有绝对优势.下面我们来说说远心镜头选择的十大参数. 参数一: ...

  10. 浅谈CGI程序与web间数据交互

    CGI是通用网关接口的简称,通过CGI可实现客户端浏览器与服务器之间数据的交互. CGI通信系统由显示在前端的HTML页面以及运行在服务端上的cgi程序组成.web客户端显示的是相关的html文件,这 ...

最新文章

  1. HDU 5821 Ball
  2. 总结:一款Loading动画的实现思路
  3. linux内存管理策略,Glibc内存管理—ptmalloc内存分配策略(1)
  4. MySQL数据的备份与还原实现步骤
  5. 达人探店小程序全套源码
  6. mysql存储过程split_mysql存储过程实现split示例
  7. oracle truncate闪回数据库恢复
  8. js 获取html文字颜色,js获得网页背景色和字体色的方法
  9. fiddler模拟不同的IP
  10. Go 2提上日程,官方团队呼吁社区给新特性提案提交反馈
  11. java 多线程和spring之间的坑
  12. WannaCry不相信眼泪 它需要你的安全防御与响应能力
  13. 二阶矩阵特征值与特征向量的计算matlab程序(可指定计算精度)
  14. Jvm与DVM与ART
  15. 博客园添加导航目录(转)
  16. 软件测试模型 — 测试金字塔
  17. 手把手教你如何在Facebook上找客户——实战分享
  18. 运算放大器:电压比较器、电压跟随器、同相比例放大器
  19. win10没有默认的邮件客户端
  20. 服务器win2003虚拟内存设置,winxp、win2003最正确的设置虚拟内存方法WEB服务器 -电脑资料...

热门文章

  1. Far planner之 障碍物的图搜索
  2. python seek使用_Python seek()用法及代码示例
  3. peer channel create解析
  4. 华为认证工程师HCNE培训资料
  5. 基于环信的开源即时通讯项目
  6. TOEFL wordlist 24
  7. session 对象的绑定、解绑和钝化、活化
  8. IDEA 报错 LoggerFactory is not a Logback LoggerContext but Logback is on the classpath,如何排除依赖冲突
  9. 计算机英语 单词1-100
  10. (Android+Qt最小系统设计方案)RK3288核心板设计之软件开发环境搭建(4.0)