文章讲的是孟小峰:大数据管理系统的发展与机遇,2016年5月12日-14日,第七届中国数据库技术大会(DTCC 2016)在北京国际会议中心拉开帷幕。作为国内数据库与大数据领域最大规模的技术盛宴,在为期三天的会议中,大会将围绕MySQL、NoSQL、Oracle、缓存技术、云端数据库、智能数据平台、大数据安全、数据治理、大数据和开源、大数据创业、大数据深度学习等领域的前瞻性热点话题与技术展开深入探讨,并邀请一大批国内顶尖的技术专家来进行分享,以满足广大从业人士和行业用户的迫切需要。

  本届是大会创办以来,规模最大,参会人次、参展合作伙伴最多的一次盛会,云集了来自五湖四海的5000余名IT精英,相聚在这里,共话数据库技术发展潮流,共赴大数据浪潮之巅。今天,来到了大会的第二天,主题为“聚焦大数据+引领行业变革”,中国人民大学信息学院教授孟小峰进行了题为《大数据管理系统的发展与机遇》主题演讲。


▲中国人民大学信息学院教授 孟小峰

  大数据的提出

  计算机未来15年内写作90%的新闻,未来5年获普利策奖。--克里斯蒂安·哈蒙德

  孟老师举例表示,在已故的Jim Gray《事务处理》一书中提到:6000年以前,苏美尔人就使用了数据记录的方法,已知最早的数据是写在土块上,上面记录着皇家税收、土地、谷物、牲畜、奴隶和黄金等情况。19世纪后期,打孔卡片出现,用于1890年美国人口普查,用卡片取代土块,使得系统可以每秒查找或更新一个“土块”(卡片)。可见,用数据记录社会由来已久,而数据的多少和系统的能力是与当时的社会结构的复杂程度和生产力水平密切相关的。

  数据的来源来自两个“社会”,物理社会和网络社会,从现实社会发展到虚拟社会,互联网、云计算、物联网的发展让数据量有了质的提高。同时,数据产生的方式也在发生转变。具体分三类:

  运营式系统--数据源是被动产生:数据规范,有秩序,强调数据的一致;

  互联网系统--数据源是主动产生:数据结构复杂,无秩序,不强调数据的一致性或只强调弱一致性;

  感知式系统--数据源是自动产生:数据呈现多源异构、分布广泛、动态演化等。

  孟老师总结表示,大数据的理解可以总结为更细(数据记录的“粒度”更加细致,由粗粒度到细粒度的转变、由企业信息到个人信息转变)、更广(数据记录的“广度”更为宽泛,多源异构的数据源普遍存在、数据的关联、交叉、融合更为迫切)、更密(数据记录的“密度”连续不断,由静态描述到动态描述的转变、由简单分析到复杂分析的转变),传统的信息系统是先有模式后有数据。

  大数据的管理

  由模式到数据,数据库能帮助普通用户组织、存储、查询数据,并提供已知问题的简单分析;由数据到知识,数据湖能帮助普通用户收集数据、发现关联关系,并提供未知问题的复杂分析。

  据孟老师介绍,大数据管理基本问题包括大数据管理理论和方法 大数据集成:如大数据分析、大数据计算、大数据可视化、大数据隐私管理;

  大数据管理系统和技术包括如,大数据编程语言、大数据编译技术、大数据生态系统(分布、众包、实时等);

  面向新型存储器件的大数据管理包括如,新型体系结构、高效存储系统(齿轮式存储I/O=》火箭式存储)、高效节能;

  大数据应用“三要素”

  “大数据”关联和融合凝聚成“大知识”,促成开发“大应用”

  针对大数据隐私管理的问题上,孟老师表示:“大数据隐私管理的总体目标是基于数据管理理念和方法开展相关研究,具体包括如下三点:为大数据的应用提供技术支撑、为那些悬而未决的隐私挑战寻找方法、给公开数据的政府、企业和个人一个定心丸,保证国家安全底线。”

  大数据的生态系统

  大数据管理系统分类

  数据处理模式包括:批处理模式、流处理模式、混合处理模式。

  关于大数据的四大思考 今天做的还远远不够

  思考一:大数据的局限性,过去几十年人类可以量化的数据增长确实惊人,但人类无法量化的“数据”更为庞大,全世界的数据加起来也无法让机器理解爱、悲伤或恐惧。

  思考二:新的产业尚未出现

  思考三:如何不被大数据误导

  思考四:AI?VR?AR?DB?

  写在最后,孟老师引用了陈寅恪先生的话作为总结:“ 一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。治学之士,得预于此潮流者,谓之预流(借用佛教初果之名)。其未得预者,谓之未入流。”

  对今天的信息技术而言,“新材料”即为大数据,而“新问题”则是产生于“新材料”之上的新的应用需求。

作者: 陶然 

来源:IT168

原文链接:孟小峰:大数据管理系统的发展与机遇

孟小峰:大数据管理系统的发展与机遇相关推荐

  1. 孟小峰:大数据管理与数据思维

    2019独角兽企业重金招聘Python工程师标准>>> 孟小峰:大数据管理与数据思维 大数据的规模效应给数据存储.管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生 ...

  2. 《大数据》第1期“研究”——大数据管理系统评测基准的挑战与研究进展(下)...

    4 BSMA:面向社交媒体数据分析型查询的基准评测 4.1 BSMA框架 BSMA是一个社交媒体数据分析型查询评测基准[8,9],它包含了社交媒体数据的形式化描述规范和一个真实的社交媒体数据集,定义了 ...

  3. 听孟小峰教授报告有感

    今天下午在太原理工大学听取了孟小峰教授的报告,报告的题目为:云计算与大数据. 孟小峰教授是中国人民大学信息学院的副院长,在大数据领域带领其团队已经有了数年的积累,对于什么是大数据以及大数据的意义有着自 ...

  4. 交通行业大数据应用和发展现状

    摘要:智能交通产业是现代IT技术与传统交通技术相结合的产物,而交通大数据产业是大数据技术在智能交通领域内的应用产业. 随着社会经济的快速发展.城市规模的不断扩大以及城市智能化进程的加快,机动车拥有量及 ...

  5. 水产养殖结合物联网、大数据等技术发展

    自动化技术.信息技术等高新技术的不断发展,开启了人们对高新技术在不同应用领域的探索,智能化生产不仅适用于工业,对于我国农业发展也有着推动作用.进入21世纪以来,我国对于水产养殖行业所应用的水质传感技术 ...

  6. 大数据审计的发展_从历史的角度看大数据审计发展

    龙源期刊网 http://www.qikan.com.cn 从历史的角度看大数据审计发展 作者:欧阳双 来源:<中小企业管理与科技 · 上旬刊> 2019 年第 08 期 [摘 要]党的十 ...

  7. 《大数据》第1期“研究”——大数据管理系统评测基准的 挑战与研究进展(上)...

    大数据管理系统评测基准的挑战与研究进展 钱卫宁,夏 帆,周敏奇,金澈清,周傲英 华东师范大学数据科学与工程研究院 上海 200062 摘要:数据库评测基准在数据库发展历史中的作用不可替代,而大数据环境 ...

  8. 上海推进大数据研究与发展三年行动计划(2013-2015年)

    发布时间:2013-07-12 前言 在国家和上海市"十二五"科技发展规划及<上海市中长期科学与技术发展规划纲要>指导下,上海市科学技术委员会通过近一年时间的充分调研和 ...

  9. 中国 软件与计算机 清华 教授,中国人民大学信息学院计算机软件与理论导师介绍:孟小峰...

    近期论文: 1.X. Pan, J. Xu, X. Meng: Protecting Location Privacy Against Location-dependent Attack in Mob ...

  10. 盘古开源:构建“1468”发展体系,推动“十四五”大数据产业创新发展

    近期,工信部印发了<"十四五"大数据产业发展规划>(以下简称<规划>).<规划>立足大数据的本质特征,聚力数据要素价值释放,从治理.技术和融合应 ...

最新文章

  1. c 自定义实现string类 clear_基于scala2.13实现自定义的集合类 (下)
  2. 产品设计体会(3000)项目与文档,系列说明
  3. 《世界是数字的》读后感
  4. Zabbix的web界面基本操作
  5. Swagger扩展为你添油加气
  6. const iterator 和const_iterator的区别
  7. IOS 打包后安装崩溃,debug正常运行
  8. petshop 中的 cache机制
  9. git 远程删除分支之后 本地分支更新后还在
  10. 政企用户网络安全常见风险盘点
  11. [翻译]XNA 3.0 Game Programming Recipes之six
  12. 详解什么是软件企业认定
  13. 啤酒和饮料,切面条(python)
  14. mysql最高平均工资_mysql查询出平均工资最高的部门编号
  15. 电脑C盘满了有什么影响?如何正确清理C盘?
  16. [Darktable]dt源码分析(未完)
  17. html中h3字体不加粗取消,css如何取消加粗
  18. 思岚发布新品TOF激光雷达——RPLIDAR S1 性能更强、更稳定
  19. 蓝桥杯单片机之LED模块的使用(十六进制)以及关闭蜂鸣器(关闭外设)
  20. ajax请求后新窗口打开,Ajax请求成功后打开新窗口地址

热门文章

  1. Undefined symbols for architecture i386的错误
  2. jTemplate —— 基于jQuery的javascript前台模版引擎
  3. ExcelHelper代码
  4. LightOJ-1054 Efficient Pseudo Code
  5. 如何从一段视频中一次性修整多个片段
  6. 教你正确设置CrossOver的Wine配置(三)
  7. 关于SSMS显示select出来的数据行的疑问
  8. Python零基础入门学习 作者:小甲鱼
  9. 达梦数据库存储过程调用
  10. 转载 - LINUX下查看CPU使用率的命令