本文整理自DTCC2016主题演讲内容,录音整理及文字编辑IT168@ZYY@老鱼。如需转载,请先联系本公众号获取授权!

演讲嘉宾

白芸

人大金仓大数据业务部总监

毕业于中国人民大学信息学院,获得计算机及应用专业硕士学位。 毕业后进入北京人大金仓信息技术股份有限公司,参与金仓数据库产品的研发,曾任咨询服务部总监、产品中心总监,现任大数据业务部总监,负责大数据系列产品研发,以及大数据解决方案的咨询和实施服务。

分享内容

大家上午好!我今天分享的主题是《数据之道 笃行拓新》。

笃行拓新,人大金仓一路成长

人大金仓起源于人民大学,1999年人大一批做科研的老师,想把自己的科研成果转化为对中国人有用的产品,便开创了这家公司。后来我们也在逐渐发展,现在的股东是中国电子科技集团,太极计算机股份有限公司以及中国人民大学。

我们致力于打造中国本土产品,一方面我们承担了国家的重大专项,另一方面我们也在市场努力推广我们的产品,目前我们所统计到的产品实际应用量已达到45万套。

人大金仓自成立以来,一直坚持走数据库的道路,但我们也在不断开拓创新。从2011年开始,我们就从数据库向解决方案方向转型。到去年底,我们开始正式推广大数据业务。根据过去的技术积累,今天跟大家分享一下人大金仓在大数据上的想法和理念。

人大金仓有两条业务线,数据库业务和大数据业务。数据库业务又分为交易型应用、分析型应用、嵌入式应用。大数据方面,我们也有自己的组织方案和产品,今天给大家重点分享大数据中心技术层面的具体架构方案。

专注技术,人大金仓大数据业务二三事

很多人可能会好奇,人大金仓怎么想起来做大数据了。当然,我们也是经过深思熟虑的,我们对自己有一个定位。大家印象中,人大金仓的标签可能还是数据库。所以我们在选择做大数据时对自己是有定位的。如下图所示,是全球大数据产业分类,大家可以看到有Open Source、Analytics、Data Sources等等很多。我们做数据库也致力于做技术发展。

国内也有机构对国内的大数据产业做过一个分类,如下图所示,包括分析应用、基础架构、数据源等等。但少了开源和跨平台产能架构,我们也希望中国有一天也可以拥有自己的开源社区。

所以在这两个领域,我们经常会对自己的业务有一个聚焦,原来我们卖数据库,现在我们卖解决方案、产品和服务,帮助用户把大数据建设落地。

数仓向大数据中心演进,人大金仓大数据中心技术架构

下面是我今天分享的重点话题——人大金仓的大数据中心到底是什么架构。我们在建大数据中心的过程中要考虑哪些环节。首先要有自己的想法,想明白传统数据仓库和大数据中心到底有什么区别,这些都想明白才足以应对数据中心建设过程中的各种问题。第一个问题是面对的数据类型可能比原来结构化时多了很多,我们传统数据仓库的数据质量还是比较高的,因为数据都来自于业务系统原有的业务数据,基本上都是在业务系统运转良好的情况下获得的,质量是可以保证的。但大数据的质量由于无法保证,来源多样,可能导致其数据质量较低。

从价值的角度说,传统的数据仓库只要进入业务系统,比如进行数据分析,数据的价值基本上是很高的。但大数据里面的数据价值是不确定的,必须通过很复杂的分析才能找到背后的隐藏价值。用户在使用数据仓库和大数据的过程中,比如建数据仓库,用户经常会有明确的需求。但如果是大数据中心,我们经常遇到搞不清需求的用户。数据仓库背后的相关技术已经成熟,但大数据中心的相关技术和工具基本都还在发展中。

所以建大数据中心的过程,必须从数据仓库向大数据中心演进。比如底层,我们要用低成本的硬件平台替代原来的平台,从原来的方式向综合性数据采集平台演进,往海量数据模型处理平台发展,从传统BI向复杂分析挖掘过渡。

基于上述种种考虑,我们画了一个可视化,来展示大数据中心里面包含的环节,基础架构要考虑的环节,从数据产生到采集处理和数据存储,如何分析利用这些数据,最后展现到用户面前。整个过程要对数据中心做统一管理。如上图所示,还包括一些统一的运营规划和聚焦位置。

大数据中心技术架构之数据采集

数据采集涉及结构化和非结构化数据,结构化数据是大家很熟悉的技术,可以通过一系列转换,把原有的业务系统数据分离到目标存储里,这是传统的结构化数据中心,只是我们增加了一些面向更多业务或更多处理规则的扩展,但原理是一致的。

我们通常是用开源架构里的已有组件,实现对非结构化数据或对互联网数据的采集处理,我们有从关系数据库到Hadoop或流数据的服务,实时处理语言、处理框架、网页爬虫引擎都可以帮助我们把数据导到里面,再根据具体的数据决定应该用哪种技术处理。

所以综合上面两种情况和技术,我们整个大数据的处理流程分解来看,就是针对不同的数据,包括结构化的,互联网的,还有从其他地方来的,通过ETL、流处理进入大数据存储,其背后的存储方式可能是多种多样的。以下是我们数据采集的一个产品:

大数据中心技术架构之数据存储

数据采集完成后,要进行数据存储,我们又面临着一些新的问题,对于结构化数据,原来的单机解决不了海量数据存储,也解决不了海量数据的分析计算,所以提出了MPP架构。通过横向扩展一方面解决了数据登陆问题,另一方面解决了分布式计算问题。这是一个很通用的技术。对结构化数据完全可以用MPP解决,它可以线性拓展,容量最大可扩展到PB级。

对非结构化数据存储也有很多方法,有的用文件系统,如果你的业务系统是文件的话,可以直接存到数据库管理系统。第二个方法是——Hadoop。基于Hadoop技术,我们也有产品适用于大数据中心——大数据管理平台,它是基于Hadoop做的,但我们把常用的组件包放到了平台上。

我们的不同之处在于,第一我们的SQL和Hadoop是面向企业级用户的,企业可能用惯了MySQL,、Sql Sever、金仓等数据库,我们在SQL和Hadoop上增加了很多面向企业的需求,去支撑上层应用。另一点是在安全方面,我们有自己的创新。熟悉大数据平台的也熟悉Hadoop里的安全管理办法,但我们会把原来关系数据库里用到的一些安全技术,用在大数据平台上。由于我们面向的应用比较多,所以我们会把原来对数据库的需求体现在大数据平台里。

我们的一款数据库可以支持HDFS,并且用户可以直接通过sql访问到HDFS。为了提供一些简单的数据挖掘能力,用户可以直接在集群上通过sql调用挖掘算法和接口,它可以直接进行一些简单的计算,而不需要用挖掘工具连到数据库上做挖掘,这是它的特别之处。我们也有相应的产品应对我们在存储关键技术上的需求。

大数据中心技术架构之数据分析挖掘

数据存好后要做分析挖掘,分析挖掘也有多种需求,比如要进行可视化展现,要检索,做报表,分析,跟GIS平台结合,做预警,还有传统的OLAP分析。

针对大数据的分析需求,我们也有相应的产品。面对这样的需求,我们可以提供相应的解决方案,包括可视化我们也有多种展现方式,包括企业用户需要做查询还有传统分析时,我们可以把我们的BI架到数据库上做一些分析。还可以生成很多复杂报表。中国用户有一个特点就是中国人喜欢灵活的报表,可以随时增删改查最好。对于这些需求,国外的BI软件基本上是不支持的,这对于国产BI是比较有优势的。除此之外,我们也可以对我们定义的规格产生一些预警提示。

我们与GIS平台的结合支持三种情况,并且是完全统一的,一是内置的HTML地图,二是ArcGIS,三是百度/谷歌公用地图。我们可以把分析结果展现到地图上(效果如下图所示)。

另一点就是挖掘,市面上可能也有很多挖掘工具,我们的与大家见到的挖掘工具很类似,只是面对的挖掘分析需求不太一样。一方面我们能够实现很多挖掘算法,另一方面我们的挖掘也在向情报分析需求方向演进。

传统挖掘主要是做描述式软件的,是什么数据就展现什么样,但很多潜在的关系是看不出来的。从大量的数据,文字描述里找到背后人与人之间的关系,是传统工具做不到的,而我们需要应对这样的情况。我们的挖掘增加了关联分析的能力,现在互联网的很多网页,网站数据,论坛内容,互联网数据背后会潜在什么样的价值,互联网上讨论的热点,大家对某一个话题的赞同或不同意的一些分析,这些都可能不再是传统数据挖掘能解决的问题了,所以在挖掘方面我们还在不断探索背后的隐藏价值。

数据存储完毕就要进行分析,但在大数据中心的建设过程中,这个数据不光为自己所用,所有建大数据中心的项目都有一个前提条件——数据共享交换。大家可能关注国家大数据的建设方向,就是数据要服务于大数据应用。单一的一块数据可能是不够的,需要跟外面的数据做共享交换,这个过程增加了一个技术难点——数据利用,怎样让数据被利用起来,比如怎么做资源用户发布,如何为别人提供数据服务。

大数据中心技术架构之数据利用

我们如何以服务的方式把数据提供出去,建设数据仓库的时候,企业里面的数据仓库有很多数据,企业的信息部门是很精准的,但一个大数据中心的建设过程,里面的数据就很复杂了,我们必须把大数据中心里的数据称为数据资源,我们要做管理分类,才能让想访问这个数据中心的人,清楚的看到里面有什么数据,哪些是有用的,哪些是需要获取的,所以需要对数据做一个资源编目,这有点像图书管的编目,我们要运用一些标准对数据做分类描述。

通过数据资源目录编目,可以看到数据中心里的数据,我想要落实、获取这个数据,这称为共享交换。有两种模式,一是独立主权交换,就是每个人都有自己的数据,所谓的大数据中心在虚拟上看是一个大数据中心,但数据还是在各自的地方,因为存在主权问题。

独立主权交换的过程是我要获得这个数据,我需要了解有什么数据可以运用,要通过什么方式才可以获得对方的数据,交换过程中,首先我要知道所需数据在何处,其次提出申请,审核成功后,别人可以把这个数据通过技术手段共享给你,这就是整个的流程。

第二种方式是集中共享,也是现在很多大数据中心建设的常用方式,就是把不需要共享的数据放在一起,把共享的内容单独建一个数据中心,大家都访问这个数据中心就可以了,而数据中心里的数据来自于其它信息系统。

集中共享也有一个典型案例,比如政府会把各个业务中所有跟人相关的数据放到共享里,谁需要什么数据,就根据自己的需要去查。所以在建大数据中心的过程中一定要提前想好什么数据是不准备交换的,什么数据是可以共享的。

大数据中心架构之数据管理

最后一个环节就是管理,数据中心建好以后需要有一些类似于传统数据库DBA的角色,他要对数据中心的运作做一个相关管理,包括资源维护,数据库运行维护等,源数据是不是有变化,数据质量是不是合规,它背后是需要有人做一些管理工作的,我们称之为数据管理。

首先说一下数据库管理,通常情况是我有一个前端管理平台,可以对现在整个数据中心里运行的所有主机上的数据库做统一管理,并且还可以针对具体数据库进行单独访问,看到数据库的具体情况,这是数据库管理平台的管辖范围。

刚刚说的管理也涉及元数据的管理,我们在建一个数据中心的时候,一定要清楚进入数据中心的数据需要符合什么标准,标准化是很复杂的一个流程,通常简化处理,我们要搞清楚标准都包含哪些,怎么执行标准化的过程,怎么维护标准化,这都是我们建数据中心过程中要考虑的问题。要是可以把这些问题想清楚,就会逐渐实现数据的标准化。

定义了标准就要去维护,保护数据标准。我们要利用好元数据,很多人理解的元数据就是在数据库里定义一个表,包括自传,类型等。这只是元数据的一部分,真正的元数据管的是整个数据中心运行过程中所有环节规划性的东西,它不一定是针对数据的,每个环节都有要对应的元数据。

数据地图可以显示出表与表之间的关系,分析可以显示出数据源头之间的依赖关系,一条数据发生变动之后会影响到多少个表,可以很直观的看出来。元数据管理要干的事情很多,所以元数据管理不是一个产品而是服务,是背后用数据中心运行起来的服务。

还有另一个管理——数据质量管理,做软件开发的人都知道有软件过程管理,同样的,数据中心建设过程中也要保证数据质量,从监控到分析到跟踪,整个过程和软件质量的体系道理是一样的。

整个过程都是要发现问题、分析问题、解决问题,这是质量管理要干的事,比如数据是不是及时进入我的数据中心了,数据是不是对的,有效的。我导出来的数据是不是有意义的,准确的,过程中会不会有丢失,实效性如何等等,这些是质量管理员要做的事情,它不是一个产品而是一个服务。在这方面我们也有一些自己的产品,包括我们的自由管理品牌,数据库管理品牌等。

最后回到这张图上,我们可以看到一个大数据中心的建设,从采集到存储到全流程管理,有很多环节是需要认真考虑的。

我今天的分享到此结束,谢谢大家!

关于DTCC

中国数据库技术大会(DTCC)是目前国内数据库与大数据领域最大规模的技术盛宴,于每年春季召开,迄今已成功举办了七届。大会云集了国内外顶尖专家,共同探讨MySQL、NoSQL、Oracle、缓存技术、云端数据库、智能数据平台、大数据安全、数据治理、大数据和开源、大数据创业、大数据深度学习等领域的前瞻性热点话题与技术,吸引IT人士参会5000余名,为数据库人群、大数据从业人员、广大互联网人士及行业相关人士提供了极具价值的交流平台。

【技术分享】数据之道 笃行拓新相关推荐

  1. 一个研发团队是如何坚持7年技术分享的?

    --"所有分享都是有意义的" --"在PingCode,人人都可以成为分享者" 这是PingCode研发团队的分享精神,而这样的精神,在过去7年中已经闪耀了10 ...

  2. 【技术分享】新核心业务系统数据架构规划与数据治理

    本文整理自DTCC2016主题演讲内容,录音整理及文字编辑IT168@田晓旭@老鱼.如需转载,请先联系本公众号获取授权! 演讲嘉宾 种磊 农银人寿新核心数据架构组组长 经济师,农银人寿IT部资深专员. ...

  3. 每日新闻:李开复 推动AI进步应持续重视数据和技术分享;5G投资将达1.2万亿元;孙正义欲以160亿美元收购WeWork多数股份...

    关注中国软件网 最新鲜的企业级干货聚集地 趋势洞察 李开复:推动AI进步应持续重视数据和技术分享 创新工场董事长兼CEO李开复:人工智能技术是通过数据作为"饲料",以及领域对代码开 ...

  4. 星河案例 | 冲量在线助力中国电信打造数据要素融通与AI能力开放外拓新范式

    2022 年大数据"星河"案例征集活动由中国信息通信研究院.中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)共同组织,旨在促进大数据技术产品及相关产业发展,加快培 ...

  5. 技术分享:如何用Solr搭建大数据查询平台

    技术分享:如何用Solr搭建大数据查询平台 0×00 开头照例扯淡 自从各种脱裤门事件开始层出不穷,在下就学乖了,各个地方的密码全都改成不一样的,重要帐号的密码定期更换,生怕被人社出祖宗十八代的我,甚 ...

  6. 【观察】联想凌拓+万国数据:打破多云数据管理“新边界”

    申耀的科技观察 读懂科技,赢取未来! 过去几年,随着云计算进入到全面爆发的阶段,企业级客户对于云的接受程度正稳步提升.与此同时,越来越多的企业和机构也正开始从传统架构全面转向云架构,这也让混合多云被越 ...

  7. wps数据匹配怎么做_【VK技术分享】数据安全怎么做—静态数据的识别和治理

    前言 在当前的数据时代,随着云计算.大数据.AI等技术的不断发展,"数据"已经渗透到当今每一个行业和业务职能领域,成为重要的生产要素.数据的计量单位也至少是PB级别计算.这对于国家 ...

  8. 大表与大表join数据倾斜_技术分享|大数据技术初探之Spark数据倾斜调优

    侯亚南 数据技术处 支宸啸 数据技术处 在大数据计算中,我们可能会遇到一个很棘手的问题--数据倾斜,此时spark任务的性能会比预期要差很多:绝大多数task都很快执行完成,但个别task执行极慢或者 ...

  9. 【华为云技术分享】上亿条数据,如何查询分析简单又高效?

    正值618大促,小张遇到了一个棘手的问题,需要在一周内将公司近1年电商部门的营收和线下门店经营数据进行联合分析. 这将产生哪些数据难题呢? 数据孤岛:电商部门的数据存在数仓A.门店经营收入数据存在数仓 ...

最新文章

  1. Android笔记 Application对象的使用-数据传递以及内存泄漏问题
  2. linux5.9安装教程,Linux内核5.9的最重要功能及安装方法
  3. php_flag .htaccess,Apache服务器中.htaccess文件的实用配置示例集锦
  4. postgreSQL源码分析——索引的建立与使用——各种索引类型的管理和操作(2)
  5. Centos7安装Nginx实战
  6. Python 3 mysql 简介安装
  7. 三极管串联线性稳压电路原理详解及Multisim仿真
  8. [渝粤题库]西北工业大学刑法
  9. 2022年8月11日:使用 ASP.NET Core 为初学者构建 Web 应用程序--使用 ASP.NET Core 控制器创建 Web API(没看懂,需要再看一遍)
  10. 【调剂】齐齐哈尔大学接收调剂研究生
  11. uva 12307(点集的外接矩形)
  12. 枚举,联合,宏定义,结构体
  13. 微信王者有ios的服务器吗,王者IOS微信区国服瑶多有钱?凌晨撒4W红包,点开头像傻眼...
  14. 一度智信:分析拼多多人群定位
  15. 矩阵顺时针旋转90°、180°、270°
  16. php获取微博热搜,Python获取微博热搜的方法
  17. 戴尔G15-5520蓝屏解决方法
  18. Tensorflow训练模型越来越慢
  19. Zigbee——串口无线透传分析
  20. qsql 关联_QTableView与QSqlTableModel显示mysql数据库中的数据,怎么在QTableView的项中添加chekbox按钮与上拉列表啊真心求指导...

热门文章

  1. Android7.0恢复出厂设置过程分析
  2. 详细解读ARM寄存器之CPSR
  3. 欧行漫记:参观华为欧洲研究所,感受华为海外研发人员的苦乐人生
  4. uni-app 图标字体引用
  5. GEO数据挖掘全流程分析
  6. opencv 内存数据转matlab,OpenCV:IplImage, CvMat, Mat 相互转换
  7. html5如何创建按钮button
  8. 为什么一条普通的100M有线网络要优于1000M无线?
  9. 【批处理DOS-CMD命令-汇总和小结】-上网和网络通信相关命令(ping、telnet、nslookup、arp、tracert、ipconfig)
  10. html简单留言板教程,JS实现简易留言板(节点操作)