2020 年 10 月 13 日,在以“数字化 正当潮”为主题的「神策 2020 数据驱动用户大会」现场,安信证券信息技术中心数据平台团队负责人王环发表了《安信证券数据中台建设历程》的主题演讲。(文末附 PPT 下载地址)

本文根据其现场演讲整理所得,主要内容如下:

数据中台一词现阶段很热,金融行业、互联网行业、制造行业等等都在讨论数据中台的建设,但数据中台到底是什么,大家对此是没有共识的。我相信,在未来 2-3 年,关于数据中台的讨论越来越少、行动越来越多的时候,数据中台的共识才会形成。

数据中台建设背景

1.我们为什么要建设数据中台?

从业务角度看,数据中台在发展过程中,面临着以下挑战:

第一,烟囱建设。虽然券商和银行的体量差距较大,但日常运营系统规模却相差无几,从安信证券来看,我们现有系统大概 200 多套,功能俱全。但从数据角度看,缺少共享数据模型和规范,包括指标、口径等,数据重复存储,导致资源浪费。

第二,数据孤岛。这个问题和烟囱建设密切相关,因为数据分散在各个系统内,无法有效整合打通,数据割裂严重,很难做统一的分析与统计,难以发挥全域数据的价值。

第三,需求响应慢。为满足业务场景需求,需要从多个系统里进行数据采集,再做复杂的转换加工,缺乏底层工具和平台方面的支撑,疲于应付临时性提数分析需求,无暇顾及平台级建设和数据治理,恶性循环。

第四,缺乏沉淀积累。大数据开源组件众多,更新迭代快,安装部署维护使用的技术门槛高,证券场景复杂,无法做到技术、业务、人才的积累。

2.从数据技术架构的演变历程来看,数据的发展有着清晰的脉络。

关系数据库建立初始仅是底层数据库存储计算最基础的一个部件,不管是数据分析还是报表功能,都是作为业务系统的附属功能或者一部分而存在;九十年代数据仓库概念提出之后,业务系统与管理系统逐渐分离,并陆续出现了专门为 OLAP 场景打造的专用数据库产品。

自 2005 年,互联网海量数据处理加工引发技术革命,以 Hadoop 开源生态为基础的大数据技术栈兴起,数据湖成为数据存储加工的主要方式;直至近两年,数据逐渐从业务过程的“副产品”转变为“本身即业务,本身即服务”, 厚中台、薄前端的理念才开始被业界认可。 

3.数据中台是将业务系统的数据存储和计算能力抽离,由单独的数据处理平台提供存储和计算能力,抽象业务共性需求,提供共享复用的数据服务。

 在我的理解中,数据中台包括 4 个部分的内容:

第一,方法论。涉及大中台、小前台、业务数据化、数据业务化等一些概念,也包括现在常用的建模的理论等。

第二,组织。建设数据中台需要有专业的数据团队,若单纯依附于业务团队是不靠谱的,如果一个企业没有专业的数据中台的团队,那么这个数据中台一定是建不成的。

第三,工具链。如果只讲方法论是没有办法落地的,因此,所有的方法论都需要有对应的工具平台做支撑推动其落地,这里面包括最基础的底层大数据平台,包括任务调度工具、数据服务、自助查询分析工具等。

第四,运营。也就是数据的运营,偏向于数据治理、从源头做全生命周期的数据治理。

数据中台发展历史

安信证券是 2006 年 3 家券商合并组建的,相对于老品牌的证券公司历史还是比较短的。在这 14 年间,经历了数据中心建设规划到建设启动,到数据仓库的建成、升级扩容,再到大数据平台、数据中台的建设,我们见证也被见证着数据平台在安信证券的发展。  在 2018 年以前,我们的系统架构还较为简单,采集工具包括商用的、开源的等,每个项目自行做技术选型,用各自的工具从业务系统采集数据,然后存储在我们的大数据平台、数仓或资讯类的数据库。

数据中台建设内容

1.在安信证券整个数据中台的建设过程中,遵循着以下六大基本原则:

第一,业务数据化。数字化这个问题相对比较复杂,我们很多时候连信息化的过程都还没有完成,线下业务很难记录到线上系统中,因此,要汇聚全域、全部业务过程和结果数据,统一存储,建设企业级数据仓库。

第二,数据标准化。通过规范化的加工处理,统一数据标准,完成全流程数据治理。

第三,数据可视化。在建设系统的过程中,我们希望能够把数据采集、开发、探索、分析、查询全流程可视化,降低数据开发使用门槛,不仅可以支持数据团队和 IT 团队使用,还能直接赋能业务团队。

第四,数据资产化。这里我们的主要工作是规范完善元数据信息,提供数据地图、数据目录等,帮助各部门高效便捷获取数据信息,使得数据可见、可懂、可用。

第五,数据服务化。数据怎样变成服务?怎样降低数据使用成本?这就要求我们能够提供统一标准化数据服务 API。

第六,数据业务化。数据作为产品和数据服务的一部分,提升客户体验和业务价值是重要内容。

2.从建设维度上来看,安信证券主要从技术体系、数据体系、数据治理与运营体系、数据应用四方面入手。

 目前,安信证券的系统架构在 2018 年版本的基础之上做了具体组件的替换和补充,对内外部数据源的同步采集做了统一规整:通过自研的批量同步工具(类似阿里的 DataX),轻松对接各类型数据源,实现可插拔的适配;通过 AR、OGG 等商业化工具做实时同步;通过神策数据埋点功能进行 APP 行为数据的采集;通过 Flume 进行服务端日志采集。以上数据在采集之后统一汇入到 CDH 集群里面,在此基础之上,安信自研了任务调度系统,包括所有采集和计算的任务的调度、任务的依赖等。

在数据平台端,安信证券将其分为三类,分别是:数据服务平台、AI 服务平台、数据资产平台。 

关于数据仓库模型,安信在原来数仓模型基础之上做了重构与标准化分层,参考证券行业模型做了拆解和增补,以此来适配安信证券的业务发展。

3.安信证券的数据治理和数据运营。

在数据治理上,安信证券针对专项任务和日常事件(包括用户和业务的问题反馈)对数据质量做系统性地梳理和排查,也会结合公司监管和战略层面的一些重大任务来推动,通过这两个抓手推动数据质量的提升和标准化。整体上来说,数据治理要从源头做起,然后再渗透到全生命周期。

另外,传统证券公司的数据团队更多承担着经营分析、统计等脱离实际业务流程的、偏管理性质的工作,因此在企业内部培养数据文化,强化公司、部门、员工的数据意识,利用数据做决策、运营,才能保证数据治理和运营达到预期效果。

在此过程中,安信重视数据团队对业务系统建设的参与度,抽象共性场景提炼数据服务,支撑业务部门对数据的需求,以实现数据业务化的目标。 

4.通过实时资产、投研云、用户画像三个实际应用场景介绍安信证券的数据平台落地实践:

第一个,实时资产,它重度依赖大数据平台能力,特别是大数据的处理能力和流计算模式,是 APP 上用户重度依赖的功能,DAU 可达数千万。

第二个,投研云平台,最初建立是基于量化部门的需求,他们在用单体服务器做研发时面临着数据和算力的挑战,基于这两个痛点,安信证券通过 Spark 改写量化策略,在大数据平台做运行与训练,并逐渐探索深度学习的模型,以此提升部门和企业的研发效率。

第三个,用户画像,它完全构建在大数据平台之上,对用户的基本特征、资产收益、投资能力、投资风格等进行体系化画像,是在应用端所做的展示。

现阶段,大数据平台特别是 Hadoop 这个生态体系已经完善和成熟;在未来,其基础设施会逐渐云原生化,实时数仓和流批融合驱动业务时效性增强,数据和智能渐趋融合,数据治理等朝着更加智能化的方向发展。

 安信证券会持续关注数字化趋势,积极尝试,驱动业务增长! 

安信证券王环:安信证券数据中台建设历程相关推荐

  1. 数据中台建设中的得与失

     本文根据新康众数据中台负责人闫顺成<数据中台建设中的得与失>的演讲整理.主要内容如下: 一.什么是数据中台 每个企业.每个岗位.每个人对数据中台的理解都有所不同.在阿里,数据中台与方法论 ...

  2. 新康众闫顺成:数据中台建设中的得与失

    本文根据新康众数据中台负责人闫顺成<数据中台建设中的得与失>的演讲整理.主要内容如下: 一.什么是数据中台 每个企业.每个岗位.每个人对数据中台的理解都有所不同.在阿里,数据中台与方法论. ...

  3. 数据中台:宜信敏捷数据中台建设实践

    2019独角兽企业重金招聘Python工程师标准>>> [宜信技术沙龙]是由宜信技术学院主办的系列技术分享活动,活动包括线上和线下两种形式,每期技术沙龙都将邀请宜信及其他互联网公司的 ...

  4. 宜信敏捷数据中台建设实践

    目前"中台"的概念很火,包括数据中台.AI中台.业务中台.技术中台等.宜信技术学院第一期技术沙龙,井玉欣博士分享了宜信的AI中台,本期技术沙龙,由我来为大家分享<宜信敏捷数据 ...

  5. 数据中台:宜信敏捷数据中台建设实践|分享实录

    2019独角兽企业重金招聘Python工程师标准>>> 内容来源:宜信技术学院第2期技术沙龙-线上直播|宜信敏捷数据中台建设实践 分享嘉宾:宜信数据中台平台团队负责人 卢山巍 导读: ...

  6. 宜信敏捷数据中台建设实践|分享实录

    内容来源:宜信技术学院第2期技术沙龙-线上直播|宜信敏捷数据中台建设实践 分享嘉宾:宜信数据中台平台团队负责人 卢山巍 导读:宜信于2017年推出了一系列大数据开源工具,包括大家熟悉的DBus.Wor ...

  7. 关于数据中台建设之思考

    [与数据同行]已开通综合.数据仓库.数据分析.产品经理.数据治理及机器学习六大专业群,加微信号frank61822702 为好友后入群.新开招聘交流群,请关注[与数据同行]公众号,后台回复" ...

  8. 阿里数据总监分享《阿里数据中台建设实践案例》,PPT+语音讲解!

    戳蓝字"CSDN云计算"关注我们哦! 作者 |  技术领导力 责编 | 阿秃 本文整理自,阿里巴巴集团数据部商业应用总监列文,在"2019年阿里云(上海)峰会" ...

  9. 干货下载 | 数据管理国家标准DCMM、金融数据中台建设方法论,限时领取

    2020年5月22日,由ITSS数据中心运营管理工作组(DCMG).双态IT联盟指导,杭州玳数科技有限公司(以下简称"袋鼠云").建信金融科技有限责任公司(以下简称"建信 ...

最新文章

  1. matlab偏导符号怎么打,matlab 如何输入导数
  2. android客户端访问服务端tomcat
  3. iPhone4S出现应用无法打开时的解决方案
  4. css3教程:弹性盒模型
  5. 这回真的是挤时间了-PHP基础(三)
  6. 观咆哮有感——系统升级的疼
  7. 简单谈谈linux的文件权限问题
  8. 如何为部署到 SAP BTP 平台上的 Node.js 应用提供Authorization 和 Trust 管理 - 权限管控
  9. 放弃winform的窗体吧,改用html作界面,桌面应用程序UI的新的开发方式。
  10. java框架白话_Java NIO框架Netty教程(二) 白话概念
  11. Java Swing的进化
  12. 微pe添加网络组件_Nature子刊 | 微塑料影响微生物群落和氮循环
  13. 网页报错404:The origin server did not find 的原因(持续更新带图并总结了其他博客的内容)
  14. 北京圣思园Java教学视频全集迅雷下载
  15. h5网站模板_超全超实用的80个模板网站,我全部整理在这里了
  16. php 英文转中文,php 中英文语言转换的方法
  17. VB6.0调用WebService
  18. JS 获取指定日期所在(周或月)第一天和最后一天
  19. 二元置信椭圆r语言_医学统计R语言:分面画boxplot
  20. [转载]Wifi OKC 验证

热门文章

  1. chrome 历史版本_2020 年最后一次更新,Chrome 性能大提升的新版本来了
  2. Matlab保存为unv,matlab之图像处理(2)
  3. python红色_python把红玫瑰变成蓝色女巫,将,红色,转化,为,蓝色妖姬
  4. python2与python3在absolute import的区别
  5. cocob optimizer让学习率不再是算法参数
  6. vscode 新建cpp文件_Visual Studio Code (vscode)编译C++
  7. js和css被屏蔽了,拦截器 Filter ,js、css、image等静态资源不被拦截解决方案
  8. 外星人入侵 python 飞船位置_《python从入门到实践》项目一:外星人入侵
  9. 云痕大数据考试中途可以退出吗_2020CPA考试出考率,创新低?
  10. 信息系统项目管理师优秀论文:项目范围管理