文 | 郑林峰 财通证券大数据经理

交流微信 | datapipeline2018

财通证券股份有限公司是一家经中国证券监督管理委员会批准设立的综合性证券公司,成立于1993年的浙江财政证券公司,现为浙江省政府直属企业,主要经营证券经纪、证券投资咨询、证券自营、证券承销与保荐、融资融券、证券投资基金代销、代销金融产品等业务。

作为公司中不可或缺的一部分,财通证券的数据团队管理着日增约为6000多万 – 1亿条的数据,为公司的不同层次、不同类型的服务提供着稳定可靠的数据信息。

在人工智能的新时代下,为实现批量化数据集成,财通团队放弃老式集成工具,选择DataPipeline的产品,用5分钟就完成了以前需要50个小时的任务配置工作。除此之外,DataPipeline独有的跳板机设置,减轻了数据团队潜在的管理负担。

中小型券商数据团队的痛点

全国120家券商,约40家的中大型券商企业已经建立独立的基础数据部门,而对近80家中小型券商企业来说,数据团队都是在成立中,或者是在二级部门的状态。

对于中小型券商,一个很大的痛点就是数据集成的问题。这是由于数据组人力资源非常有限,而数据集成因为对性能和稳定性要求高,开发繁琐,变化频繁又无法外包。对于数据集成,大多数券商平台使用的老版的ETL数据集成工具,由于采取单表级粒度,导致抽取任务的开发,调度管理及测试效率较低。而券商数据流的特点是任务基于清算状态,当上游的生产系统完成清算后,数据任务启动取数至中间库,当取数任务完成后,再触发下游系统消费数据。

对于企业级的券商平台来说,初步的数据采集不需要做繁复清洗转换工作,只需提供贴源数据给到下游合作商来加工和处理。

其次,目前的常用抽取工具不能对资源进行相对精细的控制。由于上游系统具有强势的生产性质,券商系统对于数据采集的资源消耗要求很高。券商的预警机制基本在系统流量到30%以上开始预警。

数据使用端没有验证规则,没有自己的冗余性机制,所有的压力都在源端数据层。随着管控的数据规模不断增加,源端数据出现问题的风险也在提升,导致数据团队填写事件单已经成为家常便饭。

另外,对于金融企业来说,数据安全是重中之重,所以核心系统的数据都是通过网闸进行网络隔离。使用老版数据集成工具的时候,由于老版数据集成工具的特性,导致数据团队的整体服务都必须放在内部网络,一旦任务失败,团队必须去到现场的内网机器进行操作,运维十分困难。

解决方案

我们(财通证券)选择与实时数据管道技术上领先的DataPipeline进行合作,打破了传统工具在ETL上的束缚。财通证券基于DataPipeline开放的底层平台,开发了监控预警、数据校验、个性化调度等功能,以产品化加开放API的组合拳,实现了符合证券行业应用场景的数据集成方案。

批量化的加速提取

在目前大数据时代,数据的加工流程已经发生了变化,从以前的单表采集、清洗转化、落库(ETL)转向数据单纯采集不进行转化直接落库。所有的转化在数据落库后通过大数据技术进行清洗转化(EL)。

而目前市场上,更多得数据采集的粒度还是在单表级,并且需要进行可视化转化清洗等操作,浪费了不必要的时间。

DataPipeline适应了时代的需求,采取批量化的采集方式,同时对同个系统的几十几百个表一并采集,大大提高了我们(财通证券)的数据采集效率。

对资源的监控

老版数据集成工具等抽取工具,在执行的时候会完全放开抽取进程的能力,会有很好的抽取速度,但是由于没有办法进行统一的任务管控,这会对上游系统的数据库造成很大的压力。

使用传统的集成工具,我们最高能消费掉到系统生产备库50%的性能,单库每秒钟的流量条数接近10万,但这样做就触发了上游系统的预警,为保证生产系统的安全稳定,采集系统必须进行波峰限流。

DataPipeline的工具定义了采集条数和采集流量的双重阈值,而且由于其任务是对于整个任务下的所有表的总值进行限定,粒度更加适合企业级统一采集工具的使用,保证了企业应用的安全性。

跳板机的实施

作为金融企业,数据安全是重中之重,所以核心系统的数据都是通过网闸进行网络隔离,如何快速将数据从不同的网络环境抽取数据,那么就需要通过跳板机模式进行处理。

DataPipeline通过跳板机的方式,让跳板机承担数据中转服务,整体采集的控制端存放在非内网环境,确保出现问题可以在外部环境中进行直接管理和问题排查。

值得一提的是,DataPipeline是市场上唯一可以做到这一点的公司。

人工智能时代的考虑

券商以前追求的是高质量的可用数据(结构化数据),如可视化的股价、经济数据等。在人工智能时代下,更多维度,数量更大的基础数据(结构化或非结构化数据)显得更加重要,所以需要采集的表的数量更多,数据也分布在更多的业务系统。各系统的数据库类型也不一样,所以也出现了对于异构数据库抽取到某一个特定的数据库这样的需求。

业内更多使用的是消息中间件的方式去进行,而DataPipeline在上游数据源和下游数据库之间建立中间件,使用通用的中间件架构完成非结构化和结构化数据的架构统一。

高效的服务,肉眼可见的成果

DataPipeline的研发团队的工作期并不止于产品完成。交付产品后,DataPipeline团队在短时间内对客户的各种行业特性需求快速响应,本着客户至上的原则,为财通提供了优质及时的服务。

三月份与贵公司(DataPipeline)谈一次需求的优化,很快改版就出来了。基本上券商行业的一些特定需求都可以很好地满足了。

这样的效率带来的高效结果也不会惊奇:仅仅是提取结构性数据一项,DataPipeline就“完爆”了前辈的老版数据集成工具。使用老版工具,几百张表的抽取配置需要花费50个小时,而使用了批量化采集的DataPipeline基本可以在5分钟内完成。

结语

由于金融行业具备的数据同步与集中性,ETL对性能和稳定性要求非常高。而ETL开发繁琐,变化频繁又无法外包,这就成为了所有券商的痛点。财通证券作为一家典型的券商公司,通过DataPipeline的帮助,更敏捷、更高效、更简单地实现了复杂异构数据源到目的地的实时数据融合和数据管理等综合服务,使中小型券商的痛点得到有效的解决,并且为新时代的到来做好了充分的准备。

—end—

转载于:https://www.cnblogs.com/DataPipeline2018/p/9811133.html

在人工智能时代下,如何让券商的数据做到“快准稳”相关推荐

  1. 人工智能时代下的视觉合成

    本文整理自2017云栖大会-成都峰会上阿里云算法专家任沛然的分享讲义.讲义主要分享了人工智能时代下的视觉合成,并分享了阿里云眼的概况,智能设计介绍和视频植入介绍.

  2. 大数据工作流_大数据和人工智能时代下的数字化工作流

    点击上方"Bentley软件"可以订阅哦 本文作者 Bentley 软件公司 高级技术经理 赵顺耐 大数据.人工智能以及与之相伴相生的物联网已经成为现代社会的运行方式,信息技术的急 ...

  3. 大数据和人工智能时代下的运筹学

    首发于[运筹帷幄]大数据和人工智能时代下的运筹学 大话"人工智能.数据科学.机器学习"--综述 1 2 个月前 作者系美国克莱姆森大学运筹学硕士,Ph.D. Candidate,师 ...

  4. 人工智能时代下的“烦恼”:美国国会探讨“深度伪造”风险及对策

    近日,一段关于扎克伯格的恶搞视频在Instagram上流传.该视频中,扎克伯格的面部表情极其僵硬,声音与本人的相比差距很大.事实上,这是以色列一家科技公司利用人工智能(AI)换脸技术合成而来,这一技术 ...

  5. 人工智能时代下,Python与C/C++谁将成为人工智能核心算法选择?

    据TIOBE公布的2019 年6月编程语言排行榜,Python以8.53%的涨幅排名超过去年同期C++排名,位列第3名,仅次于Java和C.python一路逆袭,甚至有人断言未来Python将成为人工 ...

  6. python应用在人工智能_python应用篇-大数据和人工智能时代下,python牛在哪?

    一.人工智能领域,python必用? 人工智能有多么火热呢?现在每12家拿到投资的创业公司,其中就有1家,是跟人工智能领域相关的.而在几年前,这个数字是48. 不管大家对这个行业的了解有多少,但你们肯 ...

  7. 人工智能时代下的呼叫中心系统有哪些优势?

    近年来,随着人工智能技术的爆发,新技术逐渐渗入人们日常生活中的各行各业里面,以机器人来代替人工处理繁重的任务变得普遍.呼叫中心作为一种交互式的语音应答系统,又被称之为"客户服务中心" ...

  8. 人工智能时代下的数据安全治理

    上周,小编 惊喜地 收到网络安全十余年老兵--飞絮老师的投稿.大佬终于重出江湖了-- 一.人 工 智 能 人工智能是一门以数学为基础,涉及到计算机科学.生物学.心理学.语言学和哲学等的交叉类学科. 维 ...

  9. 人工智能时代下机器的未来

    摘要:在人工智能飞速发展的今天,我们不断追求机器更加拟人化,只有机器具备更多类似人一般的功能,才能使机器智能更进一步,帮助人们分担更多任务,继而提升工作绩效.因此,众多科学家和学者把目光放在了对于人类 ...

最新文章

  1. vigra1.8.0的使用
  2. matlab神经网络的简单程序设计,BP神经网络设计的matlab简单实现
  3. 机器学习一 -- 什么是监督学习和无监督学习?
  4. Python看似简单的地方——关于全局变量与局部变量
  5. keras系列︱Application中五款已训练模型、VGG16框架(Sequential式、Model式)解读(二)...
  6. 【分布式ID】键高并发 分布式 全局唯一 ID 雪花算法 snowflake
  7. 我的Android第五章:通过Intent实现活动与活动之间的交互
  8. 猿创征文|时间序列分析算法之平稳时间序列预测算法和自回归模型(AR)详解+Python代码实现
  9. Amaze UI 图标查询
  10. Linux下隐藏文件和显示隐藏文件命令
  11. 【模型库】大卡车货车 集装箱 叉车 三维模型
  12. 计算机配置 主板,整套解决方案:I5-3470处理器和什么主板构成计算机配置?
  13. JDBC查询数据库时出现 sql语句正确,但是查询英文可以,汉字不行的情况解决办法
  14. 土谷贞雄将携中日知名建筑师在深圳展示都市社群规划成功案例
  15. 前端使用sockJs进行聊天通讯的功能
  16. C语言编译执行的全过程
  17. SAP 安装SAPlink
  18. Web程序设计基础——edu实训平台代码(1)
  19. html直角三角形怎么实现,CSS绘制三角形的实现代码(border法)
  20. TensorRt(2)快速入门介绍

热门文章

  1. 【报名开启】阿里云线下Workshop让你玩转ECS 快速搭建云上博客
  2. 自研云原生数据仓库AnalyticDB再破权威评测TPC-DS世界纪录!
  3. 基于 Unity 中的 NGUI 插件,通用的 UI 如何设计
  4. iotop--补齐系统监视工具缺失的一环
  5. 关于Oracle中varchar2和dbms_output.put_line的长度限制问题小结
  6. Oracle 数据类型及存储方式
  7. linux系列之-—04 自动删除n天前日志【转】
  8. __init__函数
  9. http post,get,put,delete区别(收集整理)
  10. Wix学习整理(2)——HelloWorld安装添加UI