数据基础设施创新如火如荼,主要方向有哪些(下)
本文作者为网易副总裁、杭研院执行院长、数帆总经理汪源,首发:冷技术热思考
上篇《数据基础设施创新如火如荼,主要方向有哪些(上)》介绍了数据基础设施领域近期创新的总体情况及前三个典型创新领域,这是下篇,继续介绍后两个创新领域及创新背后的技术和需求驱动因素。
典型创新领域(续)
四、自助式数据应用开发
在介绍自助式数据应用开发工具之前,先介绍一个我司内部的故事。去年初,云音乐的数据团队希望开发一个用于会员运营分析的门户应用,但数据团队没有Web开发人员,向产品开发团队借人也不顺利,因为产品开发团队永远都是排满了一大堆backlog。这时,我们向音乐数据团队推荐了我们刚开发的数据门户工具,借助这个工具,数据团队通过可视化配置和无代码的方式就开发出了会员运营分析应用。
类似我们的数据门户,近期市场上涌现的自助式数据应用开发工具集中于让熟悉Python、R等语言但无Web开发经验的数据科学家和算法工程师自助式的开发出Web应用。在我看来,这类工具提供的功能和典型的敏捷BI工具很像,主要都是提供数据可视化和响应式交互两方面的功能,无非面向的人群不同,所以这里就不具体介绍这类产品的功能了。
这类工具的价值是彻底改变了数据应用的开发流程,这里我引用这个领域的代表性厂商之一Plotly Dash的图来说明这个变化。如下图,原流程需要数据科学家和全栈开发者合作,借助Plotly Dash,数据科学家可自行开发应用。
图片来源:https://plotly.com/
这个领域的代表性厂商是Plotly Dash和Streamlit。Dash是一个开源框架,2017年正式发布,最初是Python实现的,现在也支持R和Julia。Dash在Github上有1万多star,是一个非常流行的框架。Plotly提供Dash的企业版服务,可以安装在本地,也可以安装到AWS、GCP和Azure的K8S服务上。Streamlit提供类似功能,看起来似乎企业级特性没有Plotly Dash成熟,也没有说明可以运行于公有云之上。
看了一些Dash和Streamlit的案例,我的感觉是Dash或Streamlit对于数据科学家来说非常容易上手,只要pip install安装一下,马上就可以看着手册做出一些应用。但我个人还是觉得更应该使用专业的BI工具来完成类似工作,因为BI工具提供很多基本功能,用Dash或Streamlit还是要写不少的代码才能做到。当然BI工具并没有完全覆盖Dash和Streamlit的能力,在交互中引入代码来实现复杂逻辑这方面,Dash和Streamlit这类基于代码的方案显然有优势,但大多数情况下并不需要。BI工具和数据科学家常用的工具,如Python、Notebook之间衔接的不够顺滑,我觉得是Dash这类工具流行的一个很重要的原因,BI工具应该要往这个方向努力。
五、反向ETL
如下图所示,反向ETL指的是将数据仓库中的数据同步到典型的应用系统中,如各类SaaS应用。为什么需要这样的工具呢?因为销售、市场、增长、客服等团队各自都有趁手的工具,这些工具大量的都是一些流行的SaaS应用,但这些工具各个都是数据孤岛,自身无法构建360度客户Profile,也无法很好的判定线索的优先级。另一方面,数据仓库汇聚了所有工具的数据,可以构建360度客户Profile,也可以很好的计算线索的优先级,但这些信息要集成到团队原来各自使用的工具中,才方便使用。所以反向ETL的概念就应运而生。
图片来源:https://medium.com/memory-leak/reverse-etl-a-primer-4e6694dcc7fb
这个领域目前融资额最高的是Census,共拿到2000多万美金的融资,类似的公司还有Hightouch、RudderStack、Grouparoo。这几家公司都是去年才刚刚成立。这类工具的主要应用场景是同步客户360数据和产品使用数据。一个组织中和客户相关的工具可能有十多个,大家都没有全维度的客户信息,通过Census可以让这些工具都能拿到全维度的数据。以下是一些Census文档中说明的应用场景,让大家建立一点基本概念,这样的场景还有很多:
同步用户Profile数据和行为统计数据到Mixpanel,这样在Mixpanel中就可以看到客户360数据,还可以根据这些数据自定义同期群,如点击超过20次的用户群。
同步客户360、线索评分、客户健康度等数据到Salesforce。
同步产品使用数据到Zendesk,提高技术支持效率,更好的判定ticket优先级。
这类工具从逻辑上讲实现了数据应用的闭环,解决了传统BI和应用脱节导致的数据“只能看,不能用”的问题,有价值,但因为和典型的SaaS应用环境强关联,而我对国际市场SaaS生态不太熟,很难判断这类工具具备多大的通用性和市场空间。至于国内市场,因为SaaS的成熟度比欧美市场差很多,我觉得近期可能不大看得到这类工具在国内的市场。
深层次的驱动因素
在盘点完近期五个主要的创新领域之后,值得再思考一下更深层次的驱动因素,回答为什么近期会集中出现这些创新。这类问题要搞的比较复杂的话要搞PEST,不过我觉得一般从需求和技术两方面看就差不多了。
首先是需求层面。在具体展开之前,我再次先讲一下我司的故事。2017年我提出一个口号叫“技术以人为本”,什么意思呢,就是要加强工具建设,提升工作效率。后来,我进一步发现为那些在业务中自主性强的岗位(如产品经理、数据分析师、运营等,我称之为创新者)提供工具比为以接需求为主的岗位(如开发、测试、运维,我称之为实施者)提供工具来的价值更大。为什么同样是提供工具,两类人的价值不一样?因为你为创新者提供一个更好的工具时,有时这个工具会简化工作流程,让创新者能够自助式的完成工作,这个时候你经常会很吃惊的发现这个工具的使用频次一下子暴增,甚至是十倍以上,我在去年DTCC分享里把这一点称之为“自助式频次爆炸效应”。
大家可以看到近期的创新领域很多同样是为数据分析师、数据科学家甚至业务人员这些创新者提供更便利的工具,特别是自助式工具。自助式ETL / ELT是让数据分析师 / 科学家自助式的做好数据集成和准备,自助式数据应用开发是让数据科学家自助式的开发Web应用。数据质量、业务异常分析和反向ETL这几个领域很大程度上也是减轻了相应工作环节的专业性要求,更少的依赖专职的数据开发和运维团队。
但需求只是硬币的一面,如果只看需求,可能会觉得这些需求始终都在,为什么相应的创新近期才爆发?这就需要看技术因素,是因为技术的进展使得这些需求最近才可能被很好的满足。技术驱动因素主要是云原生和AI两个。
云原生层面。自助式ETL / ELT技术的出现,很大程度上是因为云原生数据库的出现使得数据仓库可以低成本的容纳全量原始数据,并且能够提供高性能的实时分析能力,这样就可以先把所有数据都加载到数仓,同时更大比例的计算可以按需进行而不是都要做好预计算。自助式数据应用开发的基础其实出现时间比较久了(Dash 2017年就正式发布了),但近期才有公司来提供成熟的企业服务,和主要的云厂商都提供了标准的K8S服务是分不开的。因为K8S服务的标准化,Plotly才能方便的在各大云都提供企业级的Dash服务。
AI是另一个驱动因素,对数据质量和业务异常分析两个领域的创新至关重要。先看数据质量。长期以来,数据质量监控都是一个很大的痛点,因为当你要管理成千上万的表的时候(我司的严选、音乐都有数万张表),手工设定全面、合理的监控规则根本是不可能的,只有借助AI,才能做到Autometrics和Autothreshhod。业务异常分析和数据质量非常像,要及时发现异常,但又不要天天误报,不借助AI也不可能做好。
小结 & 网易数帆
综上所述,近期数据基础设施领域的创新产品扎堆涌现,主要集中在自助式ETL / ELT、数据质量、业务异常分析、自助式数据应用开发、反向ETL这五个领域,这些领域有较强的前后衔接关系,大致构成一个从应用到数仓再回到应用的数据应用闭环。网易数帆的使命之一就是为市场提供一个全链路的数据生产力平台,这和近期欧美市场上的创新方向非常一致,具体的产品演进方向也很相似。如数帆的数据质量中心就提供类似Bigeye的数据质量保障能力,数帆的指标异动分析功能类似Outlier的业务异常分析功能,数帆的数据门户提供自助式的Web数据应用开发能力。
大量新技术的出现,一方面为企业加强技术能力提供了很多新的手段,但另一方面也使得技术架构越来越复杂,如何整合利用好大量的细分技术是一个巨大的挑战。网易数帆希望提供一个数据基础设施领域好的参考架构,帮助企业更快更好的构建数据能力。我们也很明白不可能所有的能力我们都是市场上做的最好的,所以我们尽量的模块化,尽量的可以和别的产品能够集成互通。
最后做一点小广告,对网易数帆感兴趣的请访问 https://www.163yun.com/product-bigdata
数据基础设施创新如火如荼,主要方向有哪些(下)相关推荐
- 数据基础设施,证券行业跑赢时代的新引擎
人们往往高估一件事情的短期影响,而忽视了它所带来的长期影响.去年疫情爆发,短期内对经济产生了巨大的冲击,影响到包括证券等多个行业的日常业务:但另一方面,也直接驱动着业务数字化.线上化的步伐,证券等行业 ...
- 电信行业大数据应用的四个方向
引言 大数据无疑是近两年最热门的词语,"大数据"最早由全球知名咨询公司麦肯锡提出,麦肯锡认为[1]:大数据"是创新.竞争和生产力的下一个前沿领域",可以利用大数 ...
- 大数据基础设施建设需要得到重视 | 记清华大数据“应用·创新”讲座
"大数据基础设施是面向数据采集.数据分析和数据应用的创新性系统工程.它一方面指支撑大数据应用和大数据产业的基础设施,另一方面指用大数据和人工智能的方法,解决基础设施运行过程中的问题.&quo ...
- 星辰天合参加首届数字驱动创新峰会 强调以 SDS 加速数据基础设施建设
5 月 11 日,2023 数字驱动创新峰会在北京新世纪日航饭店隆重举办.作为赛迪网.<数字经济>杂志社首次主办的数字驱动峰会,本届峰会以"新要素.新生产.新经济"为主 ...
- 创新数据基础设施高峰论坛,构建安全高效的城市智慧底座
数字经济时代,新兴技术层出不穷,云.5G.AI等不断的推动着全球化进程,将人类推向万物互联的智能世界.在数字化转型的道路上,海量数据如何高效处理,让数字价值最大化?万物互联的时代下,智能协作在各场景下 ...
- 蚂蚁金服高级技术专家徐红星 :蚂蚁金服大数据开放式创新实践
8月30-31日20:00-21:30,一场别开生面的技术大会-- "蚂蚁金服&阿里云在线金融技术峰会"将在线举办.本次将聚焦数据库.应用架构.移动开发.机器学习等热门领域 ...
- 再次“重新定义” 华为争做数据基础设施领航者
戳蓝字"CSDN云计算"关注我们哦! 数字经济是随着信息技术革命发展而产生的一种新的经济形态.近年来,随着我国开始更多从经济视角观察数字化问题,数字经济开始升温.7月31日,国家统 ...
- 征文通知:第三届(2016)科学数据大会——科学数据与创新发展
数据作为一种资源,就像传统的水.煤炭.石油一样,对自然科学和社会科学有着极大的价值,并且正在改变人们的科研.生产.生活方式.整个世界都在快速地数据化,我们已大步迈向大数据时代,科学数据的开放.共享.挖 ...
- 第三届(2016)科学数据大会——科学数据与创新发展征文通知
数据作为一种资源,就像传统的水.煤炭.石油一样,对自然科学和社会科学有着极大的价值,并且正在改变人们的科研.生产.生活方式.整个世界都在快速地数据化,我们已大步迈向大数据时代,科学数据的开放.共享.挖 ...
- 攀登数据基础设施高峰,这是一场勇敢者的游戏
关注我们牛年牛气冲天 这世上还有比珠穆朗玛更难攀登的山峰吗?或许它更高.更难逾越,那就是数据高峰. 3月23日,华为宣布,其创新数据基础设施体验中心及行业创新体验中心正式落户成都.该体验中心就好像是在 ...
最新文章
- Hololens开发示例(不断补充)
- relationship between freedom,potential, risk
- 机器学习在客户管理场景中的应用
- Python实现AES加密进行PKCS5Padding的填充
- python做一个微型美颜图片处理器,十行代码即可完成
- 全国计算机二级c语言上机考试软件,考前刷题专用
- python爬虫模拟登录之图片验证码
- 详解JAVA对象实例化过程
- python 使用GDAL实现栅格tif转矢量shp
- 计算机网络管理公开课观后感,青年网络公开课观后感
- swin transformer解读
- RTP 将h264流封装成ps流并发送(C语言代码)
- Linux中阶—域名解析服务DNS(十)
- python能制作ppt动画效果吗_原来用PPT也能做出神级的动画效果!
- QT学习记录 --- 获取文件哈希值
- 使用CollapsingToolbarLayout高仿稀土掘金个人中心页
- poj 1659 Havel-hakimi定理
- layui table 单元格合并
- 远程登录Linux服务器
- 金蝶mysql_金蝶财务软件如何导入新的数据库