本文由 Kyligence联合创始人兼CTO李扬 撰写并投递参与由数据猿&上海大数据联盟联合推出的“行业盘点季之数智化转型升级”大型主题策划活动之《2021中国企业数智化转型升级先锋人物》榜单/奖项的评选。

数据智能产业创新服务媒体

——聚焦数智 · 改变商业


随着人工智能、云计算、大数据的发展,商业业态和服务模式不断呈现多样化。在技术的加持下,企业级服务朝着更加智能、自动化方向发展,为企业管理、业务运营及发展带去更多可能。Kyligence 自成立以来,一直专注在数据服务与管理方向,目前已经服务金融、零售、制造等全球头部客户。

在服务市场过程中,我们一直在思考,人类已经处于数据爆炸的时代,企业面对“海量数据”,如何筛选数据、如何管理众多数据源、如何管理优质数据成为难题。更进一步讲,市场究竟需要怎样的大数据服务,服务商又该如何满足客户多场景需求?

企业正在面临一场“数据困境”

过去二十年里,人类一直处在一个数据爆炸的时代。企业的传统业务数据如订单、仓储的增量已经相对平缓,取而代之的是人类数据(例如社交媒体、照片、行为画像等数据)和机器数据(日志、IoT 设备等)大量被采集和保存,它们的量级远远超过传统业务数据。

随着海量数据高速增长、数据特征越来越多样、数据源越来越繁杂以及技术间的整合和平台间的集成带来的难度,以及随着人工智能和云计算的发展,让数据管理的平台发生了变化。

先让我们来回顾下数据管理平台的历史。

大家知道数据仓库(Data Warehouse)的早期概念数据集市(Data Marts)在 70 年代由 AC尼尔森提出。1988 年 Bill Inmon 发表了名为《业务信息系统架构》的论文,从而正式介绍了数据仓库的概念和建设方法论。随后在 1996 年,Ralph Kimball 发表“数据仓库工具箱”介绍了维度建模。在数仓理论发展至今的 30 年间,越来越多企业选用数据仓库架构作为数据平台建设的标准和核心,分层构建多维数据模型和业务模型层。下游通过 ETL 工具对接各类数据源进行数据整合,上游数据应用进行数据消费提供分析决策。

不过,随着互联网等数字经济的蓬勃发展,数据量呈现爆发式增长,非结构化数据、半结构化数据不断涌现,数据更新也更加频繁,数据仓库难以支持这些场景的需求,即大数据著名 4V 问题:volume, variety, velocity, veracity。此外,还存在无法与数仓外的数据协同的问题,尤其是目前多云、多数据源等现实,使得“数据仓库”重新形成了“数据孤岛”,让业务人员很难获得全局数据视图。

接下来就是数据湖(Data lake),这一技术概念在 2015 年由 Pentaho 公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出。数据湖以离线批处理为主,能够灵活处理和分析结构化和非结构化数据,并快速得到结果,以缓解数仓的尴尬。但数据湖缺少数据管理能力,以及对数据质量的保障。对于数据管理团队来说,尽管管理了很大的数据量,但真正哪些数据是最有价值的,却始终不得而知。

正如 Gartner 在 2020 年的 Market Guide for Query Accelerators 报告中所描述的,数据仓库期望有数据湖的可扩展性,而数据湖则希望有数据仓库的企业级分析和管理能力。

再看湖仓一体,这个概念最早起源于 Databricks 提出的 Lakehouse:它是一种开放的架构,结合了数据湖和数据仓库特点,直接在数据湖的低成本存储上,实现与数据仓库中类似的数据结构和数据管理功能。

不过,无论是传统的数据仓库,还是近几年热门的数据湖、湖仓一体等,虽然都解决了一部分问题,但也有不少弊端显露。而且,随着时代大背景发生了一些变化,行业前提和假设与之前有了不同:

从专家到平民分析师:被使用的数据才是资产,不被使用的数据则是负债。过去,使用数据和解释数据是少数专家的权力。要充分发挥数据的价值,必须有越来越多的普通人来使用数据。这意味着“数据分析师”的人数将成百倍的增加,所以数据系统如何降低使用门槛,如何应对成百倍上升的工作负载,将成为极大的挑战;

数据从汇聚到注定分散:随着世界各国严控数据安全,欧洲有 GDPR,中美有各自的数据安全法,对跨国企业来说,建立一个集中型的数据湖已经不可能。此外,出于行业数据管控的目的,亦或防止被存储厂商锁定,多云、混合云部署在国内也成为趋势。因此,对于数据孤岛的整合思路将由汇聚(Collect)渐渐转向联接(Connect)。

从“已知”到“未知”:要想领跑数字化转型,企业仅重复已知的数据应用场景已经不够了,更需要的是一种数据创新的能力,探索未知的数据关联,发现未知的业务规律,开创未知的数据应用场景。

那么,下一代普通人也能用的数据仓库,应该是什么样的呢?

我们称之为智能数据云(Intelligent Data Cloud),它让使用数据像使用水、使用电一样方便,人人都能随取随用,自助使用。

从技术角度来看,智能数据云是之前数据仓库、数据湖、湖仓一体等技术体系的继承和延续,既有数据湖低成本的存储可扩展性,也有数据仓库的强化数据结构和数据管理能力。同时,在此之上,智能数据云提供更高一层的业务数据对象管理能力,并从业务对数据的读写需求出发,使用 AI 增强的方式自动化和简化技术层面的人工数据操作和数据管理。向外,智能数据云提供普通人可用的数据服务;向内,智能数据云以业务为导向自动化数据的操作和管理。

智能数据云打破数据孤岛,把collect 变成connect

下面让我们从实际场景中看看企业面临的现状究竟都有哪些:

这是一家零售行业的企业架构:可以看到,每一个部门都有自己所需要用到的系统,但由于企业业务发展的历史原因,企业内部信息系统多为烟囱式建设,数据无法互通,相对封闭,无法从整体视角为客户业务决策带去更加全面的有效决策,从而影响业务发展效果。

例如在一个营销数据的小闭环里,从客群的选择开始,企业通常会通过CRM系统筛选,然后指定营销执行的方案,规划到市场的营销系统,然后执行营销以后,回到收回结果,再次路径销售系统。那么通过分析这一系列动作,形成一些洞察,又开始下一轮的客群圈选和促销。在这样的一个小循环里面,它其实已经打通了几个数据烟囱了,从CRM系统到营销系统,到销售分析的一个系统。

另外,往更细节的方向来看,大家想一想:如果我在生产部门,供应链部门,市场部门,可能都有用户的个人隐私信息,电话号码,地址等等。那我就需要到每一条烟囱的系统里面去逐个讲对外的数据服务,询问这样的使用方式会不会有问题。所以,在这样的场景下,横向的数据口径的对齐显得尤为重要。

我认为考察企业数字化运营的水平,其实就是考察敏捷性。上述案例中,仅是一个营销场景的小闭环就已经对企业数据管理进行了一种考验。再来一个例子,如果你是一位KFC的门店经理,直接打开一个Mysql数据库,是完全看不懂的,因为需要专业的数据库知识。通过使用Kyligence产品,门店经理可以看到业务模型,哪些是他关心的?哪些是标签?指标是什么?这个平台打开了普通业务员使用数据的窗口。在这个窗口基础上,业务员可以做很多创新,比如制定更佳的促销方案、评估更合适的代言人等。

目前,企业已经进入了精细化运营阶段,也就是说不仅有线上,线下的数据基础。此外,在整个数字化的系统里面,由于大数据技术的提升,我们也已经能够精确地管理到每一个消费者。所以,技术的突破带来了这个能力。

技术的发展会随着时代不断迭代和进化,数据服务也是如此。未来人类使用数据的习惯一定会被创新性技术和服务模式所改变。所以,我们要帮客户 Connect 所有数据源,用一个数据平台搞定各种分析场景,平台能够自动识别最有价值的数据,希望用最简单的方式去让业务人员使用数据,去赋能数字化转型。随着越来越多的客户将业务部署在云平台,我们的“智能数据云“也满足了多云环境的部署。目前,我们已经支持微软云 Azure、亚马逊云 AWS、华为云等公有云平台,并且正在积极部署私有云服务。

作者个人简介

李扬,Kyligence 联合创始人兼 CTO,Apache Kylin 联合创建者及项目管理委员会成员,主创团队架构师与技术负责人,专注于大数据分析、并行计算、数据索引、关系代数、近似算法等技术。曾任 eBay 全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights 的技术负责人、摩根士丹利副总裁。

❷ 创新服务企业榜

❸ 创新服务产品榜

❹ 最具投资价值榜

❺ 创新技术突破榜

条漫:《看过大佬们发的朋友圈之后,我相信:明天会更好!》

联系数据猿

北京区负责人:Summer

电话:18500447861(微信)

邮箱:summer@datayuan.cn

全国区总负责人:Yaphet

电话:18600591561(微信)

邮箱:yaphet@datayuan.cn

Kyligence联合创始人兼CTO李扬:用智能数据云打造全链路数字化转型相关推荐

  1. PingCAP联合创始人兼CTO黄东旭:致力于打造全球最好的分布式数据库

    墨墨导读:2020年11月20日,一年一度的数据技术嘉年华(DTC)如约而至,今年正值DTC举办的第十个年头,大会以"自研·智能·新基建--云和数据促创新 生态融合新十年" 为主题 ...

  2. 对话 ONES 联合创始人兼 CTO 冯斌:技术管理者如何打造一支自驱型团队?

    熟悉冯斌的人,大都直接称呼其网名 Kid,包括他在 ONES 的同事.人如其名,Kid 的寓意就是「用孩子的眼光看世界」,返璞归真的思维方式才能发现新大陆.正如毕加索说的:「我一生都在向孩子学习.」 ...

  3. 瑞欧威尔联合创始人兼CEO 李波博士:“工业元宇宙”是为了更好赋能实体经济

    2021年12月10日,由广东省游戏产业协会.广东省虚拟现实产业技术创新联盟.深圳市科学技术协会.深圳市互联网文化市场协会指导,陀螺科技主办,深圳市科技开发交流中心.恒悦创客魔方协办,行业头部媒体游戏 ...

  4. 作者:冯是聪(1973-),男,博士,北京明略软件系统有限公司联合创始人兼CTO。...

    冯是聪(1973-),男,博士,北京明略软件系统有限公司联合创始人兼CTO,中国中文信息学会(CIPS)理事,中国计算机学会(CCF)大数据专家委员会委员,上海市数据科学重点实验室(复旦大学)数据科学 ...

  5. 《Miss Talk》第07期:对话拓课云联合创始人兼CTO 王晓伟

    拓课云联合创始人兼CTO 王晓伟 清华大学计算机应用与科学学士,原北京众望网络科技有限公司创始人 CEO ,高级架构师,有着近二十年音视频开发经验,早期曾担任北京威速科技有限公司研发总监.技术副总裁, ...

  6. Kyligence 联合创始人兼 CEO 韩卿荣获金融科技风云人物奖

    9 月 7 日,第三届中国•上海金融科技(市北高新)大会成功举办.本届大会由上海市静安区人民政府指导,上海现代服务业联合会.上海市市北高新技术服务业园区管理委员会主办.为表彰在技术创新.数据赋能方面作 ...

  7. 《Miss Talk》第08期:对话桥吧英语联合创始人兼CTO 于双印

    于双印 桥吧英语联合创始人.CTO 于双印,北航硕士,PMP,十年IT行业一线从业经历,技术驱动管理的Manager.曾服务于南天信息.国电.安邦集团等大型企业的核心技术部门和核心业务,技术经历涵盖银 ...

  8. 小马智行联合创始人兼CTO楼天城:无人驾驶:一场科技主导的“登月之旅”

    ⬆⬆⬆ 点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 2020年9月25-26日,2020年中国科技峰会系列活动青年科学家沙龙将迎来新的一期-"人工智能学术生态与产业创新& ...

  9. 杭州数澜联合创始人 \u0026 CTO 江敏:大数据思维和大数据冶炼 —— 拒绝坐着金山吃馒头...

    大家好,我是江敏,来自杭州数澜科技.我在 2007 年加入同花顺,前期主要做服务端的架构研发,后期主要负责组建同花顺大数据团队和构建大数据平台.2013 年,我加入阿里数据平台事业部数据服务团队,构建 ...

最新文章

  1. httpWebRequest 错误
  2. 数据结构 - 如何判断两个无环单链表是否相交;如果相交,给出相交的第一个结点
  3. oracle pl sql示例,oracle PL SQL学习案例(一)
  4. 【三代增强干货一枚】外向交货单Delivery (VL01N)Header屏幕增强
  5. C语言编译过程总结详解
  6. Jerry 2017年的五一小长假:8种经典排序算法的ABAP实现
  7. Oracle入门(十四D)之常规函数
  8. cosine_similarity和torch.cosine_similarity速度差异(人间奇事)
  9. MongoDb和LINQ:如何汇总和加入集合
  10. 20200715:动态规划复习day06
  11. 基于Modelica的起落架摆震建模
  12. linux修改dns地址的三种方法
  13. SQL server 还原数据库遇到正在使用的解决方法:
  14. 加速求解两个矩阵任意两行之间的pearson相关性
  15. 使用MapReduce实现k-means算法
  16. 21个数据科学家面试必须知道的问题和答案
  17. PKUSC 模拟赛 day1 下午总结
  18. 简单Java类映射转换
  19. 【论文】医疗大数据方面的资料
  20. 全球十大富豪的奢侈座驾

热门文章

  1. 网站cc攻击的防御步骤
  2. PLSQL Developer13.0.4安装破解教程
  3. 南京中北学院荣跃计算机,南京师范大学中北学院来我院交流调研
  4. 为了追学姐,用python把她的照片做成了游戏,她看了...
  5. 主存/内存/外存 区分
  6. android跑马灯效果横向,Android自定义View实现纵向跑马灯效果详解
  7. oracle取同期和上期,取同期和上期数据
  8. oracle查询一小时内数据,ORACLE 查询近一天, 近半小时内的数据
  9. 已知点的经纬度坐标计算/读取DEM高程信息/海拔高度
  10. IMSI号和IMEI解释