大数据,大数据,几乎所有的企业都在提大数据。

问题是,大数据涉及哪些核心技术?底层平台经历了哪些重要发展阶段?对于刚接触大数据的“新兵”来说,如何简化开发、诊断和运维过程,从调整代码、修改参数、重跑、等待、看日志、停掉作业等重复、复杂的工作中解脱出来,提升工作效率?如何在快速构建数据应用的同时,还能充分享受到低成本优势……

本期创业访谈,我们有幸邀请到跑象科技CEO 卢山巍,向我们具体分享了在大数据领域“摸爬滚打”的一些经验和看法。在他看来,企数据化建设如果是零基础,应该先从一两个业务场景切入,或者从需求痛点出发,以解决具体问题为核心点,待完成数据化体系的初步搭建工作、积累一些成功经验后,再将这种模式复制到其他的场景中,从而逐步搭建起企业的大数据体系。

问题 1:卢总,您好!很荣幸有机会采访您,先简单介绍一下您自己

答:您好,我也很荣幸。我也算是大数据领域的老兵了,在Hadoop/MapReduce/Storm时代就在eBay从事批量数据处理和实时数据处理的相关开发工具和数据质量工具的研发和应用,后来加入宜信,带着团队研发了四大开源项目,并于2017年9月在GitHub上开源(DBus、Wormhole、Moonbox、Davinci),之后主导宜信统一数据中台的建设工作。我一直对大数据基础平台研发、实时数据处理技术、现代数仓建设、数据中台建设和大数据应用平民化等课题有着深厚兴趣并持续思考,在2020年底有幸获得资本的认可,成立了“跑象科技”企业服务公司,主创团队来自四大开源平台核心人员。

“跑象”的寓意是奔跑的大数据,创业的初衷是为了能够继续在现代实时数据技术和数据应用上深耕,希望可以运用我们的技术帮助企业进一步发挥大数据的价值。

问题 2:您于2020年底创立了跑象科技,在此之前在宜信和eBay都工作过,请问是基于怎样一种考虑或者契机促使您做的这个决定?

答: 多年的IT从业经历,让我意识到自己的热爱与擅长,我是一个本质导向思维方式的人,善于将表象抽象提炼,然后再反向发散创新。反观近20年的工作经验,基本上都是围绕工具、框架、平台、通用技术产品等展开的,所以我更愿意称自己为“技术产品架构师”。eBay的工作经历,让我窥探到了大数据的魅力,职业方向也在此时定了下来;在宜信的5年经历,让我找到了尽情发挥大数据技术工具创造和设计想法的土壤。回顾过往,很感谢在eBay和宜信的经历和积累,因为这让我找到了能将自我价值最大化发挥的方向。跑象科技,是过往的积累和认知成熟落地的实体果实,我们在此基础上,针对数据应用工具的设计和研发做了更多扩展、改进、延伸和增强。

问题 3:您之前在宜信主要负责的工作是?跑象科技现在的主营业务是什么?跟您之前技术方向是否一致? 

答: 在宜信那段时期,我主要负责四大大数据开源平台的从0到1,以及公司统一数据中台建设的从0到1。如果说在宜信的创造是第一个和第二个小板凳,那么,跑象科技现在在做事情则是第三个甚至是第四个小板凳。跑象专注的大数据工具研发领域,和此前所做的四大开源项目,既是一脉相承,同时也可以说是推倒重来的,二者并不矛盾,我们认同精益求精,也认同重复的力量,应该这就是人们口中的工匠精神吧,跑象整个产研团队的气质都是这样,把复杂纠结留给自己,把灵活易用交给客户。

自创立以来,跑象科技致力于提供数据基础设施建设软件平台和大数据建设、大数据转型最佳解决方案,解决企业用户数据应用构建过程中的痛点,尤其在实时化、可视化、应用化方面有着深刻的理解、认知和最佳实践。

问题4:当初为什么考虑进入大数据这个领域?

:eBay的工作经历,让我接触并进入了大数据的领域。记得刚开始时,一个超大数据量的计算处理作业性能调优,我做了3个月,每天就是趴在电脑前调整代码、修改参数、重跑、等待、看日志、停掉作业、重复循环......后面,我意识到这样的开发流程过于繁琐,于是先旁路出来开发了一套ETL数据开发框架,以提速上述过程;然后再回到主线继续调优,随即我发现大数据数据质量的检测和修复,和IT业务系统开发完全不一样,没有现成的工具和经验可用,于是,我再开旁路开发了一套数据质量检测和诊断工具,解决快速定位逻辑和坏数据问题;然后再回到主线继续调优,尝试各种性能参数组合。有一次,我上面重复循环的这个工作拖垮了一整个大集群的正常运行,因此被一个印度大佬越洋电话训了一顿。就是在领导这种耐心(无奈)等待之下,我完成了第一个大数据项目的上线,3个月的时间,产出是1套ETL开发框架、1套大数据质量测试诊断工具,作业性能从3天跑完到3小时跑完。经历这一切之后,我领略到了大数据的黑魔法魅力,不知不觉间,我自己也成为了大数据的黑魔法师。

问题 5:目前大数据发展的问题有哪些?基于此我们怎么做的?

答:基于过往的职业经历,以及在开源社区运营的几年当中,与各类企业都有过深度交流,我们看到大数据的价值变现,不同企业所处的阶段是不同的。简单来说,随着企业数据建设的逐步开展和升级,企业数据能力会从0到1(数仓建设)并开始朝向100(数据应用)进发。以数仓建设为主的企业,批量数仓、实时数仓自有其价值,但我认为,真正全面释放数据价值的形态应是百花齐放的数据应用,在这一点上,很多互联网企业已经提供了很好的案例和实践,相信传统企业和中小企业也会越来越重视数据应用的建设。跑象在做的事,就是为企业提供可以快速构建数据应用的工具和武器,我们相信,当一个领域的工具效率极大化,使用成本极低化,这个领域的创新力就会被释放并点燃,我们致力于推动这个进程。

问题6:企业大数据如何起步? 

答:这是个比较大的话题,很多企业在数据化建设的过程中存在认知不足、技术陷阱、人才短缺、经验不足等问题。举个例子,如果企业在开始时,就投入大量的人力、财力、在缺乏试用验证的情况下,贸然上一个相对庞大的系统,很容易让企业陷入投资回报率未能达到预期的困境。企业的数据化建设,在零基础的情况下,建议先从一两个业务场景切入,或者从需求痛点出发,以解决具体问题为核心点,完成数据化体系的初步搭建工作,待积累一些成功经验后,再将这种模式复制到其他的场景中,从而逐步搭建起企业的大数据体系。这样一来,无论是在投入还是产出方面,都会更加有的放矢,这也是我们跑象秉承的理念。跑象在产品规划初期,就已充分考虑到企业现状和痛点,倾力打造产品矩阵而非单一平台,可以理解为我们每个产品都是可配置的,可单独使用,亦可组合使用,企业可以针对性选择产品来解决自身问题,也可组合使用完成企业端到端全链路数据加工。产品价格采用低门槛准入方式,以保证企业能够快速、低成本的搭建起自己的数据化体系。进一步提升“技术变迁成本抗性”

问题 7:针对目前的数据量爆发式增长,对数据处理能力和时效性都有了更高的要求,我们是怎么应对的?

答:新问题总会有新技术来应对和解决,但随之而来也会带来一定的副作用。站在客户企业角度,新技术的变迁会带来新的业务驱动力量,但也会带来新的学习成本和迁移成本。在跑象看来,我们的技术平台本身就具备中间件架构属性,对于平台产品的抽象和设计,可以让客户持续享受新技术带来的变革,还能有效提升客户的“技术变迁成本抗性”。这是基础平台本身的价值体现:让客户安心享受新技术带来的能力和价值。

问题 8:基于您这些年的工作经验您觉未来大数据发展的趋势是什么?基于此我们准备怎么做?

答:以“黑客帝国”的角度看,数据是无处不在的,对数据的应用方式也是无穷无尽的。跑象希望可以一直保持大数据技术趋势和数据应用发展的敏感度,不断推出更多好用易用的数据工具,让企业和个人能够以前所未有的视角和方式与时代共进。

问题9:最后,您对技术人员未来职业路线选择是否有一些好的意见和建议?

答:我个人并不觉得自己是个成功案例,好听点说算是大器晚(未)成,如果时间可以重来,我希望可以更早的形成自我认知,迈出事业脚步。所以我希望每个人能够在时代的快速变迁中尽早找到自己的定位,自己的热爱,并为之全力以赴。

跑象科技CEO 卢山巍:大数据具有“黑魔法”魅力相关推荐

  1. 【金猿人物展】MobTech袤博科技CEO兰旭:大数据应用应“懂行”又“懂数”

    兰旭 本文由MobTech袤博科技CEO兰旭撰写并投递参与"数据猿年度金猿策划活动--2021大数据产业趋势人物榜单及奖项"评选. 数据智能产业创新服务媒体 --聚焦数智 · 改变 ...

  2. 【金猿人物展】数睿数据创始人兼CEO穆鸿:大数据价值创造关键在于应用普惠...

    ‍ 穆鸿 本文由数睿数据创始人兼CEO穆鸿撰写并投递参与"数据猿年度金猿策划活动--2022大数据产业趋势人物榜单及奖项"评选. ‍数据智能产业创新服务媒体 --聚焦数智 · 改变 ...

  3. 科技赋能农业变革:“大数据+农业”重新定义产业体系

    大数据技术和农业相结合将赋予改变农业从田间到餐桌的整个链条,推动精细化农业.实现全程可追溯,"大数据+农业"将重新定义农业.本文从农业大数据定义.时代背景.制约因素.政策措施.应用 ...

  4. 云从科技在渝布局人工智能大数据平台

    近日,重庆日报记者从两江新区获悉,重庆中科云从科技有限公司拟投资1.2亿元,在渝布局国内顶尖人工智能大数据平台,以重庆为基点,服务整个西部地区人工智能和大数据产业发展. 据介绍,该人工智能大数据平台已 ...

  5. 中国信通院金融科技负责人韩涵:大数据是生产资料的变革,区块链是生产关系的变革...

    在近日召开的"2018中国金融科技产业峰会"上,中国信息通信研究院主任工程师.金融科技负责人韩涵正式发布了<中国金融科技前沿技术发展趋势及应用场景研究报告>,详细讲解了 ...

  6. 大众汽车CEO:支持汽车大数据 反对数据独裁者

    据美国<福布斯>杂志网站3月9日报道,德国汉诺威CeBIT信息及通信技术博览会召开前夕,大众汽车CEO马丁 文德恩(Martin Winterkorn)表示支持汽车大数据,呼吁汽车制造商与 ...

  7. 面经4:顺丰科技:22年实习生大数据开发面试

    本人是一个双非硕士在读地研二狗,非科班出身,最近也是参加了大数据开发地面试,已拿到了哔哩哔哩和顺丰的大数据开发岗实习offer,现在把自己的面试经历分拨记录下来,记录了面试各个公司的问题和心经,给正在 ...

  8. 金融科技:如何通过简易大数据智能决策处理业务?

    进入信息时代,面临知识爆炸和信息泛滥,人们力图从海量数据中挖掘出有用的信息,获取所需的知识,这就需要利用人工智能的方法对数据进行分析.本文的主题是如何通过智能化和数据分析处理金融业务. 在互联网金融产 ...

  9. 科技风配色(适用大数据展板)

最新文章

  1. 除了腾讯阿里,中国最牛的风投机构,其实是合肥市政府!
  2. python使用joblib模块保存和加载机器学模型
  3. [css] 怎样用纯CSS实现禁止鼠标点击事件?
  4. docker kafka互通有问题_Docker搭建kafka集群
  5. more指令和less指令使用的区别
  6. ztree在onCheck()方法中防止因触发联动关系导致页面多次渲染而卡死的问题
  7. Netty学习笔记(一) 实现DISCARD服务
  8. python学来干什么-学python出来到底能干嘛
  9. 基于linux的贪吃蛇游戏设计_基于Unreal4的战棋类游戏《棋行傀儡》的设计与实现...
  10. 员工培训管理系统设计与实现
  11. 如何控制局域网网速_图文版[许迎果讲科普] 常见的影响网速的因素
  12. appium2.0+ 单点触控和多点触控新的解决方案
  13. JavaScript系列-闭包
  14. 计算机二级数据透视图教程,计算机二级Office:Excel数据透视表和透视图
  15. 百行代码手撸扫雷(下)c/c++
  16. 触摸屏中应用的电容式触摸芯片
  17. 公众号后时代,暴涨100万粉丝、篇篇10w+是如何炼成的?
  18. SpringBoot整合email
  19. 测试用例模板(个人习惯使用)
  20. Mathematica--上课笔记(1)

热门文章

  1. 筑梦品牌:推动品牌建设致力于打造好中国品牌
  2. educoder算法设计与分析 实验一扩展 袋鼠过河问题
  3. 学习ZYNQ之FPGA2(开发板资源初探)
  4. 【python基础】python中的乌龟画图
  5. 平方在c语言程序中怎么表示什么意思,c语言中的平方是怎么表示的?
  6. 【数据可视化】数据可视化分类
  7. DSS部署-7、配置Python
  8. Windows电脑 添加 安卓或者苹果平板作为拓展屏(spacedesk )
  9. 周鸿祎为短视频狂砸百亿
  10. windows系统erlang和rabbitMQ安装教程(附网盘下载地址)