星环科技于2021年3月发布了星环极速大数据平台TDH的8.0版本。相信很多用户都对这款产品非常感兴趣。本系列文章向您逐一介绍TDH8.0全新功能和技术创新。帮助企业级数据平台用户更全面、深入地了解前沿的大数据技术,更好地技术选型。

您也可以在星环科技官方视频号、星环社区服务号、以及bilibili、腾讯视频等站点看到我们的视频。

往期内容:

TDH8.0 使用必读 :为什么你需要存算解耦的多模型数据管理平台

TDH8.0使用必读2: 10种数据模型全支持 未来属于多模型大数据平台

谈谈TDH的产品使命

我们从TDH的名字的由来讲起。TDH全称叫做Transwarp Data Hub,所谓Data Hub,简单来说,就是我们想做大数据的集线器。

从2013年星环创立开始,我们就想提供一个大数据平台和一系列的工具,用户可以把所有的数据都汇聚起来,通过工具对数据进行操作,帮助客户企业创造价值。要想做成这件事,这个平台希望能满足以下几个需求:

首先,这是一个企业化的软件,它是由很多子模块组成的,比较复杂;

第二,我们要满足一站式的数据处理需求,能帮助用户完成一个数据处理的全链路;

第三,我们要处理多种数据模型,结构化,图数据,文本数据等等;

最后,我们要有强大的存储和计算能力,有能力帮助客户在海量数据中探索价值;

要真的去实现一个企业级,一站式,多数据模型的大数据平台,其实还是挺难的。星环大数据平台也攻克了不少技术难题,今天我们话题的围绕多模大数据平台来展开。

我记得星环2013年刚刚成立,那个时候大数据技术非常火热,各种大数据技术层出不穷,市场普遍对这些技术也都处于一个摸索的状态。许多同时期的大数据基础软件公司,大多都会选用一些相对成熟的开源产品直接组合成为自己的大数据解决方案,理由是许多国内外的互联网企业已经证明了这个技术可靠,那我们没必要自己再从轮子做起。

时至今日,从技术角度看,我也不认为这是一个正确的做法,特别是对于底层软件来说。

我们面临的是企业的复杂系统,我们需要承认我们所面对的问题的复杂性。直接用开源产品堆积成为的解决方案,虽然在针对性场景下都有着一定的解决能力,但是对场景的划分需要有比较专业知识。更重要的是,我们的企业客户业务发展历史是很悠久的,远远超过了互联网公司,超过大数据技术的发展。

相比较他们的业务而言,大数据技术可以解决一些痛点问题,但是不够系统。用户没办法持续,长期只利用一两个产品来持续开发。这个原因有两个,一个开源的大数据技术功能比较少,第二个是大部分开源社区还是由国外技术人员主导,国内的场景面临的问题考虑的少一些。

这和互联网公司完全不同,互联网公司没有历史业务,完全可以就着技术来进行业务的开发,所以我们不能认为开源的技术在互联网公司被验证,就一定可以应用于传统企业。

当然,时至今日,大数据技术已经被验证是可以应用于企业关键的生产系统的,这点也是星环所坚持的。但是怎么样做一个好的产品,把这些技术融入,同时又能支撑企业复杂的场景,则是一个令我和我的团队头疼不已的事情。

TDH架构设计原则-用户第一,效率第二

首先是成本问题,作为一个创业型公司,特别是刚刚创业的头几年,我们没有足够的研发人手,所以不可能去把市面上的开源产品都拿回来研究透彻,所以我们选择的路就是一方面学习核心的大数据技术,同时产品代码尽量自主研发,并且在研发的过程中对一些技术做迭代改进。

自主研发虽然在产品构建初期,速度可能偏慢,质量上也会难以把控,但是一旦完成雏形,后续的迭代速度会很快,道理非常简单,就是你很熟悉自己的产品架构,哪里该去扩展,哪里可以重构,都非常清楚,代码的演进和迭代是在合理的规划和控制中的。引用我的一个同事的话说就是,都是自己写的代码,有啥不能实现的

因为人手有限,平台需要的功能又比较多,所以最早在设计的时候,TDH的整体架构模块化的是比较好的。每个研发都可以聚焦在自己的模块内工作,这样效率比较高,也好测试,有经验的研发负责人则会把接口定义的可扩展性强一些,我们也考虑到了日后需求的进一步迭代。

所以一方面外因我们面临的是复杂的企业化场景,内因上我们也想用高效的方法去实现一个自主可控的大数据平台。内外因结合,使得我们最终确定了抽象出一个统一的分布式计算引擎和统一的分布式存储引擎,再由各个产品团队来实现各自的存储结构来满足客户业务需求的这么一个架构。这样设计也为我们今天这样一个多模型的大数据平台打下了基础。

在后续的架构演进过程中,通过客户的需求也不断验证了我们这个设计的正确之处。

这里举个例子,我们在某个图数据库实施过程中,发现构建图的时候有一个点的出入度特别大,就是那种成千上万倍的大于这个图的平均出入度。我们想好奇想查一下这份原始数据,于是我们就把图数据库用的引擎通过session的一个热配置切换到了SQL的状态,发现是数据和schema对错了,导致大量的错误数据。
 
这个过程其实就是所谓统一引擎的一个好处。统一的存储引擎类似,当遇到扩缩容,磁盘损坏等情况下,不用管是什么数据模型,运维方式,命令都一样,不需要针对每个组件都学一套运维方式。且不说诸如ElasticSearch这样的分布式运维方式比较独出心裁的一种分布式方案,光是不同的命令套系学起来就都还要费些功夫的。
 
当然星环的多模大数据平台还有一些很不错的功能,比如多种模型处理可以在一个进程里,也可以独立进程使得资源使用率上比较容易调配;优秀的SQL的支持度可以降低业务迁移成本;统一的运维方式和理念可以让运维变得容易一些等。

团队积累8年的成果:TDH架构先进性的体现

我们可以通过做一些具体的比较来说明这个问题:

一、集成式 vs 拼装式

开源社区的软件往往是针对某一个,或者几个特定场景,要支持一个企业级的需求,开源的大数据平台需要用很多组件来拼装而成。星环的大数据平台软件和开源的大数据软件栈相比,功能更为强大,架构复杂度远远低于Hadoop生态圈。在同等功能复杂度下,星环的组件和模块个数是远远小于开源产品的组装出来的方案的,这个是优势。

因为简单,去掉了不必要的交互。当然在功能需求单一的一些场景下的时候,目前我们的大数据平台还是偏重了一些,不过随时软件越来越成熟,我们会通过模块化等方式去瘦身,针对一些小场景做好软件的瘦身工作。

二、传统企业场景 vs 互联网场景

这个话题,之前也提到了,这里我们再细聊一下。传统企业历史悠久,比如就拿银行的场景来看,实际上业务的完善度是很高的。我们在说创造新场景创造新价值的时候,首先需要考虑兼容性。我们不能绕过原来的业务去创造新的业务,那不切实际。所以实际上,原有业务能够怎么比较顺利的迁移到TDH上,是我们考虑的第一个问题。

我觉得互联网和传统企业的问题,是两类的问题。在解决问题的时候,技术是可以互相借鉴的,但是不能说谁更先进或者谁更有用。这个有点关公战秦琼的意思。

TDH在选择技术路线的时候,是比较喜欢尝试新的技术的,但是不一味地追求新,而是追求能适用。新的技术,有价值的技术,必须能够在企业应用里落地。落地是我们在做技术选择的时候最重要的一个指标。因此我们的TDH在技术上,用的是新的大数据技术,同时在落地上也是非常的接地气,围绕客户的需求不停的迭代,这个是良性的发展,也会逐步形成产品的核心竞争力。

三、JVM vs C Lang

技术圈的朋友其实经常面临一个选择。我直接谈我们的观点,Java,易学难精;Native的语言,上限高一些。星环的统一计算引擎是用JVM为主的,而存储引擎则是C++写的。这样的组合搭配是比较合适的目前的客户的需求的。存储引擎稳定,我们用C++做了很好的内存模型,事务管理,同时容灾,扩容等能力也在随着版本的迭代不断的增强。计算引擎功能强大,我们在编程上,会更注意适配JVM的GC模型和Jit,使得我们可以快速的开发出性能和功能都比较强大的计算引擎。

难点·尝试·目标·等你

在过去的一年多时间以来,为了突破几个关键性能,我们团队始终在不断尝试。其实我们从一开始想做这个结构,到把这个结构做出来,也不是一帆风顺,其实可以说是比较坎坷的。开发过程其实是一路踩坑的过程,印象比较深的就是去解决操作系统啊,JVM等偏底层的运行环境组件的问题。当然最经典的就是和GC去做搏杀,不过这个实在太习以为常以至于没什么可以聊的,今天可以聊聊一个稍微偏冷门一点的故事,和Jit相关。
 
Jit是java程序运行的性能关键,一段Java代码运行的到底如何全看C2编译器的表现,我们遇到过很多运行过程中性能衰减的情况,简单来说就是越跑越慢,我们通过看jit的汇编发现了一些问题的关键。
 
后面我们的工程框架设计的时候特别在意在jit的编译之后的表现。如果不解决这些问题,我们也没办法在同一个JVM里放这么复杂的功能,去支持很多种数据模型。
 
国产基础软件发展时间还很短,我们还有很多很多的工作要做。我们会把更多的精力投入在平台的易用性,稳定性,性能,同时也会开发更多的功能。希望TDH可以帮助客户创造更大的价值。
 
如果想加入我们一起来做系统软件,欢迎联系我们,给我们talent@transwarp.io投简历。

星环研发总监为你揭秘TDH8.0的前因后果 | TDH8.0 使用必读 3相关推荐

  1. 【观察】大数据3.0新时代 星环科技的思与行

    申耀的科技观察 读懂科技,赢取未来! 众所周知,如今的世界正在以加速度进入到智慧时代,特别是随着各项业务的云化深入以及万物互联,数据处理能力的进一步提升,智能算法一次又一次的突破,以及云计算在传统产业 ...

  2. 【观察】星环科技:七年磨三剑,积硅步至千里

    申耀的科技观察 读懂科技,赢取未来! 众所周知,如今的世界正在以加速度进入到智能化时代,特别是随着各项业务的云化深入以及万物互联,数据处理能力的进一步提升,智能算法一次又一次的突破,以及云计算在传统产 ...

  3. 星环科技TDS 2.4.0 发布: 数据开发、数据治理、数据运营套件能力再次升级

    近日,星环科技大数据开发工具 Transwarp Data Studio 2.4.0版本重磅发布,新版本中数据开发.数据治理.数据运营三大套件能力全部升级,让数据开发更便捷.数据治理更高效.数据运营更 ...

  4. 腾讯研发总监王辉:十亿级视频播放技术优化揭秘

    QQ 空间在 2016 年日均视频播放量由年初的千万级迅速突破到十亿级,过程中也对整个视频播放技术的可靠性.性能.操作体验等方面提出严峻的考验,相关质量急需提升.经过多个迭代持续和各项优化,外网整体质 ...

  5. 全面升级!星环科技基础软件再升级,赋能数字中国建设

    3月24日,星环科技举行2021线上发布会,支持10种主流数据模型的多模数据平台和数据云产品.实现AI建模的全生命周期管理人工智能等产品新版本齐齐亮相. 星环科技坚持核心技术自主原创,专注于大数据基础 ...

  6. 【观察】星环科技重构数据云平台,持续释放数据红利和价值

    申耀的科技观察 读懂科技,赢取未来! 众所周知,如今的世界正在以加速度进入到智能时代,特别是随着各项业务的云化深入以及万物互联,数据处理能力的进一步提升,智能算法一次又一次的突破,以及云计算在传统产业 ...

  7. 【观察】打造中国基础软件新名片,星环科技创新与超越之路

    申耀的科技观察 读懂科技,赢取未来! 我们知道,随着大数据.云计算.人工智能等新技术的蓬勃发展,三者之间的技术边界变得越来越模糊,三类技术也在相互影响并不断融合. 在此背景下,定位于提供大数据和人工智 ...

  8. CDH迁移 | 教你三步实现CDH迁移到星环TDH

    Transwarp Data Hub(TDH) 是星环科技自主研发的企业级一站式多模型大数据基础平台,其领先的多模型技术架构提供统一的接口层,统一的计算引擎层,统一的分布式存储管理层,统一的资源调度层 ...

  9. 刚刚!国产大数据基础软件第一股星环科技成功上市,开盘大涨超52%

    作者 | 冬梅 10 月 18 日,"国产大数据基础软件第一股"星环信息科技(上海)股份有限公司(简称"星环科技")正式登陆科创板,股票代号为星环科技(6880 ...

最新文章

  1. 2020上半年收集到的优质AI文章 – 计算机视觉
  2. Interview Q A 程序会在哪一行死掉
  3. 绝了!“修仙模式”学编程是什么体验?
  4. 算法提高课-图论-欧拉回路和欧拉路径-AcWing 1185. 单词游戏:判断有向图是否存在欧拉路径、并查集
  5. fpga实战训练精粹pdf_tensorflow版PSENet 文本检测模型训练和测试
  6. commons cli_从Commons CLI迁移到picocli
  7. 重载函数和重载运算符
  8. c语言将数据写不入文件,求大神看看为什么不能将数据写入文件
  9. python enumeration_如何在python中将int转换为Enum?
  10. N 个互异数的数组的平均逆序数
  11. 非直连方式下C语言程序与数据库的消息交互流程
  12. ORA-01017: invalid username/password; logon denied
  13. Jetson TX1开发笔记(三):开发利器-Nsight Eclipse Edition
  14. 博士一篇SCI三区即可入职该高校,配偶是硕士的,直接给事业编!还有45万安家费…...
  15. win10下 STLINK 驱动不正常 禁用强制验证数字签名
  16. 电子计算机x射线断层扫描,CT——电子计算机X射线断层扫描技术.pdf
  17. Leetcode--Java--340. 至多包含 K 个不同字符的最长子串
  18. 美名腾智能起名系统有了新界面
  19. c || 结构体 联合体 枚举类型 字符串
  20. ubuntu的apt-get install tomcat8的坑

热门文章

  1. 【配置】GitHub Pages使用阿里云域名
  2. 【源码在文末】SpringSession实战使用(基于SpringBoot项目)
  3. mac如何强制退出程序?强制退出程序的六种方法
  4. Android工具修复属性,Broken Android Data Extraction(安卓数据修复工具) V3.0.20 官方版
  5. kof'97 出招表
  6. AssertionError: WARNING: No labels found in ** Can not train without labels.
  7. [游戏技术]求生之路服务器参数配置
  8. mysql多数据表关联查询慢问题解决方案
  9. 输入一行字符,分别统计出包含英文字母、空格、数字
  10. JAVA学习05-类型转换