刚刚获悉,由腾讯云大数据团队主导的Ozone 1.0.0版本在Apache Hadoop社区正式发布。据了解,经过2年多的社区持续开发和内部1000+节点的实际落地验证,Ozone 1.0.0已经具备了在大规模生产环境下实际部署的能力。

Ozone 是Apache Hadoop社区推出的新一代分布式存储系统,它的出现满足了大量小文件的存储问题,解决了Hadoop分布式文件系统在可扩展性上的缺陷。作为Hadoop生态圈的一款新的对象存储系统,能够支持百亿甚至千亿级文件规模的存储。

腾讯云大数据团队Ozone项目负责人陈怡表示,腾讯是国内一线互联网公司中最早加入社区的,目前已经在Ozone项目上已经主导完成了集群网络拓扑感知的开发,以及数据写入Multi-Raft Pipeline功能的开发。同时,主导的StorageContainerManager(SCM) 高可用HA功能也正在开发中。

Ozone 架构图

以集群网络拓扑感知来说,在传统的大数据构架下,有了网络拓扑结构,计算引擎的调度器可以将任务调度到离数据最近的节点来获取“数据的局部性”。即便是新兴的计算存储分离构架,同样也需要集群网络拓扑信息,来保证数据的故障容错能力和高可用性。

陈怡进一步介绍说,在Ozone 的Alpha 发布后,腾讯内部的大数据平台上线了Ozone生产集群,承接了一部分业务的数据存储。随着数据服务体量的增加,逐渐发现Ozone写入性能显现出了一定的波动和瓶颈。基于这个发现,腾讯Ozone项目组设计并开发了数据写入Multi-Raft Pipeline功能,显著的提升了Ozone的写入吞吐量和性能。

此外,为了测试Ozone整体的稳定性和性能,作为部署应用的先锋小队,腾讯内部部署了一个1000个数据节点的集群。进行了长达几个月的稳定性和压力测试。期间团队遇到并解决了各种OOM、节点Crash、性能低于预期等问题。经过全面的优化之后,单集群1000个节点现已能长时间稳定运行,并且所有的数据都校验确认正确无误。

除了1000个节点集群的测试,1.0.0版本还进行10亿个元数据对象的测试和优化,进一步解决长期困扰HDFS的大量小文件问题。目前Ozone 1.0.0能够轻松支持10亿个10KB小对象的写入,同时元数据节点内存使用不超过64GB。

为了确保Ozone和Hive、Spark、Impala等计算框架的无缝对接,Ozone 1.0.0进行了和Hive LLAP、Spark以及Impala的集成测试。TPC-DS的测试表明,在100GB和1TB两种数据量大小下,Ozone总体比HDFS有3.5%的优势。

经过不断的测试和优化,升级后的Ozone 1.0.0在版本功能上有了质的跨越。除了支持 Hadoop Compatible FileSystem、Hadoop 2.x以及 Hadoop3.x环境,Ozone 1.0.0还兼容Hadoop生态的Kerberos认证体系,支持数据的用户无感知加密存放和Ranger授权集成、GDPR “Right to Erasure”以及网络构架感知。

未来,腾讯云大数据还将在Ozone的基础上开发基于SCM的新一代高性能分布式文件系统,并持续推进Ozone在更多腾讯内外部业务的实践落地,部署更大规模的生产集群。同时,进一步拥抱开源,深度参与Hadoop社区,提高Ozone的可靠性、稳定性和性能,将其打造成新一代大数据文件和对象混合存储系统。

值得一提的是,腾讯大数据团队除了在Ozone 项目上的贡献之外,近年来在开源领域的贡献正在逐步加速,目前已完成了大数据核心能力全开源。同时,还结合实际业务场景推动开源技术加速落地,通过技术实践和创新持续回馈社区贡献开源。在Apache基金会的大数据项目上,腾讯已经为主流的Hadoop、Spark、Flink等项目贡献了大量的特性和patch。

腾讯云大数据团队主导Apache社区新一代分布式存储系统Ozone 1.0.0发布相关推荐

  1. 腾讯云大数据发布数据生态战略,构建开源开放数仓生态

    2020年12月20日,在腾讯2020 Techo Park开发者大会大数据专场上,腾讯云大数据产品总经理聂晶对数据仓库近30年发展历程做出总结,并分享了他对目前行业的认知以及未来发展的判断.聂晶表示 ...

  2. 腾讯云大数据获“年度金融科技创新之星”,新一代数据架构首次公布

    在2022第三届银行业数字化创新(中国)峰会上,"华信奖"获奖名单正式公布,腾讯云大数据团队凭借领先的技术优势.丰富的金融科技服务经验,斩获"年度金融科技创新之星&quo ...

  3. 腾讯云大数据产品中心总经理刘煜宏:企业全域数据体系建设(附完整PPT)

    背景:5月23-24日,以"焕启"为主题的腾讯"云+未来"峰会在广州召开,广东省各级政府机构领导.海内外业内学术专家.行业大咖及技术大牛等在现场共议云计算与数字 ...

  4. 腾讯云大数据实战案例

    内容来源:2017年5月20日,腾讯高级软件工程师吴友强在"中生代技术沙龙系列之互联网大数据"进行<腾讯云大数据实战>演讲分享.IT 大咖说作为独家视频合作方,经主办方 ...

  5. E往无前 | 人人在用的微信支付,腾讯云大数据ES如何让它低成本高可用?

    <E往无前>系列将着重展现腾讯云ES在持续深入优化客户所关心的「省!快!稳!」诉求,能够在低成本的同时兼顾高可用.高性能.高稳定等特性,可以满足微盟.小红书.微信支付等内外部大客户的核心场 ...

  6. 第六届 Techo TVP 开发者峰会暨腾讯云大数据峰会来啦

    引言 50 年前,数据库管理系统.关系型数据库诞生,数据处理效率大大提升.数据库软件开始被应用于业务数据处理.20 年前,单机存储能力遭遇瓶颈,分布式存储计算架构成为主流.Apache Hadoop ...

  7. 鹏华基金核心系统完成国产化升级,腾讯云大数据TBDS再拓应用新场景

    5月8日,腾讯云联合鹏华基金共同对外宣布,通过双方技术团队以及战略合作伙伴华云中盛共同努力,腾讯云大数据套件TBDS日前已经正式在鹏华基金大数据核心系统落地应用,实现对原有大数据TA(Transfer ...

  8. 云原生数据湖为什么要选择腾讯云大数据DLC,一份性能分析报告告诉你!

    摘要 日前,腾讯云大数据数据湖计算 DLC 与国内两家知名云厂商的数据湖产品进行了性能对比,其中腾讯云 DLC 在三款产品中SQL平均执行查询时间短,性能表现优.腾讯云大数据 DLC 在存算分离和大数 ...

  9. 直播预约 | 点“数”成“金”:看腾讯云大数据如何助力金融机构激发海量数据潜能!...

    金融与互联网同作为数据密集型行业,积累了海量的数据. 伴随着业务的创新与扩张,金融机构如何有效将海量数据与大数据技术能力结合,实现数据潜在价值挖掘,进而衍生新的业务形态? 从国有大行到纯互联网银行,从 ...

最新文章

  1. 使用Keras训练自动驾驶(使用Udacity自动驾驶模拟器)
  2. Sonatype收购Vor Security,扩展对Nexus开源组件的支持
  3. varnish性能调优
  4. python3多进程 queue 取值_【整理】python多进程之间共享queue | 勤奋的小青蛙
  5. 9-Qt6 QString和QChar
  6. 关于利用IBERT核对GTX收发器板级测试的原理与过程详解
  7. 争分夺秒!制药公司如何用大数据加快药物试验进程?
  8. javascript的数据检测总结
  9. 成都刘女士的第一场锤子科技发布会 | 现场特写
  10. 讯飞输入法粤语语音识别率达95%支持粤转普
  11. se105模板,产品详情页去掉多余的review栏目。
  12. matlab gui期末设计,MATLABGUI课程设计期末大作业湖南理工学院
  13. mac os x 系统安装 genymotion android 模拟器
  14. Windows驱动开发入门
  15. java中wint是什么意思,Java线程的同步演示代码,java线程演示,package Wint
  16. plugin插件的安装和使用
  17. 局域网内共享打印机的几种方式
  18. java mysql 订单表设计
  19. python资格证_掌握核心竞争力:五大数据科学类资格证书
  20. 图解HIVE页面单跳转化率

热门文章

  1. FormData对象
  2. idea快速搭建spring cloud-注册中心与注册
  3. eclipse 常用设置(二)
  4. Javascript 随机验证码
  5. 2017 Multi-University Training Contest - Team 1
  6. NYOJ-58 最少步数
  7. 单线程智能聊天机器人
  8. css实现文本过长时自动添加省略号
  9. sql语句中单引号嵌套问题
  10. LongListSelector 控件 在 wp7 和wp8中的不同之处