本文是在2020 DataFunCon上所做分享的讲稿,感谢DataFun团队整理。由于篇幅较长,分为2篇来记录,这是第二篇。

上文:【讲稿】Impala在网易大数据中使用和优化实践-P1


3.基于ZK的服务高可用

虽然每一个Impalad都可以作为Coordinator,对外提供访问服务,接受客户端请求,但是缺乏一个路由机制。当一个client连接的特定coordinator失效之后,就无法在进行查询了。

网易大数据团队参考Hive的实现,引入zookeeper作为访问代理,客户端首先通过zookeeper找到可用的coordinator节点,然后再提交SQL查询请求。通过这种方式,提供了更健壮的查询服务模式。

4.支持更多存储后端

对于后端存储的支持,网易团队增加了对iceberg表的创建和查询的支持。已经在云音乐业务上使用,并且贡献给了Impala社区。

其他后端还包括对Alluxio的支持,使用Alluxio作为Impala和HDFS之间的二级缓存。这方面的详细信息,可以搜索《网易严选:基于 Alluxio+Impala 深度融合架构的 BI 系统性能优化实践”》

此外对接Elastic Search查询,充分发挥了ES倒排索引的优势。

5.其他增强和优化

其他的增强还有:权限的优化、Hive多版本适配、支持JSON,以及社区版的一些Bug修正。

▌Impala在网易的使用案例分析

1.Impala的部署和使用

Impala两种部署方式:混合部署与独立部署。混合部署是指Impala和其他大数据组件共用HDFS。而独立部署则是为Impala配置独立的HDFS。独立部署的优势在于IO和网络通信都有保障,对性能和稳定性的提升有帮助。但是代价也十分明显:成本上升。

Impala与Kudu结合,可以用来构建实时数仓。Kudu增量写入,定期保存到HDFS。Kudu的使用一方面提供了更新数据和删除数据的能力,另一方面也解决了HDFS上小文件的问题。而Impala可以同时查询Kudu和HDFS上的数据。

网易内部对集群的监控,对接了网易内部的哨兵服务。可以提供准实时的告警能力。运维人员通过设置阈值,订阅告警信息,从而了解集群的监控程度。

此外,对于Impala集群的部署和使用,还有几点需要注意:

  • 按照大业务划分不同的集群
  • 按照不同的子业务或者 SQL 类型划分队列
  • coordinator 节点与 executor 节点分开部署
  • 对于机器数比较少的集群,机器上可部署多个节点,增加并发
  • 业务方重试机制,以免 impalad 节点挂掉导致 SQL 失败
  • 通过 impala hint 改变表的 join 方式
  • 结合实际情况参考是否设置 mem_limit ,设置多大 mem_limit

2.网易大数据中的Impala

在网易大数据平台“猛犸”中,Impala位于数据计算层,提供交互式查询的能力,对应的应用场景是自助分析。

在网易对外提供的产品和服务中,复杂报表和自助取数,都用到了Impala。其中自助分析服务适用于有一定SQL基础的用户,通过自己写SQL语句,查询数据。灵活性比较大,同时门槛也比较高。

网易有数的自助取数服务(easyFetch)可以通过拖拽维度和度量,方便的获取数据,并生成图表报告。后端对接的是网易有数的API。非常适合非专业人员使用数据,发挥出数据的生产力。

网易现在内部有8个Impala集群,超过200个节点,最大集群规模超过60个节点。除了内部服务外,对外的商业化服务,已经有超过20个Impala集群。

3.Impala在云音乐的使用实践

网易云音乐,有2个Impala集群,超过60个节点的规模。主要的应用场景包括:有数报表、自助分析、音乐版权、A/B测试,easyFetch等等。绝大部分应用场景下,Impala的查询时间不超过2秒。

云音乐A/B测试早期使用Spark按照小时粒度,完成从ODS到DWD层的数据清洗工作,之后生成用户分流表和指标统计表,再使用Spark关联这两张表的结果写入到Kudu中,最后使用Impala对接数据,供用户查询。这样数据延迟至少1~2小时,有些结果甚至在第二天才能看到。但是对于A/B测试,能够实时看到结果才是最好的。

对此云音乐团队基于Flink做了实时性改造。将DWS变成流表,这样Impala可以同时查询T+1的结果表和流表中的实时数据。A/B测试的效果就可以近实时的看到了。更多的详情可以搜索《进击的 Flink :网易云音乐实时数仓建设实践》

【讲稿】Impala在网易大数据中使用和优化实践-P2相关推荐

  1. 网易大数据平台HDFS性能优化实践

    导读:本文的主题是网易大数据HDFS的优化和实践,下面会从三个方面来介绍网易在大数据存储相关的工作和努力. 网易大数据平台 HDFS在网易的实践及挑战 重点业务分享 01 网易大数据平台 网易引入Ha ...

  2. Impala在网易大数据的优化和实践

    导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务.今天将为大家分享下Impala在网易大 ...

  3. Impala 在网易大数据的优化和实践

    导读: 网易大数据平台的底层数据查询引擎,选用了 Impala 作为 OLAP 查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务.今天将为大家分享下 Impa ...

  4. 连接impala出现method not supported_Impala在网易大数据的优化和实践

    文章作者:温正湖 网易杭研 编辑整理:张博 出品平台:DataFunTalk 导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析 ...

  5. 大数据技术基础_网易大数据体系之时序数据技术

    分享嘉宾:范欣欣 网易大数据技术专家 编辑整理:王吉东 内容来源:AI科学前沿大会 出品社区:DataFun 注:欢迎转载,转载请注明出处. 本次分享内容: 时序数据平台主要业务场景 时序数据平台体系 ...

  6. 网易大数据平台架构实践分享!

    随着网易云音乐.新闻.考拉.严选等互联网业务的快速发展,网易开始加速大数据平台建设,以提高数据获取速度,提升数据分析效率,更快发挥数据价值. 本次演讲主要分享网易如何围绕和改造开源技术,以产品化思维打 ...

  7. 余利华:网易大数据平台架构实践分享!

    [IT168 专稿]本文根据余利华老师在2018年5月10日[第九届中国数据库技术大会]现场演讲内容整理而成. 讲师简介: 余利华,网易大数据总经理,负责网易数据科学基础设施建设, 包括大数据管理和应 ...

  8. 7、大数据中常见的文件存储格式以及hadoop中支持的压缩算法

    Hadoop系列文章目录 1.hadoop3.1.4简单介绍及部署.简单验证 2.HDFS操作 - shell客户端 3.HDFS的使用(读写.上传.下载.遍历.查找文件.整个目录拷贝.只拷贝文件.列 ...

  9. 干货 | 网易大数据平台运维实战

    本文整理自SACC2021中国系统架构师大会,是网易金川老师视频直播的文字版本,他分享的主题是"网易大数据平台运维实战" 各位SACC观众,大家好,感谢各位参加本次智能运维实践会场 ...

最新文章

  1. 一个古老的问题HashMap与Hashtable区别
  2. getAttribute与getParameter区别
  3. 日历,日期类(copy)
  4. 培训补坑(day1:最短路two-sat)
  5. 创建Socket【Socket编程4】
  6. 【文章】人的好运从哪里来?
  7. 面试官系统精讲Java源码及大厂真题 - 40 打动面试官:线程池流程编排中的运用实战
  8. 【OpenCV】OpenCV函数精讲之 -- Mat和IplImage之间的相互装换(OpenCV2.0和OpenCV3.0)
  9. 使用数据分析工具的注意事项
  10. C语言实现matlab的interp2()函数
  11. 安装markdownPad+awesomium
  12. InfoGAN详细介绍及特征解耦图像生成
  13. Kernel:CC_HAVE_ASM_GOTO 、 Compiler lacks asm-goto support
  14. C语言短除法求二进制数,C语言中实现十进制转二进制输出
  15. create方法 eslint关闭_react create-react-app使用less 及关闭eslint
  16. 如何让文本框中文字居中
  17. 车牌归属地数据信息sql
  18. 书论57 陈绎曾《翰林要诀》
  19. x265 1.8版本更新
  20. 宏定义函数和普通函数

热门文章

  1. zookeeper使用
  2. 通过向量乘积推导地球两点之间的球面距离
  3. dpi与dp的关系_Android中 dp,px,dpi三者之间的关系
  4. 【零样本草图检索】Zero-Shot Sketch-Image Hashing
  5. 智能工厂物流系统总体规划导向与逻辑
  6. 对一个chakra引擎中RCE漏洞的完整分析
  7. 总结OnOK、OnCancel、OnDestroy函数之间的区别
  8. 累计(cumulative)
  9. 图片文字识别怎么弄?仅需三个步骤,建议收藏
  10. 招行专业版可以登录了