Apache Doris 代码仓库地址:apache/incubator-doris 欢迎大家关注加星


这是从社区很多人在使用过程中遇到的问题进行的总结,汇总发布出来方便大家查阅

1.tablet writer write failed, tablet_id=27306172, txn_id=28573520, err=-235 or -215

这个错误通常发生在数据导入操作中。新版错误码为 -235,老版本错误码可能是 -215。这个错误的含义是,对应tablet的数据版本超过了最大限制(默认500),后续写入将被拒绝。比如问题中这个错误,即表示 27306172 这个tablet的数据版本超过了限制。

这个错误通常是因为导入的频率过高,大于后台数据的compaction速度,导致版本堆积并最终超过了限制。此时,我们可以先通过show tablet 27306172 语句,然后执行结果中的 show proc 语句,查看tablet各个副本的情况。结果中的 versionCount即表示版本数量。如果发现某个副本的版本数量过多,则需要降低导入频率或停止导入,并观察版本数是否有下降。如果停止导入后,版本数依然没有下降,则需要去对应的BE节点查看http://be.INFO日志,搜索tablet id以及 compaction关键词,检查compaction是否正常运行。关于compaction调优相关,可以参阅:

Doris 最佳实践-Compaction调优(3)

2.tablet 110309738 has few replicas: 1, alive backends: [10003]

这个错误可能发生在查询或者导入操作中。通常意味着对应tablet的副本出现了异常。

此时,可以先通过 show backends 命令检查BE节点是否有宕机,如 isAlive 字段为false,或者 LastStartTime 是最近的某个时间(表示最近重启过)。如果BE有宕机,则需要去BE对应的节点,查看be.out日志。如果BE是因为异常原因宕机,通常be.out中会打印异常堆栈,帮助排查问题。如果be.out中没有错误堆栈。则可以通过linux命令dmesg -T 检查是否是因为OOM导致进程被系统kill掉。

如果没有BE节点宕机,则需要通过show tablet 110309738 语句,然后执行结果中的 show proc 语句,查看tablet各个副本的情况,进一步排查。

3.disk xxxxx on backend xxx exceed limit usage

通常出现在导入、Alter等操作中。这个错误意味着对应BE的对应磁盘的使用量超过了阈值(默认95%)此时可以先通过 show backends 命令,其中MaxDiskUsedPct展示的是对应BE上,使用率最高的那块磁盘的使用率,如果超过95%,则会报这个错误。

此时需要前往对应BE节点,查看数据目录下的使用量情况。其中trash目录和snapshot目录可以手动清理以释放空间。如果是data目录占用较大,则需要考虑删除部分数据以释放空间了。具体可以参阅【磁盘空间管理】:

doris磁盘空间管理​

4.通过 DECOMMISSION 下线BE节点时,为什么总会有部分tablet残留?

在下线过程中,通过 show backends 查看下线节点的 tabletNum ,会观察到 tabletNum 数量在减少,说明数据分片正在从这个节点迁移走。当数量减到0时,系统会自动删除这个节点。但某些情况下,tabletNum 下降到一定数值后就不变化。这通常可能有以下两种原因:

1. 这些 tablet 属于刚被删除的表、分区或物化视图。而刚被删除的对象会保留在回收站中。而下线逻辑不会处理这些分片。可以通过修改 FE 的配置参数 catalog_trash_expire_second 来修改对象在回收站中驻留的时间。当对象从回收站中被删除后,这些 tablet就会被处理了。

2. 这些 tablet 的迁移任务出现了问题。此时需要通过 show proc "/cluster_balance" 来查看具体任务的错误了。

对于处理版本,可以先通过 show proc "/statistic" 查看集群是否还有 unhealthy 的分片,如果为0,则可以直接通过 drop backend 语句删除这个 BE 。否则,还需要具体查看不健康分片的副本情况。

5.doris网络参数 priorty_network应该如何设置?

priorty_network 是 FE、BE 都有的配置参数。这个参数主要用于帮助系统选择正确的网卡 IP 作为自己的 IP 。建议任何情况下,都显式的设置这个参数,以防止后续机器增加新网卡导致IP选择不正确的问题。

priorty_network 的值是 CIDR 格式表示的。分为两部分,第一部分是点分十进制的 IP 地址,第二部分是一个前缀长度。比如 10.168.1.0/8 会匹配所有 10.xx.xx.xx 的IP地址,而 10.168.1.0/16 会匹配所有 10.168.xx.xx 的 IP 地址。

之所以使用 CIDR 格式而不是直接指定一个具体 IP,是为了保证所有节点都可以使用统一的配置值。比如有两个节点:10.168.10.1 和 10.168.10.2,则我们可以使用 10.168.10.0/24 来作为 priorty_network 的值。

6. doris FE的Master、Follower、Observer都是什么?

首先明确一点,FE 只有两种角色:Follower 和 Observer。而 Master 只是一组 Follower 节点中选择出来的一个 FE。Master 可以看成是一种特殊的 Follower。所以当我们被问及一个集群有多少 FE,都是什么角色时,正确的回答当时应该是所有 FE 节点的个数,以及 Follower 角色的个数和 Observer 角色的个数。

所有 Follower 角色的 FE 节点会组成一个可选择组,类似 Poxas 一致性协议里的组概念。组内会选举出一个 Follower 作为 Master。当 Master 挂了,会自动选择新的 Follower 作为 Master。而 Observer 不会参与选举,因此 Observer 也不会称为 Master 。

一条元数据日志需要在多数 Follower 节点写入成功,才算成功。比如3个 FE ,2个写入成功才可以。这也是为什么 Follower 角色的个数需要是奇数的原因。

Observer 角色和这个单词的含义一样,仅仅作为观察者来同步已经成功写入的元数据日志,并且提供元数据读服务。他不会参与多数写的逻辑

7.FE启动失败,fe.log中一直滚动 "wait catalog to be ready. FE type UNKNOWN"

这种问题通常有两个原因:

1. 本次FE启动时获取到的本机IP和上次启动不一致,通常是因为没有正确设置 `priority_network` 而导致 FE 启动时匹配到了错误的 IP 地址。需修改 `priority_network` 后重启 FE。

2. 集群内多数 Follower FE 节点未启动。比如有 3 个 Follower,只启动了一个。此时需要将另外至少一个 FE 也启动,FE 可选举组方能选举出 Master 已提供服务。

如果以上情况都不能解决,可以按照 Doris 官网文档中的元数据运维文档进行恢复:

元数据运维

8.Failed to get scan range, no queryable replica found in tablet: xxxx

这种情况是因为对应的 tablet 没有找到可以查询的副本,通常原因可能是 BE 宕机、副本缺失等。可以先通过 `show tablet tablet_id` 语句,然后执行后面的 `show proc` 语句,查看这个 tablet 对应的副本信息,检查副本是否完整。同时还可以通过 `show proc "/cluster_balance"` 信息来查询集群内副本调度和修复的进度

9.使用 Stream Load 访问 FE 的公网地址导入数据,被重定向到内网 IP?

当 stream load 的连接目标为FE的http端口时,FE仅会随机选择一台BE节点做http 307 redirect 操作,因此用户的请求实际是发送给FE指派的某一个BE的。而redirect返回的是BE的ip,也即内网IP。所以如果你是通过FE的公网IP发送的请求,很有可能因为redirect到内网地址而无法连接。

通常的做法,一种是确保自己能够访问内网IP地址,或者是给所有BE上层假设一个负载均衡,然后直接将 stream load 请求发送到负载均衡器上,由负载均衡将请求透传到BE节点。


Apache doris微信公众号(欢迎扫码关注)

相关链接:
Apache Doris官方网站:

知乎 - 安全中心​doris.incubator.apache.org

Apache Doris Github:

https://github.com/apache/incubator-doris​github.com/apache/incubator-doris

Apache Doris 开发者邮件组:dev@doris.apache.org

Apache doris 使用过程中常见问题汇总相关推荐

  1. HoloLens 2 打包发布过程中 常见问题汇总(长期更新)

    HoloLens 2 打包发布过程中 常见问题汇总(长期更新)                   目 录 1. Unity 中发布Hololens的时候界面变灰,提示无发布权限. 2. Unity发 ...

  2. PbootCMS建站系统日常使用过程中常见问题汇总

    博主抽空整理了一份PbootCMS新手常见问题导航.可以使用Ctrl+F进行搜索查阅. 或者你遇到其他棘手的问题也可以加群交流QQ群:PB教程网交流群,点击即可加入 汇总列表 1.PbootCMS图片 ...

  3. Android系统编译过程中常见问题汇总(1)

    转自: http://www.2cto.com/kf/201204/127658.html 1.问题一:/bin/bash: bison: 未找到命令 解决方法:$ sudo apt-get inst ...

  4. fastText中常见问题汇总

    fastText中常见问题汇总: 1.什么是fastText fastText是一个用于文本分类和词向量表示的库,它能够把文本转化成连续的向量然后用于后续具体的语言任务,目前教程较少! 2.为什么训练 ...

  5. pla3d打印材料密度_3D打印金属材料模型过程中常见问题

    在金属3D打印过程中,可能会出现大量设备操作者试图避免的问题,包括孔隙.残余应力.致密度.翘曲.裂纹及表面光洁度等.下面我们来谈谈这几种常出现的问题. 1.表面光洁度 在金属3D打印件被使用或放置在展 ...

  6. 群晖网络不通_群晖系统安装zerotier one进行内网穿透过程中常见问题及解决方法...

    群晖系统安装zerotier one进行内网穿透过程中常见问题及解决方法 2020-07-28 17:27:39 21点赞 330收藏 31评论 zerotier one是一款很好用的P2P内网穿透软 ...

  7. nc提示java过期_用友NC系统使用过程中常见问题和解决方法!财会必看!

    原标题:用友NC系统使用过程中常见问题和解决方法!财会必看! 用友NC系统使用过程中常见问题和解决方法: 1.无法安装客户端插件,不能进入NC系统登陆界面 问题现象 现象1:可以打开web界面,但无法 ...

  8. 用友java错误_用友NC系统使用过程中常见问题和解决方法

    用友NC系统使用过程中常见问题和解决方法: 1.无法安装客户端插件,不能进入NC系统登陆界面 问题现象 现象1:可以打开web界面,但无法进入登陆界面,一直停留在右图所示界面. 现象2:系统提示安全警 ...

  9. 印花烫金过程中常见问题与解决办法

    印花烫金过程中常见问题与解决办法 1. 烫金细线条有飞金现象怎么办? 冷烫,斜撕: 选择剥离层紧的烫金纸: 温度不宜过高,低温也会好些: 压力不宜过重. 2. 烫出来变色.变暗或发蓝光怎么办? 应注意 ...

  10. nc升级后java_用友NC系统使用过程中常见问题和解决方法

    用友NC系统使用过程中常见问题和解决方法: 1.无法安装客户端插件,不能进入NC系统登陆界面 问题现象 现象1:可以打开web界面,但无法进入登陆界面,一直停留在右图所示界面. 现象2:系统提示安全警 ...

最新文章

  1. aml linux 环境,各位辛苦编译DSDT.aml的兄弟,linux是个好工具啊,简单提取
  2. PHP版UTF-8文件BOM自动检测移除程序
  3. Go modules基础精进,六大核心概念全解析(下)
  4. C语言入门练习 - 第一期 变量、输入输出、表达式与顺序语句(题解)
  5. 杭电多校第四场-H- K-th Closest Distance
  6. Educational Codeforces Round 1
  7. php通过条件来定义const,php用const出错是什么原因
  8. 监控linux时间不对,shell 计算故障时间 配合web监控
  9. sql server运算符_SQL Server执行计划中SELECT运算符的主要概念
  10. 配置NAT超载(NAPT)
  11. 如何用纯 CSS 创作一只卡通鹦鹉
  12. 自动化设计-框架介绍 TestCase
  13. adams怎么打开自带模型_科研仿真之Adams入门篇
  14. python生成三维点云包围盒
  15. opencv思维导图
  16. USB转I2C芯片操作EEPROM--CH347应用
  17. php soh stx,symbol NULL SOH STX ETX EOT ENQ ACK ASCII(符号零SOH STX ETX传输结束询问ACK ASCII).pdf...
  18. APICloud和海马玩模拟器结合调试手机页面
  19. 好数推荐 数据堂平均音色语音库
  20. Picasso 学习(含高斯模糊,圆头像,正方头像)

热门文章

  1. 集群搭建——SGE与PBS
  2. 43.248.189.18 Steam游戏服务器搭建教程
  3. 最全Web前端面试题汇总 笔试题汇总 JavaScript HTML css
  4. Android 6.0 双向通话自动录音
  5. 解决系统提示:内存不能为“read”或written的办法
  6. 在Java中使用@Scheduled定时器的时间设置。
  7. 【单镜头反光相机】弥散圆、焦平面、景深、光圈
  8. ES 查询 —— match 和 match_prase
  9. 一文了解:微服务及其演进史
  10. S1 data forwarding测试方法