1:所有业务调度任务执行失败;

2:手动测试无法连接数据库;

3:并没有收到集群的异常告警;

处理步骤:

1:首先登陆 gpcc 查看集群状态;

发现所有greenplum 节点及服务都正常,但是屏幕打印报错信息 :Sorry,too many clients already (alert)

2:在master节点通过gpstate -s和查看/usr/local/gpdata/gpmaster/gpseg-1/pg_log/gpdbxxxxxx.csv日志,都可以看到以下报错信息

"ERROR","58M01","failed to acquire resources on one or more segments","FATAL: sorry, too many clients already.

Performance Monitor - failed to connect to gpperfmon database: FATAL: sorry, too many clients already.

登陆服务器查看集群状态:

gpstate -b =》 显示简要状态

gpstate -f =》 显示备用主机详细信息

gpstate -m =》 显示镜像实例同步状态

gpstate -Q =》 快速检查主机状态

确认集群节点无异常!

调整集群最大连接数

此时基本确定集群连接数过多导致,准备使用杀掉连接解决问题,但是数据库集群已经无法连接,使用gpconfig 命令修改;

主要修改参数如下:

max_connections :最大连接数,Segment建议设置成Master的5-10倍。

查看现有配置值:

gpconfig -s max_connections

GUC : max_connections

Master value: 250

Segment value: 750

#### 修改配置

gpconfig -c max_connections -v 2000 -m 500

max_prepared_transactions

这个参数只有在启动数据库时,才能被设置。它决定能够同时处于prepared状态的事务的最大数目(参考PREPARE TRANSACTION命令)。如果它的值被设为0。则将数据库将关闭prepared事务的特性。它的值通常应该和max_connections的值一样大。每个事务消耗600字节(b)共享内存。

查看现有配置值:

gpconfig -s max_prepared_transactions

Values on all segments are consistent

GUC : max_prepared_transactions

Master value: 250

Segment value: 250

修改配置

gpconfig -c max_prepared_transactions -v 500

修改参数后,重启数据库生效

关闭数据库 :gpstop -M fast -a

快速启动: gpstart -a

验证配置是否生效:

gpconfig -s max_connections

gpconfig -s max_prepared_transactions

数据启动后,已经可以正常使用!此时涉及的数据库没有涉及在线业务,所有直接重启了。

使用超级用户登陆,处理步骤参考:

# su - gpadmin

psql -d postgres

查看所有的连接;

postgres=# SELECT * FROM pg_stat_activity;

执行以下命令查看当前的总连接数:

psql -d postgres -c "select count(*) from pg_stat_activity"

查看第2步检查到的报错库的连接数:

psql -d postgres -c "select count(*) from pg_stat_activity where datname = ‘pt_roi‘"

通过以下命令来断开报错的库的连接,释放资源:

SELECT pg_terminate_backend(pg_stat_activity.procpid) FROM pg_stat_activity WHERE pg_stat_activity.datname = ‘ $(DATABASES)‘ AND procpid <> pg_backend_pid();

问题的原因分析:

1:新业务服务没有经过测试就上线,产生大量的异常链接,导致数据库链接被沾满;

2:数据库连接没有做监控告警,导致连接被占满后才知道,需要添加连接数监控告警,大于正常数出发告警,提前处理;

3:调整数据库任务、网络链接超时时间,防止大量网络连接不能断开;

原文:http://blog.51cto.com/michaelkang/2286404

greenplum查询超时_greenplum 集群故障(Sorry,too many clients already )排查:相关推荐

  1. greenplum查询超时_Greenplum常用SQL查询

    抽空网上收罗Greenplum常用SQL查询语句整理备忘.欢迎各位留言补充.都是SQL命令以及数据字典的使用.熟悉数据字典非常重要.三个重要的schema:pg_catalog,pg_toolkit, ...

  2. 联通大数据5000台规模集群故障自愈实践

    本文转载自dbaplus社群 作者介绍 余澈,中国联通大数据技术部平台组核心技术负责人,项目管理高级工程师,具有多年大数据平台运维管理及开发优化经验.管理过多个上千节点集群,擅长对外多租户平台的维护开 ...

  3. java访问oracle集群,JAVA查询Oracle数据库集群连接字符串

    下载必备最新排行装机分类.游戏手机驱动源码LinuxMac小游戏.商城招聘百科知道软件盒子论坛3G版 本站搜索 新闻资讯 软件下载 当前位置: 网站首页 > 编程开发 > 编程语言 > ...

  4. SQLServer集群故障节点DISCONNECTED

    SQLServer集群故障DISCONNECTED 1. 问题描述 2. 解决方案 3. 类似问题解决思路 4. 参考资料 一次SQLSserver+AlwaysOn+WSFC辅助备份节点问题排查解决 ...

  5. 内网集群 无法通信_记一次集群内无可用http服务问题排查

    记一次集群内无可用http服务问题排查 1.摘要 前一阵子发现服务会有偶发的服务不可用的情况,记录一下这个问题的排查过程. 现象是这样的:每天到了某个时间点,就会出现服务不稳定的情况,偶发接口调不通. ...

  6. K8S集群中Pod资源处于CrashLoopBackOff状态排查思路

    K8S集群中Pod资源处于CrashLoopBackOff状态排查思路 文章目录 K8S集群中Pod资源处于CrashLoopBackOff状态排查思路 1.Pod资源处于CrashLoopBackO ...

  7. K8S集群中Pod资源数据丢包排查思路

    K8S集群中Pod资源数据丢包排查思路 Pod资源可能会由于网络原因产生丢包的现象. 当Pod资源存在丢包的现象时,会出现下面的报错: Connect to 100.111.156.74 port 5 ...

  8. K8S集群中Pod资源处于Pending状态排查思路

    K8S集群中Pod资源处于Pending状态排查思路 文章目录 K8S集群中Pod资源处于Pending状态排查思路 1.Pod资源处于Pending状态的原因 2.Pod资源处于Pending状态的 ...

  9. 【Elasticsearch】 es ElasticSearch集群故障案例分析: 警惕通配符查询 Wildcard

    1.概述 转载:https://elasticsearch.cn/article/171 许多有RDBMS/SQL背景的开发者,在初次踏入ElasticSearch世界的时候,很容易就想到使用(Wil ...

最新文章

  1. java.lang.OutOfMemoryError:GC overhead limit exceeded填坑心得
  2. Maven 编译使用 rt.jar
  3. tomcat8 安装|解决启动慢|进入管理|host-manager 403错误
  4. 让局域网内部挺高网速
  5. MySql使用TEXT/BLOB类型的几点注意
  6. Xshell远程连接CentOS-7版的Linux
  7. 多学一点(十三)——解决Linux kdump服务启动失败
  8. Android Dialog用法
  9. 电脑没声音解决方法,win11
  10. Product Key Algorithm
  11. 劳埃镜 matlab,光学习题及答案
  12. JavaScript 中的 Symbols 怎么用
  13. [HNOI 2017] bzoj4826 影魔 [单调栈+扫描线]
  14. 图灵计算机科学丛书•《具体数学中文版》下载
  15. 阿里云物联网平台使用图文教程
  16. 机械制造作业考研题目答案分享——金属切削规律3
  17. 接上篇《旋转矩阵的作用:世界坐标变换;求解局部坐标系下的局部坐标》,理解欧拉角:内旋;外旋;万向节死锁
  18. 计算机丢失ac1st.dll怎么找回,处理CAD系统错误win10中丢失ac1st16.dll的恢复方法
  19. 数据结构实践——猴子选大王
  20. 轻度Linux患者福利,Win10安装Linux子系统教程,附 Docker 安装教程

热门文章

  1. 非常易于理解‘类'与'对象’ 间 属性 引用关系,暨《Python 中的引用和类属性的初步理解》读后感...
  2. sublime text3安装、注册及常用插件
  3. 分布式事务一致性方案
  4. Centos7中systemctl命令详解
  5. 【Android 界面效果43】Android LayoutInflater的inflate方法中attachToRoot的作用
  6. 关于 Java 性能监控您不知道的 5 件事,第 1 部分
  7. 如何选购一款好的人事档案管理系统
  8. 03_ Flume采集(监听)目录到HDFS案例
  9. BGP多出口多宿主实验
  10. 《Groovy语言规范》-语法(一)