作者 | 于七天

来源 | https://zhuanlan.zhihu.com/p/364340936

最近,有金融客户使用 TiDB 适网贷核算场批处理场景,合同表数量在数亿级。对于相同数据量,TiDB 处理耗时 35 分钟,Oracle 处理耗时只有 15 分钟,足足相差 20 分钟。从之前的经验来看,在批处理场景上 TiDB 的性能是要好过 Oracle 的,这让我们感到困惑。经过一番排查最终定位是批处理程序问题。调整后,在应用服务器有性能瓶颈、数据库压力依然不高且没有进行参数优化的情况下,TiDB 处理时间缩短到 16 分钟,与 Oracle 几乎持平。

远程排查

通过 Grafana 发现程序运行时集群的资源使用率非常低。判断应用发来的压力较小,将并发数从 40 提高到 100,资源使用率和 QPS 指标几乎没有变化。通过 connection count 监控看到,随着并发数的增加,连接数也同样增加了,确认并发数的修改是生效的。但奇怪的是执行 show processlist 发现大部分连接是空闲状态。简单走查了程序代码,是 Spring batch + MyBatis 架构。因为 Spring batch 设置并发的方式很简单,所以考虑线程数的调整应该是生效且可以正常工作的。

虽然还没有搞清资源使用率低的问题,但还是有其他收获。应用服务器和 TiDB 集群的网络延迟达到了 2~3 ms。为了排除高网络延迟的干扰,将应用部署到 TiDB 集群内部运行,批处理耗时从 35 分钟下降到 27 分钟,但依然和 Oracle 有较大差距。因为数据库本身没有压力,所以当时的情况调整数据库参数也没什么意义。

这时考虑线程可能造成了阻塞,但苦于没有证据,于是想了这样的场景来简单验证到底是应用的问题还是数据库的问题:在 TiDB 集群中创建两个完全相同的 Database:d1 和 d2。使用两个完全相同的批处理应用分别对 d1、d2 进行批处理,等同于双倍压力写入 TiDB 集群,预期结果是对于双倍的数据量,同样可以在 27 分钟处理完,同时数据库资源使用率应大于一个应用的。测试结果符合预期,证明应用没有真正的提高并发。

客户反馈给我们可能的几种情况:

1、应用并发太高,CPU 繁忙导致应用性能瓶颈。

应用服务器的 CPU 消耗只有 6%,不应该存在性能瓶颈。

2、Spring batch 内部有一些元数据表,同时更新元数据表的同一条数据会造成阻塞。

这种情况应该是阻塞在数据库造成锁等待或锁超时,不应该阻塞在应用端。

客户的解决思路:

1、多应用部署并发运行,性能随应用部署数线性提升。

不能解决单机应用性能瓶颈问题,对于业务高峰时的拓展也很不方便。

2、采用异步处理的方案,提高应用吞吐。

目前是有些异步访问数据库的技术如 R2DBC,但成熟度低,强烈不建议使用。

现场排查

为了弄清问题根本原因,来到客户现场。

  • 使用 JDBC 编写了一个 Demo 对问题集群进行压测,发现数据库资源使用率随着 demo 并发数提高而增长,证明提高并发数可以给数据库制造更高的压力,此时完全排除数据库问题的可能。

  • 通过 VisualVM 发现,应用程序的大量线程处于 Monitor 状态,这种情况线程开的多其实也没用上,实锤性能瓶颈来自应用。

SQL 语句中 left join 后用 on 还是 where,区别大了!

大量线程处于 Monitor 状态

  • 走查应用代码,发现虽然有用到同步等加锁逻辑,但应该不会造成严重的线程阻塞问题。

  • 通过 dump 发现线程都阻塞在了 MyBatis 的堆栈中

Locked ownable synchronizers:- <0x000000008523ca00> (a java.util.concurrent.ThreadPoolExecutor$worker)"taskExecutorForHb-197" #342 prio=5 os_prio=0 tid=0x0007f5d7c72f800 nid=0x182c waiting for monitor entry [0x00007f5ccd6d4000]java.lang.thread.State: BLOCKED (on  object monitor)- waiting to lock <0x0000000080a772d8> (a java.util.concurrent.ConcurrentHashMap$Node)at org.apache.ibatis.reflection.DefaultReflection.DefaultReflectorFactory.fineForClass(DefaultReflectorFactory.java:1674)

是在源码的这个位置,DefaultReflectorFactory.java

public Reflector findForClass(Class<?> type) {if (classCacheEnabled) { // synchronized (type) removed see issue #461 return reflectorMap.computeIfAbsent(type, Reflector::new);  } else { return new Reflector(type);   }
}

这里大致是这样,MyBatis 在进行参数处理、结果映射等操作时,会涉及大量的反射操作。Java 中的反射虽然功能强大,但是代码编写起来比较复杂且容易出错,为了简化反射操作的相关代码, MyBatis 提供了专门的反射模块,它对常见的反射操作做了进一步封装,提供了更加简洁方便的反射 API 。DefaultReflectorFactory 提供的 findForClass() 会为指定的 Class 创建 Reflector 对象,并将 Reflector 对象缓存到 reflectorMap 中,造成线程阻塞的就在对 reflectorMap 的操作上。

因为 MyBatis 支持对 ReflectorFactory 自定义实现,所以当时的思路是绕过缓存的步骤,也就是将 classCacheEnabled 设为 false,走 return new Reflector(type) 的逻辑。但依然会在其他调用 ConcurrentHashmap.computeIfAbsent 的地方被阻塞。

到这看起来是一个通用问题,于是将注意力放到 concurrentHashmap 的 computerIfAbsent 上。computerIfAbsent 是 JDK8 中 为 map 提供的新方法

public V computeIfAbsent(K key, Function<? super K,? extends V> mappingFunction)

它首先判断缓存 map 中是否存在指定 key 的值,如果不存在,会自动调用 mappingFunction (key) 计算 key 的 value,然后将 key = value 放入到缓存 Map。ConcurrentHashMap 中重写了 computeIfAbsent 方法确保 mappingFunction 中的操作是线程安全的。

官方说明中一段:

The entire method invocation is performed atomically, so the function is applied at most once per key. Some attempted update operations on this map by other threads may be blocked while computation is in progress, so the computation should be short and simple, and must not attempt to update any other mappings of this map.

可以看到,为了保证原子性,当对相同 key 进行修改时,可能造成线程阻塞。显而易见这会造成比较严重的性能问题,在 Java 官方 Jira,也有用户提到了同样的问题。

[JDK-8161372] ConcurrentHashMap.computeIfAbsent(k,f) locks bin when k present

很多开发者都以为 computeIfAbsent 是不会造成线程 block 的,但事实却是相反的。而 Java 官方当时认为这个方法的设计没问题。但反思之后也觉得,在性能还不错的 concurrenthashmap 中有这么个拉胯兄弟确实不太合适。所以,官方在 JDK9 中修复了这个问题。

验证

将现场 JDK 版本升级到 9 ,应用在 500 并发,并排除网络延迟干扰的情况下,批处理耗时 16 分钟。应用服务器 CPU 达到 85% 左右使用率,出现性能瓶颈。理论上,提高应用服务器配置、优化数据库参数都可以进一步提升性能。

Spring Boot 库存管理系统,拿来学习真香

当时的结论

MyBatis 3.5.X 在缓存反射对象用到的 computerIfAbsent 方法在 JDK8 中性能不理想。需要升级 jdk9 及以上版本解决这个问题。对于 MyBatis 本身,没有针对 JDK8 中的 computerIfAbsent 性能问题进行特殊处理,所以升级 MyBatis 版本也不能解决问题。

但可以降级(在 MyBatis 3.4.X 中,还没有引入这个函数,所以理论上可以规避这个问题。

@Override  public Reflector findForClass(Class<?> type) { if (classCacheEnabled) {  // synchronized (type) removed see issue #461  Reflector cached = reflectorMap.get(type);  if (cached == null) {  cached = new Reflector(type);  reflectorMap.put(type, cached); }     return cached;  } else {  return new Reflector(type);  } }

现在的结论

MyBatis 官方在收到我们的反馈后,非常效率地修复了这个问题。手动点赞

可以看到 MyBatis 官方对 computerIfAbsent 进行了一层封装,如果 value 已存在,则直接 return,这样操作相同 key 的线程阻塞问题就被绕过去了。MyBatis 会在 3.5.7 版本中合入这个 PR。

public class MapUtil {
/**
* A temporary workaround for Java 8 specific performance issue JDK-8161372 .<br>
* This class should be removed once we drop Java 8 support.
*
* @see <a href="https://bugs.openjdk.java.net/browse/JDK-8161372">https://bugs.openjdk.java.net/browse/JDK-8161372</a>
*/
public static <K, V> V computeIfAbsent(Map<K, V> map, K key, Function<K, V> mappingFunction) {   V value = map.get(key);if (value != null) {  return value; }   return map.computeIfAbsent(key, mappingFunction::apply); }private MapUtil() { super();  }}

同学们,你们遇到过这个问题没?欢迎在留言区讨论~

往期推荐

SQL 语句中 left join 后用 on 还是 where,区别大了!

代码总是被嫌弃写的太烂?装上这个IDEA插件再试试!

3年至少15个项目经验,7天搞定1个项目!这样的招聘要求,你能胜任吗?

请立即卸载这款 IDEA 插件

“12306” 是如何支撑百万 QPS 的?

如果你喜欢本文,欢迎关注我,订阅更多精彩内容

关注我回复「加群」,加入Spring技术交流群

免费领取:图解网络PDF下载

喜欢的这里报道

↘↘↘

当MyBatis 3.5.X遇上JDK8竟然出现了性能问题,全项目组都得加班~相关推荐

  1. 【MyBatis学习01】宏观上把握MyBatis框架

    今天开始学习mybatis框架,博客主要记录学习过程中的一些总结,如有错误之处,欢迎留言指正~先用mybatis的鸟鸟来镇个楼,咳咳~~ mybatis框架是一个持久层框架,是Apache下的顶级项目 ...

  2. 推荐系统遇上深度学习,9篇阿里推荐论文汇总!

    作者 | 石晓文 转载自小小挖掘机(ID: wAIsjwj) 业界常用的推荐系统主要分为两个阶段,召回阶段和精排阶段,当然有时候在最后还会接一些打散或者探索的规则,这点咱们就不考虑了. 前面九篇文章中 ...

  3. 华为平板电脑_当5G遇上平板电脑,华为MatePad Pro 5G带来了什么?

    5G已经来临,科技产品向5G升级已是大势所趋,这更是检验实力的探索之路. 2月24日,华为在巴塞罗那在线发布了一系列新品,其中,华为面向全球推出的5G高端旗舰平板,同时也是全球首款公开发布的5G平板华 ...

  4. 404未找到是什么意思_为什么老遇上404 not found?你懂的

    文章转载自公众号:一只学霸(bajie203) 昨天晚上 大毛火急火燎地打开了电脑 戴上了耳机 不到两分钟 -- 我们往前一凑 登等 果然是大家最害怕的一幕出现了 学霸在网上冲浪多年 留下的都是美好的 ...

  5. 《当用户体验设计遇上敏捷》一3.5 小结

    本节书摘来自异步社区<当用户体验设计遇上敏捷>一书中的第3章,第3.5节,作者[英]Lindsay Ratcliffe , Marc McNeill,更多章节内容可以访问云栖社区" ...

  6. 当网络安全遇上大数据分析(9)

    2012年3月份,Gartner发表过一篇报告--Information Security Is Becoming a Big Data Analytics Problem .里面主要就讲到了针对大规 ...

  7. html实体编码遇上js代码

    单双引号 在js代码中 在js中单.双引号引起来的是字符串,如果我们要在字符串中使用单.双引号,需要反斜杠进行转义 let str='user\'s name'; // or let str=&quo ...

  8. SQL SERVER 2008 R2 SP1更新时,遇上共享功能更新失败解决方案

    SQL SERVER 2008 R2 SP1更新时,遇上共享功能更新失败的问题,可作如下尝试: 更新失败后,在windows的[事件查看器→应用程序]中找到来源为MsiInstaller,事件ID为1 ...

  9. 当微信小程序遇上TensorFlow:Server端实现补充

    在前面一篇文章<当微信小程序遇上TensorFlow:Server端实现>中,我们探讨了微信小程序server端的实现.今天在调试微信小程序时才发现一个问题,那就是:微信小程序要求HTTP ...

最新文章

  1. 170多个Ionic Framework学习资源(转载)
  2. 电气论文实现:电力网络之 通过计算机得到电力网络节点阻抗矩阵(matlab)
  3. jqgrid 启用键盘操作bindKeys
  4. Android写的一个设置图片查看器,可以调整透明度
  5. jQuery基础——选择器
  6. 人月神话阅读笔记(2)
  7. ASP.NET乱码解决方案
  8. 局域网部署文档协同办公系统:Windows + onlyoffice + dzzoffice
  9. 字体编码—Unicode16进制编码转字符
  10. 等价类划分法测试用例
  11. 【Oracle】数据清洗案例
  12. Dennis Gabor与全息摄影
  13. 怎么让计算机文件格式显示,已知文件类型的扩展名如何设置显示与隐藏?
  14. Arrays.deepToString()与Arrays.toString()的区别
  15. 综述 | 最新双曲深度神经网络综述论文
  16. DELL笔记本电源检测功率匹配、充不进电
  17. xctf-HTTP通常使用两种请求方法
  18. 【数据聚类】基于改进的粒子群算法优化K-means算法实现数据分类含Matlab源码
  19. 2023全国特种作业操作证熔化焊接与热切割模拟一[安考星]
  20. spring和jump区别_jump、leap、beat、bounce、skip的区别_近义词词典_词林在线词典

热门文章

  1. linux 文本处理 awk 几个特殊的内置变量
  2. python3 操作redis
  3. golang 读写文件的四种方式
  4. markdown 画图
  5. Win7 64位的SSDTHOOK(2)---64位SSDT hook的实现
  6. 内存分配函数 ExAllocatePool ExAllocatePoolWithTag
  7. 三维家导入户型镜像怎么使用_UG虎钳三维建模教学,认真看仔细学习了!
  8. 蚁群算法优化神经网络matlab源程序,粒子群优化神经网络的程序大集合
  9. linux中断下半部
  10. android linux应用安装位置,Android中App安装位置详解