背景

最近对于 Java 多线程做了一段时间的学习,笔者一直认为,学习东西就是要应用到实际的业务需求中的。否则要么无法深入理解,要么硬生生地套用技术只是达到炫技的效果。

不过笔者仍旧认为自己对于多线程掌握不够熟练,不敢轻易应用到生产代码中。这就按照平时工作中遇到的实际问题,脑补了一个很可能存在的业务场景:

已知某公司管理着 1000 个微信服务号,每个服务号有 1w ~ 50w 粉丝不等。假设该公司每天都需要将所有微信服务号的粉丝数据通过调用微信 API 的方式更新到本地数据库。

需求分析

对此需求进行分析,主要存在以下问题:

  • 单个服务号获取粉丝 id,只能每次 1w 按顺序拉取
  • 微信的 API 对于服务商的并发请求数量有限制

单个服务号获取粉丝 id,只能每次 1w 按顺序拉取。这个问题决定了单个公众号在拉取粉丝 id 上,无法分配给多个线程执行。

微信的 API 对于服务商的并发请求数量有限制。这点最容易被忽略,如果我们同时有过多的请求,则会导致接口被封禁。这里可以通过信号量来控制同时执行的线程数量。

为了尽快完成数据同步,根据实际情况:整个数据同步可分为读数据和写数据两个部分。读数据是通过 API 获取,走网络 IO,速度较慢;写数据是写到数据库,速度较快。所以得出结论:需要分配较多的线程进行读数据,较少的线程进行写数据。

设计要点

首先,我们需要确定开启多少个线程(在生产中往往是使用线程池),线程数量需要根据服务器性能来决定,这里我们定为 40 个读取数据线程(将 1000 个公众号分为 40 份,分别在 40 个线程中执行),1个写入数据线程。(具体开多少个线程,取决于线程池的容量,以及可以分配给此业务的数量。具体的数字需要根据实际情况测试得出,比服务器阈值低一些较好。当然,配置允许范围内越大越好)

其次,考虑到微信对于 API 并发请求的限制,需要限制同时执行的线程数,使用java.util.concurrent.Semaphore进行控制,这里我们限制为 20 个(具体的信号量凭证数,取决于同一时间能够执行的线程,跟 API 限制,服务器性能有关)。

然后,我们需要知道数据何时读取、写入完毕,以控制程序逻辑以及终止程序,这里我们使用java.util.concurrent.CountDownLatch进行控制。

最后,我们需要一个数据结构,用来在多个线程中共享处理的数据,此处同步数据的场景非常适合使用队列,这里我们使用线程安全的java.util.concurrent.ConcurrentLinkedQueue来进行处理。(需要注意的是,在实际开发中,队列不能够无限制地增长,这将会很快消耗掉内存,我们需要根据实际情况对队列长度做控制。例如,可以通过控制读取线程数和写入线程数的比例来控制队列的长度)

模拟代码

由于本文重点关注多线程的使用,模拟代码只体现多线程操作的方法。代码里添加了大量的注释,方便各位读者阅读理解。

JDK:1.8

import java.util.Arrays;
import java.util.List;
import java.util.Queue;
import java.util.concurrent.ConcurrentLinkedQueue;
import java.util.concurrent.CountDownLatch;
import java.util.concurrent.Semaphore;
import java.util.concurrent.TimeUnit;/*** N个线程向队列添加数据* 一个线程消费队列数据*/
public class QueueTest {private static List<String> data = Arrays.asList("a", "b", "c", "d", "e");private static final int OFFER_COUNT = 40; // 开启的线程数量private static Semaphore semaphore = new Semaphore(20); // 同一时间执行的线程数量(大多用于控制API调用次数或数据库查询连接数)public static void main(String[] args) throws InterruptedException {Queue<String> queue = new ConcurrentLinkedQueue<>(); // 处理队列,需要处理的数据,放置到此队列中CountDownLatch offerLatch = new CountDownLatch(OFFER_COUNT); // offer线程latch,每完成一个,latch减一,lacth的count为0时表示offer处理完毕CountDownLatch pollLatch = new CountDownLatch(1); // poll线程latch,latch的count为0时,表示poll处理完毕Runnable offerRunnable = () -> {try {semaphore.acquire(); // 信号量控制} catch (InterruptedException e) {e.printStackTrace();}try {for (String datum : data) {queue.offer(datum);TimeUnit.SECONDS.sleep(2); // 模拟取数据很慢的情况}} catch (InterruptedException e) {e.printStackTrace();} finally {// 在finally中执行latch.countDown()以及信号量释放,避免因异常导致没有正常释放offerLatch.countDown();semaphore.release();}};Runnable pollRunnable = () -> {int count = 0;try {while (offerLatch.getCount() > 0 || queue.size() > 0) { // 只要offer的latch未执行完,或queue仍旧有数据,则继续循环String poll = queue.poll();if (poll != null) {System.out.println(poll);count++;}// 无论是否poll到数据,均暂停一小段时间,可降低CPU消耗TimeUnit.MILLISECONDS.sleep(100);}System.out.println("total count:" + count);} catch (InterruptedException e) {e.printStackTrace();} finally {// 在finally中执行latch.countDown(),避免因异常导致没有正常释放pollLatch.countDown();}};// 启动线程(生产环境中建议使用线程池)new Thread(pollRunnable).start(); // 启动一个poll线程for (int i = 0; i < OFFER_COUNT; i++) {new Thread(offerRunnable).start();} // 模拟取数据很慢,需要开启40个线程处理// latch等待,会block主线程直到latch的count为0offerLatch.await();pollLatch.await();System.out.println("===the end===");}
}

到这里,本文结束。以上是笔者脑补的一个常见需求的解决方案。

注意:多线程编程对实际环境和需求有很大的依赖,需要根据实际的需求情况对各个参数做调整。实际在使用中,需要尽量模拟生产环境的数据情况来进行测试,对服务器执行期间的并发数,CPU、内存、网络 IO、磁盘 IO 做好观察。并适当地调低并发数,以给服务器留有处理其他请求的余量。

Java多线程编程实战:模拟大量数据同步相关推荐

  1. Java多线程编程实战指南

    内容简介 随着CPU 多核时代的到来,多线程编程在充分利用计算资源.提高软件服务质量方面扮演了越来越重要的角色.而解决多线程编程中频繁出现的普遍问题可以借鉴设计模式所提供的现成解决方案.然而,多线程编 ...

  2. Java多线程编程实战指南+设计模式篇pdf

    下载地址:网盘下载 随着CPU 多核时代的到来,多线程编程在充分利用计算资源.提高软件服务质量方面扮演了越来越重要的角色.而 解决多线程编程中频繁出现的普遍问题可以借鉴设计模式所提供的现成解决方案.然 ...

  3. 汪大神Java多线程编程实战

    目录 ├─1% u! [( Q9 T) m, h │  ├─Java并发编程.png │  ├─源码+ppt.rar, v. g9 V8 W2 l  Q/ E) S │  ├─高并发编程第一阶段01讲 ...

  4. 《java多线程编程实战指南 核心篇》读书笔记二

    1. 竞态 对于同样的输入,程序的输出有时候正确而有时候却是错误的.这种一个计算结果的正确性与时间有关的现象就被称为竞态(RaceCondition) 导致竞态的常见原因是多个线程在没有采取任何措施的 ...

  5. java多线程实战指南_学习笔记《Java多线程编程实战指南》二

    2.1线程属性 属性 属性类型及用途 只读属性 注意事项 编号(id) long型,标识不同线程 是 不适合用作唯一标识 名称(name) String型,区分不同线程 否 设置名称有助于代码调试和问 ...

  6. Java多线程编程实战(读书笔记)

    如何判断是否开启超线程 一  基础 进程是程序向操作系统申请资源(如内存空间和文件句柄)的基本单位.线程是进程中可独立执行的最小单位. 在Java平台中创建一个线程就是创建一个Thread类(或其子类 ...

  7. 《java多线程编程实战指南 核心篇》读书笔记一

    1. run方法是线程的任务处理逻辑的入口方法,它由java虚拟机在运行相应线程时直接调用,而不是由应用代码进行调用. 2. 启动一个线程的实质是请求java虚拟机运行相应的线程,而这个线程具体何时能 ...

  8. java多线程编程_《java多线程编程实战指南》读书笔记 -- 基本概念

    展开 并发:多个线程操作相同资源,保证线程安全,合理使用资源 高并发:服务能同时处理多个请求,提高程序性能 测试上下文切换工具 Lmbench3 测量上下文切换时长 vmstat 测量上下文切换次数 ...

  9. 你花了多久弄明白架构设计?java多线程编程实战指南pdf

    一面 自我介绍 项目中的监控:那个监控指标常见的有哪些? 微服务涉及到的技术以及需要注意的问题有哪些? 注册中心你了解了哪些? consul 的可靠性你了解吗? consul 的机制你有没有具体深入过 ...

最新文章

  1. 11.python并发入门(part9 多进程模块multiprocessing基本用法)
  2. 经验总结 | 重构让你的代码更优美和简洁
  3. iframe嵌套显示整个页面_【HTML】框架标签lt;iframegt;
  4. delete指针之后应该赋值NULL
  5. linux 普通用户crond,linux下普通用户的定时任务
  6. 如何系统性掌握深度学习模型设计和优化
  7. weblogic 的域信任问题
  8. TensorFlow学习笔记之五(卷积神经网络)
  9. django内置服务器
  10. 表格列求和_Excel表格的基本操作,包含制作一个表格10方面的知识
  11. iOS开发中防止键盘挡住UITextField解决方案
  12. 类字面常量和静态代码执行顺序
  13. 在WPF中,x:Name和Name属性之间有什么区别?
  14. CUDA+CUDNN下载地址
  15. 【电大题酷】【5】2269个人与团队管理
  16. 路由追踪测试软件,路由追踪命令是什么 使用路由追踪的技巧
  17. 关于SQL Server中left join on and 用法的介绍
  18. FrameMaker 格式的本地化流程(续1)
  19. 解析SWD协议,烧写程序
  20. 攻读学位研究计划计算机专业,拟攻读博士学位的科学研究计划书模板

热门文章

  1. Ubuntu 14.04上使用CMake编译MXNet源码操作步骤(C++)
  2. Linux下getopt函数的使用
  3. tesseract3.01的训练和使用
  4. CxImage类库的简介
  5. 【网络编程】非阻塞connect详解
  6. java写事物提交_fabric-sdk-java 提交事务
  7. basler相机参数简要中文说明_附下载| OpenCV最新中文版官方教程
  8. Redis初学16:主从复制
  9. SearchHit转成java对象_Java开发中最常犯的10个错误,你中招了吗?
  10. 【java】兴唐第十七节课