众所周知,IM 即时通讯是一项对即时性要求非常高的技术,而保障消息即时到达的首要条件就是链路存活。那么在复杂的网络环境和国内安卓手机被深度定制化的条件下,如何保障链路存活呢?本文详解了融云安卓端 SDK 在基于 TCP 协议实现链路保活方面的探索和经验。

IM 系统整体框架

如上图所示,为了保障链路存活,一套成熟的 IM 系统一般会包含消息链路和推送链路两条长连接通道。当有新消息到达时,消息服务首先会判断消息链路是否存活,如果消息链路处于存活状态,消息优先从消息链路下发到客户端,否则会被路由到推送服务器,由推送链路下发。

综上所述,链路保活涉及到消息链路和推送链路两条链路的保活策略。基于这两条链路使用场景的不同,保活策略上除了心跳机制是相同的,其它保活策略各有不同。下面将详细讲解。

链路保活的必要性

基于 TCP 的 Socket 连接建立之后,如果不做任何处理,这个连接会长时间存在并且可用吗?答案是否定的。原因有两点:

一、默认 Socket 连接无法及时探测到链路的异常情况,即使将 Socket 的属性参数 keepAlive 设置为 true 仍然无法及时获取到链路存活状态。这是因为 Socket 的连接状态是由一个状态机进行维护的,连接完毕后,双方都会处于建立状态。假如某台服务器因为某些原因导致负载超高,无法及时响应业务请求,这时 TCP 探测到的仍然是连接状态,而实际上此链路已经不可用了。

二、国内运营商的 NAT 超时机制会把一定时间内没有数据交互的连接断开,这个时间可能只有几分钟,远无法满足我们的长连接需求。

通用保活机制 - 心跳机制

基于以上原因,要维持 Socket 连接长时间存活,就需要实现自己的保活机制。最通用的一种保活机制就是心跳机制。即客户端每隔一段时间给服务器发送一个很小的数据包,根据能否收到服务器的响应来判断链路的可用性。为了节省流量,这个包一般非常小,甚至没有内容。

那么客户端如何实现定时发送心跳包呢?一般有两种方式:

一种是通过 Java 里的 Timer 来实现。最基本的步骤如下:

1、建立一个要执行的任务TimerTask。

2、创建一个Timer实例,通过Timer提供的schedule()方法,将 TimerTask 加入到定时器Timer 中,设置每隔一段时间执行 TimerTask , 在 TimerTask 里发送心跳包。这种方式实现起来较简单,而且省电,不需要持有 WakeLock 。缺点也很明显,长时间在后台,进程被回收或者系统休眠后, Timer 机制随之失效。

另外一种方式是利用安卓系统的定时任务管理器 AlarmManager 循环执行发送心跳包的任务。这种方式不会因为系统休眠而失效,系统休眠后仍然可以通过 WakeLock 唤醒,执行心跳任务,因此相对 Timer 机制,这种方式比较费电,使用的时候一定要注意如下几点:

首先根据需求合理使用 AlarmManager 的闹钟参数。闹钟各参数的区别参考下表:

其次 AlarmManager 提供了 cancel() 方法,在设置新的定时任务前,通过 cancel() 方法取消系统里设置的同类型任务,避免设置冗余任务。

最后,安卓从 6.0 版本引入了 Doze 模式,并提供了新的闹钟设置方法 setExactAndAllowWhileIdle(),通过该方法设置的闹钟时间,系统会智能调度,将各个应用设置的事务统一在一次唤醒中处理,以达到省电的目的。推荐在安卓 6.0 以上系统中,优先使用该方法。

消息链路保活机制

消息链路作为收发消息的主要通道,需要最大程度保障链路的可用性。在链路不可用或者异常断开时,能及时探测并启动重连等保障机制。基于以上特性,消息链路除了前面所说的心跳机制外,还另外维护了两套链路优化机制:复合连接机制和重连机制。

复合连接机制的基本步骤如下:

  1. 客户端连接导航服务器,导航服务器会下发应用对应的配置信息,其中包括连接服务器的地址列表。

  2. 客户端从第一个服务器地址尝试连接,并启动超时机制,如果连接失败或没有及时收到服务响应, 则继续尝试连接下一个直到成功连接,将成功连接的地址保存到本地,作为最优地址,后面连接时优先使用此地址。通过这种机制,能保障客户端优先选用最优链路,缩短连接时间。

重连机制,则是指业务层在检测到与服务器的连接断开后,尝试 N 次重新连接服务器,首次断开 1 秒后会重新连接,如果仍然连接不成功,会在 2 秒后(重连间隔时间为上次重连间隔时间乘 2 )尝试重新连接服务器,以此类推当尝试重连 N 次后,仍然连不上服务器将不再尝试重新连接,只有在网络情况发生变化或重新打开应用时才会再次尝试重连。

推送链路保活机制

推送链路作为消息到达的补充手段,要求尽可能延长在后台的存活时间。即使被杀后,仍然能被再次唤醒。iOS 手机有 APNS 来达到以上效果,但安卓的官方推送系统 FCM 在国内基本不可用。那在国内安卓系统上如何保障推送到达呢?首先咱们需要先了解下安卓系统上进程管理的两大机制:

一种是 LMK 机制,英文是 Low Memory Killer, 基于 Linux 的内存管理机制衍生而来。主要是通过进程的 oom_adj 值来判定进程的重要程度,从而决定是否回收这些进程。oom_adj 的值越低,代表重要度越高,比如 native 进程,framework 层启动的系统进程,优先级一般都为负数。其次是前台可见进程,系统也不会回收。然而可见进程退到后台后, oom_adj 的值会立即升高,在系统定时清理时被杀。

另外一种机制是安卓原生的权限管理机制(AppOps),各大厂家在此基础上又进行了深度定制化,比如小米的安全中心,华为的手机管家等,都用来进行权限管理。该权限管理机制运行在安卓系统的框架层,上层各应用的进程如果想尝试重新启动,系统首先会去权限管理中心检查该进程有没有自启动权限,如果有,才准予启动。否则,从框架层直接限制系统的启动。

基于以上两种机制,推送链路的保活也可分为两大类,

一 进程保活。它的思路是根据 LMK 机制提高进程优先级,降低被杀的几率。主要有以下几种方法:

监听黑屏事件,启动 1 像素透明 Activity ,使应用进程转为可视进程,降低被杀概率。在屏幕亮时,关闭该 Activity。

双服务守护。A 服务以 startForeground() 形式启动,发送一个通知,B 服务同样以 startForeground() 形式启动,且发送和 A 相同 ID 的通知,然后在 B 服务里调用 stopForeground() 方法,取消通知。这样 A 服务就会以前台进程的形式存活,且不影响用户感知。

根据文件锁互斥原理,监视 Java 进程存活状态,若被杀,Linux 层成功持有文件,则通过 exec() 命令,打开一个纯 Linux 的可执行文件,开启一个 Daemon 进程, 该进程因为从 Linux 层启动,在安卓 5.0 之前,优先级会比较高,不会被杀。在安卓 5.0 之后,该方式不再有效。

二 进程拉活的策略和安卓系统的 AppOps 机制有关,一般有如下几种:

一、利用 Service 本身的 Sticky 属性,在 Service 的 onStartCommand() 中返回START_STICKY,这样当 Service 被杀掉后,系统会自动尝试重启。不过在国内定制化的系统上,这种方式能成功重启的几率很低,需要用户在权限管理中心打开自启动等权限,才能成功拉活。

二、也就是前面讲过的心跳机制,不过这里要求使用 AlarmManager 设置 ELAPSED_REALTIME_WAKEUP 属性的闹钟,在系统休眠后,才会正常接受到心跳事件,从而将进程拉活。

三、通过监听网络切换,用户行为等事件,拉起进程。

四、应用间互相拉活。比如系统里有好几个应用集成了同一个 SDK , 那么在用户启动其中某一个 App 的时候,SDK 会去扫描其它应用,把"兄弟姐妹" 拉活。这种方式对用户体验伤害非常大,会造成系统莫名其妙的耗电。

随着安卓系统版本的迭代,对后台进程的启动管控越来越严。为了解决推送的问题,各手机厂家推出了自己的系统级推送服务。由厂家在 Framework 层统一维护一条推送通道,上层所有应用共同使用该推送链路,不需要再维护单独进程。当前支持系统级推送的厂家有:小米、华为、魅族、vivo、OPPO,这种系统级别的推送省电,省内存,到达率高。应用可以根据手机型号的不同,优先使用厂家系统级别的推送,再配合自身的保活机制,最大程度保障推送的到达率。

集成第三方系统级推送之后,整个消息的收发流程可以参考下图:

转载于:https://blog.51cto.com/14084807/2374114

【融云分析】 IM 即时通讯之链路保活相关推荐

  1. 即时通讯源码-即时通讯集群服务免费-通讯百万并发技术-Openfire 的安装配置教程手册-哇谷即时通讯集群方案-哇谷云-哇谷即时通讯源码

    即时通讯源码-即时通讯集群服务免费-通讯百万并发技术-Openfire 的安装配置教程手册-哇谷即时通讯集群方案-哇谷云 1,openfire开发环境配置 很久没有写点东西了.最近很烦心,领导不给力. ...

  2. 腾讯云的云直播和即时通讯IM开发(全网最详细之一)

    如果你也在面临做直播的 业务的时候迷茫的时候,来看看吧. 腾讯云–云直播 最近这几个项目也是在做直播相关的App开发,之前刚做的时候,自己也经历很多坑. 慢慢的爬过这些坑,做了几款直播软件以后,也算有 ...

  3. 【融云分析】选择IM云服务,需要看哪些核心技术指标?

    IM(即时通讯)云服务已发展数年,不少企业与开发者都倾向于选择第三方IM云服务,短平快地为应用添加即时通讯能力,但如何选择服务商却是个难题,单从简单的功能介绍来看无法判断,因为IM云服务接入后,更重要 ...

  4. 【腾讯云IM】即时通讯的登录,登出,用户列表,私聊,图片发送

    uniapp即时通讯 1,初始化(刚开始就紧跟着文档走) 2,App.vue中项目引入腾讯云,(附上账号在其他地方登陆的监听) 3,登录前必需 3.1,获取登录id 3.2,生成userSig,独立封 ...

  5. 【融云分析】如何实现分布式场景下唯一 ID 生成?

    ◀背景▶ 对于一套分布式部署的 IM 系统,要求每条消息的 ID 要保证在集群中全局唯一且按生成时间有序排列.如何快速高效的生成消息数据的唯一 ID ,是影响系统吞吐量的关键因素.那么,融云是如何做到 ...

  6. js生成唯一id_【融云分析】如何实现分布式场景下唯一 ID 生成?

    ◀背景▶ 对于一套分布式部署的 IM 系统,要求每条消息的 ID 要保证在集群中全局唯一且按生成时间有序排列.如何快速高效的生成消息数据的唯一 ID ,是影响系统吞吐量的关键因素.那么,融云是如何做到 ...

  7. Android--使用融云SDK开发即时聊天(二)----设置单聊

    转载请注明出处:http://blog.csdn.net/skyunicorn/article/details/50906199,谢谢 上一次我们做了一个连接测试,测试显示连接成功,这次我们做一个单聊 ...

  8. 使用阿里百川云旺实现即时通讯

    2019独角兽企业重金招聘Python工程师标准>>> 本次场景: 1.ios端注册用户同时需要生成用户的云旺账号: 2.ios端登陆时需要返回用户的云旺账号信息,以便于用户再ios ...

  9. 云骞开源即时通讯软件

    云骞开源IM是一款使用ASP.NET,Ajax和Comet等技术开发的轻量级IM.主要特点有: 1.云骞开源IM的服务端实际上就是一个ASP.NET网站,因此不需要使用独立服务器,仅需要一个支持.NE ...

  10. 阿里云旺(即时通讯)基础使用

    在App的oncreate方法中 //必须首先执行这部分代码, 如果在":TCMSSevice"进程中,无需进行云旺(OpenIM)和app业务的初始化,以节省内存;SysUtil ...

最新文章

  1. 特斯拉Tesla Model 3整体架构解析(上)
  2. libevent中的bufferevent
  3. 【Linux入门连载一】[Win10下安装Linux虚拟机]VMWare15运行CentOS7(亲测有效)
  4. 数据恢复软件哪个好用比特数据恢复当仁不让
  5. 李沐《动手学深度学习》PyTorch 实现版开源,瞬间登上 GitHub 热榜!
  6. Python Mysql_db对数据查询进行处理
  7. 聊聊前段插件之Datatables
  8. 2017蓝桥杯省赛---java---B---8(包子凑数)
  9. 2015蓝桥杯省赛---java---B---6(加法变乘法)
  10. java中cell无法输出_java – iText 5.5.3 PDFPCell:长文本不适合单元格(不正确地包装文本)...
  11. SharePoint Permission中6个表的关联关系**
  12. 平台(洛谷P1105题题解,Java语言描述)
  13. 【Android图像处理】图像处理之-素描效果
  14. 16 分钟优化 mRNA 疫苗稳定性!百度 AI 算法 LinearDesign 为新冠疫苗研发提速
  15. Ubuntu下同时安装caffe和tensorflow
  16. C# 获取Newtonsoft.Json的JObject多层节点内容
  17. 计算机管理中无法格式化,Win7电脑无法格式化SD卡怎么办?
  18. 微信小程序icon控件
  19. 阿里月薪6W招程序员,看到要求我傻眼了!
  20. 2017 matlab 仿真,【2017年整理】Simulink仿真教程.ppt

热门文章

  1. 语录帝——要想人前显贵,必须背地里遭罪
  2. C++ vector 类学习笔记(转)
  3. SpringBoot实战之文件上传微软云(Azure Storage)
  4. 【分享】一次单体架构改造成微服务架构的拆分实践
  5. $emit和$on用法深挖
  6. iOS 时间格式错误导致的坑
  7. java cell设置绝对位置_java操作excel在开始位置添加一列
  8. bufferedwriter怎么写入tab_电脑越用越卡是怎么回事?教你三招恢复火箭般的速度...
  9. XAMPP 找不到对象,Error 404
  10. 代码中,对象类与管理类要分开