作者 l 会点代码的大叔(CodeDaShu)

当项目中引入了 Redis 做分布式缓存,那么就会面临这样的问题:

  • 哪些数据应该放到缓存中?依据是什么?

  • 缓存数据是采用主动刷新还是过期自动失效?

  • 如果采用过期自动失效,那么失效时间如何制定?

正好这两周我们项目做了相关的评估,把过程记录下来和大家分享分享;当然过程中用到了很多“笨办法”,如果你有更好的办法,也希望能分享给我。

01

项目背景

我们的项目是一个纯服务平台,也就是只提供接口服务,并没有操作页面的,项目的接口日调用量大约在 200 万次,高峰期也就 1000 万出头,因为大部分接口是面向内部系统的,所以大部分请求集中在工作日的 9 点到 21 点,高峰期的时候系统的 QPS 在 300-400 之间。

因为我们项目数据存储使用的是 MongoDB,理论上支撑这个量级的 QPS  应该是绰绰有余,但是我有这么几点观察和考虑:

MongoDB 中虽然是整合好的数据,但是很多场景也不是单条查询,夸张的时候一个接口可能会返回上百条数据,回参报文就有两万多行(不要问我能不能分页返回......明确告诉你不能);

  • MongoDB 中虽然是整合好的数据,但是很多场景也不是单条查询,夸张的时候一个接口可能会返回上百条数据,回参报文就有两万多行(不要问我能不能分页返回......明确告诉你不能);

  • 目前项目 99.95% 的接口响应时间都在几十到几百毫秒,基本可以满足业务的需要,但是还是有 0.05% 的请求会超过 1s 响应,偶尔甚至会达到 5s、10s;

  • 观察这些响应时间长的请求,大部分时间消耗在查询 MongoDB 上,但是当我将请求报文取出,再次手动调用接口的时候,依然是毫秒级返回;MongoDB 的配置一般,时刻都有数据更新,而且我观察过,响应时间长的这些接口,那个时间点请求量特别大;

  • MongoDB 查询偶尔会慢的原因我我还在确认,我现在能想到的原因比如:大量写操作影响读操作、锁表、内存小于索引大小等等,暂时就认为是当时那一刻 MongoDB 有压力;我观察过,响应时间长的这些接口,那个时间点请求量特别大,这一点就不在这里具体分析了。

虽然一万次的请求只有四五次响应时间异常,但是随着项目接入的请求越来越大,保不齐以后量变产生质变,所以还是尽量将危机扼杀在摇篮里,所以果断上了 Redis 做分布式缓存。

02

接口梳理

下一步就是对生产环境现有接口进行统计和梳理,确定哪些接口是可以放到缓存中的,所以首先要对每一个接口的调用量有大概的统计,因为没有接入日志平台,所以我采用了最笨的办法,一个一个接口的数嘛。

  • 把工作日某一天全天的日志拉下来,我们四台应用服务器,每天的日志大概 1 个G,还好还好;

  • 通过 EditPlus 这个工具的【在文件中查找】的功能,查询每个接口当天的调用量,已上线 30 个接口,有几分钟就统计出来了,反正是一次性的工作,索性就手动统计了;

  • 一天也调不了几次的接口,就直接忽略掉了,我基本上只把日调用量上万的接口都留下来,进行下一步的分析。

03

字典表、配置类的数据

这一类的数据是最适合放在缓存中的,因为更新频率特别低,甚至有时候 insert 了之后就再也不做 update ,如果这类数据的调用量比较大,是一定要放到 Redis 中的;

至于缓存策略,可以在更新的时候双写数据库和 Redis,也可以采用自动失效的方式,当然这个失效时间可以放得比较长一些;针对我们项目,我采用的是半夜 12 点统一失效的策略,第一因为我们系统这类数据,是夜间通过 ETL 抽取过来的,每天同步一次,第二就是我们不怕缓存雪崩,没有那么大的访问量,夜间更没有什么访问量了。

04

明显是热点数据的数据

有一类数据,很明显就是热点数据;

我们就有一个接口,虽然是业务数据,不过数据总量只有几千条,但是每天的调用量大约在 40 万,而且更新频率不是很高,这类数据放入 Redis 中也就再适合不过了;至于缓存策略么,因为数据也是从其他系统同步过来的,根据数据同步的时间,我们最终采用一个小时的失效时间。

05

其余数据的评估

其实前两种数据很容易就能评估出来,关键是这类数据的评估:

  • 我们有一个接口日调用量 20-30 万,量不大,但是查询和处理逻辑比较复杂;

  • 基础数据量太大,无法把所有数据都放入 Redis 中;

  • 无法把基础数据直接放入 Redis 中,因为有多重查询维度(条件);

  • 无法确定每条数据的调用频率是怎么样的,最悲观的结果,每条数据当天只调用一次,这样就没有缓存的必要了。

但是咱也不能一拍脑袋就说:“调用量挺大的,直接放到 Redis 中吧”,或者“不好评估,算了吧,别放缓存了”,做任何一个决定还是需要有依据的,于是我是这样做的:

Step 1.

把该接口当天的所有日志都找出来

几十个日志文件肯定不能一个一个翻,要么就自己写个程序把需要的数据扒出来,但是考虑到这个工作可能只做一次,我还是尽量节省一些时间吧。

依然使用 EditPlus 这个工具的【在文件中查找】的功能,在查询结果框中【复制所有内容】,花了两分钟,就把 24 万条日志找出来了。

o 该接口查询到 24 万条数据

Step 2.

把数据导入到数据库中进行下一步分析

每一条日志大概是这样的:

XXXX.log"(64190,95):2020-3-17 16:44:10.092 http-nio-8080-exec-5 INFO 包名.类名 : 请求参数:args1={"字段1":"XXX","字段2":"YYY"}

日志里面我只需要三个内容:请求报文中的字段 1 和字段 2,以及调用时间;怎么摘出来?写个程序?当然没问题,但是我懒呀,几分钟能做好的事情为什么话花几十分钟呢?而且这工作是一次性的,于是:

  • 全文替换:[ 2020-3-17 ] 替换成 [ /t2020-3-17 ] ,也就是在时间戳前面加一个 tab;

  • 全文替换:[ {"字段1":" ] 替换成 [ /t ] ;

  • 全文替换:[ ","字段2":" ] 替换成 [ /t ] ;

  • 全文替换:[ "}  ] 替换成 [  ],也就是替换成空 ;

  • 全选复制,粘贴到 excel 中,excel 自动按照 tab 换列;

  • 删除不需要的列,只留字段 1 和字段 2 的内容,以及时间戳;

这几步操作用不了一分钟。

o 从日志拆出来的三个字段

Step 3.

调用频率分析

当把数据进入到数据库中,就根据我们的需要进行分析了;我们主要想知道,相同的入参会不会重复调用?每次调用间隔的时间是多少?一个 SQL 搞定:

select 字段1 , 字段2, count(1) 调用次数, (MIDNIGHT_SECONDS(max(UPDATETIME)) - MIDNIGHT_SECONDS(min(UPDATETIME)))/60  调用间隔时间,处理成了分钟from TABLEgroup by 字段1 , 字段2 having count(1) > 2
with ur ;

当然调用间隔时间的统计,这里统计的不精确,具体我不解释了,你们细品...

总之吧,全天 24 万的调用量,其中 10 万只调用了一次,14 万的数据会在短时间内重复调用,有一些数据甚至会在几分钟之内重复查询几十次,所以这个接口还是比较适合放入到 Redis 中的。

Step 4.

数据怎么存?

再说说我们的数据用什么格式保存到 Redis 中,一图胜千言:

o 将加工结果保存到 Redis 中

至于缓存更新策略嘛,我们依然使用设置失效时间的方式,根据数据同步的时间和调用统计结果,这个时间设置成 15 分钟比较合适。

可以看到在这个评估过程中,我所有操作都保持了“能偷懒就偷懒”这个好习惯,保持高效,善用工具,节约不必要的时间,全部过程花了两个小时,其中大部分时间是在数据导入,几乎用了一个半小时,还好在这个过程中我还能做其他的工作。

特别推荐一个分享架构+算法的优质内容,还没关注的小伙伴,可以长按关注一下:

长按订阅更多精彩▼如有收获,点个在看,诚挚感谢

哪些数据可以放进缓存?记录生产环境一次缓存评估的过程相关推荐

  1. 【大数据实时数据同步】超级详细的生产环境OGG(GoldenGate)12.2实时异构同步Oracle数据部署方案(中)

    系列文章目录 [大数据实时数据同步]超级详细的生产环境OGG(GoldenGate)12.2实时异构同步Oracle数据部署方案(上) [大数据实时数据同步]超级详细的生产环境OGG(GoldenGa ...

  2. 生产环境子域降级记录

    公司早期采用父子域的方式为各子公司建立AD环境,但随着公司数量的进一步增加,此种管理方式已经不符合现实的需求,所以决定用"单域多站点"替换现有的模式.此文主要记录生产环境中某子域的 ...

  3. Sentinel(十五)之在生产环境中使用 Sentinel

    转载自  在生产环境中使用 Sentinel 引言 Sentinel 目前已可用于生产环境,除了阿里巴巴以外,也有很多企业在生产环境中广泛使用 Sentinel. 生产环境的 Sentinel Das ...

  4. Dapper--Google生产环境下的分布式跟踪系统

    Dapper--Google生产环境下的分布式跟踪系统 概述 当代的互联网的服务,通常都是用复杂的.大规模分布式集群来实现的.互联网应用构建在不同的软件模块集上,这些软件模块,有可能是由不同的团队开发 ...

  5. Vue.js 生产环境部署

    生产环境部署 开启生产环境模式 开发环境下,Vue 会提供很多警告来帮你对付常见的错误与陷阱.而在生产环境下,这些警告语句却没有用,反而会增加应用的体积.此外,有些警告检查还有一些小的运行时开销,这在 ...

  6. 开发环境和运行环境的区别_生产环境 VS 开发环境,关于Kubernetes的四大认识误区...

    来源:http://t.cn/ExaHoL2 最近我们澄清了一些大家在进行Kubernetes实验的时候所见到的常见的误解.其中最大的一个误解就是:在生产环境中运行Kubernetes和开发测试环境并 ...

  7. Vue Nginx反向代理配置 解决生产环境跨域

    Vue本地代理举例: module.exports = {publicPath: './',devServer: {proxy: {'/api': {target: 'https://movie.do ...

  8. 320、Vue学习笔记26 -【生产环境部署】 2020.04.20

    0.目录 1.开启生产环境模式 1.1 不使用构建工具 1.2 使用构建工具 2.模板预编译 3.提取组件的 CSS 4.跟踪运行时错误 5.参考链接 1.开启生产环境模式 开发环境下,Vue 会提供 ...

  9. 大数据实战-callLog项目(通话记录数据分析)之数据生产

    文章目录 前言 生成基础数据 Maven依赖 姓名-手机号列表 时间维度表 自动随机生成 生成时间戳 生成一定范围内的long数据 代码 调用演示 获得随机的时间戳 代码 调用示例 生成一行记录 打包 ...

最新文章

  1. 光电编码器的原理及应用场合_光电传感器原理及应用
  2. python递归合并排序_python 归并排序的递归法与迭代法(利用队列)实现,以及性能测试...
  3. 单片机断电后不保存程序_51单片机运行过程
  4. A Neural Algorithm of Artistic Style
  5. BZOJ 1396:识别子串 SA+树状数组+单调队列
  6. Codeforces.449D.Jzzhu and Numbers(容斥 高维前缀和)
  7. python偶数分解成两个素数之和_偶数 2021218918 ,有多少种方法分解成两个素数之和?...
  8. 关于iframe的一点发现与思考
  9. django分页-Paginator类
  10. Python nose test framework 介绍
  11. Tomcat—如何在Windows 7中修改Tomcat的端口号
  12. mouse_event() 控制鼠标操作
  13. visio 连接线样式设置 如箭头线
  14. LayuiAdmin+TP5.1 数据表格添加数据详解
  15. ubuntu14.0.4安装drozer
  16. 数据库的增删改查基本操作
  17. 微软认知服务应用秘籍 – 漫画翻译篇
  18. [云数据中心] 《云数据中心网络架构与技术》读书笔记 第七章 构建多数据中心网络(1/3)
  19. 分辨率,码率,帧率,ppi,像素,帧大小的计算
  20. 数据结构快速入门,数据结构基础详解

热门文章

  1. 关于Visual Studio2019的4996错误警告解决方法
  2. HDU1892(二维树状数组)
  3. HDU2215(最小圆覆盖问题)
  4. 线段树(点查询、区间查询、区间修改)模板
  5. 计算机二级vfp知识点,全国计算机二级等级考试VFP知识点提纲
  6. smack连接openfire
  7. c 传入易语言字节,易语言字节集参数传递详解
  8. java基础教程 类_Java零基础系列教程06初识类和对象
  9. win7变成xp风格了怎么改回_揭秘:干掉了win7!为何win10屡被吐槽它却“永世留芳”?...
  10. 树上分治详解 超级详细(附带例题 poj1741(给了题目))