场景

大家如果是做后端开发的,想必都实现过列表查询的接口,当然有的查询条件很简单,一条 SQL 就搞定了,但有的查询条件极其复杂,再加上库表中设计的各种不合理,导致查询接口特别难写,然后加班什么的就不用说了(不知各位有没有这种感受呢~)。

下面以一个例子开始,这是某购物网站的搜索条件,如果让你实现这样的一个搜索接口,你会如何实现?(当然你说借助搜索引擎,像 Elasticsearch 之类的,你完全可以实现。但我这里想说的是,如果要你自己实现呢?

从上图中可以看出,搜索总共分为6大类,每大类中又分了各个子类。这中间,各大类条件之间是取的交集,各子类中有单选、多选、以及自定义的情况,最终输出符合条件的结果集。

好了,既然需求很明确了,我们就开始来实现。关注公众号互联网架构师回复2T,可以获取整理的 Redis 系列面试题及全部答案。

实现1

率先登场是小A同学,他是写 SQL 方面的“专家”。小A信心满满的说:“不就是一个查询接口吗?看着条件很多,但凭着我丰富的 SQL 经验,这点还是难不倒我的。”

于是乎就写出了下面这段代码(这里以 MYSQL 为例):

select ... from table_1
left join table_2
left join table_3
left join (select ... from table_x where ...) tmp_1
...
where ...
order by ...
limit m,n

代码在测试环境跑了一把,结果好像都匹配上了,于是准备上预发。这一上预发,问题就开始暴露出来。

预发为了尽可能的逼真线上环境,所以数据量自然而然要比测试大的多。所以这么一个复杂的 SQL,它的执行效率可想而知。测试同学果断把小A的代码给打了回来。

实现2

总结了小A失败的教训,小B开始对SQL进行了优化,先是通过了explain关键字进行SQL性能分析,对该加索引的地方都加上了索引。同时将一条复杂SQL拆分成了多条SQL,计算结果在程序内存中进行计算。

伪代码如下:

$result_1 = query('select ... from table_1 where ...');
$result_2 = query('select ... from table_2 where ...');
$result_3 = query('select ... from table_3 where ...');
...$result = array_intersect($result_1, $result_2, $result_3, ...);

这种方案从性能上明显比第一种要好很多,可是在功能验收的时候,产品经理还是觉得查询速度不够快。

小B自己也知道,每次查询都会向数据库查询多次,而且有些历史原因,部分条件是做不到单表查询的,所以查询等待的时间是避免不了的。

实现3

小C从上面的方案中看到了优化的空间。他发现小B在思路上是没问题的,将复杂条件拆分,计算各个子维度的结果集,最后将所有的子结果集进行一个汇总合并,得到最终想要的结果。

于是他突发奇想,能否事先将各个子维度的结果集给缓存起来,这要查询的时候直接去取想要的子集,而不用每次去查库计算。

这里小C采用 Redis 来存储缓存数据,用它的主要原因是,它提供了多种数据结构,并且在 Redis 中进行集合的交并集操作是一件很容易的事情。

具体方案,如图所示:

这里每个条件都事先将计算好的结果集ID存入对应的key中,选用的数据结构是集合(Set)。查询操作包括:

  • 子类单选:直接根据条件 key,获取对应结果集;

  • 子类多选:根据多个条件 Key,进行并集操作,获取对应结果集;

  • 最终结果:将获取的所有子类结果集进行交集操作,得到最终结果;

这其实就是所谓的反向索引。

这里会发现,漏了一个价格的条件。从需求中可知,价格条件是个区间,并且是无穷举的。所以上述的这种穷举条件的 Key-Value 方式是做不到的。这里我们采用 Redis 的另一种数据结构进行实现,有序集合(Sorted Set):

将所有商品加入 Key 为价格的有序集合中,值为商品ID,每个值对应的分数为商品价格的数值。这样在 Redis 的有序集合中就可以通过ZRANGEBYSCORE命令,根据分数(价格)区间,获取相应结果集。

至此,方案三的优化已全部结束,将数据的查询与计算通过缓存的手段,进行了分离。在每次查找时,只需要简单的查找 Redis 几次就能得出结果。查询速度上符合了验收的要求。

扩展

分页

这里你或许发现了一个严重的功能缺陷,列表查询怎么能没有分页。是的,我们马上来看 Redis 是如何实现分页的。关注公众号互联网架构师回复2T,可以获取整理的 Redis 系列面试题及全部答案。

分页主要涉及排序,这里简单起见,就以创建时间为例。

如图所示:

图中蓝色部分是以创建时间为分值的商品有序集合,蓝色下方的结果集即为条件计算而得的结果,通过ZINTERSTORE命令,赋结果集权重为0,商品时间结果为1,取交集而得的结果集赋予创建时间分值的新有序集合。对新结果集的操作即能得到分页所需的各个数据:

  • 页面总数为:ZCOUNT命令

  • 当前页内容:ZRANGE命令

  • 若以倒序排列:ZREVRANGE命令

数据更新

关于索引数据更新的问题,有两种方式来进行。一种是通过商品数据的修改,来即时触发更新操作,一种是通过定时脚本来进行批量更新。

这里要注意的是,关于索引内容的更新,如果暴力的删除 Key,再重新设置 Key。因为 Redis 中两个操作不会是原子性进行的,所以中间可能存在空白间隙,建议采用仅移除集合中失效元素,添加新元素的方式进行。

性能优化

Redis 是内存级操作,所以单次的查询会很快。但是如果我们的实现中会进行多次的 Redis 操作,Redis 的多次连接时间可能是不必要时间消耗。通过使用MULTI命令,开启一个事务,将 Redis 的多次操作放在一个事务中,最后通过EXEC来进行原子性执行(注意:这里所谓的事务,只是将多个操作在一次连接中执行,如果执行过程中遇到失败,是不会回滚的)。

总结

这里只是一个采用 Redis 优化查询搜索的一个简单 Demo,和现有的开源搜索引擎相比,它更轻量,学习成本页相应低些。其次,它的一些思想与开源搜索引擎是类似的,如果再加上词语解析,也可以实现类似全文检索的功能。

来源:https://github.com/jasonGeng88/blog

关注微信公众号:互联网架构师,在后台回复:2T,可以获取我整理的教程,都是干货。

猜你喜欢

1、GitHub 标星 3.2w!史上最全技术人员面试手册!FackBoo发起和总结

2、如何才能成为优秀的架构师?

3、从零开始搭建创业公司后台技术栈

4、程序员一般可以从什么平台接私活?

5、37岁程序员被裁,120天没找到工作,无奈去小公司,结果懵了...

6、滴滴业务中台构建实践,首次曝光

7、不认命,从10年流水线工人,到谷歌上班的程序媛,一位湖南妹子的励志故事

8、15张图看懂瞎忙和高效的区别

9、2T架构师学习资料干货分享

使用 Redis 实现一个轻量级的搜索引擎,牛逼啊!相关推荐

  1. 使用 Redis 实现一个轻量级的搜索引擎,牛逼啊 !

    来源 | http://github.com/jasonGeng88/blog/blob/master/201706/redis-search.md 场景 大家如果是做后端开发的,想必都实现过列表查询 ...

  2. 使用 Redis 实现一个轻量级的搜索引擎

    今日推荐 后端接口如何提高性能? 16 个写代码的好习惯 为什么不推荐使用BeanUtils属性转换工具 盘点阿里巴巴 34 个牛逼 GitHub 项目 常见代码重构技巧(非常实用) 作者:jason ...

  3. 我用Redis实现了一个轻量级的搜索引擎!

    作者:jasonGeng88 出处:https://github.com/jasonGeng88/blog 大家如果是做后端开发的,想必都实现过列表查询的接口,当然有的查询条件很简单,一条 SQL 就 ...

  4. 牛逼的python代码_牛逼啊!一个随时随地写Python代码的神器

    现在学Python的人越来越多,很多小伙伴都非常有激情,利用碎片时间随时随地学习Python, 大家知道Python是一门编程语言,但是学语言光看不练是没有用的.最好能编程并运行,有没有什么好的神器可 ...

  5. 在 B 站学编程,真滴牛逼!

    互联网让信息更容易触达,但是由于信息过于庞大,筛选出有价值的信息所花费的精力也会很大. 众所周知,B 站是一个学习的网站,很多人在 B 站上大学.考研.学编程,但 B 站的视频资源那更是五花八门,要从 ...

  6. 牛逼!下一代 Docker 镜像构建神器

    点击下方公众号「关注」和「星标」 回复"1024"获取独家整理的学习资料! Docker通过读取Dockerfile中的指令自动构建镜像,Dockerfile是一个文本文件,其中依 ...

  7. 后续:高中毕业的程序员读者到月薪四万的逆袭之路,大写的牛逼!!!

    大家好,我是findyi,前几天分享了一篇文章,是我的一个读者从高中毕业到月薪四万+两套房的逆袭之路,今天是后续- 这个牛逼读者写的上篇在6月5号:一个程序员读者从高中毕业到月薪四万的逆袭之路,牛逼! ...

  8. 牛逼的人很早就开始牛逼了

    作者:拾遗君 来源:拾遗(ID:shiyi201633) "牛逼的人很早就开始牛逼了."这话很有道理.虽然有"大器晚成"一说,但罗马绝对不是一天建成的.能够&q ...

  9. 上海都有哪些牛逼的互联网公司?

    作者:墨菲 来源:https://zhuanlan.zhihu.com/p/191577083 上一篇: 成都都有哪些牛逼的互联网公司? 今天来归纳一下上海都有哪些牛逼的互联网公司? 第一梯队:六巨头 ...

  10. sync神key_告诉你 Redis 是一个牛逼货

    原标题:告诉你 Redis 是一个牛逼货 概述: Redis是一个 Key-Value 存储系统.和 Memcached 类似,它支持存储的 value 类型相对更多,包括 string(字符串). ...

最新文章

  1. Python操作SQLite3
  2. 分析周鸿祎的安全卫士360[转]
  3. php 删除xls文件,使用PHPExcel将xls文件转换为xlsx时出错
  4. Solaris10下Nagios安装
  5. cuba 平台_CUBA平台:TypeScript SDK和REST API
  6. Activity的四种启动模式和onNewIntent()
  7. Python 2 退休
  8. 基于JAVA+SpringMVC+Mybatis+MYSQL的药方中医管理系统
  9. CDH报错: 主机的 NTP 服务未同步至任何远程服务器
  10. python获取当前路径的方法
  11. python语言程序设计王恺pdf_Python语言程序设计
  12. 黑客攻防技术宝典:浏览器实战篇 -- 上篇(笔记)
  13. v-distpicker
  14. C语言实验—— 数值统计
  15. 2021年危险化学品生产单位安全生产管理人员考试内容及危险化学品生产单位安全生产管理人员新版试题
  16. PiscisOS开发笔记_1_PiscisOS的诞生和系统特性简介
  17. Python—获取电脑的锁屏壁纸
  18. 【XR】为挑战性环境优化6DoF控制器追踪
  19. Pytorch应用训练好的模型
  20. 【Windows】快捷添加鼠标右键的菜单项

热门文章

  1. Cannot change version of project facet Dynamic Web Module to 2.5解决方案
  2. P2540 斗地主增强版
  3. Activiti5.22:删除工作流引擎自动创建的外键约束
  4. 【CentOS 7架构16】,限制user_agent#171226
  5. DDD~领域事件应用篇(订单处理变得更清晰)
  6. java+selenium实现web多系统登录
  7. modal verbs(一)
  8. SpreadJS 全面支持 Angular2,V10.2 版本即将发布
  9. C# this关键字(给底层类库扩展成员方法)
  10. IOS发布应用照片大小