目录

  • 前言
  • 短链有啥好处,用长链不香吗
  • 短链跳转的基本原理
  • 短链生成的几种方法
    • 1、哈希算法
      • 如何缩短域名
      • 如何解决哈希冲突的问题?
    • 2、自增序列算法
  • 高性能短链的架构设计
  • 总结

前言

今天,我们来谈谈如何设计一个高性能短链系统

短链系统设计看起来很简单,但每个点都能展开很多知识点,也是在面试中非常适合考察侯选人的一道设计题

本文将会结合我们生产上稳定运行两年之久的高性能短链系统给大家简单介绍下设计这套系统所涉及的一些思路,希望对大家能有一些帮助。

本文将会从以下几个方面来讲解,每个点包含的信息量都不少,相信大家看完肯定有收获。

  • 短链有啥好处,用长链不香吗
  • 短链跳转的基本原理
  • 短链生成的几种方法
  • 高性能短链的架构设计

:里面涉及到不少布隆过滤器,snowflake 等技术,由于不是本文重点,所以建议大家看完后再自己去深入了解,不然展开讲篇幅会很长

短链有啥好处,用长链不香吗

来看下以下极客时间发我的营销短信,点击下方蓝色的链接(短链)

浏览器的地址栏上最终会显示一条如下的长链。

那么为啥要用短链表示,直接用长链不行吗,用短链的话有如下好外:

  • 链接变短,在对内容长度有限制的平台发文,可编辑的文字就变多了。最典型的就是微博,限定了只能发 140 个字,如果一串长链直接怼上去,其他可编辑的内容就所剩无几了,用短链的话,链接长度大大减少,自然可编辑的文字多了不少。再比如一般短信发文有长度限度,如果用长链,一条短信很可能要拆分成两三条发,本来一条一毛的短信费变成了两三毛,何苦呢。另外用短链在内容排版上也更美观。
  • 我们经常需要将链接转成二维码的形式分享给他人,如果是长链的话二维码密集难识别,短链就不存在这个问题了,如图示:
  • 链接太长在有些平台上无法自动识别为超链接。如图示,在钉钉上,就无法识别如下长链接,只能识别部分,用短地址无此问题

短链跳转的基本原理

从上文可知,短链好处多多,那么它是如何工作的呢。我们在浏览器抓下包看看:

可以看到请求后,返回了状态码 302(重定向)与 location 值为长链的响应,然后浏览器会再请求这个长链以得到最终的响应,整个交互流程图如下:

主要步骤就是访问短网址后重定向访问 B,那么问题来了,301 和 302 都是重定向,到底该用哪个,这里需要注意一下 301 和 302 的区别:

  • 301 代表 永久重定向,也就是说第一次请求拿到长链接后,下次浏览器再去请求短链的话,不会向短网址服务器请求了,而是直接从浏览器的缓存里拿,这样在 server 层面就无法获取到短网址的点击数了,如果这个链接刚好是某个活动的链接,也就无法分析此活动的效果。所以我们一般不采用 301。
  • 302 代表 临时重定向,也就是说每次去请求短链都会去请求短网址服务器(除非响应中用 Cache-Control 或 Expired 暗示浏览器缓存), 这样就便于 server 统计点击数,所以虽然用 302 会给 server 增加一点压力,但在数据异常重要的今天,这点代码是值得的,所以推荐使用 302!

短链生成的几种方法

1、哈希算法

怎样才能生成短链,仔细观察上例中的短链,显然它是由固定短链域名 + 长链映射成的一串字母组成,那么长链怎么才能映射成一串字母呢,哈希函数不就用来干这事的吗,于是我们有了以下设计思路

那么这个哈希函数该怎么取呢,相信肯定有很多人说用 MD5,SHA 等算法,其实这样做有点杀鸡用牛刀了,而且既然是加密就意味着性能上会有损失,我们其实不关心反向解密的难度,反而更关心的是哈希的运算速度和冲突概率。

能够满足这样的哈希算法有很多,这里推荐 Google 出品的 MurmurHash 算法

MurmurHash 是一种 非加密 型哈希函数,适用于一般的哈希检索操作。与其它流行的哈希函数相比,对于规律性较强的 key,MurmurHash 的随机分布特征表现更良好。

非加密意味着着相比 MD5,SHA 这些函数它的性能肯定更高(实际上性能是 MD5 等加密算法的十倍以上),也正是由于它的这些优点,所以虽然它出现于 2008,但目前已经广泛应用到 Redis、MemCache、Cassandra、HBase、Lucene 等众多著名的软件中。
MurmurHash 提供了两种长度的哈希值,32 bit,128 bit,为了让网址尽可通地短,我们选择 32 bit 的哈希值,32 bit 能表示的最大值近 43 亿,对于中小型公司的业务而言绰绰有余。

对上文提到的极客长链做 MurmurHash 计算,得到的哈希值为 3002604296,于是我们现在得到的短链为 固定短链域名 + 哈希值 = gk.link/a/3002604296

如何缩短域名

有人说人这个域名还是有点长,还有一招,3002604296 得到的这个哈希值是十进制的,那我们把它转为 62 进制可缩短它的长度,10 进制转 62 进制如下:

于是我们有 (3002604296)10 = (3hcCxy)10,一下从 10 位缩短到了 6 位!于是现在得到了我们的短链为 http://gk.link/a/3hcCxy
注:6 位 62 进制数可表示 568 亿的数,应付长链转换绰绰有余

如何解决哈希冲突的问题?

既然是哈希函数,不可避免地会产生哈希冲突(尽管概率很低),该怎么解决呢。

我们知道既然访问访问短链能跳转到长链,那么两者之前这种映射关系一定是要保存起来的,可以用 Redis 或 Mysql 等,这里我们选择用 Mysql 来存储。表结构应该如下所示

CREATE TABLE `short_url_map` (`id` int(11) unsigned NOT NULL AUTO_INCREMENT,`lurl` varchar(160) DEFAULT NULL COMMENT '长地址',`surl` varchar(10) DEFAULT NULL COMMENT '短地址',`gmt_create` int(11) DEFAULT NULL COMMENT '创建时间',PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

于是我们有了以下设计思路:

  • 将长链(lurl)经过 MurmurHash 后得到短链。
  • 再根据短链去 short_url_map 表中查找看是否存在相关记录,如果不存在,将长链与短链对应关系插入数据库中,存储。
  • 如果存在,说明已经有相关记录了,此时在长串上拼接一个自定义好的字段,比如「DUPLICATE」,然后再对接接的字段串「lurl + DUPLICATE」做第一步操作,如果最后还是重复呢,再拼一个字段串啊,只要到时根据短链取出长链的时候把这些自定义好的字符串移除即是原来的长链。

以上步骤显然是要优化的,插入一条记录居然要经过两次 sql 查询(根据短链查记录,将长短链对应关系插入数据库中),如果在高并发下,显然会成为瓶颈。
:一般数据库和应用服务(只做计算不做存储)会部署在两台不同的 server 上,执行两条 sql 就需要两次网络通信,这两次网络通信与两次 sql 执行是整个短链系统的性能瓶颈所在!

所以该怎么优化呢:

  • 首先我们需要给短链字段 surl 加上唯一索引
  • 当长链经过 MurmurHash 得到短链后,直接将长短链对应关系插入 db 中,如果 db 里不含有此短链的记录,则插入,如果包含了,说明违反了唯一性索引,此时只要给长链再加上我们上文说的自定义字段「DUPLICATE」, 重新 hash 再插入即可,看起来在违反唯一性索引的情况下是多执行了步骤,但我们要知道 MurmurHash 发生冲突的概率是非常低的,基本上不太可能发生,所以这种方案是可以接受的

当然如果在数据量很大的情况下,冲突的概率会增大,此时我们可以加布隆过滤器来进行优化。

用所有生成的短网址构建布隆过滤器,当一个新的长链生成短链后,先将此短链在布隆过滤器中进行查找,如果不存在,说明 db 里不存在此短网址,可以插入!

:布隆过滤器是一种非常省内存的数据结构,长度为 10 亿的布隆过滤器,只需要 125 M 的内存空间。
综上,如果用哈希函数来设计,总体的设计思路如下:

用哈希算法生成的短链其实已经能满足我们的业务需求,接下来我们再来看看如何用自增序列的方式来生成短链

2、自增序列算法

我们可以维护一个 ID 自增生成器,比如 1,2,3 这样的整数递增 ID,当收到一个长链转短链的请求时,ID 生成器为其分配一个 ID,再将其转化为 62 进制,拼接到短链域名后面就得到了最终的短网址

那么这样的 ID 自增生成器该如何设计呢。如果在低峰期发号还好,高并发下,ID 自增生成器的的 ID 生成可能会系统瓶颈,所以它的设计就显得尤为重要。

主要有以下四种获取 id 的方法:

  • 类 uuid
    简单地说就是用 UUID uuid = UUID.randomUUID(); 这种方式生成的 UUID,UUID (Universally Unique Identifier) 全局唯一标识符,是指在一台机器上生成的数字,它保证对在同一时空中的所有机器都是唯一的,但这种方式生成的 id 比较长,且无序,在插入 db 时可能会频繁导致页分裂,影响插入性能。
  • Redis
    用 Redis 是个不错的选择,性能好,单机可支撑 10 w+ 请求,足以应付大部分的业务场景,但有人说如果一台机器扛不住呢,可以设置多台嘛,比如我布置 10 台机器,每台机器分别只生成尾号 0,1,2,… 9 的 ID, 每次加 10 即可,只要设置一个 ID 生成器代理随机分配给发号器生成 ID 就行了。

    不过用 Redis 这种方案,需要考虑持久化(短链 ID 总不能一样吧),灾备,成本有点高。
  • Snowflake
    用 Snowflake 也是个不错的选择,不过 Snowflake 依赖于系统时钟的一致性。如果某台机器的系统时钟回拨,有可能造成 ID 冲突,或者 ID 乱序。
  • Mysql 自增主键
    这种方式使用简单,扩展方便,所以我们使用 Mysql 的自增主键来作为短链的 id。简单总结如下:

    那么问题来了,如果用 Mysql 自增 id 作为短链 ID,在高并发下,db 的写压力会很大,这种情况该怎么办呢。
    考虑一下,一定要在用到的时候去生成 id 吗,是否可以提前生成这些自增 id ?
    方案如下:
    设计一个专门的发号表,每插入一条记录,为短链 id 预留 (主键 id * 1000 - 999) 到 (主键 id * 1000) 的号段,如下:
    发号表:url_sender_num :

    如图示:tmp_start_num 代表短链的起始 id,tmp_end_num 代表短链的终止 id。
    当长链转短链的请求打到某台机器时,先看这台机器是否分配了短链号段,未分配就往发号表插入一条记录,则这台机器将为短链分配范围在 tmp_start_num 到 tmp_end_num 之间的 id。从 tmp_start_num 开始分配,一直分配到 tmp_end_num,如果发号 id 达到了 tmp_end_num,说明这个区间段的 id 已经分配完了,则再往发号表插入一条记录就又获取了一个发号 id 区间。

注: 思考一下这个自增短链 id 在机器上该怎么实现呢, 可以用 redis, 不过更简单的方案是用 AtomicLong,单机上性能不错,也保证了并发的安全性,当然如果并发量很大,AtomicLong 的表现就不太行了,可以考虑用 LongAdder,在高并发下表现更加优秀。
整体设计图如下:

解决了发号器问题,接下来就简单了,从发号器拿过来的 id ,即为短链 id,接下来我们再创建一个长短链的映射表即可, 短链 id 即为主键

不过这里有个需要注意的地方,我们可能需要防止多次相同的长链生成不同的短链 id 这种情况,这就需要每次先根据长链来查找 db 看是否存在相关记录

一般的做法是给长链加索引,但这样的话索引的空间会很大,所以我们可以对长链适当的压缩,比如 md5,再对长链的 md5 字段做索引,索引就会小很多。这样只要根据长链的 md5 去表里查是否存在相同的记录即可。所以我们设计的表如下:

CREATE  TABLE  `short_url_map` (
`id` int(11) unsigned  NOT  NULL AUTO_INCREMENT COMMENT '短链 id',
`lurl` varchar(10) DEFAULT  NULL  COMMENT '长链',
`md5` char(32) DEFAULT  NULL  COMMENT '长链md5',
`gmt_create` int(11) DEFAULT  NULL  COMMENT '创建时间',
PRIMARY KEY (`id`)) ENGINE=InnoDB  DEFAULT  CHARSET=utf8;

高性能短链的架构设计

在电商公司,经常有很多活动,秒杀,抢红包等等,在某个时间点的 QPS 会很高

考虑到这种情况,我们引入了 openResty,它是一个基于 Nginx 与 Lua 的高性能 Web 平台,由于 Nginx 的非阻塞 IO 模型,使用 openResty 可以轻松支持 100 w + 的并发数

一般情况下你只要部署一台即可,不过为了避免单点故障,两台为宜,同时 openResty 也自带了缓存机制,集成了 redis 这些缓存模块,也可以直接连 mysql。不需要再通过业务层连这些中间件,性能自然会高不少


如图示,使用 openResty 省去了业务层这一步,直达缓存层与数据库层,也提升了不少性能。

总结

本文对短链设计方案作了详细地剖析,旨在给大家提供几种不同的短链设计思路,文中涉及到挺多像布隆过滤器,openResty 等技术,文中没有展开讲,建议大家回头可以再详细了解一下。

如何设计一个高性能短链系统?相关推荐

  1. 如何设计一个高性能积分系统

    如何设计一个高性能积分系统 功能说明 1:用户签到可以获得积分,需要按照用户维度每天进行用户总积分排行榜 2:需要近实时更新排行榜 3:在积分相同的情况下,需要按照先注册的用户排在前面 4:用户量10 ...

  2. 设计 一个高性能爬虫系统

    资料来源 http://www.xuebuyuan.com/1296711.html 开源中国 http://my.oschina.net/eshijia/blog/136595 最近看了一篇来自纽约 ...

  3. 系统设计——如何设计一个高性能的短链接系统?

    短链系统设计看起来很简单,但如何设计一个高性能短链系统呢,这也是面试中非常常见的一道设计题. 首先,为什么要用短链? 短链跳转的基本原理是什么? 短链生成的几种方法你知道吗? 高性能短链的架构如何设计 ...

  4. 如何设计一个高性能的秒杀系统

    秒杀系统要如何架构,在做技术方案时要注意哪些问题,搞了个秒杀专辑,专门收集秒杀系列文章. 当你去一家公司面试时,很多面试官都会问你如何设计一个高性能秒杀系统.秒杀涉及的技术域从客户端.浏览器.网络.负 ...

  5. 面试题:如何设计一个高并发系统?

    面试官心理分析 说实话,如果面试官问你这个题目,那么你必须要使出全身吃奶劲了.为啥?因为你没看到现在很多公司招聘的 JD 里都是说啥,有高并发就经验者优先. 如果你确实有真才实学,在互联网公司里干过高 ...

  6. 【面试】如何设计一个高并发系统

    一.为什么需要秒杀系统? 电商平台本质是在线上撮合买卖双方的购销需求,达成交易.虽然是线上交易,但也遵守朴素的经济学原理,供求关系决定了商品的经济活动.当供求平衡时,买方和卖方处于对等关系,双方相对稳 ...

  7. 小米的开源监控系统open-falcon架构设计,看完明白如何设计一个好的系统

    小米的开源监控系统open-falcon架构设计,看完明白如何设计一个好的系统 小米的http://book.open-falcon.org/zh/intro/ 早期,一直在用zabbix,不过随着业 ...

  8. mysql每秒支持多少并发_如何设计一个高并发系统?

    面试题 如何设计一个高并发系统? 面试官心理分析 说实话,如果面试官问你这个题目,那么你必须要使出全身吃奶劲了.为啥?因为你没看到现在很多公司招聘的 JD 里都是说啥,有高并发就经验者优先. 如果你确 ...

  9. oom 如何避免 高并发_【面试题】如何设计一个高并发系统?

    面试题 如何设计一个高并发系统? 原文链接:https://github.com/doocs/advanced-java/blob/master/docs/high-concurrency/high- ...

最新文章

  1. Linux 01 Liunx目录结构及文件基本操作
  2. ExtJs与WCF交互:生成树
  3. 在Qt(C++)中使用QThread实现多线程
  4. How to Review a Paper
  5. AUTOSAR从入门到精通100讲(二十七)-DoIP远程诊断及与UdsOnCan的比较
  6. java.lang.StackOverflowError递归的栈溢出错误
  7. C++:求第k小的数
  8. webpack图片打包
  9. 批量查进程linux,linux 批量删除进程与查看进程详解
  10. 2020最新5Sing音乐解析解析接口 简单实用
  11. Windows上配置iScsi发起程序,显示“CHAP密码不符合标准”
  12. 【Linux】CMAQ实践部署
  13. 《动手学深度学习》(PyTorch版)代码注释 - 56 【Machine_translation】
  14. 三、Eureka注册与发现之Eureka Comsumer
  15. Mybatis源码学习笔记之Mybatis二级缓存
  16. 高并发累加器 Striped64
  17. Tomcat服务器安装和替换阿里云免费ssl证书步骤(超详细)
  18. 聊城大学计算机学院2016级11班,E·社会实践 | “观运河风采,忆聊城古韵”——2016级11班...
  19. GlusterFS探究(一): dht,afr,fuse, mgmt 层 几个问题总结
  20. 阅文与掌阅的真假繁华

热门文章

  1. html微信自动跳转外部浏览器,外部浏览器唤起微信并跳转指定链接怎么实现?
  2. CSP认证 201803-4 棋局评估(极大极小值搜索)
  3. AD PCB做板内镂空
  4. 域名解析,反向域名解析nbtstat
  5. Python3——坦克大战
  6. xstream 反序列化漏洞研究与修复
  7. 家里有一对音箱一个功放,想连接手机,有什么好的方案?
  8. ARM 罢免中国合资公司 CEO 吴雄昂内幕
  9. QtVtk-019-GPURenderDemo
  10. Python-Django毕业设计口袋校园外卖网站论文(程序+LW)