[http://www.52im.net/thread-201-1-1.html]学习一下

一、前言

最近在朋友圈看到有人分享腾讯微信技术总监周颢的一个技术报告,题目是《 微信技术总监谈架构:微信之道——大道至简 》( 演讲全文整理 、 演讲PPT讲稿下载 ),我也转发了一下。然后就被本司妹子看到了,非让我解释一下。

无奈微信的技术人员出来交流的太少了,只能写下这篇浅显的文章,通俗的解释一下微信背后的技术力量。

二、敏捷

在微信的技术报告中,通篇演讲所说的内容,其实都是为了两个字服务:“敏捷”。首先,我们要先解释一下敏捷。

在软件领域,敏捷软件开发实际上已经是一种术语,它又称敏捷开发,是一种从1990年代开始逐渐引起广泛关注的一些新型软件开发方法,是一种应对快速变化的需求的一种软件开发能力。敏捷 (Agile)也是一股思潮, 它包括了好几种软件开发的方法论 (methodology); 这些方法论又是建立在许多业界证明行之有效的最佳实践方法 (best practices) 上面的,例如:Software Development Rhythms 、ASD/Adaptive Software Development、Scrum、XP Extreme Programming等等。敏捷开发最终的目的,都是使软件能够快速迭代和交付。

So,简单来说就是为了软件快速迭代和交付,微信的技术做了什么事情,是如何做的。

在报告中,有一段话的意思是这样的:微信的成功来源于产品决策的成功,为了给产品决策最大的自由度和能力,微信的技术允许发布前十分钟的需求变更。做到这个事情非常非常牛,我必须要解释一下它的难度。

一个人的精力是有限的也是容易出错的,所以,在传统软件开发流程中,规定了一系列的规范来保证软件能够不出错。一个需求的完整开发流程大致是这样的:需求提出,技术分析,开发,自测,模块测试,联调测试,灰度测试,完整发布。

即使已经做了这么多步的保证,所有故障的80%仍然是发布导致的。为了保证服务的稳定性——微信的及格线是99.95%——开发中的变更一般是很昂贵的,因为需要把已经走过的步骤再重走一遍。所以大部分软件开发对于开发中的需求变更都是非常忌讳的,对于开发人员来说也是如此,谁也不想辛苦完成的东西再重新来一遍,或者因为频繁的需求变更导致测试不完全而出现故障。放张漫画感受一下程序员的心情

对于微信来说,更是如此。我估计微信内部有上百个模块,几千台服务器,任意一个模块、程序出现问题都可能会影响到微信的正常服务。尤其是在发布前十分钟还允许变更,需要一套强大的技术、测试和监控系统才能支持如此的任性。

对比一下前东家(不能说名字,也算个大厂),固定每周发布两次,发布持续时间4个小时。例如,周二发布一次,那周二发布的所有需求在周一上午已经确定了;如果发布失败了,第二天继续发这个。我曾经见过有一个需求一周都没有发上去。

在如此困难的情况下,微信凭借了几个思路来做到如此敏捷,后面我来依次解释一下。

三、努力减少人为的错误

既然人的问题如此突出,那么,要想提高效率做到敏捷,一定要先从人的方面着手。
微信的这篇报告提出的思路是:大系统小做+基础组件。应该说,这是一个工业界普遍的解决思路。

我们一般人看到的软件,例如微信,就是在自己手机上运行的一个程序,无所谓大小系统,所有的功能都集中在一起,集中在一个软件中,无需也不能拆分。但在这种服务类软件例如微信、微博等,还有一个更加庞大在后端服务器的程序。

第一,一般来说,后端服务的逻辑相对前端软件来说更复杂:

后端程序要做各种计算、验证和存储的功能。如果前端软件端的代码有几万行的话,后端服务的代码一般要有几十万或者上百万行。例如,简单的登录,在前端只不过发一个登录的请求到后端服务器,而服务器要做的事情呢,从数据库中取得你的用户名和密码验证信息,把请求过来的用户名加密密码(密码不能明文存储,要经过一些复杂的计算过程取得一个加密的东西)和数据库的进行验证;判断是否一个异常登录(还要从数据库取的最近的登录信息);判断是否过频繁登录(防止恶意服务器攻击);等这些都做完了,才能返回说登录成功了。

第二,服务器端程序要比前端软件层承载更多的请求和更大的压力:

还是以上一点说的登录举例,所有的那些操作,服务器端要在100ms之内处理完成;同时,这种登录请求每一秒都有几万或者十几万。至少现在,一台普通服务器是无法同时处理这么多请求的,这就表示后端程序要部署很多台机器才行,这也造成了更多的复杂性。

如此复杂的系统,一个人是万万驾驭不了的。那么,唯一的选择就是把复杂变成简单。

首先,针对逻辑复杂的特点,我们会把几十万行代码组成的系统进行拆分,拆分一般是依据功能性,例如:注册登录、消息逻辑、漂流瓶等等,然后把这些程序分别部署到不同的服务器上。

放一页报告的PPT:

这张图应该是微信服务器端的主要逻辑和部署结构,其中每一个机器的图都是一组(很多台)服务器。这样的好处很明显,当拆分后,一个人只需要了解其中某一个模块的程序即可,不再需要详细的了解其他东西是怎么运行的。

但是,逻辑的复杂性解决了,又出现了另外一个问题,就是远程调用的复杂度和稳定性问题。

定义一下远程调用(RPC):

In computer science, a remote procedure call (RPC) is an inter-process communication that allows a computer program to cause a subroutine or procedure to execute in another address space (commonly on another computer on a shared network) without the programmer explicitly coding the details for this remote interaction.

简单来说,要调用的程序在另外一台物理服务器上。

而有网络参与的情况下,可靠性要比单机调用低一个等级,为了弥补这个可靠性的降低,需要做很多异常情况处理,例如:网络断了、有一次调用非常慢,有一台服务器没有响应了等等。

我们前面又提到,微信只有几十上百个模块在同时运行,不能要求每一个模块都把这些复杂的东西都做一次,并且受限于经验的问题,每个人做的都会不一样会有遗漏,这个时候,远程服务框架这个基础组件就应运而生了。

在报告中的一页PPT,提到了两个基础组件:

就是属于远程服务框架中的一部分,它能够让开发人员很简单的使用,10分钟即可写一个远程调用,并且各种错误都由框架处理了,只要很开心的关心我们的业务是如何运行的即可。Yes,开发快了好多倍。

当然,远程服务框架是一个很复杂和系统的工程,他至少应该关心4个方面:

  • 开发的简易型
  • 服务的分布式调用链及服务状态的跟踪统计
  • 服务的配置管理,包括服务发现、负载均衡和依赖管理
  • 服务之间的调度和生命周期管理

阿里巴巴公司曾经开源过一套远程服务框架:dubbo,摘一张它的程序整体设计图:

在报告中还提到一个很重要的基础组件,存储组件,它屏蔽了容灾扩容等复杂问题。

存储是如此重要,所有的内容最终都要落到存储上;存储是如此重要,大部分的操作最终都要从存储读数据。正因为存储的重要,所以它又显的非常脆弱,任何一点小的问题,一定会影响一大批用户。

在这种情况下,务必要进行减少存储的出错几率,并且让上层屏蔽这些处理,让开发人员专注于自己的模块,这种思想和前面说的远程调用框架思路是一致的。

在报告中,提到了4中容灾模型,前面两种分别是主备、双写,这个就不多说了,主要说下另外两种。

Set模型+双写:

这里,报告里说的不慎明确,他说能够实现完全一致的备份副本,但是只能支持追加写以及需要外部索引,类似简化版的GoogleFS,主要存储图片和音频。这里我脑补一下,希望能猜中。

读到这些关键字,除了GoogleFS,我还想起了一个东西:bitcask模型。

bitcask模型有一个外部索引,一般是放到内存中,保存了每一个key所在的文件位置和value长度及位置;在写入的时候,追加写入文件中,并更新索引内容,把位置指向新的磁盘位置。bitcask模型的好处是对于机械磁盘友好,写吞吐量大,数据持久化好不用担心crash后的数据丢失问题。这种模型就和报告所说的特点很像了,只不过把内存索引放到了外部一个单独的服务里面。当一个Set写入失败的时候,只需要写入另外一个,并把索引写入索引服务即可;读的时候,先读索引服务,然后去某一个Set中读取数据。因为每一个Set都做了主备模型,并不特别担心不可读。

四、及时发现错误

说了这么多,我们做了好多事情来尽量避免问题的产生,提高生产效率,但是遗憾的是,错误永远不可避免,这个时候,能够及时发现错误并解决它,影响尽量少的人就成了关键。微信给出的答案是:一套简单易用的监控系统+自动报警+灰度上线

对于这个,我其实没有啥好说的,都应该能很好的理解,任何软件服务的监控工作都是必不可少的。不过听视频上说的,微信5分钟即可部署好一个监控点并设置好报警阈值,完成监控和自动报警的工作,这个还是很牛的。

还有一项技术是灰度上线。顾名思义,灰度介于黑与白之间。在这里的意义就是,上线时只上线一部分,目的是用一部分用户检测代码的正确性,如果出现异常可以迅速的回到之前正确的代码上,实现影响尽量少的用户。

从报告给出的截图看,微信可以实现上线时任意选择要上线的服务器。如果上线有问题,也只会影响到访问到问题服务器的用户。当一台服务器上线验证没有问题,可以选择多几台上线,最后再上线全部服务器。这样就减少了很多的风险,有更大的容错性。

如何解读《微信技术总监谈架构:微信之道——大道至简》相关推荐

  1. 微信技术总监:一亿用户背后的架构秘密

    点击上方"阿拉奇学Java",选择"置顶或者星标"  每天早晨00点00分, 与你相约! 来自:CSDN.腾讯科技.虎嗅 | 责编:乐乐 往日回顾:如何从 Wi ...

  2. 腾讯微信技术总监:十亿用户增长背后的架构秘密

    微信--腾讯战略级产品,创造移动互联网增速记录,10个月5000万手机用户,433天之内完成用户数从零到一亿的增长过程,千万级用户同时在线,摇一摇每天次数过亿...   在技术架构上,微信是如何做到的 ...

  3. 腾讯微信技术总监周颢:一亿用户增长背后的架构秘密

    [CSDN.NET专稿 付江/文] 微信--腾讯战略级产品,创造移动互联网增速记录,10个月5000万手机用户,433天之内完成用户数从零到一亿的增长过程,千万级用户同时在线,摇一摇每天次数过亿... ...

  4. 微信技术总监:11亿日活的超大型系统架构之道!13页ppt详解!

    公众号回复'架构'获取架构师电子书及视频课程 点击下方图标关注公众号IT架构师联盟获取更多专业内容 微信的成功归结于腾讯式的"三位一体"策略:即产品精准.项目敏捷.技术支撑.微信的 ...

  5. 微信技术总监讲大数据高并发系统架构

    微信--腾讯战略级产品,创造移动互联网增速记录,10个月5000万手机用户,433天之内完成用户数从零到一亿的增长过程,千万级用户同时在线,摇一摇每天次数过亿--在技术架构上,微信是如何做到的?日前, ...

  6. 微信技术总监:11亿日活的超大型系统架构之道!13页ppt详解

    点击"技术领导力"关注∆  每天早上8:30推送 作者| 周颢    整理| Mr.K 来源| 技术领导力(ID:jishulingdaoli) 作者,微信技术总监 周颢,2001 ...

  7. 学计算机的进了腾讯微信组,微信技术团队首次亮相:技术总监谈微信之道

    微信,这款被称为"腾讯明星产品"的应用,在短短10月内积攒了5千万用户和2千万活跃用户,刷新了互联网产品最短时间内获得5000W用户的纪录,无论是速度和规模都让同行竞争者瞠目结舌. ...

  8. 为什么 CTO、技术总监、架构师都不写代码,还这么牛?

    作者| Mr.K   整理| Emma 来源| 技术领导力(ID:jishulingdaoli) 常常会被问到这样的问题:CTO.技术总监.架构师很少写具体代码,为什么还很牛逼的样子,拿这么高工资? ...

  9. 技术总监谈好的程序员如何写代码[转]

    技术总监谈好的程序员如何写代码[转] 要判断一个程序员是不是好的程序员,主要看他写的代码,因为程序员最重要的事是写代码.          即便不去理解代码的意图,只要看一眼,好的程序员写的代码与差的 ...

最新文章

  1. java实验的技术问题及解决方法,2018-2019-2 20175313 实验一《Java开发环境的熟悉》实验报告...
  2. python爬虫怎么爬同一个网站的多页数据-请问爬虫如何爬取动态页面的内容?
  3. java list 移除_java 中List删除实例详解
  4. 无法通过sak判断卡片类型_不同类型人脸识别闸机展示
  5. 聪明的木匠(优先队列,思维)
  6. 【线段树】Traffic Jams in the Land(CF498D)
  7. Tkinter图片按钮
  8. Oracle 9i DBA Fundamentals I学习笔记(六)
  9. UI设计和UX设计有什么区别?
  10. Linux下svn 安装搭建配置流程
  11. javaweb实训第一天作业练习
  12. rsync本地模式讲解04
  13. mysql 多数据源_SpringBoot+多数据源(MySQL)
  14. dede自定义内容模型会员投稿显示不了
  15. @Configuration与@Component作为配置类的区别
  16. 申屠青春对“链”和“币”的再思考
  17. python实现一个土豆聊天 potato chat 机器人
  18. 超强免费OCR文字识别工具推荐
  19. Mac 终端命令自动补齐的办法
  20. L44. 通配符匹配

热门文章

  1. OpenCV-Python自适应直方图均衡类CLAHE及方法详解
  2. 杭州城西科创大走廊管委会副主任一行莅临谐云实地调研
  3. CANoe-读写Excel文件
  4. oracle zck,DB2 转Oracle
  5. java版b2b2c o2o 多租户多商家电子商务之(商家管理)SpringCloud SpringBoot Mybatis Uniapp 分布式商城源码 电子商务源码 社交电商 直播带货
  6. Spring Cloud Gateway 网关整合 Knife4j
  7. 置液晶显示器的台式计算机,计算机用液晶显示器通用标准.doc
  8. C语言猜字游戏---翁凯
  9. Jarvis OJ平台basic部分wirteup
  10. DirectX 9.0c游戏开发手记之“龙书”第二版学习笔记之1: 开场白