今天在西部在线群里碰到一个玩笑争论,就是人工进行大数据量更新的问题。刚好也在考虑高并发量大型商业网站的技术和运营架构,暂且将一些思路写下来,提醒自己,顺便抛砖引玉了。有些数据,为了更形象的说明问题,在丝毫不影响分析的前提下,做了取整。同时,为了观察和验证分析结果是否准确,最后也参考了少许sina网站的公开商业数据。

下面我就结合技术、商业、综合成本等各类因素,贯穿行走,随意展开,尽量展现一个大型资讯商业站的全部基础架构。当然了,我得声明,这仅仅是我的一个分析而已,一是比较粗劣,二是含有些许猜测的成分。呵呵,聊胜于无,大家权且凑合看吧……

目前的大型商业网站,日访问量都在数千万,甚至数亿频次。一天共计是86400秒,1440分钟;8小时则是28800秒,480分钟。如果按秒计算平均值,日均千万的平均访问频度是116人次/秒,平均一人打开3个连接,并发连接就是每秒350个;如果一天按8小时计算,平均访问变成350人次/秒,并发连接就是每秒1040。这样下来,其实对系统的负载压力并不大,如果只是一般性图文数据访问,好点的PC Server就可以基本应付这样的访问。

但在实际生活中,人们的访问往往并不是按照我们的期望进行。就像公交车一样,平常空空荡荡的,仅仅几个人坐在车上,可是在早班和晚班以及周末时刻的高峰期,它就是那么挤!!电梯系统也有类似特点。同样的,这1000万人次的访问量,还就是集中在上午和傍晚那么几个小时里。而访问的高峰期,可能也就一个小时吧。这样来看,按3小时共计约1万秒计算,平均访问频度变成1000人次/秒,并发连接就是每秒3000个。在这个世界上有个统计性的经验规律——二八原理,并且根据CNNIC的第20次报告来看,约70%的网民上网高峰期集中到了晚21点。当然了,这其中有斗地主的、有看视频的、有访问网站的……那么,我们可以这样计算高峰期访问量,可以近似的把网站的千万访问量取一半来核算。一小时3600秒,那么,高峰期的平均访问量变成1390人次,并发连接为每秒4000个;如果再按二八原理对高峰期的一小时进行统计分析,就可以把高峰期这一个小时的近似精准量算出来了。那么取25%的时段900秒,取高峰期70%的量350万来计算,这可能就接近于真实的访问峰值了;计算结果为3900人次/秒,并发连接每秒约11500。如果按照1M带宽平均三人并发,最多4人并发来计算。这里的一号结论可以出来了,日均访问在千万级大站的访问峰值在4000人次/秒左右,并发连接超过10000/秒,总带宽在2G左右。这个值好像和sina的访问数据已经接近了。

从商业角度来说,千万级别的访问量,首先是广告价值,我们就假定为资讯站作分析。本地晚报广告一天的千人覆盖价格约75元,乌市分众传媒一天的千人覆盖价格约20元。由此也可以看出分众传媒发展如此之快的原因了吧,还是在于商业效率比报纸高啊。千万级的网站,我们按10元千人覆盖价格计算吧,非常有竞争力了;那么光首页广告的价格一天也是100万以上了。网站会有多少页面那?千万访问级别的网站,页面数量最少百万级别吧,子频道和专题最少近百个吧,平均一个频道10万访问群体,最后就按80个算吧。平均每个子频道首页全部广告一天按5万计算,那可是比报纸便宜多了,而且是全国性的站啊;这下来一天共计也得400万。加上首页和其他所有页面,整个网站一天的广告价值应该超过550万,全年360天总收入为19.8亿。因为并不是每天的业务都是这样,有广告热季超出的,广告低谷达不到的可能要多些,这样除去高低对冲,再降低些,还是二八原理,取理论值的80%可能更接近实际——二号结论是,日均千万级别访问量大站一年的总营收应该超过15.8亿。按网络广告行业普遍利润率40%计,年度利润约在6亿。虽然我是以今天的数据来分析的,不过,不知道是不是真的很巧,sina2005年的年度营收就是15.8亿。

那么,几百万的页面,100个子频道,需要多少人力呢。每个子频道平均大约可以配置16人,采编外勤8人、高级编辑5人、美工2人、系统支持1人。这样下来内容总计约1600人,平均薪资和费用按每月4000计算;内容团队的年度费用超过7680万。

从技术上来看,4000人并发,2G带宽,肯定得有自己的数据中心机房了,而且得挂到全国骨干网络节点上去。为了整体系统的可靠运行,起码在异地做个整体机房的备份。也就是同时运行两个机房,不过另外一个机房带宽可以不必太大。由于中国特色的网通、电信互联不互通原因,达到访问带宽2G,就可能需要3G带宽——2G电信、1G网通。为了保证用户的访问体验,那首先就是速度了,其次是稳定性,再次可能就是安全了。当带宽足够的时候,速度瓶颈就在于服务器处理数据的能力了;对于资讯站而言,缓存是个很好的解决方案。既然有如此大规模,当然不在乎小成本了;那么,40万一台的千兆硬件缓存服务器和负载均衡设备就可以考虑了,稳定而且容易维护,花钱也是值得了。3个G带宽,也就是3台了,加上维护,按三年折旧率考虑,年均费用50万吧。3G的专线光纤,大约500万一年吧,备份机房按双百兆算大约一年150万吧。百万级的网页,积累上两年,算1000万个页面吧,内容丰富度一般,加上各类广告图片,平均按300KB/页面计算,纯页面数据的存储空间就超过3个TB,每个用户每天平均产生1KB数据,发个表情,评论几句,千万用户一年将产出3.6TB数据,加上系统和未来容量考虑总计起码10TB了。3G带宽的满负载的访问速率,转换成存储接口速率,约380MB/s,目前的PC Server根本挡不住,也无法很好的共享数据啊,必须得用盘阵了。而且为了提高不同数据类型用户的访问命中率,增加稳定性,主要是合理分割文字、图片、邮件、用户数据、少部分音视频,可能得分成三个盘阵;加上备份盘阵,共计放6个盘阵,系统总容量放30个TB吧。这样下来,包括光纤通道卡、光纤交换机、光纤硬盘和管理软件等等,整个盘阵系统大概得200来万,加上维护按三年折旧计算,年度费用约80万了。这么大规模的访问量,服务器多半是采用集群和负载均衡了。那么,按照比较宽松的服务和高性价比原则,配置2U的3.0G双CPU和4G内存的一台高档PC Server能同时接纳100个用户;按3秒的访问持续时间计算,一台服务器一小时能服务约12万网络用户,为了整体系统峰值冗余,算10万用户吧。这下可以计算一下需要多少台服务器了,按目前的配置,大概需要100台高端PC Server,加上数据库、应用、管理等不同类型的计算模式和区域分割,增加25%的数量计算吧,共计125台。另外,可以参照我的另外一篇博文《电脑解惑——兼评软件产业》;如果按5年前的配置,机器性能比现在低的多,平均按低10倍计吧,那5年前的机器数量可能超过1300台。这么大的商站,鉴于品质和价格的折中,多半是选用国产优质品牌的PC Server了,批量采购,一台估计2万左右吧,125台共计250万,按三年折旧计,年度费用约90万。其他一些核心交换机、核心路由器、千兆防火墙,很可能采用华为的设备了,加上DDOS防护设备、标准电信机柜、不间断电源、机房空调、机房布线、监控等等,均采用在线双备份,下来总计可能得900万,按三年折旧计,年度费用约300万。另外,商业电费按2元1度计吧,把所有机房设备均折算成共约150台服务器核算吧;每台设备5小时一度电,年度总电费约50万,好家伙,不算不知道,一算吓一条啊!要是换成5年前的1300台,年度电费就是400多万呢。难怪Google要把数据中心建设到电费比较便宜的北卡罗来纳州去呢,它可是有45万台设备呢。

最后看看运行的软件配备情况。如果按微软公司的软件系统上,一套开发平台得5万,起码得买个20套吧,共计100万;10用户的windows Server版1万,10用户单CPU MS SQL Server数据库约2万,最近好像出来个限制版本是免费的,但没法子用在这么大的站上啊;如果是不限定用户数量、不限定CPU数量的数据中心版呢?即使批量采购,windows一套最少超过10万吧,MS  SQL Server也起码超过15万了吧。125台得花多少钱,超过3000万,还没算杀毒软件和应用系统软件呢,加上这些估计超过4000万了。要是5年前的1300台,天哪,得花3个亿以上。由此看来,由于硬件性能的提升,导致Windows平台的部署成本在急剧降低了。我说怎么Windows服务器的市场份额好像增长还挺快啊。不过,既然人力成本是算过的;那么,有了近似于免费的Linux和FreeBSD开源体系了,干吗还花冤枉钱呢?别跟我提D版windows平台,这么大站点,法律风险太大啦。Linux/FreeBSD+Ext3/UFS2+Apache+PHP/Python+MySQL/PostGreSQL+OpenSSL已经很成熟了啊!用它们管理几十个TB的数据能轻松胜任。何况,人家开源的系统好像更安全、更稳定、更便于定制啊!这也是sina、yahoo用FreeBSD,Google、baidu用Linux的最大原因了吧……

这样算下来,采用开源软件体系的机房加备份机房的运行费用,不计人力和意外,每年总计超过1200万。

而整个技术团队的配备,根据这个系统的规模和特点粗劣估计,起码编制在180人左右,分别是软件研发25人、系统维护25人、数据库20人、需求和架构25人、界面20人、测试50人、技术管理15人。既然是全国性的大型商站,所需要的人才也多半是顶尖级别的;那么,技术团队的平均薪资和花费定位在每月10000左右吧。这样下来,技术团队的年度费用是2160万左右。

当然了,商业网站的四个支撑点——技术、内容、营销、运营,那是缺一不可的。但后二者具有更强的关联性,权且放到一起统计了。

营销团队的建设对整个盈利而言是个关键,这直接关系到现金能否汇流啊。而营销人员往往是低工资高提成激励性质。整个营销团队的普遍提成应该在薪资的4倍以上,而能拿到提成的人员数量应该放在40%左右的比例,那会更容易激励整体团队,多了和少了反而降低整体士气,消磨营销人员的积极性。

作为一个全国性大型商业网站而言,营销团队可以根据广告市场来划分大区管理。而70%的广告市场都在东部,因此又可以将东部区域作为市场重点。另外,也可以参考按城市人口数量和城市规模划分重点市场管辖城市,建立渠道合作体系以及代理商体系。那么,13个特大百万人口城市可以每个城市放6个人;80个50万人口大型城市可以每个城市放3人;30个省区每个省区放4人;加上主管,共计约450人。营销团队的平均薪资和花费定位在每月2500左右吧,但其中40%的人提成应该是薪资的4倍。这样下来,整个营销团队的年度薪资总额为1350万,提成总额约2160万,整个年度人力费用约3510万。而对于整个营销部门的推广、宣传、市场调查等营销成本的支出,按经验预计,起码占人力成本的40%左右吧,这样下来,年度营销成本最少在1400万了。

最后时刻,可以看看整体的运营成本了。当然了,先得看看运营管理人员的数量配备。按一般规范公司的经验配置,运营管理人员应该大致在12%左右。我们就按前面的人员数量倒推了。那么,运管人员就应该在300人左右了。而运管人员的平均薪资和费用应该低于技术,而略高于其职务人员,定位在每月5000元吧。这样下来,运管人员的年度人力费用约为1800万。当然了,有些重点骨干是拿百万年薪的,这样的人参照总人员数量的1.6%吧,计约40人,年度总计4000万。

而行政运行费用,可以按标准人员消耗来估算,总人员数量约2500人。每个人无非是用电脑、电话、网络、打印、差旅、福利、场所等等费用。品牌机的年度使用成本,加上软件和办公网络大致为1500元;电话月度人均费用可以放到100元、网络费用可以总计为百兆独享的专线年度为100万、打印可以计为人均每月100页算上打印折旧和消耗每页0.25元、差旅福利可以计人均年度1500元、年度人均水电和场所消耗约2500元、其他设施2000元。这样下来,整体的行政运行费用,大致为2350万。

另外呢,主要就是税费了。广告行业的税率,营业税本土按7%来计算,企业所得按新税法报25%吧;那么,15.8的收入缴纳营业税1.1亿,6亿的利润,缴纳企业所得税1.5亿,另外加上些行政性收费约3亿吧。

我们现在来看看年度成本汇算吧,取整计算。内容人员1600人,人力开支7700万;技术人员180人,人力开支2200万,系统设施开支1200万;营销人员450人,人力开支3500万,营销开支1400万;运管300人,人力开支5800万;企业行政开支2400万;企业纳税和行政缴费3亿;所有年度费用总计约5.5亿。

结论三出来了,一个日均访问超过千万级别的大型商业网站,人员数量应该数以千计,年度营收应该超过10亿,利润应该超过4亿。

按我的分析和估测,年度总营收超过15.8亿,总成本5.5亿,应该有10亿的利润,利润率应该在60%了。可是行业通行的利润率却大部分显示为40%以内。即便我少算了些开支,也许技术团队人员太少了,营销开支太少了,加上税率33%到新税率25%的变化等等;不过也不至于差距这么大啊。看来,里面好像也是有文章了,我说好像除了听阿里巴巴纳税比较多以外,怎么就没听到其他大型商业站缴纳多少税款呢?不好说,说不好了啊!中国特色吗!当然了,也不排除人家全用IBM高端设备、备用机房都建了四个,一半的人员拿年薪呢。毕竟我是在保证基础品质的情况下,按比较节约的情况去做统计分析的。真实情况到底如何,只有大家自己思索了……

大型商业网站的基础架构解析相关推荐

  1. 全球大型电商测试基础架构设计概览

    作者 | 茹炳晟 编辑 | Eva 本文为 eBay中国研发中心测试基础架构技术主管 茹炳晟关于"eBay高效能测试基础架构的前世今生"主题分享的部分节选,想了解全部内容,请在公众 ...

  2. HTML网站建设基础知识解析!

    随着岗位竞争的越来越激烈,而设计师掌握的技能要求也越多,设计师不光只会设计,而且也要懂(会)代码(会手写代码更会加金的),所以我们要做一位懂代码设计师,还好Jason在大学学过代码,毕业也做过一段时间 ...

  3. 04-若依基础架构解析

    一.整体架构说明 若依整体技术架构 技术方面基本是主流技术. 二.后端架构 后端代码目录 几个模块的依赖关系如下: 四.小结 再次感叹,若依的文档真的是非常详细.对新手真的很友好.通过官方文档,可以快 ...

  4. 大型高并发高负载网站的系统架构

    转载请保留出处:俊麟 Michael's blog (http://www.toplee.com/blog/?p=71) Trackback Url : http://www.toplee.com/b ...

  5. 说说大型高并发高负载网站的系统架构 1

    转载请保留出处:俊麟 Michael's blog (http://www.toplee.com/blog/?p=71) Trackback Url : http://www.toplee.com/b ...

  6. [转载]说说大型高并发高负载网站的系统架构

    转载请保留出处:俊麟 Michael's blog (http://www.toplee.com/blog/?p=71) Trackback Url : http://www.toplee.com/b ...

  7. 高并发高负载网站的系统架构

    一个小型的网站,比如个人网站,可以使用最简单的html静态页面就实现了,配合一些图片达到美化效果,所有的页面均存放在一个目录下,这样的网站对系统架构.性能的要求都很简单,随着互联网业务的不断丰富,网站 ...

  8. 说说大型网站可伸缩性架构的设计原理

    可伸缩性架构指的是:不改变网站的软硬件设计,只通过改变部署的服务器数量就可以扩大或缩小网站的服务处理能力. 大型网站中的 "大型",可以表现在以下几个方面: * 用户方面 - 大量 ...

  9. 大型网站技术架构(六)——网站的伸缩性架构

    大型网站技术架构(六)--网站的伸缩性架构 网站系统的伸缩性架构最重要的技术手段就是使用服务器集群功能,通过不断地向集群中添加服务器来增强整个集群的处理能力."伸"即网站的规模和服 ...

最新文章

  1. 我的Linux随笔目录
  2. javascript中parentNode,childNodes,children的应用详解
  3. 织梦(dedecms)当前位置{dede:field name='position' /}修改
  4. centos 安装软件
  5. 我的QQ群,欢迎入坑!
  6. java 上下文缓存_记一次JAVA 线上故障排查完整套路。
  7. 摩托罗拉ME525/defy 中兴U880 解决QQ游戏大厅“网络连接错误,请稍候再试”问题...
  8. One-hot 编码/TF-IDF 值来提取特征,LAD/梯度下降法(Gradient Descent),Sigmoid
  9. 微软私有云资源链接总结分享
  10. jason表情包在线生成源码
  11. 只做正确的事情,并持续输出价值
  12. NOIP模拟赛 czy的后宫4
  13. c语言中布尔类型字节数,【C语言】中的布尔类型
  14. 1万小时后,我从外包走进了字节跳动,现在出了一本书,文末送书!
  15. R语言(6)-数据结构之矩阵(matrices)与数组(array)
  16. 求职必看:后端工程师就业公司选择解析
  17. labview信号频域分析算法
  18. ibm是被联想收购了吗_联想收购IBM之后为什么出现品牌危机
  19. iphone 信号对应设备_如果iPhone收到不良信号该怎么办
  20. Android中级控件介绍(五)

热门文章

  1. 红米3 SudaMod(android_6.01_r72)高配指纹/农历/归属地/SM天气/流畅运行/红外线正常/更新于20161025...
  2. 神经网络的偏差和方差,神经网络均方误差公式
  3. 874.walking-robot-simulation
  4. 宝塔面板——超牛逼的服务器管理软件+百度云端口组放行
  5. mysql go什么意思,mysql中go关键字的作用
  6. 电化学传感器--原电池理解
  7. 美容院如何进行收银管理工作?
  8. Alert 日志报错:ORA-2730x OS Failure Message: No Buffer Space Available
  9. 灰度测试+A/B测试
  10. wps linux 程序转pdf文件,在Deepin Linux系统下将图片转成PDF格式非常的简单