维基百科(WikiPedia.org)位列世界十大网站,目前排名第八位。这是开放的力量。

来点直接的数据:

  • 峰值每秒钟3万个 HTTP 请求
  • 每秒钟 3Gbit 流量, 近乎375MB
  • 350 台 PC 服务器(数据来源)

架构示意图如下:
Copy @Mark Bergsma

GeoDNS

在我写的这些网站架构的 Blog 中,GeoDNS 第一次出现,这东西是啥? "A 40-line patch for BIND to add geographical filters support to the existent views in BIND", 把用户带到最近的服务器。GeoDNS 在 WikiPedia 架构中担当重任当然是由 WikiPedia 的内容性质决定的--面向各个国家,各个地域。

负载均衡:LVS

WikiPedia 用 LVS 做负载均衡, 是章文嵩博士发起的项目,也算中国人为数不多的在开源领域的骄傲啦。LVS 维护的一个老问题就是监控了,维基百科的技术人员用的是 pybal.

图片服务器:Lighttpd

Lighttpd 现在成了准标准图片服务器配置了。不多说。

Wiki 软件: MediaWiki

对 MediaWiki 的应用层优化细化得快到极致了。用开销相对比较小的方法定位代码热点,参见 实时性能报告,瓶颈在哪里,看这样的 图树展示一目了然。另外一个十分值得重视的经验是,尽可能抛弃复杂的算法、代价昂贵的查询,以及可能带来过度开销的 MediaWiki 特性。

Cache! Cache! Cache!

维基百科网站成功的第一关键要素就是 Cache 了。CDN(其实也算是 Cache) 做内容分发到不同的大洲、Squid 作为反向代理. 数据库 Cache 用 Memcached,30 台,每台 2G 。对所有可能的数据尽可能的Cache,但他们也提醒了 Cache 的开销并非永远都是最小的,尽可能使用,但不能过度使用。

数据库: MySQL

MediaWiki 用的DB 是 MySQL. MySQL 在 Web 2.0 技术上的常见的一些扩展方案他们也在使用。 复制、读写分离......应用在 DB 上的负载均衡通过 LoadBalancer.php 来做到的,可以给我们一个很好的参考。

运营这样的站点,WikiPedia 每年的开支是 200 万美元,技术人员只有 6 个,惊人的高效。

wikipedia 维基百科架构相关推荐

  1. [转载] wikipedia 维基百科 语料 获取 与 提取 处理 by python3.5

    参考链接: 使用Python从Wikipedia的信息框中获取文本 英文维基百科 https://dumps.wikimedia.org/enwiki/ 中文维基百科 https://dumps.wi ...

  2. 科普:维基百科与其创始人

    维基百科 维基百科(Wikipedia),是一个基于维基技术的多语言百科全书协作计划,用多种语言编写的网络百科全书.(百度百科) Wikipedia is a free online encyclop ...

  3. NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量

    NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1.Wikipedia Text语料来源 2.维基 ...

  4. 如果是你你会如何重新设计和定义维基百科(wikipedia)?

    日期:2012-8-11  来源:GBin1.com 最近一家设计公司发布了一个关于如何重新定义和设计维基百科的网站,在这里网站里详细的刨析了如何重新设计维基百科的话,如何做品牌设计和网站设计,整个设 ...

  5. 维基百科(wikipedia)数据下载(含地理数据)

    维基百科的资料非常不错,所以准备下载一些下来,本来以为都要自己抓取,但结果维基百科自己开放了所有的数据给你下载,具体可以参见这个页面: 维基百科的开放的态度是出乎我的意料的: 维基百科提供所有完整内容 ...

  6. 如何建立维基百科页面(Wikipedia)

    大多数情况下,在 Google 上搜索 公司名或品牌名,看到的第一个结果不是他们的网站.Twitter账号.相反,是他们的维基百科页面. 对于提高声誉的品牌而言,有一个属于自己品牌的wiki页面非常重 ...

  7. 国内用户访问维基百科(Wikipedia)的几种方法

    世界上最受欢迎的网站之一.知识宝库"维基百科"(Wikipedia.org)在中国大陆是被封锁的,必须借助代理服务器才能打开. 好在维基百科采用GNU公共许可证,任何人都可以自由使 ...

  8. 利用Gensim训练关于英文维基百科的Word2Vec模型(Training Word2Vec Model on English Wikipedia by Gensim)

    Training Word2Vec Model on English Wikipedia by Gensim 更新:发现另一篇译文:中英文维基百科语料上的Word2Vec实验,该译文还提供了中文维基百 ...

  9. 离线维基百科wikipedia——可以随身携带的百科全书

    前言 每次使用维基百科需要科学上网或者使用镜像站,科学上网比较麻烦,镜像站常常会失效,且前述方法都需要需要网络,总之,使用起来不是特别方便.最近发现维基官方提供离线阅读的方法,而且现在手机和电脑的存储 ...

最新文章

  1. 数据结构(C语言实现)勘误
  2. 【计算机基础】 Virtual memory 虚拟内存
  3. 在ubuntu上启动一个vue项目
  4. 手机配置都赶上笔记本了
  5. 宽带路由器-mac地址克隆
  6. linux网络配置putty,PuTTY配置详解
  7. JS中判断某个字符串/数组中是否包含某个值
  8. OpenGG.Clean.Player{喜歡看視頻用戶強推}
  9. 免费APP内测分发托管平台,支持应用合并、内测分发、扫码下载,下载量安装量统计,版本记录和应用在线封装打包app
  10. 实例检索︱图像的实例搜索(文献、方法描述、商业案例)
  11. JAVA导入/导出EXCEL文件,自定义校验,错误回写excel,使用简单快捷
  12. 若依框架,集成flowable工作流
  13. 十种进程注入技术介绍:常见注入技术及趋势调查
  14. 展锐平台PIN码输错三次后提醒PUK输入
  15. Python仅四步写出完整漂亮的五子棋
  16. Flink流批一体从入门到入土(源码)
  17. MS SQL 的入门学习
  18. 合并两个*.rbt文件
  19. 关于服务器拿到远端地址一直是127.0.0.1的问题
  20. HD与BD次时代之战!

热门文章

  1. 学习 Go 语言 1 — 基础语法
  2. 免费下载word简历模板的网站
  3. 2019CSP广州两日游
  4. 单元话题写作-Unit 1 英语学习
  5. 解决Hexo博客引用网络图片无法显示的问题
  6. 三一重机“一天内解决”服务标准背后,百度智能云守护“中国速度”
  7. 基于javaweb的药品进货销售管理系统(java+ssm+html+js+jsp+mysql)
  8. abb机器人指令手册_ABB机器人图形化编程wizard
  9. 如何实现消息功能_微信群管理软件如何加强消息管理?精细化管理怎么实现?...
  10. JavaScript教程——从入门到精通-石川-专题视频课程