转自: http://blog.sciencenet.cn/blog-453771-428323.html

Wikipedia(http://en.wikipedia.org/wiki/Main_Page)也就是维基百科是当前最有名的百科类网站,分门别类的以词条的方式详细介绍某个概念的历史、定义、发展和背景,大略来讲可以把它理解成为一本大词典。对于科研工作者而言,很多时候突然看到一个新的term,但是不明其意,或者理解它的含义,但不知道它属于哪个研究研究领域,和其他概念间有什么联系,这时wikipedia可以给你最好的介绍,并帮你在较短的时间内搭建起有关某个新领域学科的知识框架。当然有教材时,读书会学得更快,但很多新的研究方向早期都没有教材,更何况wikipedia包含的领域条目是如此之多之广。由于wikipedia多是由专家讨论编写,较普通搜索的介绍更具有权威性和可信性。最令人赞叹的是,wikipedia是免费的,向世界所有人无偿提供人类共同的知识宝库。

为什么要下载wikipedia?在线看不是挺好的么,而且下载的,没有图片(图片下载需要若干T),读起来乏味不少。可能下载有这些原因:对于知识的热爱、数据备份狂热症、对“局域网”无法访问wikipedia的担心(若干年前wikipedia就无法访问)、远离网络珍爱生命(上网总瞎转,浪费时间)但又舍不得网络的宝贵资源(如wikipedia)。好,言归正传,下面是使用方法:

1. 依据http://en.wikipedia.org/wiki/Wikipedia:Database_download找到最新版wikipedia的下载地址,
页面上说最新的完整版是2010年5月30日完成的一版,后面有更新的,据说未必完整(可似乎这个页面说明是很久以前的)。我们通过一个目录列表http://dumps.wikimedia.org/enwiki/看到所有英文的wiki数据库备份,以日期作为版本标识。本文选择http://dumps.wikimedia.org/enwiki/20101011/里面的,因为只需要下载一个文件且较新,比这个新的版本都需下多个文件。

2. 我们仅需要下载包含Articles, templates, image descriptions, and primary meta-pages的一个链接pages-articles.xml.bz2(实际下载文件enwiki-20101011-pages-articles.xml.bz2,6.2 GB),其他和wikipedia的更新历史、讨论有关的,我们这里都不需要,下载页面上给出的MD5校验值为7a4805475bba1599933b3acd5150bd4d。

3.同样的,中文的wikipedia的列表为http://dumps.wikimedia.org/zhwiki/,我们下载最新的http://dumps.wikimedia.org/zhwiki/20110322/页面里的链接pages-articles.xml.bz2(实际下载文件zhwiki-20110322-pages-articles.xml.bz2文件,497.8 MB),MD5值7c5f92b3465a3eb1ae9a769d0b39f5cb。

英文wikipedia阅读器:BzReader

4.下载阅读器bzReader(http://code.google.com/p/bzreader/页面左边BzReader.v1.0.13.msi),下载的wikipedia文件说白了就是一个巨型xml文件,bzReader读取该文件并建立其中的条目索引,以后每次查询term,就可以直接看到。需要注意的是,bzReader的运行需要.net framework的支持(http://www.microsoft.com/downloads/zh-cn/details.aspx?FamilyID=0a391abd-25c1-4fc0-919f-b21f31,必须先安装.net framework 4(或低版本),然后再安装bzReader 1.0.13。

5.启动bzReader,选择菜单中的File-->Open,选中enwiki-20101011-pages-articles.xml.bz2,然后bzReader就开始建立索引,这个过程非常漫长,可能长达几个小时,所以这件事最好晚上让计算机自己忙活。

6.查询时,先启动bzReader,然后选择菜单中的File-->Open,选中enwiki-20101011-pages-articles.xml.bz2,这时就没有建立过程,可以直接使用了,在Search左边的框中输入词条,按回车键可以看到左边下边有个词条列表,单击选择个条目就可以阅览了。bzReader可以显示数学公式,但似乎表格无法正常显示,不知道谁有解决方法。另外,遗憾的是,对于中文等亚洲字体,bzReader似乎无法正常处理生成索引,因此中文wikipedia无法使用bzReader对付。

中文wikipedia阅读器:WikiTaxi

7.下载WikiTaxi(http://www.wikitaxi.org/delphi/doku.php/products/wikitaxi/index),绿色软件,解压之后即可使用。

8.同bzReader的原理不一样,这个不是建立索引,而是重新编排生成一个新的.taxi文件,该文件可以脱离原始的.bz2文件使用。打开软件中的WikiTaxi_Importer.exe 引入刚下载好的中文维基zhwiki-20110322-pages-articles.xml.bz2,把它转化为.taxi文件,导出的文件名自己起。 转换很快,对于500多M的源文件,大概10分钟就搞顶了,然后出现了一个900多M的.taxi文件。

9.启动WikiTaxi.exe,选择Options-->Open *.taxi database,选中刚生成的taxi文件就可以了。在上方Go左边输入需要查询的term,回车看看怎么样:)。

两者的比较

wikiTaxi的页面显示要比bzReader好很多,看起来更像源页面,但是其最大的致命点在于不支持数学公式显示,只能显示出一堆latex数学公式符号,而且由于不是生成索引文件,.taxi要比源文件还要大,对于英文的6.2G文件,俺就没有实验了,如果能解决数学公式问题,那以后就可以直接使用wikiTaxi了,毕竟显示好,并且绿色软件可以直接放到U盘里拿着到处走。

附记:
1. 在线wikipedia使用法之一:google: wiki term 或 wiki 词条
2.博士生应该学会使用英文的wikipedia,前些时日好像募捐1M$,创始人反复征求,过了一阵就搞定了,可见很多人对wikipedia的信赖。
3. 哪为大哥提供个好用的MD5检验工具,我下的没校检,但也成功建立索引了。

愿更多的人越来越用好wikipedia!

http://zh.wikipedia.org/wiki/Wikipedia:%E6%95%B0%E6%8D%AE%E5%BA%93%E4%B8%8B%E8%BD%BD

http://www.ituring.com.cn/article/1188 这个说的也不错!

下载维基百科wikipedia!相关推荐

  1. 维基百科(wikipedia)数据下载(含地理数据)

    维基百科的资料非常不错,所以准备下载一些下来,本来以为都要自己抓取,但结果维基百科自己开放了所有的数据给你下载,具体可以参见这个页面: 维基百科的开放的态度是出乎我的意料的: 维基百科提供所有完整内容 ...

  2. 离线维基百科wikipedia——可以随身携带的百科全书

    前言 每次使用维基百科需要科学上网或者使用镜像站,科学上网比较麻烦,镜像站常常会失效,且前述方法都需要需要网络,总之,使用起来不是特别方便.最近发现维基官方提供离线阅读的方法,而且现在手机和电脑的存储 ...

  3. 如何下载维基百科2010和2011数据集

    http://www.imageclef.org/wikidata 账号wikidata 密码wiki20102011data!

  4. 【转】下载安装离线版维基百科

    下载安装离线版维基百科 不需要一定要挂在网路上 <嗯 , 硬碟空间要够大 , 如果妳想要下载英文版的 维基百科 , 如果是中文版的也不小 维基百科 > 合不合法? 当然合法 , 在合理的使 ...

  5. 国内用户访问维基百科(Wikipedia)的几种方法

    世界上最受欢迎的网站之一.知识宝库"维基百科"(Wikipedia.org)在中国大陆是被封锁的,必须借助代理服务器才能打开. 好在维基百科采用GNU公共许可证,任何人都可以自由使 ...

  6. wikipedia 维基百科架构

    维基百科(WikiPedia.org)位列世界十大网站,目前排名第八位.这是开放的力量. 来点直接的数据: 峰值每秒钟3万个 HTTP 请求 每秒钟 3Gbit 流量, 近乎375MB 350 台 P ...

  7. Windows下维基百科中文语料库词向量训练

    Windows下维基百科中文语料库词向量训练 Garbage in,garbage out. ​ 自然语言处理中,词向量的处理尤为重要.而生成词向量的好坏往往取决于语料库的训练,所以,语料库的选择十分 ...

  8. 维基百科简体中文语料训练word2vec词向量

    步骤: 1.下载维基百科中文语料 2.使用工具从压缩包中抽取正文文本 3.将繁体字转简体字 4.分词 5.训练模型 6.测试模型 1.下载维基百科中文语料 语料下载地址:https://dumps.w ...

  9. WikiTaxinbsp;离线中英文维基百科数据…

    维基百科 (Wikipedia) 对很多人来说绝对是一个知识的宝库!维基百科拥有海量权威的资料供我们查询,也许我们每个人都梦想着把维基百科下载下来实现离线查询.甚至装在U盘里,以方便随时随地查询.对于 ...

  10. 使用中文维基百科进行Word2Vec实验

    1. 环境及语料 1.1 环境 Homebrew Python jieba分词库 gensim库 1.2 下载维基百科语料 从这个链接下载http://download.wikipedia.com/z ...

最新文章

  1. python内置函数open_python_内置函数和open
  2. 这个开源项目...看了就停不下来啊!
  3. WCF中Service Configuration Editor的使用方法(转)
  4. 用位运算实现加减乘除
  5. 列表刷新+SBJSON+HTTP
  6. sigprocmask()函数实例详解,设置信号规定时间堵塞,取消信号堵塞
  7. 【opencv学习】完全基于opencv的双目景深与测距的实现
  8. 前端和后端的英文_前端工程师一般都喜欢去哪些网站逛?
  9. CentOS6.x 下 LNMP环境搭建(二、安装 Nginx)
  10. 在Eclipse下出现dobbo索引错误,解决方案
  11. 为了有利于保护安全性,IE已限制此网页运行可以访问计算机的脚本或 ActiveX 控件。请单击这里获取选项......
  12. dll封装成activex控件_Qt编写自定义控件26-平铺背景控件
  13. 什么是业务模式、商业模式、经营模式、盈利模式和发展模式?
  14. kali2020.4中文安装后,fcitx配置框中空白,无法添加输入法,请做如下操作尝试修复
  15. 如何使用PS进行P图
  16. Java 之父:找Bug最浪费时间,现在不是开源的黄金时代!
  17. MySQL中like查询是否会使用索引
  18. MG动画图形变化AE脚本shapemonkey mac版
  19. 机器学习与计算机视觉大牛族谱
  20. 深度强化学习落地方法论(6)——回报函数篇

热门文章

  1. 各纬度气候分布图_高中地理丨各种气候类型分布图+气候问题全总结,再也不怕搞混了!...
  2. 计件工资系统c语言,计件工资管理系统
  3. java画图曲线_绘图(直线和曲线)
  4. 火狐浏览器设置cookie失败_如何启用火狐浏览器的Cookie功能 这些经验不可多得...
  5. 合作动态 | 方正璞华与日立签订战略合作协议,加快推进数字化管理变革!
  6. 乔布斯:这九本书每个人都该读一读
  7. 实用好看的个人主页官方源码
  8. win10提高开机速度的设置教程 电脑五秒开机优化步骤
  9. 3D编辑器-Web在线编辑基于WebGL/Threejs技术
  10. 日文输入键盘罗马字对应表