维基百科:数据库下载
维基百科提供所有完整内容的电子文件(称为“数据库转储文件”)给有兴趣的用户。这些数据可以被重复使用,当作镜像站点,或是个人使用,或是数据备份,或是分析。所有维基百科文章都在知识共享 署名-相同方式共享 3.0协议下发布,图片以及其他文件则可能以其他的许可证发布,详情参见Wikipedia:版权信息
目录
[隐藏]
- 1 文章下载
- 2 图片及其他文件
- 3 文件过大的问题
- 4 压缩文文件的解压缩
- 5 处理转储文件
- 6 外部链接
文章下载[编辑]
数据库转储文件,也可特指名为 *-pages-articles.xml.bz2 的文件,大约每周更新一次。此文件包含了当前版本的条目、模板、图片描述及基本的元页面(不包括讨论页和用户页)。这已经可以满足绝大多数需求了,如有特殊需求,请根据压缩文件的描述下载。
- 从维基媒体基金会提供的页面下载:http://download.wikipedia.com/
(※)注意,不同语言的条目内容不一定相同,欢迎您协助翻译不完善的条目或提出翻译请求。
- 中文版的下载处:http://download.wikipedia.com/zhwiki/
- 文言文版的下载处:http://download.wikipedia.com/zh_classicalwiki/
- 粤语版的下载处:http://download.wikipedia.com/zh_yuewiki/
- 吴语版的下载处:http://download.wikipedia.com/wuuwiki/
- 赣语版的下载处:http://download.wikipedia.com/ganwiki/
- 客家话版的下载处:http://download.wikipedia.com/hakwiki/
- 闽南语版的下载处:http://download.wikipedia.com/zh_min_nanwiki/
- 闽东语版的下载处:http://download.wikipedia.com/cdowiki/
- 英文版的下载处:http://download.wikipedia.com/enwiki/
- 更多语言的下载处见于ftpmirror.your.org/pub/wikimedia/dumps/,其中多数语种均以ISO 639-1代码区分。
图片及其他文件[编辑]
图片(以及其他的文件)的许可证不一定是以知识共享 署名-相同方式共享 3.0协议发布,将维基百科上属于合理使用的图片或文件使用在别的用途上可能是违法的。维基百科要求用户在上传图片时必须标明版权信息,这些信息也可以在下载页面取得。
总而言之,你如果要使用这些图片及文件,你必须自行判断,并负起相关责任。
自2007年5月17日之后,维基百科不再开放这些图片及文件的BitTorrent(BT)下载。
文件过大的问题[编辑]
由于维基百科的数据量庞大,在下载时可能会遇到一些问题:
- 下载软件的限制
-
下载软件可能会有单一文件最大2GB或4GB的限制,如果遇到问题,可以试着用:
- Wget 1.10之后的版本或cURL 7.11.1-1之后的版本下载,axel
- 最新版的Lynx
- 最新版的Mozilla Firefox
- 文件系统对单一文件大小的限制
-
对于维基百科的文件大小而言,一般比较容易遇到问题的是FAT:
- FAT16:单一文件大小的限制是2GB。(在Windows ME及Windows NT可以支持到4GB)
- FAT32/VFAT:4GB。
除此之外,建议您使用MD5检查下载的文件是否有损毁。另外下载维基数据库时请尽量不要使用多线程下载工具以减轻维基服务器的负担。
压缩文文件的解压缩[编辑]
电子文件使用了bzip2或gz或7-zip压缩。解压方式如下:
- Microsoft Windows用户可以使用带有GUI的7-Zip解压缩上述两种文件格式。如果需要命令行工具,可以安装cygwin,或者使用google搜索"windows cli bzip2"找解决方案。
- Mac OS X的用户可以通过系统内的bzip2包解压缩。或安装p7-zip。
- GNU/Linux用户可直接在命令行下使用bzip2或gzip命令进行解压缩。或安装p7-zip。
要注意旧版的bzip2包可能没有办法处理超过2GB的文件。
处理转储文件[编辑]
数据库转储文件有xml格式的和sql格式的,sql可直接导入数据库。 xml格式需要解析后导入数据库。部分节点需要原样保留空格,请选择支持保留空格的xml解析器进行处理,以免丢失信息。
外部链接提供了一些已有的解析器实现以及wiki标记语言的格式说明,可以作为自制解析器的参考。 当然,中文帮助也是必不可少的。
关于创建维基镜像的操作,可以参考外部链接,或使用Google搜索了解详细步骤。
如果要取得运行维基百科的软件,请参见Wikipedia:MediaWiki。
您可以取得Mediawiki数据库的schema。数据库的布局请参考外部链接。
转载于:https://www.cnblogs.com/blogsme/p/3440430.html
维基百科:数据库下载相关推荐
- 中文维基百科的语料库下载和繁体转换为简体的操作
中文维基百科的语料库下载和繁体转换为简体的操作 维基百科数据下载源https://dumps.wikimedia.org/backup-index.html] # from gensim.corpor ...
- WikiTaxinbsp;离线中英文维基百科数据…
维基百科 (Wikipedia) 对很多人来说绝对是一个知识的宝库!维基百科拥有海量权威的资料供我们查询,也许我们每个人都梦想着把维基百科下载下来实现离线查询.甚至装在U盘里,以方便随时随地查询.对于 ...
- 维基百科用php,在PHP中解析维基百科标记的最佳方法是什么?
我试图以结构化的方式解析特定的维基百科内容.这是一个示例页面: 我取得了一些成功.我可以检测到这个页面是一个"specie"页面,我也可以将Taxobox(右侧)的信息解析成一个结 ...
- Windows下维基百科中文语料库词向量训练
Windows下维基百科中文语料库词向量训练 Garbage in,garbage out. 自然语言处理中,词向量的处理尤为重要.而生成词向量的好坏往往取决于语料库的训练,所以,语料库的选择十分 ...
- Gensim训练维基百科词向量模型(含代码)
由于平时会用到很多的文本预处理,这里就系统的讲解一下Gensim是如何训练维基百科词向量模型的!! 其中训练好的模型,也就是最终生成的 **.model 文件,可以作为预训练词向量使用. 训练维基百科 ...
- 利用中文维基百科数据进行词语相似度word2vec实验
使用维基百科数据利用word2vec简历词向量, 通过对词向量之间的距离的比对,查找出与给出词语相似度较高的单词进行返回 1.使用维基百科官方给出的文档处理程序处理从维基百科上下载的压缩包文件成原始t ...
- Word2vec训练中文维基百科
1.取得中文维基百科数据,本实验用的数据是zhwiki-20180320-pages-articles-multistream.xml.bz2 也可以前往维基百科数据获取下载最新的数据.(请挑选以pa ...
- 维基百科(wikipedia)数据下载(含地理数据)
维基百科的资料非常不错,所以准备下载一些下来,本来以为都要自己抓取,但结果维基百科自己开放了所有的数据给你下载,具体可以参见这个页面: 维基百科的开放的态度是出乎我的意料的: 维基百科提供所有完整内容 ...
- wiki维基百科各种语料数据下载
wiki维基百科常用语料下载路径 英文语料路径: https://dumps.wikimedia.org/enwiki/ 中文语料路径: https://dumps.wikimedia.org/zhw ...
最新文章
- 【Kotlin】函数类型 ( 函数类型 | 带参数名称的参数列表 | 可空函数类型 | 复杂函数类型 | 带接收者函数类型 | 函数类型别名 | 函数类型实例化 | 函数调用 )
- 【opencv】22.HOG的原理与详细步骤
- Weka学习三(ensemble算法)
- android6.0源码分析之Camera2 HAL分析
- css使两个盒子并列_css如何去掉重叠部分的边框?
- 后端技术:mybatis插件原理详解
- 未来教育计算机二级Excel解析,Excel操作小技巧,助你学好计算机二级office!
- horizon服务主要模块_openstack七大模块概述
- 铁路查询系统c语言,铁路查询系统
- HTML(XHTML)基础知识(三)——【image】
- 揭露一种通过网络实施ATM诈骗的手段!
- jQuery特效:实现抽奖
- html解决ajax调用跨域,JQuery Ajax执行跨域请求数据的解决方案
- passwd命令限制用户密码到期时间
- 计算机文件图标怎么一致大小,电脑图标大小设置的几种方法
- VScode 用socks5代理连接远程服务器
- 14-父子组件通讯,父传子(props)
- windows环境下远程操作Linux的工具-Xshell WinSCP
- 英语3500词(17/20)science主题(2022.3.13)
- Parallels Desktop 18.0.1 53056