百度百科全站 目前有16,330,473个词条

这里介绍一个基于scrapy的分布式百度百科爬虫,能够全量爬取百度百科的词条

github地址

特性

  • 百科类网站全站词条抓取,包括百度百科、互动百科、wiki中英文站点;
  • 支持断点续爬;
  • 支持缓存百科词条页面;
  • 可分布式部署;
  • 经过单机测试,在i9-9900K 内存64G 100M网络带宽下,百度百科词条一天可以抓取大概50w条(默认系统配置下);互动百科测试结果
    类似,wiki网站抓取数据量较少,受到配置的代理延迟影响较大;

如何使用

  • 安装依赖 pip install -r requirement.txt
  • 初始数据库 python initialize_db.py
  • 初始化爬虫种子 python initialize_tasks_seeds.py
  • 开始运行爬虫 python start_spiders.py

分布式使用

  • 单机,多次运行 python start_spiders.py
  • 多机,配置好redis 和mysql 服务器,多次运行python start_spiders.py

常见问题

  • 理论上来说,只要你给的种子够全面,你就可以尽可能的抓取到更多的词条信息
  • 种子链接 提取码:iagw 来源于 百度百科 2012 dump

已知BUG

  • 多进程爬取下,Redis 的内存会溢出(64G),目前改为 1.5T内存尚未遇到BUG,运行三个小时,已使用内存高达38G

欢迎star!

百度百科全站爬取教程相关推荐

  1. 【自然语言处理概述】百度百科数据爬取

    [自然语言处理概述]百度百科数据爬取 作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设专家委员会(TIPC ...

  2. nodejs express搭建服务器(爬虫知乎精华帖,个人学习用)五 对提到的关键字(书名或者电影名)去百度百科上爬取介绍

    var https = require('https'); var iconv = require('iconv-lite'); var cheerio = require('cheerio'); v ...

  3. java 爬 维基百科_爬取维基百科词条

    python爬取维基百科词条,获得某词汇页面中释义段落的加粗词汇.链接词汇以及所爬词汇对应的分类,为自动构建同义词汇树准备数据. 以下代码可能为一次性代码,因为解析html靠的是标签的相对位置,维基百 ...

  4. python爬百度新闻_13、web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息...

    crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息, ...

  5. 爬虫实战之全站爬取拉勾网职位信息

    全站爬取拉勾网职位信息 一.环境 window7 scrapy MySQL 二.简介 scrapy的全站爬取方式crawlspider跟其通用爬取方式spider实现上有一定的区别,两者都有各自的优势 ...

  6. 6.9 用Python操控数据库(批量删除,百度新闻数据爬取与存储,写入数据时进行去重处理,pandas读取sql数据)

    学习完MySQL数据库的基本操作后,下面来学习如何用Python连接数据库,并进行数据的插入.查找.删除等操作. 6.9.1 用PyMySQL库操控数据库 上一节在phpMyAdmin 中创建了数据库 ...

  7. 爬虫系列(四)--全站爬取

    爬虫系列(四)--全站爬取 全站爬取需要的数据基于一个这样的假设:某网站的页面上存在该网站其他页面的连接,通过这些连接跳转的新的页面进行数据的爬取.在开始这个之前,要先明白栈和队列.本篇中介绍的是单线 ...

  8. 利用Python进行百度文库内容爬取(二)——自动点击预览全文并爬取

    本文是衔接上一篇:<利用Python进行百度文库内容爬取(一)>. 上回说到我们在对百度文库进行爬虫时,需要模拟手机端来进行登录,这样固然可以对文章进行爬取,但是很多时候并不是非常智能的翻 ...

  9. python爬虫百度图片_python3爬取百度图片(2018年11月3日有效)

    最终目的:能通过输入关键字进行搜索,爬取相应的图片存储到本地或者数据库 首先打开百度图片的网站,搜索任意一个关键字,比如说:水果,得到如下的界面 分析: 1.百度图片搜索结果的页面源代码不包含需要提取 ...

最新文章

  1. Shiro权限控制笔记要点
  2. 取余运算 C和python的区别
  3. 简单实现x的n次方pta_Hydramotion海默生-PTA(对苯二甲酸)在线粘度计
  4. 非模态对话框的创建于销毁
  5. 使用系统定时器SysTick实现精确延时微秒和毫秒函数
  6. android源码 分享1
  7. 3D数学基础学习笔记(Unity3d)
  8. 彩虹自助下单平台对接爱代挂插件程序
  9. 智慧水务管理系统提升城市水务管理智慧化水平
  10. 数学分析(1):集合相关公式的证明
  11. 微调StyleGAN2模型(使用Google Colab)
  12. linux多核cpu 优化,Ubuntu是否针对多核CPU进行了优化?
  13. 梦幻西游python验证成语_python正则表达式抓取成语网站
  14. 华科计算机专硕英语几,2020华中科技大学计算机专硕考研成功经验谈
  15. 如何用PS做出一张海报
  16. Pytorch基础入门
  17. c语言彩票随机数7位数,随机生成7个不重复的彩票号码 (33选7)
  18. 我的创作纪念日-从写作到阿里云专家博主的故事
  19. 最近影讯api数据库整合分享
  20. movielens数据集搭建电影推荐系统(CB、CF、HOT)

热门文章

  1. yum php5.3源,怎么使用yum安装php5.3
  2. Linux API-共享内存:shmget、shmat、shmdt、shmctl
  3. c#中的SqlHelper类介绍
  4. 将word直接转成chm的软件
  5. 测试前世死因软件,心理测试:进来测一测你前世的死因
  6. SAE J3016路面机动车驾驶自动化系统相关术语的分类和定义(2021中文版-全文)
  7. 【Elasticsearch】黑马旅游网实践
  8. Kivy学习教程(完整版)
  9. Web缓存/代理服务器技术
  10. 2.8 SortedMap接口与TreeMap源码解析