百度百科全站爬取教程
百度百科全站 目前有16,330,473个词条
这里介绍一个基于scrapy的分布式百度百科爬虫,能够全量爬取百度百科的词条
github地址
特性
- 百科类网站全站词条抓取,包括百度百科、互动百科、wiki中英文站点;
- 支持断点续爬;
- 支持缓存百科词条页面;
- 可分布式部署;
- 经过单机测试,在i9-9900K 内存64G 100M网络带宽下,百度百科词条一天可以抓取大概50w条(默认系统配置下);互动百科测试结果
类似,wiki网站抓取数据量较少,受到配置的代理延迟影响较大;
如何使用
- 安装依赖
pip install -r requirement.txt
- 初始数据库
python initialize_db.py
- 初始化爬虫种子
python initialize_tasks_seeds.py
- 开始运行爬虫
python start_spiders.py
分布式使用
- 单机,多次运行
python start_spiders.py
- 多机,配置好redis 和mysql 服务器,多次运行
python start_spiders.py
常见问题
- 理论上来说,只要你给的种子够全面,你就可以尽可能的抓取到更多的词条信息
- 种子链接 提取码:iagw 来源于 百度百科 2012 dump
已知BUG
- 多进程爬取下,Redis 的内存会溢出(64G),目前改为 1.5T内存尚未遇到BUG,运行三个小时,已使用内存高达38G
欢迎star!
百度百科全站爬取教程相关推荐
- 【自然语言处理概述】百度百科数据爬取
[自然语言处理概述]百度百科数据爬取 作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设专家委员会(TIPC ...
- nodejs express搭建服务器(爬虫知乎精华帖,个人学习用)五 对提到的关键字(书名或者电影名)去百度百科上爬取介绍
var https = require('https'); var iconv = require('iconv-lite'); var cheerio = require('cheerio'); v ...
- java 爬 维基百科_爬取维基百科词条
python爬取维基百科词条,获得某词汇页面中释义段落的加粗词汇.链接词汇以及所爬词汇对应的分类,为自动构建同义词汇树准备数据. 以下代码可能为一次性代码,因为解析html靠的是标签的相对位置,维基百 ...
- python爬百度新闻_13、web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息...
crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息, ...
- 爬虫实战之全站爬取拉勾网职位信息
全站爬取拉勾网职位信息 一.环境 window7 scrapy MySQL 二.简介 scrapy的全站爬取方式crawlspider跟其通用爬取方式spider实现上有一定的区别,两者都有各自的优势 ...
- 6.9 用Python操控数据库(批量删除,百度新闻数据爬取与存储,写入数据时进行去重处理,pandas读取sql数据)
学习完MySQL数据库的基本操作后,下面来学习如何用Python连接数据库,并进行数据的插入.查找.删除等操作. 6.9.1 用PyMySQL库操控数据库 上一节在phpMyAdmin 中创建了数据库 ...
- 爬虫系列(四)--全站爬取
爬虫系列(四)--全站爬取 全站爬取需要的数据基于一个这样的假设:某网站的页面上存在该网站其他页面的连接,通过这些连接跳转的新的页面进行数据的爬取.在开始这个之前,要先明白栈和队列.本篇中介绍的是单线 ...
- 利用Python进行百度文库内容爬取(二)——自动点击预览全文并爬取
本文是衔接上一篇:<利用Python进行百度文库内容爬取(一)>. 上回说到我们在对百度文库进行爬虫时,需要模拟手机端来进行登录,这样固然可以对文章进行爬取,但是很多时候并不是非常智能的翻 ...
- python爬虫百度图片_python3爬取百度图片(2018年11月3日有效)
最终目的:能通过输入关键字进行搜索,爬取相应的图片存储到本地或者数据库 首先打开百度图片的网站,搜索任意一个关键字,比如说:水果,得到如下的界面 分析: 1.百度图片搜索结果的页面源代码不包含需要提取 ...
最新文章
- Shiro权限控制笔记要点
- 取余运算 C和python的区别
- 简单实现x的n次方pta_Hydramotion海默生-PTA(对苯二甲酸)在线粘度计
- 非模态对话框的创建于销毁
- 使用系统定时器SysTick实现精确延时微秒和毫秒函数
- android源码 分享1
- 3D数学基础学习笔记(Unity3d)
- 彩虹自助下单平台对接爱代挂插件程序
- 智慧水务管理系统提升城市水务管理智慧化水平
- 数学分析(1):集合相关公式的证明
- 微调StyleGAN2模型(使用Google Colab)
- linux多核cpu 优化,Ubuntu是否针对多核CPU进行了优化?
- 梦幻西游python验证成语_python正则表达式抓取成语网站
- 华科计算机专硕英语几,2020华中科技大学计算机专硕考研成功经验谈
- 如何用PS做出一张海报
- Pytorch基础入门
- c语言彩票随机数7位数,随机生成7个不重复的彩票号码 (33选7)
- 我的创作纪念日-从写作到阿里云专家博主的故事
- 最近影讯api数据库整合分享
- movielens数据集搭建电影推荐系统(CB、CF、HOT)
热门文章
- yum php5.3源,怎么使用yum安装php5.3
- Linux API-共享内存:shmget、shmat、shmdt、shmctl
- c#中的SqlHelper类介绍
- 将word直接转成chm的软件
- 测试前世死因软件,心理测试:进来测一测你前世的死因
- SAE J3016路面机动车驾驶自动化系统相关术语的分类和定义(2021中文版-全文)
- 【Elasticsearch】黑马旅游网实践
- Kivy学习教程(完整版)
- Web缓存/代理服务器技术
- 2.8 SortedMap接口与TreeMap源码解析