Scrapy 爬取贴吧的例子

该爬虫主要用到了scrapy框架. 通过此例子大家可以熟悉下scrapy的流程:

由于该网站是通过js处理的,在spidertieba.py中,通过response.xpath(’//li[@class=" j_thread_list clearfix"]’)解析字段信息, 始终没法抓取到数据.
如何抓取到数据是关键, 就想到了用scrapy + selenium 进行动态加载页面的内容爬取。
在middlewares.py中,使用了 selenium+chromedriver使chrome无界面化. 当然大家可以选择PhantomJS + 火狐都可以, PhantomJS已经停止更新了, 谷歌浏览器支持力度最大,建议用chrome
在DownloaderMiddleware中,主要是通过该函数 def process_request(self, request,
spider):来模拟浏览器发送请求.
至于为什么要放到中间件DownloaderMiddleware中处理，大家可以看下scrapy架构图。
在settings.py中，需要把DOWNLOADER_MIDDLEWARES 和ITEM_PIPELINES打开。

spidertieba.py:用于请求数据并解析数据,然后保存到item中
items.py: 创建要保存的字段信息
middlewares.py: 用selenium+chromedriver模拟谷歌浏览器发送请求.目的就是进行动态加载页面，方便spidertieba.py中通过xpath解析数据
pipelines.py: 创建文件& 保存item数据, 例子中是以json格式保存数据
settings.py:配置信息, 需要把DOWNLOADER_MIDDLEWARES 和ITEM_PIPELINES打开

运行scrapy crawl spidertieba

最终会保存tieba.json文件

大家可以下载源码:

https://download.csdn.net/download/ding283595861/11708840

需要修改一个地方:在middlewares.py中,需要把第一个参数改成你们自己本地的路径:

self.driverwebdriver.Chrome(r’D:\*****\chromedriver_win32\chromedriver.exe’,options=chrome_options)

Scrapy 爬取贴吧的例子相关推荐

python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息
原标题:python爬虫框架scrapy爬取梅花网资讯信息一.介绍本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...
python scrapy爬取HBS 汉堡南美航运公司柜号信息
下面分享个scrapy的例子利用scrapy爬取HBS 船公司柜号信息 1.前期准备查询提单号下的柜号有哪些,主要是在下面的网站上,输入提单号,然后点击查询 https://www.hamburg ...
【爬虫】Scrapy爬取腾讯社招信息
目标任务:爬取腾讯社招信息,需要爬取的内容为:职位名称,职位的详情链接,职位类别,招聘人数,工作地点,发布时间. 一.预备基础 1.Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站 ...
Python scrapy爬取京东，百度百科出现乱码，解决方案
Python scrapy爬取京东百度百科出现乱码解决方案十分想念顺店杂可... 抓取百度百科,出现乱码把页面源码下载下来之后,发现全是乱码,浏览器打开但是浏览器链接打开就没有乱码以下是浏 ...
Scrapy爬取姓名大全，看看那个名字最受父母青睐
点击上方"AI搞事情"关注我们最近在做的项目需要用到名字的数据,可哪儿有这么多名字给我用呢?经一通搜索,不仅找到一个神奇的网站姓名大全,还有人开源了爬虫的代码.让我一番修改,得到 ...
四十三、Scrapy 爬取前程无忧51jobs
@Author:Runsen 之前爬了拉钩,爬了boss ,你认为我会放过51jobs 吗这是不可能的,今日用下scrapy 来爬 51jobs,前程无忧关于新建项目和spider 不说了,今日用 ...
四十一、完成scrapy爬取官方网站新房的数据
@Author:Runsen 文章目录前言分析网页新建项目加请求头搞定item 首页调试详情页调试保存json 前言在前几天,接到一个大学生的作业的爬虫单子,要求采用scrapy爬取链 ...
如何用 Python + Scrapy 爬取视频？
今天将带大家简单了解Scrapy爬虫框架,并用一个真实案例来演示代码的编写和爬取过程. 一.scrapy简介 1. 什么是Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框 ...
scrapy 解析css,Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段...
上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写 ...

Scrapy 爬取贴吧的例子

https://download.csdn.net/download/ding283595861/11708840

Scrapy 爬取贴吧的例子相关推荐

最新文章

热门文章