一周搞定scrapy之第一天--爬取起点中文小说网

快速安装scrapy

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy

安装完成之后在cmd里面输入scrapy

如果出现以上的情况，说明已经安装成功了

新建scrapy项目，我们不能直接在pycharm里面新建，我们要在cmd新建

scrapy startproject +名字   ## 前提进入该文件夹

下面的这个代表我的项目文件夹，然后我们再进去

下面这个文件夹代表了scrapy的框架

接着我们找要爬取的网站，按f12

然后我们开始写代码

目录如下

#-*-coding:utf-8-*-
from scrapy import Request
from scrapy.spiders import Spider
class HotSalesSpider(Spider):#定义爬虫名称name = 'hot'#起始的URL列表start_urls = ["https://www.qidian.com/rank/hotsales?style=1"]#解析函数def parse(self, response):#使用xpath定位到小说内容的div元素list_selector = response.xpath("//div[@class='book-mid-info']")#依次读取每部小说的元素，从中获取名称、作者、类型和形式for one_selector in list_selector:#获取小说名称name = one_selector.xpath("h4/a/text()").extract()[0]#获取作者author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]#获取类型type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]#获取形式（连载/完本）form = one_selector.xpath("p[1]/span/text()").extract()[0]#将爬取到的一部小说保存到字典中hot_dict = {"name":name,   #小说名称"author":author,  #作者"type":type,      #类型"form":form}      #形式#使用yield返回字典yield hot_dict

写完之后保存，我们用cmd进入scrapy文件夹

输入以下命令

scrapy crawl hot -o hot.csv

为什么会有hot那，因为我们定义了一个hot的爬虫名字

运行结束会出现下面的结果

然后我们打开scrapy文件夹，里面会多出来一个csv文件，我们用文本编辑器打开

name,author,type,form，就是我们刚刚所写的对应的代码

一周搞定scrapy之第一天--爬取起点中文小说网相关推荐

Python《通过解析http请求搞定动态加载，爬取toutiao图片》
今天我们下载头条的图片内容. 进入头条首页,我们根据关键词搜索. 发现有搜索出很多的条目,而且条目是根据鼠标往下滑动的时候就会动态加载出来,是动态更新的,之前我们曾使用过Selenium进行模拟鼠标滑 ...
Scrapy框架学习笔记 - 爬取腾讯招聘网数据
文章目录一.Scrapy框架概述 (一)网络爬虫 (二)Scrapy框架 (三)安装Scrapy框架 (四)Scrapy核心组件 (五)Scrapy工作流程二. Scrapy案例演示 (一)爬取目 ...
scrapy实现二级页面爬取（以小说为例）
1.scrapy图解 2.创建项目 scrapy startproject 项目名创建后的目录 3.编写字段在items.py中编写需要的字段,这里就写小说的章节和内容 class Xiaoshu ...
远景能源如何搞定美国的第一个客户？亚马逊AWS你一定知道底细吧
提到能源企业,你脑海里最先浮现的影像是什么?笨重的设备.恶劣的现场操作环境--这都是老黄历了.记者在与远景能源IT总监龚迅交流后发现,虽然远景能源是目前国内装机量最大的智能风机设备提供商之一,传统的风 ...
【一周搞定计算机网络】计算机网络第5章（运输层）
[一周搞定计算机网络]文章全系列已经更新完毕,详情请戳: 计算机网络第1章(概述) 计算机网络第2章(物理层) 计算机网络第3章(数据链路层) 计算机网络第4章(网络层) 计算机网络第5章(运输层) ...
爬取中国最好大学网数据（Python的Scrapy框架与Xpath联合运用）
前言大二上学期学校外出实习,做了一个关于爬取中国最好大学网http://www.zuihaodaxue.com/rankings.html的项目用的这个Scrapy框架,多线程还挺好用 ...
Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文
大宗师是著名网络小说作家蛇从革的系列作品"宜昌鬼事"之一,在天涯论坛具有超级高的访问量.这个长篇小说于2015年3月17日开篇,并于2016年12月29日大结局,期间每天有7万多读 ...
Scrapy爬虫框架，爬取小说网的所有小说
Scrapy入门教程请看目录 1.思路清理 2.创建爬虫项目 3. 爬虫架构构思 4.爬虫程序具体分析 5.效果展示 6.待优化的地方 1.思路清理我们的目的是把某个小说网的所有小说给拿下,这就涉 ...
python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取
python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取前言本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...

一周搞定scrapy之第一天--爬取起点中文小说网

一周搞定scrapy之第一天--爬取起点中文小说网相关推荐

最新文章

热门文章