一周搞定scrapy之第一天--爬取起点中文小说网
快速安装scrapy
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy
安装完成之后在cmd里面输入scrapy
如果出现以上的情况,说明已经安装成功了
新建scrapy项目,我们不能直接在pycharm里面新建,我们要在cmd新建
scrapy startproject +名字 ## 前提进入该文件夹
下面的这个代表我的项目文件夹,然后我们再进去
下面这个文件夹代表了scrapy的框架
接着我们找要爬取的网站,按f12
然后我们开始写代码
目录如下
#-*-coding:utf-8-*-
from scrapy import Request
from scrapy.spiders import Spider
class HotSalesSpider(Spider):#定义爬虫名称name = 'hot'#起始的URL列表start_urls = ["https://www.qidian.com/rank/hotsales?style=1"]#解析函数def parse(self, response):#使用xpath定位到小说内容的div元素list_selector = response.xpath("//div[@class='book-mid-info']")#依次读取每部小说的元素,从中获取名称、作者、类型和形式for one_selector in list_selector:#获取小说名称name = one_selector.xpath("h4/a/text()").extract()[0]#获取作者author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]#获取类型type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]#获取形式(连载/完本)form = one_selector.xpath("p[1]/span/text()").extract()[0]#将爬取到的一部小说保存到字典中hot_dict = {"name":name, #小说名称"author":author, #作者"type":type, #类型"form":form} #形式#使用yield返回字典yield hot_dict
写完之后保存,我们用cmd进入scrapy文件夹
输入以下命令
scrapy crawl hot -o hot.csv
为什么会有hot那,因为我们定义了一个hot的爬虫名字
运行结束会出现下面的结果
然后我们打开scrapy文件夹,里面会多出来一个csv文件,我们用文本编辑器打开
name,author,type,form,就是我们刚刚所写的对应的代码
一周搞定scrapy之第一天--爬取起点中文小说网相关推荐
- Python《通过解析http请求搞定动态加载,爬取toutiao图片》
今天我们下载头条的图片内容. 进入头条首页,我们根据关键词搜索. 发现有搜索出很多的条目,而且条目是根据鼠标往下滑动的时候就会动态加载出来,是动态更新的,之前我们曾使用过Selenium进行模拟鼠标滑 ...
- Scrapy框架学习笔记 - 爬取腾讯招聘网数据
文章目录 一.Scrapy框架概述 (一)网络爬虫 (二)Scrapy框架 (三)安装Scrapy框架 (四)Scrapy核心组件 (五)Scrapy工作流程 二. Scrapy案例演示 (一)爬取目 ...
- scrapy实现二级页面爬取(以小说为例)
1.scrapy图解 2.创建项目 scrapy startproject 项目名 创建后的目录 3.编写字段 在items.py中编写需要的字段,这里就写小说的章节和内容 class Xiaoshu ...
- 远景能源如何搞定美国的第一个客户?亚马逊AWS你一定知道底细吧
提到能源企业,你脑海里最先浮现的影像是什么?笨重的设备.恶劣的现场操作环境--这都是老黄历了.记者在与远景能源IT总监龚迅交流后发现,虽然远景能源是目前国内装机量最大的智能风机设备提供商之一,传统的风 ...
- 【一周搞定计算机网络】计算机网络第5章(运输层)
[一周搞定计算机网络]文章全系列已经更新完毕,详情请戳: 计算机网络第1章(概述) 计算机网络第2章(物理层) 计算机网络第3章(数据链路层) 计算机网络第4章(网络层) 计算机网络第5章(运输层) ...
- 爬取中国最好大学网数据(Python的Scrapy框架与Xpath联合运用)
前言 大二上学期学校外出实习,做了一个关于爬取中国最好大学网http://www.zuihaodaxue.com/rankings.html的项目用的这个Scrapy框架,多线程还挺好用 ...
- Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文
大宗师是著名网络小说作家蛇从革的系列作品"宜昌鬼事"之一,在天涯论坛具有超级高的访问量.这个长篇小说于2015年3月17日开篇,并于2016年12月29日大结局,期间每天有7万多读 ...
- Scrapy爬虫框架,爬取小说网的所有小说
Scrapy入门教程请看 目录 1.思路清理 2.创建爬虫项目 3. 爬虫架构构思 4.爬虫程序具体分析 5.效果展示 6.待优化的地方 1.思路清理 我们的目的是把某个小说网的所有小说给拿下,这就涉 ...
- python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取
python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取 前言 本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...
最新文章
- Tableau必知必会之图表显示部分标签的小妙招
- C# win10系统调用不了系统自带的软键盘osk.exe
- Error while compiling statement: FAILED: LockException [Error 10280]
- 线上服务器内存分析及问题排查
- java 当天唯一ids_java-为不同的时间字符串接收相同的ZonedDat...
- 使用vim的find命令快速打开文件
- django mysql 2059_Django mysqlclient后端生成django.db.utils。操作错误:(2059,NULL)在Windows中...
- 【Linux】解决Wesnoth中文乱码问题
- 贝叶斯概率推断:短信数据推断行为
- 用批处理共享打印机电脑设置
- 关闭apache自动目录列表功能的三种方法
- 简单快捷的Amaze UI框架搭建
- 你也可以找到好工作(二)
- SSL/TLS 受诫礼攻击漏洞的问题的解决记录
- 弱网条件下基于阻抗小扰动稳定性分析,小信号模型,阻抗扫描(电容电流反馈有源阻尼),单逆变器SRF-PLL
- OpenCV+Python 彩色图片的 BGR、灰度图、HSV分量图显示的程序
- 化妆品电商供应链系统解决方案:美妆化妆品品牌供应链质量管理、产品定位
- 北京卓镭激光完成近亿元B轮融资,君联资本领投...
- layui表格 设置默认排序_改造 layui 表格组件实现多重排序
- 关于x86、x86-64、x64、i386、i486、i586和i686等名词的解释
热门文章
- hadoop读写流程、副本机制、安全模式、平衡节点
- 贵州学业水平计算机考试真题,贵州省2017年7月普通高中学业水平考试数学试卷(真题卷附全解析)...
- 海尔“灯塔”张瑞敏,一把锤子砸出的硬核人生
- 《head first sql》读书笔记1
- 谷歌胜诉甲骨文,安卓清白还是代码抄袭无罪?
- 【渝粤教育】电大中专跨境电子商务理论与实务 (11)作业 题库
- EmWin学习课堂_小白EmWin_EmWin快速入门_EmWin动态内存,显示和触摸屏_EmWin基础配置
- teamviewer未就绪,请检查您的连接。
- 【Python项目】圣诞节快到了,Python基于海龟(turtle)实现的圣诞树效果,是好几个哟 | 附源码
- SpringBoot--网上商城项目(自定义的参数解析器、购物车后台前台功能、商品详情页)