快速安装scrapy

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy

安装完成之后在cmd里面输入scrapy

如果出现以上的情况,说明已经安装成功了

新建scrapy项目,我们不能直接在pycharm里面新建,我们要在cmd新建

scrapy startproject +名字   ## 前提进入该文件夹

下面的这个代表我的项目文件夹,然后我们再进去

下面这个文件夹代表了scrapy的框架

接着我们找要爬取的网站,按f12

然后我们开始写代码

目录如下

#-*-coding:utf-8-*-
from scrapy import Request
from scrapy.spiders import Spider
class HotSalesSpider(Spider):#定义爬虫名称name = 'hot'#起始的URL列表start_urls = ["https://www.qidian.com/rank/hotsales?style=1"]#解析函数def parse(self, response):#使用xpath定位到小说内容的div元素list_selector = response.xpath("//div[@class='book-mid-info']")#依次读取每部小说的元素,从中获取名称、作者、类型和形式for one_selector in list_selector:#获取小说名称name = one_selector.xpath("h4/a/text()").extract()[0]#获取作者author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]#获取类型type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]#获取形式(连载/完本)form = one_selector.xpath("p[1]/span/text()").extract()[0]#将爬取到的一部小说保存到字典中hot_dict = {"name":name,   #小说名称"author":author,  #作者"type":type,      #类型"form":form}      #形式#使用yield返回字典yield hot_dict

写完之后保存,我们用cmd进入scrapy文件夹


输入以下命令

scrapy crawl hot -o hot.csv

为什么会有hot那,因为我们定义了一个hot的爬虫名字

运行结束会出现下面的结果


然后我们打开scrapy文件夹,里面会多出来一个csv文件,我们用文本编辑器打开

name,author,type,form,就是我们刚刚所写的对应的代码

一周搞定scrapy之第一天--爬取起点中文小说网相关推荐

  1. Python《通过解析http请求搞定动态加载,爬取toutiao图片》

    今天我们下载头条的图片内容. 进入头条首页,我们根据关键词搜索. 发现有搜索出很多的条目,而且条目是根据鼠标往下滑动的时候就会动态加载出来,是动态更新的,之前我们曾使用过Selenium进行模拟鼠标滑 ...

  2. Scrapy框架学习笔记 - 爬取腾讯招聘网数据

    文章目录 一.Scrapy框架概述 (一)网络爬虫 (二)Scrapy框架 (三)安装Scrapy框架 (四)Scrapy核心组件 (五)Scrapy工作流程 二. Scrapy案例演示 (一)爬取目 ...

  3. scrapy实现二级页面爬取(以小说为例)

    1.scrapy图解 2.创建项目 scrapy startproject 项目名 创建后的目录 3.编写字段 在items.py中编写需要的字段,这里就写小说的章节和内容 class Xiaoshu ...

  4. 远景能源如何搞定美国的第一个客户?亚马逊AWS你一定知道底细吧

    提到能源企业,你脑海里最先浮现的影像是什么?笨重的设备.恶劣的现场操作环境--这都是老黄历了.记者在与远景能源IT总监龚迅交流后发现,虽然远景能源是目前国内装机量最大的智能风机设备提供商之一,传统的风 ...

  5. 【一周搞定计算机网络】计算机网络第5章(运输层)

    [一周搞定计算机网络]文章全系列已经更新完毕,详情请戳: 计算机网络第1章(概述) 计算机网络第2章(物理层) 计算机网络第3章(数据链路层) 计算机网络第4章(网络层) 计算机网络第5章(运输层) ...

  6. 爬取中国最好大学网数据(Python的Scrapy框架与Xpath联合运用)

    前言        大二上学期学校外出实习,做了一个关于爬取中国最好大学网http://www.zuihaodaxue.com/rankings.html的项目用的这个Scrapy框架,多线程还挺好用 ...

  7. Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文

    大宗师是著名网络小说作家蛇从革的系列作品"宜昌鬼事"之一,在天涯论坛具有超级高的访问量.这个长篇小说于2015年3月17日开篇,并于2016年12月29日大结局,期间每天有7万多读 ...

  8. Scrapy爬虫框架,爬取小说网的所有小说

    Scrapy入门教程请看 目录 1.思路清理 2.创建爬虫项目 3. 爬虫架构构思 4.爬虫程序具体分析 5.效果展示 6.待优化的地方 1.思路清理 我们的目的是把某个小说网的所有小说给拿下,这就涉 ...

  9. python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取

    python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取 前言 本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...

最新文章

  1. Tableau必知必会之图表显示部分标签的小妙招
  2. C# win10系统调用不了系统自带的软键盘osk.exe
  3. Error while compiling statement: FAILED: LockException [Error 10280]
  4. 线上服务器内存分析及问题排查
  5. java 当天唯一ids_java-为不同的时间字符串接收相同的ZonedDat...
  6. 使用vim的find命令快速打开文件
  7. django mysql 2059_Django mysqlclient后端生成django.db.utils。操作错误:(2059,NULL)在Windows中...
  8. 【Linux】解决Wesnoth中文乱码问题
  9. 贝叶斯概率推断:短信数据推断行为
  10. 用批处理共享打印机电脑设置
  11. 关闭apache自动目录列表功能的三种方法
  12. 简单快捷的Amaze UI框架搭建
  13. 你也可以找到好工作(二)
  14. SSL/TLS 受诫礼攻击漏洞的问题的解决记录
  15. 弱网条件下基于阻抗小扰动稳定性分析,小信号模型,阻抗扫描(电容电流反馈有源阻尼),单逆变器SRF-PLL
  16. OpenCV+Python 彩色图片的 BGR、灰度图、HSV分量图显示的程序
  17. 化妆品电商供应链系统解决方案:美妆化妆品品牌供应链质量管理、产品定位
  18. 北京卓镭激光完成近亿元B轮融资,君联资本领投...
  19. layui表格 设置默认排序_改造 layui 表格组件实现多重排序
  20. 关于x86、x86-64、x64、i386、i486、i586和i686等名词的解释

热门文章

  1. hadoop读写流程、副本机制、安全模式、平衡节点
  2. 贵州学业水平计算机考试真题,贵州省2017年7月普通高中学业水平考试数学试卷(真题卷附全解析)...
  3. 海尔“灯塔”张瑞敏,一把锤子砸出的硬核人生
  4. 《head first sql》读书笔记1
  5. 谷歌胜诉甲骨文,安卓清白还是代码抄袭无罪?
  6. 【渝粤教育】电大中专跨境电子商务理论与实务 (11)作业 题库
  7. EmWin学习课堂_小白EmWin_EmWin快速入门_EmWin动态内存,显示和触摸屏_EmWin基础配置
  8. teamviewer未就绪,请检查您的连接。
  9. 【Python项目】圣诞节快到了,Python基于海龟(turtle)实现的圣诞树效果,是好几个哟 | 附源码
  10. SpringBoot--网上商城项目(自定义的参数解析器、购物车后台前台功能、商品详情页)