Scrapy框架,爬取88读书网小说

链接:

88读书网

源码

工具

python 3.7

pycharm

scrapy框架

教程

spider:

# -*- coding: utf-8 -*-
import scrapy
from dushu.items import DushuItemclass BookSpider(scrapy.Spider):name = 'book'# allowed_domains = ['xdushu.com']start_urls = ['https://www.x88dushu.com/xiaoshuo/111/111516/']def parse(self, response):if response.url == self.start_urls[0]:self.logger.info('访问小说目录'+response.url)li_list = response.css("div.mulu ul li a")for li in li_list:link = li.css('a::attr(href)').extract_first()yield scrapy.Request(self.start_urls[0]+link)else:self.logger.info('访问小说内容'+response.url)novel = response.css('div.novel')item = DushuItem()item['chapterName'] = novel.css('h1::text').extract_first()item['text'] = novel.css('div.yd_text2::text').extract()# self.logger().info(item)yield item# pass

items.py:

# -*- coding: utf-8 -*-# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass DushuItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()# 章节名称chapterName = scrapy.Field()# 内容text = scrapy.Field()pass

pipelines.py:

# -*- coding: utf-8 -*-# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.htmlimport jsonclass DushuPipeline(object):def process_item(self, item, spider):file = open('mulu/' + item['chapterName'] + '.txt', 'w', encoding='utf-8')for text in item['text']:file.write(text + '\n')file.close()return item

setting.py:

BOT_NAME = 'dushu'SPIDER_MODULES = ['dushu.spiders']
NEWSPIDER_MODULE = 'dushu.spiders'ROBOTSTXT_OBEY = FalseITEM_PIPELINES = {'dushu.pipelines.DushuPipeline': 300,
}

程序运行:

要爬取的小说url:

start_urls = ['https://www.x88dushu.com/xiaoshuo/111/111516/']

运行cmd:

scrapy crawl book

运行结果:

使用Scrapy框架爬取88读书网小说,并保存本地文件相关推荐

  1. Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

    这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...

  2. 运用Scrapy框架爬取淘车网十七万二手车数据

    本篇内容将使用scrapy框架爬取淘车网所有二手车信息. 下面开始讲解下如何爬取我们想要的数据: 明确爬取目标: 首先,进入官网:https://www.taoche.com/ 进入官网发现,我们要获 ...

  3. Scrapy框架爬取中国裁判文书网案件数据

    Scrapy框架爬取中国裁判文书网案件数据 项目Github地址: https://github.com/Henryhaohao/Wenshu_Spider 中国裁判文书网 - http://wens ...

  4. scrapy框架爬取古诗文网的名句

    使用scrapy框架爬取名句,在这里只爬取的了名句和出处两个字段.具体解析如下: items.py 用来存放爬虫爬取下来的数据模型,代码如下: import scrapyclass QsbkItem( ...

  5. 爬虫项目实操三、用scrapy框架爬取豆瓣读书Top250的书名,出版信息和评分

    安装方法:Windows:在终端输入命令:pip install scrapy:mac:在终端输入命令:pip3 install scrapy,按下enter键,再输入cd Python,就能跳转到P ...

  6. Python爬虫之爬取笔趣阁小说下载到本地文件并且存储到数据库

    学习了python之后,接触到了爬虫,加上我又喜欢看小说,所以就做了一个爬虫的小程序,爬取笔趣阁小说. 程序中一共引入了以下几个库: import requests import mysql.conn ...

  7. python爬取链家网实例——scrapy框架爬取-链家网的租房信息

    说明: 本文适合scrapy框架的入门学习. 一.认识scrapy框架 开发python爬虫有很多种方式,从程序的复杂程度的角度来说,可以分为:爬虫项目和爬虫文件. scrapy更适合做爬虫项目,ur ...

  8. scrapy框架爬取王者荣耀英雄数据

    scrapy框架爬取王者荣耀英雄属性 爬虫工程 爬虫文件 import scrapy from theKingPro.items import ThekingproItemclass ThekingS ...

  9. python爬虫教程:Scrapy框架爬取Boss直聘网Python职位信息的源码

    今天小编就为大家分享一篇关于Scrapy框架爬取Boss直聘网Python职位信息的源码,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧 分析 使用Crawl ...

最新文章

  1. 常见却又不太了解的一些Windows文件类型
  2. sql 相加_SQL多表查询
  3. 为什么要Zipkin
  4. Material design 色彩
  5. python-循环-通过while循环完成一个电子钟的模拟
  6. java 阻塞 wait_Java面试基础问题之(二十一)—— 线程持有的任何对象.wait()都会使线程陷入阻塞吗...
  7. 2017年SEO推广优化怎么做
  8. Vue_案例_交互添加_利用子组件调用父组件的添加方法实现---vue工作笔记0023
  9. PetaPoco源代码学习--2.TableInfo、ColumnInfo类和Cache类
  10. JavaScript学习指南集锦
  11. JavaWeb教程———Ajax
  12. 【雕爷学编程】Arduino动手做(45)---红外避障传感器
  13. (转)淘淘商城系列——SSM框架整合之表现层整合
  14. 仓库管理软件中的账套是什么意思
  15. linux 活动主分区,主引导扇区(MBR),分区表(DPT)及活动分区(DBR) | 技术部落
  16. wold文档直接转html文件乱码,打开WORD文档,发现它全是乱码,有时会出现“文件转换”窗口,让您选择编码. 如何处理?...
  17. 微软云服务器怎么注销,如何关闭你的 Microsoft 帐户——注销微软账号
  18. 计算机系统引导失败怎么办,win7系统引导选择失败怎么办|win7系统引导选择失败的解决方法...
  19. 手工植锡、焊接BGA芯片
  20. 语句摘抄——第29周

热门文章

  1. Hadoop大数据平台开发与案例分析
  2. java期末知识点总结_java期末复习
  3. 【Java】day21--装饰者设计模式、序列流对象、对象输入输出流、Properties配置文件部分知识点总结
  4. torch.zeros_like()和torch.ones_like()简要介绍
  5. python基础之浅谈布尔类型的变量
  6. 创业项目怎么获得专业的投融资服务?
  7. IDEA的一些炫酷的插件
  8. 按照字典序大小遍历字符串的方法
  9. 密码算法(SM1、SM2、SM3、SM4、同态加密、密态计算、隐私计算和安全多方计算)
  10. 攻防世界——pwn_forgot