利用Python scapy爬取起点小说网小说

　　土木狗，大二，混吃等死不知老之将至。

items.py

import scrapyclass QidianItem(scrapy.Item):title = scrapy.Field()content = scrapy.Field()

pipelines.py

import os
class QidianPipeline(object):# def __init__(self):#def process_item(self, item, spider):#根据书名来创建文件,item.get('title')就可以获取到书名os.chdir(path=r'/home/administrator/PycharmProjects/untitled/qidian/qidian/en')with open(file=str(item.get('title'))+".txt",mode='a') as f:f.write(item.get('content'))return item

settings.py

LOG_LEVEL= 'ERROR'LOG_FILE ='log.txt'

爬虫文件

import scrapy
# from scrapy.linkextractors import LinkExtractor
# from scrapy.spiders import CrawlSpider , Rule
from ..items import QidianItem
class XiaoshuoSpider(scrapy.Spider):name = 'xiaoshuo'allowed_domains = ['qidian.com']start_urls = ["https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page="+str(page) for page in range(100,200)]def parse(self, response):#获取每本书的url，并且将链逐个交给下一个方法处理for url_ in response.xpath("//h4/a/@href").extract():yield scrapy.Request('https:'+str(url_),callback=self.parse_info)def parse_info(self,response):item = QidianItem()#获取小说标题title = response.xpath("//h1/em/text()").extract()[0]self.title_ = titleprint("开始爬取小说："+title)#作为文件名item['title'] = title#获取免费阅读链接，并且交由parse__content 方法处理info_url = response.xpath("//a[@id='readBtn']/@href").extract()[0]yield scrapy.Request("https:"+str(info_url),meta={'item':item},callback=self.parse_content)#获取说章节，并且进行递归，重复获取def parse_content(self,response):#获取章节标题name = response.xpath("//h3[@class='j_chapterName']/text()").extract()[0]+"\n"print("正在爬取小说******《"+self.title_+"》******章节：－－－－－－－－－－－－－－－"+name)content = name +''for str_ in response.xpath("//div[@class='read-content j_readContent']//p/text()").extract():content = content +str_[1:]#获取上面传过来的itemitem = response.meta['item']#将书的章节及章节内容存入content字段中item['content'] = contentnext_url = 'https:' + response.xpath("//a[@id='j_chapterNext']/@href").extract()[0]#过滤收费章节,count = 0if len(content) > 250:try:yield itemyield scrapy.Request(str(next_url),meta={'item':item},callback=self.parse_content)except:print("－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－")else: print("免费章节已经完啦!")

利用Python scapy爬取起点小说网小说相关推荐

python爬虫之爬取起点中文原创小说排行榜
学习python有段时间了,最近做了一个网上爬虫工具爬取起点中文原创小说排行榜数据,作为最近学习python的一个阶段性成果. 工具对于做网络爬虫工具经常用到的就是chrome浏览器,主要用于抓取网 ...
Python 数据采集-爬取学校官网新闻标题与链接（基础）
Python 爬虫爬取学校官网新闻标题与链接一.前言二.扩展库简要介绍 01 urllib 库 (1)urllib.request.urlopen() 02 BeautifulSoup 库 (1) ...
使用Scrapy框架爬取88读书网小说，并保存本地文件
Scrapy框架,爬取88读书网小说链接: 88读书网源码工具 python 3.7 pycharm scrapy框架教程 spider: # -*- coding: utf-8 -*- im ...
python selenium爬取去哪儿网的酒店信息——详细步骤及代码实现
目录准备工作一.webdriver部分二.定位到新页面三.提取酒店信息 ??这里要注意?? 四.输出结果五.全部代码准备工作 1.pip install selenium 2.配置浏览器驱 ...
Python+scrapy爬取36氪网
Python+Scrapy爬取36氪网新闻一.准备工作: ①安装python3 ②安装scrapy ③安装docker,用来运行splash,splash是用来提供js渲染服务(pyth ...
Python 数据采集-爬取学校官网新闻标题与链接（进阶）
Python 爬虫爬取学校官网新闻标题与链接(进阶) 前言一.拼接路径二.存储三.读取翻页数据四.完整代码展示五.小结前言 ⭐ 本文基于学校的课程内容进行总结,所爬取的数据均为学习使用,请 ...
【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中（2）...
[爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...
python为啥爬取数据会有重复_利用Python来爬取“吃鸡”数据，为什么别人能吃鸡？...
原标题:利用Python来爬取"吃鸡"数据,为什么别人能吃鸡? 首先,神装镇楼背景最近老板爱上了吃鸡(手游:全军出击),经常拉着我们开黑,只能放弃午休的时间,陪老板在沙漠里奔波 ...
python爬虫爬取彼岸图网图片
python爬虫爬取彼岸图网图片话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...
利用python+selenium爬取derwent数据库上的patents
利用python+selenium爬取derwent数据库上的patents 需求: 登陆web of science,并进入derwent数据库,按照公司excel列表依次进行搜索,并将所有搜索道德 ...

利用Python scapy爬取起点小说网小说

pipelines.py

settings.py

爬虫文件

利用Python scapy爬取起点小说网小说相关推荐

最新文章

热门文章