使用scrapy爬虫,爬取17k小说网的案例-方法一

无意间看到17小说网里面有一些小说小故事，于是决定用爬虫爬取下来自己看着玩，下图这个页面就是要爬取的来源。

这个页面一共有125个标题，每个标题里面对应一个内容，如下图所示

下面直接看最核心spiders中的代码

# -*- coding: utf-8 -*-
import scrapy
from k17.items import K17Item
import json
class A17kSpider(scrapy.Spider):name = '17k'allowed_domains = ['17k.com']start_urls = ['http://www.17k.com/list/271047.html']def parse(self, response):old_url='http://www.17k.com'        for bb in response.xpath('//div[@class="Main List"]/dl[@class="Volume"]/dd'):##把xpath表达式作为normalize-space(）函数的参数 此方法可以去除数据的值有\r\n\tlink=bb.xpath("a/@href").extract()             for newurl in link:new_url=old_url+newurlyield scrapy.Request(new_url, callback=self.parse_item)def parse_item(self,response):for aa in response.xpath('//div[@class="readArea"]/div[@class="readAreaBox content"]'):item=K17Item()title=aa.xpath("h1/text()").extract()###得到每一章的标题new_title=(''.join(title).replace('\n','')).strip()item['title']=new_titledec= aa.xpath("div[@class='p']/text()").extract()###得到每一章的详细内容dec_new=((''.join(dec).replace('\n','')).replace('\u3000','')).strip() ###去除内容中的\n 和\u3000和空格的问题item['describe'] = dec_newyield item

转载于:https://www.cnblogs.com/stevenshushu/p/9212854.html

使用scrapy爬虫,爬取17k小说网的案例-方法一相关推荐

使用scrapy爬虫,爬取17k小说网的案例-方法二
楼主准备爬取此页面的小说,此页面一共有125章我们点击进去第一章和第一百二十五章发现了一个规律我们看到此链接的 http://www.17k.com/chapter/271047/6336386 ...
python爬虫简单实例-爬取17K小说网小说
什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程先由urllib的request打开Url得到网页html文档 ...
Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息下面是我们要爬取的二级页面小说的简介信息: 下面 ...
爬取17k小说网的小说
最近在学习python爬虫,所以写了一个17K小说网爬取的脚本来做练习,分享一下 1.爬取的网页为http://all.17k.com/lib/book.html 小说分类页面的免费区的小说,付费vi ...
python爬虫(16)使用scrapy框架爬取顶点小说网
本文以scrapy 框架来爬取整个顶点小说网的小说 1.scrapy的安装这个安装教程,网上有很多的例子,这里就不在赘述了 2.关于scrapy scrapy框架是一个非常好的东西,能够实现异步爬 ...
Python爬虫-爬取17K小说
随笔记录方便自己和同路人查阅. #------------------------------------------------我是可耻的分割线--------------------------- ...
Python爬虫爬取某小说网的教程(含全代码)#大佬勿喷
1.主要使用三个库 import parsel import requests import os 2.利用parsel解析网页 3.利用os库保存一本小说 4.链接上小说专题: https://w ...
网络爬虫-爬取顶点小说网指定小说
需求是女朋友下发的(凌晨12:30): 帮我下载一部小说–医后倾仙(1979章-最新章节) 打开电脑–打开百度–输入医后倾仙–打开我见到的第一个小说网站(顶点小说网)–敲代码 import reque ...
scrapy-redis分布式爬虫全站爬取顶点小说网
scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重 ...

使用scrapy爬虫,爬取17k小说网的案例-方法一

使用scrapy爬虫,爬取17k小说网的案例-方法一相关推荐

最新文章

热门文章