无意间看到17小说网里面有一些小说小故事,于是决定用爬虫爬取下来自己看着玩,下图这个页面就是要爬取的来源。

a

这个页面一共有125个标题,每个标题里面对应一个内容,如下图所示

下面直接看最核心spiders中的代码

# -*- coding: utf-8 -*-
import scrapy
from k17.items import K17Item
import json
class A17kSpider(scrapy.Spider):name = '17k'allowed_domains = ['17k.com']start_urls = ['http://www.17k.com/list/271047.html']def parse(self, response):old_url='http://www.17k.com'        for bb in response.xpath('//div[@class="Main List"]/dl[@class="Volume"]/dd'):##把xpath表达式作为normalize-space()函数的参数 此方法可以去除数据的值有\r\n\tlink=bb.xpath("a/@href").extract()             for newurl in link:new_url=old_url+newurlyield scrapy.Request(new_url, callback=self.parse_item)def parse_item(self,response):for aa in response.xpath('//div[@class="readArea"]/div[@class="readAreaBox content"]'):item=K17Item()title=aa.xpath("h1/text()").extract()###得到每一章的标题new_title=(''.join(title).replace('\n','')).strip()item['title']=new_titledec= aa.xpath("div[@class='p']/text()").extract()###得到每一章的详细内容dec_new=((''.join(dec).replace('\n','')).replace('\u3000','')).strip() ###去除内容中的\n 和\u3000和空格的问题item['describe'] = dec_newyield item

  

 


转载于:https://www.cnblogs.com/stevenshushu/p/9212854.html

使用scrapy爬虫,爬取17k小说网的案例-方法一相关推荐

  1. 使用scrapy爬虫,爬取17k小说网的案例-方法二

    楼主准备爬取此页面的小说,此页面一共有125章 我们点击进去第一章和第一百二十五章发现了一个规律 我们看到此链接的  http://www.17k.com/chapter/271047/6336386 ...

  2. python爬虫简单实例-爬取17K小说网小说

    什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程 先由urllib的request打开Url得到网页html文档 ...

  3. Python的scrapy之爬取顶点小说网的所有小说

    闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息 下面是我们要爬取的二级页面 小说的简介信息: 下面 ...

  4. 爬取17k小说网的小说

    最近在学习python爬虫,所以写了一个17K小说网爬取的脚本来做练习,分享一下 1.爬取的网页为http://all.17k.com/lib/book.html 小说分类页面的免费区的小说,付费vi ...

  5. python爬虫(16)使用scrapy框架爬取顶点小说网

    本文以scrapy 框架来爬取整个顶点小说网的小说 1.scrapy的安装 这个安装教程,网上有很多的例子,这里就不在赘述了 2.关于scrapy scrapy框架 是一个非常好的东西,能够实现异步爬 ...

  6. Python爬虫-爬取17K小说

    随笔记录方便自己和同路人查阅. #------------------------------------------------我是可耻的分割线--------------------------- ...

  7. Python爬虫爬取某小说网的教程(含全代码)#大佬勿喷

    1.主要使用三个库 import parsel import requests import os 2.利用parsel解析网页 3.利用os库保存一本小说 4.链接上 小说专题: https://w ...

  8. 网络爬虫-爬取顶点小说网指定小说

    需求是女朋友下发的(凌晨12:30): 帮我下载一部小说–医后倾仙(1979章-最新章节) 打开电脑–打开百度–输入医后倾仙–打开我见到的第一个小说网站(顶点小说网)–敲代码 import reque ...

  9. scrapy-redis分布式爬虫全站爬取顶点小说网

    scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重 ...

最新文章

  1. 你知道Redis可以实现延迟队列吗?
  2. Apache与Tomcat联系及区别(转)
  3. Python网络爬虫与信息提取(三)(正则表达式的基础语法)
  4. windows7环境下使用pip安装MySQLdb
  5. 英语 语义分割_Padlex数据处理-语义分割-分段变换,PaddleX,segtransforms
  6. LeetCode——Backtracking
  7. 惊呆了! | Spring Boot 使用 @Value 读取配置还能这样用
  8. arduino char*转string_面试官:String长度有限制吗?是多少?还好我看过
  9. c++语言读txt数据,关于C++中读取txt文件中字符串 - 程序语言 - 小木虫 - 学术 科研 互动社区...
  10. SylixOS lsusb命令解析
  11. Jolt大奖获奖图书
  12. 内容分发网络CDN(互联网技术)
  13. 厂房自控系统设计方案
  14. 微信号下方菜单如何设置
  15. 高阶导数的运算法则 与 莱布尼茨公式
  16. 使用百度AI将语音转换成文字(JAVA)
  17. 有没有什么好的可以做读书笔记的APP推荐?
  18. 今天做了freemaker 导出word文档 的bug修复,解决 \n换行 问题
  19. 安全基础--1--计算机网络基本概念
  20. 算法作业(4):旅行者问题

热门文章

  1. 山东财经大学python期末考试题型_山东财经大学2012012学年第二学期期末试题
  2. [转载]动物伦理,为了人的尊严_习惯累积沉淀_新浪博客
  3. 都不知道是不是resnet原始结构,keras实现....
  4. 充分利用Office:Office 2007 EnterPrise 企业版各软件介绍
  5. win7下载python3.7.4_Python for windows 下载
  6. iOS和Android开发异同点(一)
  7. C++标准程序库STL
  8. 阿里云 mysql 收费_阿里云MySQL云数据库价格表(收费标准) - 新手站长网
  9. 数码照片回执可以自己在网上弄吗?
  10. 张磊大神的《深入剖析Kubernetes》终于出书啦!