Python爬虫爬取纵横中文网小说

学了一周的爬虫,搞了这个东西,自己感觉还不错,有什么问题可以提一提哈

目标:纵横中文网-完本-免费小说
网址:http://book.zongheng.com/store/c0/c0/b0/u0/p1/v0/s1/t0/u0/i1/ALL.html

如图:

我们的方向是:
爬取所有免费完本小说(实现翻页获取所有小说)——》进入小说具体页面——》进入小说目录——》进入小说具体章节——》获取标题以及文字

有了具体方向,我们开始实现代码

代码如下:

#纵横中文网-完本-免费 http://book.zongheng.com/store/c0/c0/b0/u0/p1/v0/s1/t0/u0/i1/ALL.htmlimport requests
import os
import time
from lxml import etree# 获取每个页面的标签
for ml_url_http in range(1,16):ml_url_http = str(ml_url_http)#遍历获取每个页面yemian = 'http://book.zongheng.com/store/c0/c0/b0/u0/p' + ml_url_http + '/v0/s1/t0/u0/i1/ALL.html'#目录页面ml_url = yemian# UA伪装请求头header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chromeh/81.0.4044.138 Safari/537.36'}response = requests.get(url=ml_url,headers=header).texttreee = etree.HTML(response)ht = treee.xpath('//div[@class="bookname"]/a/@href')# 遍历所有书籍目录地址for htt in ht:res = requests.get(url=htt,headers=header).texthtt_tree = etree.HTML(res)htt_tr = htt_tree.xpath('//a[@class="all-catalog"]/@href')#获取一本书籍的目录for hh in htt_tr:resp = requests.get(url=hh,headers=header).texttree = etree.HTML(resp)hh_tree = tree.xpath('//ul[@class="chapter-list clearfix"]/li[@class=" col-4"]')#提取标题hh_title = tree.xpath('//div[@class="book-meta"]/h1/text()')[0]# 创建文件try:os.makedirs('./纵横中文网爬取/' + hh_title)except Exception:print('文件已创建!')#获取目录超链接for hh_tree_li in hh_tree:#获取a标签里的hrefli = hh_tree_li.xpath('./a/@href')#获取每章节小说for http in li:respon = requests.get(url=http,headers=header).texthttp_tree = etree.HTML(respon)#标题http_title = http_tree.xpath('//div[@class="title_txtbox"]/text()')[0]#创建txt文件dizhi = './纵横中文网爬取/' + hh_title + '/' + http_title + '.txt'fp = open(dizhi,'w+',encoding='utf-8')#文字http_t = http_tree.xpath('//div[@class="content"]/p')#遍历提取文字for http_t_p in http_t:#提取文字详细信息p = http_t_p.xpath('./text()')[0]#写入文件fp.write(p)print(http_title,'爬取成功!')print('\n' + '准备爬取下一本小说。。。' + '\n')#休眠两秒,以防爬取太快被网站反爬time.sleep(2)

爬取效果如下:



以上代码仍有不足之处:在爬取到第五/六本小说时,会有验证码弹出,无法继续爬取

解决方案:
1.在验证码出现页面使用超级鹰验证码识别继续进行爬取
2.使用代理IP

如有错误,敬请指正

Python爬虫爬取纵横中文网小说相关推荐

  1. Python爬虫爬取纵横中文网月票排行榜前1000的小说

    python爬虫学习 文章目录 前言 一.python爬虫 二.使用步骤 1.引入库 2.解析网页函数 3.获取数据函数 4.储存数据函数 5.主函数 6.创建全局变量 7.完整代码 8.爬虫实现 总 ...

  2. python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...

    前言: 爬取起点中文网全部小说基本信息,小说名.作者.类别.连载\完结情况.简介,并将爬取的数据存储与EXCEL表中 环境:Python3.7 PyCharm Chrome浏览器 主要模块:xlwt ...

  3. python爬虫——爬取起点中文网作品信息

    首先打开起点中文网 点开红圈内的全部作品选项,本博客爬取这里面的作品信息. 接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息. 网页下面有跳转其他页的选项. 我们需要找到网 ...

  4. python request 爬虫爬取起点中文网小说

    1.网页分析.进入https://www.qidian.com/,点击全部,进行翻页,你就会发现一个规律, url=https://www.qidian.com/all?orderId=&st ...

  5. Python简单爬取起点中文网小说(仅学习)

    目录 前言 一.爬虫思路 二.使用步骤 1.引入库 2.读取页面 3.分析HTML 3.从标签中取出信息 4.爬取正文 总结 前言 实习期间自学了vba,现在开始捡回以前上课学过的python,在此记 ...

  6. 如何用Python爬虫爬取网页免费小说

    如何用python爬网页(小说阅读网)免费小说 小说网址:https://www.readnovel.com/ 要导入requests和beautifulsoup4的包.pycharm点击File-& ...

  7. 简易爬虫-利用Python爬虫爬取圣墟小说到本地

    大家好,今天给大家带来Python爬虫的简易制作,很适合新手练手. 爬虫即是利用程序模仿真实用户浏览网页并记录目标内容,从而可避过网站的广告,以获取较好的阅读体验. 本次以辰东大神的新书<圣墟& ...

  8. Python爬虫 | 爬取全书网小说斗罗大陆

    网络爬虫:可以理解成网页蜘蛛,在网页上采集数据 爬取流程: 1.导入模块 2.打开网页,获取原码 3.获取章节原码 4.获取正文 5.过滤'杂质' 6.保存下载 废话不多说开始爬!!! 今天爬的网站是 ...

  9. Python爬虫爬取某盗版小说网站小说.

    前言 我将这个程序分为两个功能,一是实现爬取小说的最新章节,二是爬取小说的所有章节. 仅供学习. 获取小说详情页的html 通过函数gethtml()实现. def gethtml(url):#得到小 ...

最新文章

  1. 分享这篇耗子叔的-《请玉伯一起来聊一聊“所向无敌的土方法”》
  2. 软件工程概论冲刺 第6天
  3. 【勉强采用】反欺诈四大手段一秒get
  4. pstack 安装linux_pstack命令_Linux pstack 命令用法详解:显示每个进程的栈跟踪
  5. 直接打开php非法请求
  6. 漫画:什么是SHA系列算法
  7. 元气骑士机器人旁边建筑_元气骑士:锤落谁家?锤子更适合机器人还是能双持的骑士呢?...
  8. mapview | 如何快速使用交互式地图展示空间数据信息
  9. 游戏情境设计案例精选
  10. win7开机动画_WIN7开机动画神盾局欢迎界面壁纸
  11. Java 虚拟机启动
  12. shl归纳推理测试题库_SHL(外企笔试常见试题)全攻略
  13. 寻路算法 --- A星寻路算法
  14. cub数据集多少张图片_细粒度分类数据集汇总
  15. macOS Catalina 以上版本使用不了 PPTP协议的(shimo 无法正常使用)
  16. 高压开关柜无线测温系统(高压开关柜在线监测系统应用案例)
  17. PCB相关知识-焊盘Pad
  18. PTA 520钻石争霸赛题解
  19. 35.FFmpeg学习笔记 - ffplay源码解读3之读文件
  20. ::细细品味ASP.NET (二)::

热门文章

  1. linux mac 字体,Mac 和 Windows 的中文字体显示效果
  2. 提莫队长正在待命(DP)
  3. 2020面试题合集之吊打面试官系列(一),Android中为什么需要Handler
  4. Android中实现类似探探中图片左右滑动切换效果
  5. javascript_JSON.parse() 与 JSON.stringify()_ZHOU125disorder_
  6. 智能网联建设核心评价指标探讨
  7. 北京遇上西雅图之不二情书
  8. 【无标题】写了一个半小时才写这么一点,是不是我能力不行呀?而且暗亮边框还显示不出来,害
  9. java实现仿微信app聊天功能_Android仿微信语音聊天功能
  10. Qt应用程序开发九:上传文件