Python爬虫爬取纵横中文网小说

学了一周的爬虫，搞了这个东西，自己感觉还不错，有什么问题可以提一提哈

目标：纵横中文网-完本-免费小说
网址：http://book.zongheng.com/store/c0/c0/b0/u0/p1/v0/s1/t0/u0/i1/ALL.html

如图：

我们的方向是：
爬取所有免费完本小说（实现翻页获取所有小说）——》进入小说具体页面——》进入小说目录——》进入小说具体章节——》获取标题以及文字

有了具体方向，我们开始实现代码

代码如下：

#纵横中文网-完本-免费 http://book.zongheng.com/store/c0/c0/b0/u0/p1/v0/s1/t0/u0/i1/ALL.htmlimport requests
import os
import time
from lxml import etree# 获取每个页面的标签
for ml_url_http in range(1,16):ml_url_http = str(ml_url_http)#遍历获取每个页面yemian = 'http://book.zongheng.com/store/c0/c0/b0/u0/p' + ml_url_http + '/v0/s1/t0/u0/i1/ALL.html'#目录页面ml_url = yemian# UA伪装请求头header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chromeh/81.0.4044.138 Safari/537.36'}response = requests.get(url=ml_url,headers=header).texttreee = etree.HTML(response)ht = treee.xpath('//div[@class="bookname"]/a/@href')# 遍历所有书籍目录地址for htt in ht:res = requests.get(url=htt,headers=header).texthtt_tree = etree.HTML(res)htt_tr = htt_tree.xpath('//a[@class="all-catalog"]/@href')#获取一本书籍的目录for hh in htt_tr:resp = requests.get(url=hh,headers=header).texttree = etree.HTML(resp)hh_tree = tree.xpath('//ul[@class="chapter-list clearfix"]/li[@class=" col-4"]')#提取标题hh_title = tree.xpath('//div[@class="book-meta"]/h1/text()')[0]# 创建文件try:os.makedirs('./纵横中文网爬取/' + hh_title)except Exception:print('文件已创建！')#获取目录超链接for hh_tree_li in hh_tree:#获取a标签里的hrefli = hh_tree_li.xpath('./a/@href')#获取每章节小说for http in li:respon = requests.get(url=http,headers=header).texthttp_tree = etree.HTML(respon)#标题http_title = http_tree.xpath('//div[@class="title_txtbox"]/text()')[0]#创建txt文件dizhi = './纵横中文网爬取/' + hh_title + '/' + http_title + '.txt'fp = open(dizhi,'w+',encoding='utf-8')#文字http_t = http_tree.xpath('//div[@class="content"]/p')#遍历提取文字for http_t_p in http_t:#提取文字详细信息p = http_t_p.xpath('./text()')[0]#写入文件fp.write(p)print(http_title,'爬取成功！')print('\n' + '准备爬取下一本小说。。。' + '\n')#休眠两秒,以防爬取太快被网站反爬time.sleep(2)

爬取效果如下：

以上代码仍有不足之处：在爬取到第五/六本小说时，会有验证码弹出，无法继续爬取

解决方案：
1.在验证码出现页面使用超级鹰验证码识别继续进行爬取
2.使用代理IP

如有错误，敬请指正

Python爬虫爬取纵横中文网小说相关推荐

Python爬虫爬取纵横中文网月票排行榜前1000的小说
python爬虫学习文章目录前言一.python爬虫二.使用步骤 1.引入库 2.解析网页函数 3.获取数据函数 4.储存数据函数 5.主函数 6.创建全局变量 7.完整代码 8.爬虫实现总 ...
python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...
前言: 爬取起点中文网全部小说基本信息,小说名.作者.类别.连载\完结情况.简介,并将爬取的数据存储与EXCEL表中环境:Python3.7 PyCharm Chrome浏览器主要模块:xlwt ...
python爬虫——爬取起点中文网作品信息
首先打开起点中文网点开红圈内的全部作品选项,本博客爬取这里面的作品信息. 接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息. 网页下面有跳转其他页的选项. 我们需要找到网 ...
python request 爬虫爬取起点中文网小说
1.网页分析.进入https://www.qidian.com/,点击全部,进行翻页,你就会发现一个规律, url=https://www.qidian.com/all?orderId=&st ...
Python简单爬取起点中文网小说（仅学习）
目录前言一.爬虫思路二.使用步骤 1.引入库 2.读取页面 3.分析HTML 3.从标签中取出信息 4.爬取正文总结前言实习期间自学了vba,现在开始捡回以前上课学过的python,在此记 ...
如何用Python爬虫爬取网页免费小说
如何用python爬网页(小说阅读网)免费小说小说网址:https://www.readnovel.com/ 要导入requests和beautifulsoup4的包.pycharm点击File-& ...
简易爬虫-利用Python爬虫爬取圣墟小说到本地
大家好,今天给大家带来Python爬虫的简易制作,很适合新手练手. 爬虫即是利用程序模仿真实用户浏览网页并记录目标内容,从而可避过网站的广告,以获取较好的阅读体验. 本次以辰东大神的新书<圣墟& ...
Python爬虫 | 爬取全书网小说斗罗大陆
网络爬虫:可以理解成网页蜘蛛,在网页上采集数据爬取流程: 1.导入模块 2.打开网页,获取原码 3.获取章节原码 4.获取正文 5.过滤'杂质' 6.保存下载废话不多说开始爬!!! 今天爬的网站是 ...
Python爬虫爬取某盗版小说网站小说.
前言我将这个程序分为两个功能,一是实现爬取小说的最新章节,二是爬取小说的所有章节. 仅供学习. 获取小说详情页的html 通过函数gethtml()实现. def gethtml(url):#得到小 ...

Python爬虫爬取纵横中文网小说

Python爬虫爬取纵横中文网小说

Python爬虫爬取纵横中文网小说相关推荐

最新文章

热门文章