Python爬虫之爬取网络小说并在本地保存为txt文件

注:本文使用软件为Sublime Text,浏览器为谷歌浏览器
(新手小白第一次写,写得不好请见谅)
**1.**首先找到想要爬取的小说章节目录,如下图(网上随便找的一部小说)
然后鼠标右击-点击‘查看网页源代码’,如下图所示:
从上图代码里可以看到小说每一章的链接,所以所以我的思路就是通过这一页面然后让代码获取每一章的链接,再通过链接获取每一章的文字内容。
**2.**关于代码部分讲述

import requests
from lxml import etree
selector=etree.HTML(html)
a=selector.xpath('//@href')

这里需要注意的是我们通过‘//@href’获得的网页链接为‘//www.hongxiu.com/chapter/12115534503935401/32719280238872455’,我们复制这个链接可以直接在浏览器打开并且能搜索到网页的内容,可是在python里直接用这个链接通过.get(url)是获取不到网页内容的,不出意外的话会出错,所以我们需要在‘//@href’获取到的连接前加上‘http:’(这里需要使用到字符串的拼接)
另外,在上述代码里面,我们定义的html,需要这样定义html=""" “”",而引号里面的内容我们需要从第一张图里面复制粘贴含有小说每一章链接的代码,**划重点,一定是含有所有章节的完整代码**
还有一个重点啊啊,感觉我话好多啊,注意注意注意,我们在看完小说的最后一章时,往往在最下面的页面还会有一个‘下一章’,这里的下一章对我们就没有用了,但是爬取章节链接的时候就会爬取到,所以我们需要用if语句来检测,如果爬取的链接为最后一章的链接时,则停止。
3.代码
(下面的代码就是以第一张图片上的小说为例)

import requests
from lxml import etree
html="""<li data-rid="1"><a href="//www.hongxiu.com/chapter/12115534503935401/32522390879719926" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/32522390879719926" title="首发时间:1年前 章节字数:3166">第001章:遇见(01)</a></li><li data-rid="2"><a href="//www.hongxiu.com/chapter/12115534503935401/32719280238872455" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/32719280238872455" title="首发时间:1年前 章节字数:2381">第002章:遇见(02)</a></li><li data-rid="3"><a href="//www.hongxiu.com/chapter/12115534503935401/32731679535230272" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/32731679535230272" title="首发时间:1年前 章节字数:2694">第003章:遇见(03)</a></li><li data-rid="4"><a href="//www.hongxiu.com/chapter/12115534503935401/32754874242478275" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/32754874242478275" title="首发时间:1年前 章节字数:2482">第004章:遇见(04)</a></li><li data-rid="5"><a href="//www.hongxiu.com/chapter/12115534503935401/32801259076822431" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/32801259076822431" title="首发时间:1年前 章节字数:2148">第006章:遇见(06)</a></li><li data-rid="6"><a href="//www.hongxiu.com/chapter/12115534503935401/32824451906164745" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/32824451906164745" title="首发时间:1年前 章节字数:1865">第007章:遇见(07)</a></li><li data-rid="7"><a href="//www.hongxiu.com/chapter/12115534503935401/32851275312495098" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/32851275312495098" title="首发时间:1年前 章节字数:2096">第008章:遇见(08)</a></li><li data-rid="8"><a href="//www.hongxiu.com/chapter/12115534503935401/32888232443113212" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/32888232443113212" title="首发时间:1年前 章节字数:1893">第010章:遇见(10)</a></li><li data-rid="9"><a href="//www.hongxiu.com/chapter/12115534503935401/32911747381675974" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/32911747381675974" title="首发时间:1年前 章节字数:2071">第011章:接触(01)</a></li><li data-rid="10"><a href="//www.hongxiu.com/chapter/12115534503935401/32960306012139026" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/32960306012139026" title="首发时间:1年前 章节字数:1846">第013章:接触(03)</a></li><li data-rid="11"><a href="//www.hongxiu.com/chapter/12115534503935401/32981727966415590" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/32981727966415590" title="首发时间:1年前 章节字数:1621">第014章:接触(04)</a></li><li data-rid="12"><a href="//www.hongxiu.com/chapter/12115534503935401/33003563861939667" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33003563861939667" title="首发时间:1年前 章节字数:2341">第015章:接触(05)</a></li><li data-rid="13"><a href="//www.hongxiu.com/chapter/12115534503935401/33026912385010146" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33026912385010146" title="首发时间:1年前 章节字数:1803">第016章:接触(06)</a></li><li data-rid="14"><a href="//www.hongxiu.com/chapter/12115534503935401/33049946565090451" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33049946565090451" title="首发时间:1年前 章节字数:1730">第017章:接触(07)</a></li><li data-rid="15"><a href="//www.hongxiu.com/chapter/12115534503935401/33083118458169059" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33083118458169059" title="首发时间:1年前 章节字数:1951">第018章:接触(08)</a></li><li data-rid="16"><a href="//www.hongxiu.com/chapter/12115534503935401/33102765537226714" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33102765537226714" title="首发时间:1年前 章节字数:2055">第019章:接触(09)</a></li><li data-rid="17"><a href="//www.hongxiu.com/chapter/12115534503935401/33125717014721576" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33125717014721576" title="首发时间:1年前 章节字数:1951">第020章:接触(10)</a></li><li data-rid="18"><a href="//www.hongxiu.com/chapter/12115534503935401/33145123839271659" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33145123839271659" title="首发时间:1年前 章节字数:1807">第021章:帮助(01)</a></li><li data-rid="19"><a href="//www.hongxiu.com/chapter/12115534503935401/33172022670399572" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33172022670399572" title="首发时间:1年前 章节字数:1946">第022章:帮助(02)</a></li><li data-rid="20"><a href="//www.hongxiu.com/chapter/12115534503935401/33189261317060847" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33189261317060847" title="首发时间:1年前 章节字数:1614">第023章:帮助(03)</a></li><li data-rid="21"><a href="//www.hongxiu.com/chapter/12115534503935401/33218327519503890" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33218327519503890" title="首发时间:1年前 章节字数:2077">第024章:帮助(04)</a></li><li data-rid="22"><a href="//www.hongxiu.com/chapter/12115534503935401/33241840865289336" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33241840865289336" title="首发时间:1年前 章节字数:2217">第025章:帮助(05)</a></li><li data-rid="23"><a href="//www.hongxiu.com/chapter/12115534503935401/33283074685970236" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33283074685970236" title="首发时间:1年前 章节字数:2393">第027章:帮助(07)</a></li><li data-rid="24"><a href="//www.hongxiu.com/chapter/12115534503935401/33305862701881669" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33305862701881669" title="首发时间:1年前 章节字数:1906">第028章:帮助(08)</a></li><li data-rid="25"><a href="//www.hongxiu.com/chapter/12115534503935401/33330424821882499" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33330424821882499" title="首发时间:1年前 章节字数:2006">第029章:帮助(09)</a></li><li data-rid="26"><a href="//www.hongxiu.com/chapter/12115534503935401/33364908029558290" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33364908029558290" title="首发时间:1年前 章节字数:1971">第030章:帮助(10)</a></li><li data-rid="27"><a href="//www.hongxiu.com/chapter/12115534503935401/33380274639489723" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33380274639489723" title="首发时间:1年前 章节字数:2407">第031章:同居(01)</a></li><li data-rid="28"><a href="//www.hongxiu.com/chapter/12115534503935401/33398477768061760" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33398477768061760" title="首发时间:1年前 章节字数:2318">第032章:同居(02)</a></li><li data-rid="29"><a href="//www.hongxiu.com/chapter/12115534503935401/33421111461487804" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33421111461487804" title="首发时间:1年前 章节字数:2752">第033章:同居(03)</a></li><li data-rid="30"><a href="//www.hongxiu.com/chapter/12115534503935401/33445583362777159" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33445583362777159" title="首发时间:1年前 章节字数:2657">第034章:同居(04)</a></li><li data-rid="31"><a href="//www.hongxiu.com/chapter/12115534503935401/33470146814976736" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33470146814976736" title="首发时间:1年前 章节字数:2198">第035章:同居(05)</a></li><li data-rid="32"><a href="//www.hongxiu.com/chapter/12115534503935401/33492452211555331" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33492452211555331" title="首发时间:1年前 章节字数:2738">第036章:同居(06)</a></li><li data-rid="33"><a href="//www.hongxiu.com/chapter/12115534503935401/33529014995820251" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33529014995820251" title="首发时间:1年前 章节字数:2011">第037章:同居(07)</a></li><li data-rid="34"><a href="//www.hongxiu.com/chapter/12115534503935401/33583380143483813" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33583380143483813" title="首发时间:1年前 章节字数:2618">第040章:同居(10)</a></li><li data-rid="35"><a href="//www.hongxiu.com/chapter/12115534503935401/33722534416937668" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33722534416937668" title="首发时间:1年前 章节字数:2749">第046章:交往(06)</a></li><li data-rid="36"><a href="//www.hongxiu.com/chapter/12115534503935401/33747333264232260" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33747333264232260" title="首发时间:1年前 章节字数:1978">第047章:交往(07)</a></li><li data-rid="37"><a href="//www.hongxiu.com/chapter/12115534503935401/33769002466296676" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33769002466296676" title="首发时间:1年前 章节字数:3207">第048章:交往(08)</a></li><li data-rid="38"><a href="//www.hongxiu.com/chapter/12115534503935401/33816428821177948" target="_blank" data-cid="//www.hongxiu.com/chapter/12115534503935401/33816428821177948" title="首发时间:1年前 章节字数:1679">第050章:交往(10)</a>"""selector=etree.HTML(html)
a=selector.xpath('//@href')
index=1
for i in a:q='http:'url=q+iif url == 'https://www.hongxiu.com/lastPage/12115534503935401':breakelse:response=requests.get(url)response.encoding='utf-8'selector=etree.HTML(response.text)b=selector.xpath('//div/p')print('第{}章'.format(index))for l in b:print(l.text)index=index+1

使用sublime text运行上面代码,结果如下图所示
然后把下面的文字复制粘贴到记事本里面保存即可阅读了。

第一次在CSDN上写东西,如果哪里写得不好请见谅啊,希望对你们有帮助。

Python爬虫之爬取网络小说并在本地保存为txt文件相关推荐

  1. python爬虫下载小说_用PYTHON爬虫简单爬取网络小说

    用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...

  2. 用PYTHON爬虫简单爬取网络小说

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  3. Python爬虫练习 爬取网络小说保存到txt

    原文链接:https://yetingyun.blog.csdn.net/article/details/107916769 创作不易,未经作者允许,禁止转载,更勿做其他用途,违者必究. 利用 Pyt ...

  4. Python 爬虫 之 爬取古代的诗歌,并保存本地(这里以爬取李白的所有诗歌为例)(以备作为AI写诗的训练数据)

    Python 爬虫 之 爬取古代的诗歌,并保存本地(这里以爬取李白的所有诗歌为例)(以备作为AI写诗的训练数据) 目录

  5. python爬取小说写入txt_Python爬虫练习 爬取网络小说保存到txt

    利用python爬虫爬取网络小说保存到txt,熟悉利用python抓取文本数据的方法. 选取其中某一章,检查网页,可以找到这本小说所有章节的链接和名称. 写出xpath表达式提取出href里的内容:/ ...

  6. 初识Python爬虫----如何爬取网络数据

    一.什么是网络爬虫 即爬取网络数据的虫子,也就是Python程序. 二.爬虫的实质是什么? 模拟浏览器的工作原理,向服务器发送请求数据. 三.浏览器的工作原理是什么? 浏览器还可以起到翻译数据的作用. ...

  7. 【网络爬虫】爬取网络小说并保存为txt

    爬虫爬取网络小说并保存为txt文件 最近突然想看小说,但是苦于无法下载为txt,于是秉持着"自己动手,丰衣足食"的原则,自己写了一个爬虫,仅供参考~ 这里就以火星引力的<逆天 ...

  8. Python爬虫:爬取17K小说

    基本配置: Python版本:3.6 相关模块: from bs4 import BeautifulSoup import requests, sys ''' 遇到不懂的问题?Python学习交流群: ...

  9. python爬虫之爬取网站小说

    继上次的使用类的方法爬取的单页单章小说后,在准备爬取整部小说,遇到点困难,先用函数式编程试试结果. 代码如下: ''' 函数式编程 17K小说网爬取龙井迷案小说 '''# 导入第三方库 import ...

最新文章

  1. (第六场)Singing Contest 【模拟】
  2. 第一百七十二节,jQuery,动画效果
  3. vsFTP服务器的配置
  4. Java项目出现的问题01----学习
  5. 排序算法 - 面试中的排序算法总结
  6. 51nod1325-两棵树的问题【最大权闭合图,网络流】
  7. 云小课|聊一聊DRS的数据过滤特性
  8. “我们完全误解了区块链!”
  9. 纽约部署免费千兆Wi-Fi 30秒可下一部电影
  10. Android学习——Fragment动态加载
  11. oracle 和mysql有什么区别_mysql和oracle的区别有哪些
  12. vue+webpack实现一个todolist
  13. GitHub官网入门教程翻译
  14. 关于加快OpenCV下载速度的解决方法
  15. 谈谈小游戏加载优化及资源分配
  16. spring不停机部署_关于不停机部署方案的选择
  17. 【java实现控制台打印表格】
  18. springboot实现pdf里面插入图片
  19. c语言strcpy两字符串长度不同,(C语言)自己写字符串操作函数(一)——strlen/strcpy/strcat/strcmp/st...
  20. mysql gui vim_Vim 有什么奇技淫巧?

热门文章

  1. MYSQL查询后出现中文乱码怎么办
  2. 云南大学计算机保护一志愿吗,21考研同学们,这些211院校明确保护一志愿!pick、pick、pick...
  3. storm中的乐器 wolven_原创吉他谱!破碎之花任务中普西拉演唱的 The Wolven Storm
  4. linux远程root拒绝,ubuntu拒绝root用户ssh远程登录解决办法
  5. 什么是EOS(不一样的角度看柚子)
  6. 赠书 | 1月以来 Tether 增发47亿 USDT,美元都去哪儿了?
  7. 2018年10月1日起,养老建筑设计须依照此标准
  8. Android 集成微信支付和支付宝支付工具类
  9. 金融科技:贷款平台搭建方案分享
  10. win10企业版2016长期服务版激活