功能:爬取并下载小说中非vip部分的内容。

对于一个有八九年书龄的老书虫而言,遇到想看的小说,却没有找到下载的窗口,每次阅读都需要网上搜索,特别是网不好的地方,是十分不方便的。因此利用python写了爬取小说的代码。

以爬取笔趣阁中的求魔小说为例。

  • 首先,打开笔趣阁网站,找到求魔这本小说,网址为:https://www.biquge.info/10_10142/。
  • 打开vs code软件(本人采用vs coede写python),导入数据包。
import requests
import parsel
from lxml import etree
import os

  • 获得所有章节的网址。

利用request获得网页内容。

response = requests.get('https://www.biquge.info/10_10142/')
response.encoding = response.apparent_encoding             #对网页进行解析,防止网页乱码

利用xpath获得每一个章节的地址。

html = etree.HTML(response.text)
url_s = html.xpath('//*[@id="list"]/dl/dd')    #url_s里存放所有章节地址

  • 爬取每一个章节内容。

获得要爬取章节的地址。

for url in url_s:url_one = url.xpath('./a/@href')print('https://www.booktxt.net/5_5871/' +url_one[0])download_one_chapter('https://www.booktxt.net/5_5871/' +url_one[0])

对单个章节内容进行爬取。

def download_one_chapter(url):#爬取一章response = requests.get(url)                              #请求网页,获取网页数据response.encoding = response.apparent_encoding            #解决乱码问题 万能解码sel = parsel.Selector(response.text)                      #将字符串变成网页#########爬取文章标题###############h1 = sel.css('h1::text')                         #css选择器  'h1::text'将对象变为字符串title = h1.get()if os.path.exists('txt/' +title +'.txt'):return print(title)#########爬取文章内容content = sel.css('#content::text')title = h1.get()lines = content.getall()text = ''for line in lines:text += line.strip() + 'n'

  • 对每一章的内容进行保存。

建立txt文件夹,每一章内容保存在该文件夹中。

 with open('txt/' +title +'.txt','w',encoding = 'utf-8') as f:f.write(title)f.write(text)  

代码:https://github.com/kj267123-wu/python-

python按章节分割txt_python爬虫,爬取小说相关推荐

  1. python爬取小说写入txt_Python爬虫爬取小说,并保存至本地文本文件中

    运行环境:Python3.6.Pycharm2017.3.Windows10 RS3.requests2.18.4.BeautifulSoup4.6.0 简介 运行效果展示 ① book136_sin ...

  2. node爬虫爬取小说

    node爬虫爬取小说 node爬虫爬取小说 直接上代码 node爬虫爬取小说 最近发现自己喜欢的一个小说无法下载,网页版广告太多,操作太难受,只能自己写个爬虫把内容爬下来放在阅读器里面看 项目下载地址 ...

  3. Python爬虫—爬取小说名著

    周末闲来无事,本来想看一看书的,结果也没看进去(RNG输的我真是糟心...) 于是就用python写了一个爬虫,来爬取小说来看,防止下次还要去网上找书看. 我们先找一个看名著的小说网 我们打开http ...

  4. python爬取晋江小说简介_python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇...

    知识就像碎布,记得"缝一缝",你才能华丽丽地亮相. 1.Beautiful Soup 1.Beautifulsoup 简介 此次实战从网上爬取小说,需要使用到Beautiful S ...

  5. python 爬虫爬取小说信息

    1.进入小说主页(以下示例是我在网上随便找的一片小说),获取该小说的名称.作者以及相关描述信息 2.获取该小说的所有章节列表信息(最重要的是每个章节的链接地址href) 3.根据每个章节的地址信息下载 ...

  6. python爬虫爬取小说网站并转换为语音文件

    前言 作为一个技术宅,本着为眼睛着想的角度考虑,能少看屏幕就尽量少看屏幕,可是又是一个小说迷,那就开动脑筋爬一下小说转换成语音来听书吧 第一章:爬取小说文件 把目标定在小说存储量比较大的网站:起点中文 ...

  7. Python爬虫爬取小说

    近来闲的无聊,天天逛CSDN看到python多火热多火热,就自己根据教程学习爬虫,参考了好几个博文,忘了地址是啥就不贴出来了 开发工具:PcCharm 开发环境:Python3.8 这次爬取的小说网站 ...

  8. python解析网页数据_python爬虫——爬取网页数据和解析数据

    1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...

  9. 关于python爬虫爬取小说

    写了一个下载小说的爬虫,具体代码如下: 现在就是有一个问题,如何在不打乱章节顺序的情况下提高爬取的速度呢??? from urllib.parse import quote import reques ...

最新文章

  1. 通过Scroller.js制作上拉加载和下拉刷新
  2. input子系统分析(转)
  3. 【转】数据库设计:物理结构设计
  4. echarts grid的样式位置_vue使用Echarts vue使用Echarts滚动条
  5. Java中高级核心知识全面解析——常用框架(SpringMVC-工作原理详解)
  6. mac 下chrome 和 微信web开发工具跨域配置
  7. SQLServer IP不能登录问题解决
  8. 取得数组最大值与最小值
  9. Python 中的map和reduce学习笔记
  10. 如何实现BootStrapTable的动态表格
  11. Ionic3与Angular4新特性
  12. 大数据项目实训总结_最详细大数据项目落地路线图实践总结
  13. 解决VST插件无法加载之sam音架的配置
  14. 档案管理制度计算机管理制度,档案管理制度保密制度
  15. Android之使用自定义华为扫描SDK扫描二维码和识别本地图片
  16. html5流媒体多浏览器,PearPlayer流媒体播放器 v2.5.6(开源HTML5流媒体播放框架)
  17. 在wget中指定代理服务器
  18. javascript音乐播放器
  19. 插件系统分析及Discuz插件实现
  20. comsol移动网格_[转载]COMSOL动网格调试

热门文章

  1. C++ 对二维数组排序 升序 降序
  2. 【Python】如何在文件夹里批量分割图片?
  3. [云炬创业基础笔记]第十一章创业计划书测试1
  4. [云炬创业基础笔记] 第四章测试3
  5. 台湾大学林轩田机器学习基石课程学习笔记7 -- The VC Dimension
  6. python numpy 子数组_Python快速转换numpy数组中Nan和Inf的方法实例说明
  7. Python类与对象技巧(2):拓展子类属性
  8. 普211标准三维EE零基础转CS申
  9. 三个很有用的sqlserver中的处理多个以分隔符分隔的参数的函数
  10. ffmpeg本地编译没有ffplay解决方案