前言

在多线程爬取小说的时候如果整体放入一个txt文件的话章节顺序会混乱导致无法正常阅读
同时翻阅其他人写的程序之后发现都太复杂了所以我给大家带来了一个更加简单的方法

一、下载章节单独一个txt文件

这样做的好处就是win10系统会自动对章节进行排序看起来也更加整齐
就像这样系统会自动排序后面说一下如何格式化章节名字让系统理解我们想要的排序

二、小说章节名字格式化

1.提取小说章节时的格式化

在我们提取章节名字之后可以直接用re 库去提取章节里面的数字即章节的序号同时章节会有一些作者的个人感言或者感谢这些通常是不带有数字的
这样做还可以顺便过滤掉这些章节一举两得

2.章节写入时的格式化即字数统一

在上一步之后如果不进行任何处理会发现章节是 1 2 3 4 5 .。。。。。10.。。100.。
在进行合并的时候会发现10 会合并到1的前面那么如何处理呢
那就是格式化章节的字数即 1格式化为 001， 002， 003 .。。等
代码如下直接 if判断就好了

如果这个具体添加到几千个章节或者说前面添加几个0 要看具体小说会有多少章节一般的话 1000+章节就可以了
这样下来会发现我们爬取的小说章节名字已经全部格式化了
很整齐下面就进行最简单的一步了合并先上代码
这里有两个time延时经过我的测试可能是系统需要时间进行处理 1000+章节2秒的延时完全可以处理完
我们使用os.popen 即系统的cmd命令进行*.txt格式文件的合并

type *.txt 表示当前文件夹下面的所有txt文件

C:\Users\wjyalmj\Desktop\p.txt’
这个代表了你要合并的文件保存的路径我保存到了桌面你们可以自行选择路径最后的p.txt 是你要保存的文件名我就随便写了一个
同时我们会发现文件里面还有将近上千个单独的章节文件
可以使用
os.popen(‘del *.txt’) 命令
因为我们已经把成品即合并后的文件保存到了桌面所以如果你不再需要这些单独的章节的话可以使用这个命令删除掉同时也需要2秒的延时让系统去处理

我们去看一下成品

桌面上多了一个文件同时爬取下来的单独文件章节已经删除

检查一下发现顺序完全正确

总结

我们入门阶段可能没办法理解那些太复杂的排序不过我们可以先尝试使用以下其他方法去先实现我们的目的再去慢慢去学习优化

好了文章就结束了谢谢大家的阅读有什么问题可以留言或者私信我

关于多线程爬取小说排序混乱的问题相关推荐

python多线程爬虫数据顺序_多线程爬取小说时如何保证章节的顺序
前言爬取小说时,以每一个章节为一个线程进行爬取,如果不加以控制的话,保存的时候各个章节之间的顺序会乱掉. 当然,这里说的是一本小说保存为单个txt文件,如果以每个章节为一个txt文件,自然不会存在这 ...
python爬虫实例之——多线程爬取小说
之前写过一篇爬取小说的博客,但是单线程爬取速度太慢了,之前爬取一部小说花了700多秒,1秒两章的速度有点让人难以接受. 所以弄了个多线程的爬虫. 这次的思路和之前的不一样,之前是一章一章的爬,每爬一章 ...
Python多线程爬取小说网站小说
问题阐述爬取网站小说,这里我们以努努书坊中爬取刘慈欣的小说球状闪电为例子! 技术支持 python多线程 request+beautifulSoup解析网页代码演示[直接粘贴即可运行] impor ...
Python网络爬虫（二）：多线程爬取小说
这里我们爬取的小说是网站:笔趣阁,其中一本小说:一念永恒. (一)准备阶段 1.网站URL:http://www.biqukan.com/1_1094/ 2.浏览器:搜狗 3.我们打开网址,找到搜狗浏 ...
多进程爬虫（爬取小说）Python实现
区别于之前用多协程写的爬虫版本多协程爬取小说这个版本,开销会比较大.效率上也不一定有之前的高不过,总体上还是很不错的~ 问题分析这个版本,还有之前的版本都一样,还存在问题,就是在下载好了文件之 ...
Python实战：爬取小说《盗墓笔记》
Python实战:爬取小说<盗墓笔记> 题目要求从网页 http://www.daomubiji.com/中可以看到<盗墓笔记>的每一本书,点开能够查看每一本书的具体内容.现 ...
【Python 爬虫】多线程爬取
文章目录前言一.多进程库(multiprocessing) 二.多线程爬虫三.案例实操四.案例解析 1.获取网页内容 2.获取每一章链接 3.获取每一章的正文并返回章节名和正文 4.将每一章保 ...
爬取小说2--协程间通信Python
通过Python进行协程间通信,大大加速爬取效率. 前言是这样的,在之前的爬虫版本中,我们通过并发技术(python协程只是并发).实现快速爬取小说的效果. 将速度提高为原来的几百倍了.但是却由于之 ...
还不知道要看什么小说嘛？爬取小说网站前10页的小说数据分析一波
爬取小说数据效果网页分析网页网址分析书内容位置分析不同书内容位置分析将内容存到Excel 完整代码效果网页分析网页网址分析对比我们可以发现,不同的网页只有后边的数字不一样. 得到前 ...
看小说有广告？不可能的，分分钟教你爬取小说
爬取小说效果分析网页正则表达式分析请求头分析完整代码可能出现的错误效果分析网页我们可以看到小说的章节的标题与对应的链接是在<dd></dd>这个节点中的. ...

关于多线程爬取小说排序混乱的问题

文章目录

前言

一、下载章节单独一个txt文件

二、小说章节名字格式化

1.提取小说章节时的格式化

2.章节写入时的格式化即字数统一

总结

关于多线程爬取小说排序混乱的问题相关推荐

最新文章

热门文章

关于多线程爬取小说排序混乱的问题

文章目录

前言

一、下载章节单独一个txt文件

二、小说章节名字格式化

1.提取小说章节时的格式化

2.章节写入时的格式化 即 字数统一

总结

关于多线程爬取小说排序混乱的问题相关推荐

最新文章

热门文章

2.章节写入时的格式化即字数统一