关于多线程爬取小说排序混乱的问题
爬虫# 系列##关于多线程爬取小说排序混乱的问题文章目录
文章目录
- 前言
- 一、下载章节单独一个txt文件
- 二、小说章节名字格式化
- 1.提取小说章节时的格式化
- 2.章节写入时的格式化 即 字数统一
- 总结
前言
在多线程爬取小说的时候如果整体放入一个txt文件的话 章节顺序 会混乱 导致无法正常阅读
同时翻阅其他人写的程序之后 发现都太复杂了 所以我给大家带来了一个更加简单的方法
一、下载章节单独一个txt文件
这样做的好处就是win10系统会自动对章节进行排序看起来也更加整齐
就像这样 系统会自动排序 后面说一下如何格式化章节名字 让系统理解我们想要的排序
二、小说章节名字格式化
1.提取小说章节时的格式化
在我们提取章节名字之后 可以直接用re 库 去提取章节里面的数字 即章节的序号 同时 章节会有一些作者的个人感言 或者感谢 这些通常是不带有数字的
这样做还可以顺便过滤掉这些章节 一举两得
2.章节写入时的格式化 即 字数统一
在上一步之后 如果不进行任何处理 会发现 章节 是 1 2 3 4 5 .。。 。。。10.。。100.。
在进行合并的时候 会发现10 会合并到1的前面 那么如何处理呢
那就是 格式化章节的字数 即 1格式化为 001, 002, 003 .。。等
代码如下 直接 if判断就好了
如果这个具体添加到几千个章节 或者说 前面添加几个0 要看具体小说会有多少章节 一般的话 1000+章节 就可以了
这样下来 会发现我们爬取的小说章节名字已经全部格式化了
很整齐 下面就进行最简单的一步了 合并 先上代码
这里有两个time延时 经过我的测试 可能是系统需要时间进行处理 1000+章节2秒的延时完全可以处理完
我们使用os.popen 即系统的cmd命令进行*.txt格式文件的合并
type *.txt 表示当前文件夹下面的所有txt文件
C:\Users\wjyalmj\Desktop\p.txt’
这个代表了你要合并的文件保存的路径 我保存到了桌面 你们可以自行选择路径 最后的p.txt 是你要保存的文件名 我就随便写了一个
同时我们会发现 文件里面 还有将近上千个单独的章节文件
可以使用
os.popen(‘del *.txt’) 命令
因为我们已经把成品 即合并后的文件保存到了桌面 所以 如果你不再需要这些单独的章节的话 可以使用这个命令删除掉 同时 也需要2秒的延时 让系统去处理
我们去看一下成品
桌面上多了一个文件 同时 爬取下来的单独文件章节 已经删除
检查一下 发现顺序完全正确
总结
我们入门阶段 可能没办法理解那些太复杂的排序 不过我们可以先尝试使用以下其他方法去先实现我们的目的 再去慢慢去学习 优化
好了 文章就结束了 谢谢大家的阅读 有什么问题可以留言或者私信我
关于多线程爬取小说排序混乱的问题相关推荐
- python多线程爬虫数据顺序_多线程爬取小说时如何保证章节的顺序
前言 爬取小说时,以每一个章节为一个线程进行爬取,如果不加以控制的话,保存的时候各个章节之间的顺序会乱掉. 当然,这里说的是一本小说保存为单个txt文件,如果以每个章节为一个txt文件,自然不会存在这 ...
- python爬虫实例之——多线程爬取小说
之前写过一篇爬取小说的博客,但是单线程爬取速度太慢了,之前爬取一部小说花了700多秒,1秒两章的速度有点让人难以接受. 所以弄了个多线程的爬虫. 这次的思路和之前的不一样,之前是一章一章的爬,每爬一章 ...
- Python多线程爬取小说网站小说
问题阐述 爬取网站小说,这里我们以努努书坊中爬取刘慈欣的小说球状闪电为例子! 技术支持 python多线程 request+beautifulSoup解析网页 代码演示[直接粘贴即可运行] impor ...
- Python网络爬虫(二):多线程爬取小说
这里我们爬取的小说是网站:笔趣阁,其中一本小说:一念永恒. (一)准备阶段 1.网站URL:http://www.biqukan.com/1_1094/ 2.浏览器:搜狗 3.我们打开网址,找到搜狗浏 ...
- 多进程爬虫(爬取小说)Python实现
区别于之前用多协程写的爬虫版本 多协程爬取小说 这个版本,开销会比较大.效率上也不一定有之前的高 不过,总体上还是很不错的~ 问题分析 这个版本,还有之前的版本都一样,还存在问题,就是在下载好了文件之 ...
- Python实战:爬取小说《盗墓笔记》
Python实战:爬取小说<盗墓笔记> 题目要求 从网页 http://www.daomubiji.com/中可以看到<盗墓笔记>的每一本书,点开能够查看每一本书的具体内容.现 ...
- 【Python 爬虫】多线程爬取
文章目录 前言 一.多进程库(multiprocessing) 二.多线程爬虫 三.案例实操 四.案例解析 1.获取网页内容 2.获取每一章链接 3.获取每一章的正文并返回章节名和正文 4.将每一章保 ...
- 爬取小说2--协程间通信Python
通过Python进行协程间通信,大大加速爬取效率. 前言 是这样的,在之前的爬虫版本中,我们通过并发技术(python协程只是并发).实现快速爬取小说的效果. 将速度提高为原来的几百倍了.但是却由于之 ...
- 还不知道要看什么小说嘛?爬取小说网站前10页的小说数据分析一波
爬取小说数据 效果 网页分析 网页网址分析 书内容位置分析 不同书内容位置分析 将内容存到Excel 完整代码 效果 网页分析 网页网址分析 对比我们可以发现,不同的网页只有后边的数字不一样. 得到前 ...
- 看小说有广告?不可能的,分分钟教你爬取小说
爬取小说 效果 分析网页 正则表达式分析 请求头分析 完整代码 可能出现的错误 效果 分析网页 我们可以看到 小说的章节的标题与对应的链接是在<dd></dd>这个节点中的. ...
最新文章
- extern C __declspec(dllexport) __declspec(dllimport) 和 def
- sql删除过程的命令是什么_一个删除表字段的自动化执行工单的思考
- android 数字证书具体应用机制
- linux常用运维命令【转】
- Python中type()详解:动态创建类
- pexpect oracle,expect免交互脚本编程
- 前端学习(1755):前端调试值之如何监控统计没有用到的脚本
- Web开发中需要注意的地方
- Android轻量级日志管理框架
- Linux目录树与文件系统
- iOS系统什么天气app可以访问锁屏?
- python爬虫反爬策略_用Python语言做爬虫有哪些策略可以对抗反爬虫?
- CocoaPods升级安装三方库报错
- python实验总结心得体会_如何更有效地“肝”论文?这里有份最全工具总结
- codeIgniter3 学习笔记五(表单验证)
- 腾讯云买服务器密码,腾讯云服务器初始密码是什么?
- 学习笔记 Tianmao 篇 OkHttp 网络的使用
- 计算机分盘介质受写入保护,在win7中,U盘新建文件提示“介质受写入保护”怎么回事?...
- VMware14虚拟机安装苹果系统
- 【MyBatis】 动态SQL——模糊查询 LIKE