爬虫# 系列##关于多线程爬取小说排序混乱的问题文章目录

文章目录

  • 前言
  • 一、下载章节单独一个txt文件
  • 二、小说章节名字格式化
    • 1.提取小说章节时的格式化
    • 2.章节写入时的格式化 即 字数统一
  • 总结

前言

在多线程爬取小说的时候如果整体放入一个txt文件的话 章节顺序 会混乱 导致无法正常阅读
同时翻阅其他人写的程序之后 发现都太复杂了 所以我给大家带来了一个更加简单的方法

一、下载章节单独一个txt文件

这样做的好处就是win10系统会自动对章节进行排序看起来也更加整齐
就像这样 系统会自动排序 后面说一下如何格式化章节名字 让系统理解我们想要的排序

二、小说章节名字格式化

1.提取小说章节时的格式化

在我们提取章节名字之后 可以直接用re 库 去提取章节里面的数字 即章节的序号 同时 章节会有一些作者的个人感言 或者感谢 这些通常是不带有数字的
这样做还可以顺便过滤掉这些章节 一举两得

2.章节写入时的格式化 即 字数统一

在上一步之后 如果不进行任何处理 会发现 章节 是 1 2 3 4 5 .。。 。。。10.。。100.。
在进行合并的时候 会发现10 会合并到1的前面 那么如何处理呢
那就是 格式化章节的字数 即 1格式化为 001, 002, 003 .。。等
代码如下 直接 if判断就好了

如果这个具体添加到几千个章节 或者说 前面添加几个0 要看具体小说会有多少章节 一般的话 1000+章节 就可以了
这样下来 会发现我们爬取的小说章节名字已经全部格式化了
很整齐 下面就进行最简单的一步了 合并 先上代码
这里有两个time延时 经过我的测试 可能是系统需要时间进行处理 1000+章节2秒的延时完全可以处理完
我们使用os.popen 即系统的cmd命令进行*.txt格式文件的合并

type *.txt 表示当前文件夹下面的所有txt文件

C:\Users\wjyalmj\Desktop\p.txt’
这个代表了你要合并的文件保存的路径 我保存到了桌面 你们可以自行选择路径 最后的p.txt 是你要保存的文件名 我就随便写了一个
同时我们会发现 文件里面 还有将近上千个单独的章节文件
可以使用
os.popen(‘del *.txt’) 命令
因为我们已经把成品 即合并后的文件保存到了桌面 所以 如果你不再需要这些单独的章节的话 可以使用这个命令删除掉 同时 也需要2秒的延时 让系统去处理

我们去看一下成品

桌面上多了一个文件 同时 爬取下来的单独文件章节 已经删除

检查一下 发现顺序完全正确

总结

我们入门阶段 可能没办法理解那些太复杂的排序 不过我们可以先尝试使用以下其他方法去先实现我们的目的 再去慢慢去学习 优化

好了 文章就结束了 谢谢大家的阅读 有什么问题可以留言或者私信我

关于多线程爬取小说排序混乱的问题相关推荐

  1. python多线程爬虫数据顺序_多线程爬取小说时如何保证章节的顺序

    前言 爬取小说时,以每一个章节为一个线程进行爬取,如果不加以控制的话,保存的时候各个章节之间的顺序会乱掉. 当然,这里说的是一本小说保存为单个txt文件,如果以每个章节为一个txt文件,自然不会存在这 ...

  2. python爬虫实例之——多线程爬取小说

    之前写过一篇爬取小说的博客,但是单线程爬取速度太慢了,之前爬取一部小说花了700多秒,1秒两章的速度有点让人难以接受. 所以弄了个多线程的爬虫. 这次的思路和之前的不一样,之前是一章一章的爬,每爬一章 ...

  3. Python多线程爬取小说网站小说

    问题阐述 爬取网站小说,这里我们以努努书坊中爬取刘慈欣的小说球状闪电为例子! 技术支持 python多线程 request+beautifulSoup解析网页 代码演示[直接粘贴即可运行] impor ...

  4. Python网络爬虫(二):多线程爬取小说

    这里我们爬取的小说是网站:笔趣阁,其中一本小说:一念永恒. (一)准备阶段 1.网站URL:http://www.biqukan.com/1_1094/ 2.浏览器:搜狗 3.我们打开网址,找到搜狗浏 ...

  5. 多进程爬虫(爬取小说)Python实现

    区别于之前用多协程写的爬虫版本 多协程爬取小说 这个版本,开销会比较大.效率上也不一定有之前的高 不过,总体上还是很不错的~ 问题分析 这个版本,还有之前的版本都一样,还存在问题,就是在下载好了文件之 ...

  6. Python实战:爬取小说《盗墓笔记》

    Python实战:爬取小说<盗墓笔记> 题目要求 从网页 http://www.daomubiji.com/中可以看到<盗墓笔记>的每一本书,点开能够查看每一本书的具体内容.现 ...

  7. 【Python 爬虫】多线程爬取

    文章目录 前言 一.多进程库(multiprocessing) 二.多线程爬虫 三.案例实操 四.案例解析 1.获取网页内容 2.获取每一章链接 3.获取每一章的正文并返回章节名和正文 4.将每一章保 ...

  8. 爬取小说2--协程间通信Python

    通过Python进行协程间通信,大大加速爬取效率. 前言 是这样的,在之前的爬虫版本中,我们通过并发技术(python协程只是并发).实现快速爬取小说的效果. 将速度提高为原来的几百倍了.但是却由于之 ...

  9. 还不知道要看什么小说嘛?爬取小说网站前10页的小说数据分析一波

    爬取小说数据 效果 网页分析 网页网址分析 书内容位置分析 不同书内容位置分析 将内容存到Excel 完整代码 效果 网页分析 网页网址分析 对比我们可以发现,不同的网页只有后边的数字不一样. 得到前 ...

  10. 看小说有广告?不可能的,分分钟教你爬取小说

    爬取小说 效果 分析网页 正则表达式分析 请求头分析 完整代码 可能出现的错误 效果 分析网页 我们可以看到 小说的章节的标题与对应的链接是在<dd></dd>这个节点中的. ...

最新文章

  1. extern C __declspec(dllexport) __declspec(dllimport) 和 def
  2. sql删除过程的命令是什么_一个删除表字段的自动化执行工单的思考
  3. android 数字证书具体应用机制
  4. linux常用运维命令【转】
  5. Python中type()详解:动态创建类
  6. pexpect oracle,expect免交互脚本编程
  7. 前端学习(1755):前端调试值之如何监控统计没有用到的脚本
  8. Web开发中需要注意的地方
  9. Android轻量级日志管理框架
  10. Linux目录树与文件系统
  11. iOS系统什么天气app可以访问锁屏?
  12. python爬虫反爬策略_用Python语言做爬虫有哪些策略可以对抗反爬虫?
  13. CocoaPods升级安装三方库报错
  14. python实验总结心得体会_如何更有效地“肝”论文?这里有份最全工具总结
  15. codeIgniter3 学习笔记五(表单验证)
  16. 腾讯云买服务器密码,腾讯云服务器初始密码是什么?
  17. 学习笔记 Tianmao 篇 OkHttp 网络的使用
  18. 计算机分盘介质受写入保护,在win7中,U盘新建文件提示“介质受写入保护”怎么回事?...
  19. VMware14虚拟机安装苹果系统
  20. 【MyBatis】 动态SQL——模糊查询 LIKE

热门文章

  1. PageOffice 安装使用说明
  2. windows系统解决程序端口号被占用
  3. 快快云安全,网站被劫持怎么办
  4. 网络工程师有什么发展?
  5. 机械制造作业考研题目答案分享——回转体的加工
  6. 永恒之蓝(ms17-010)漏洞简介及复现
  7. JS/JQuery如何判断文本中是否有繁体字
  8. so easy! 10行代码写个狗屁不通文章生成器
  9. 那些年,我追过的经典电视剧
  10. 产业分析:视频云服务行业