python 主线程 等待 子线程 知乎_[Python] 知乎多线程爬虫
知乎多线程爬取问题:
自打放了寒假,我就一直想把系统的学习一遍Python爬虫的知识。因为以前只是零碎的学习,造成许多东西都只是一知半解。
项目灵感来源是觉得单曲循环的歌至少让一个人曾经在聆听中感动过,歌曲的歌词中或许有触动他的旋律,也可能只是歌词恰巧与他的人生经历相似。不论怎样,我觉得能让一个人单曲循环的歌必定不差,所以就希望能获得这些歌曲名称并在网易云生成歌单。
然而,当我看到各位答主的答案后,我就发现有点麻烦了。
比如:
南山南
----------------我是不安分的分割线---------好多评论里的小伙伴说不得不推荐 傲寒 也是马頔歌曲里我爱的一首 如果说 南山南是一见钟情 被开头的“你在南方的艳阳天 大雪纷飞 我在北方的寒夜里四季如春”惊艳到 一点也不为过 而傲寒 更多是日久生情“如果全世界对你恶语相加 我就对你说上一世情话” 这么美的歌词 还是在我某天一大凌晨苦逼化妆中猛然注意到的
并且由于这两首歌 我下定了要学吉他的年头 并且我已经单曲循环了两周了 还没厌 良心推荐
作者:JoyHsu
我发现有不少答案中歌名是和其它话混在一起的,那这样的情况怎么处理呢?
很自然的,我想起来了自然语言处理,奈何寒假还没时间看NLTK库,不过我倒是知道jieba这个中文分词库,然后就直接试了一下,分出来的结果是这样的:
南山|n 南|n -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w 我|r 是|v 不安|a 分|v 的|u 分割线|n -|w -|w -|w -|w -|w -|w -|w -|w -|w 好多|m 评论|v 里|n 的|u 小|a 伙伴|n 说|v 不得|v 不|d 推荐|v 傲|a 寒|a 也|d 是|v 马|n 頔|n 歌曲|n 里|n 我|r 爱|v 的|u 一|m 首|q 如果|c 说|v 南山|n 南|n 是|v 一|m 见|v 钟情|n 被|p 开头|v 的|u 你|r 在|p 南方|n 的|u 艳阳天|n 大雪|n 纷飞|v 我|r 在|p 北方|n 的|u 寒|a 夜里|n 四|m 季|n 如春|v 惊艳|v 到|v 一点|m 也|d 不|d 为|p 过|v 而|c 傲|a 寒|a 更多|d 是|v 日|n 久|a 生情|v 如果|c 全世界|n 对|p 你|r 恶语|n 相|d 加|v 我|r 就|d 对|p 你|r 说|v 上|n 一世|n 情话|n 这么|r 美的|n 歌词|n 还是|d 在|p 我|r 某|r 天|n 一|m 大|a 凌晨|n 苦|a 逼|v 化妆|v 中|n 猛然|d 注意|v 到|v 的|u 并且|c 由于|c 这|r 两首|n 歌|n 我|r 下定|v 了|u 要|v 学|v 吉他|n 的|u 年头|n 并且|c 我|r 已经|d 单曲|n 循环|v 了|u 两|m 周|n 了|u 还|d 没|d 厌|v 良心|n 推荐|v
看到了吧,南山和南被分了出来,然而南山南却没有分出来,傲寒也没有分出来,因为用的语料库都是很久以前的词语,不可能有歌名这种词语,然后我一度停了好几天都在思考怎么解决。
还是无法解决,因为以我目前匮乏的专业知识只凭借瞎想是没有作用的。
然后我继续分析,发现有好多人都会使用书名号《》来引用歌名。
比如:
五月天《步步》
类似这样的答案还是挺多的,我就直接拿正则匹配书名号里面的内容。
关于程序,知乎登录部分是参考知乎上的一个回答(@xchaoinfo)。
我自己尝试把爬虫分成了解析器(parser),数据流存储器(store),以及规则器(rules),实际上写的很low。不过也算有了那么点意思。
然后就是加了多线程,关于多线程的使用,我实测对于爬虫的效率绝对是有用的,因为爬虫大部分时间都是等待服务器响应然后下载,所以多线程完全可以把等待的这部分时间来并行处理,节省时间。
关于存储这一部分,有很多选择,你完全可以简单选择存储到文本文件,也可以存储到excel文件,最好是存储到数据库,使用起来会极大的方便。所以我一开始是学了Python的sqlite3模块,为了省事,因为sqlite3是自带的。我在会给出一些我学习看到的好的教程。
最后我想提的是,对于BeautifulSoup vs. lxml的效率。以前也没用过lxml,也没觉得bs慢,直到我用了它以后,我估计以后再也不想用bs了
首先是bs不支持xpath语法选择
重点是bs的效率是真的跟lxml差了好多倍
我感觉xpath可以实现简化,因为你通过它抽取一个特定的元素只需要一个字符创(此处也许有人说bs的select也可以实现啊),但是事实上bs对css selector支持的并不是特别好,而且抛开效率不谈,xpath功能很丰富啊,还有很多函数以及操作符可以使用,如果你认真学习它的话,文末我也会附上教程链接。
我写的代码实在是渣,写代码量太少了。
可以优化的点,爬虫结构的抽象,异常机制的使用,!!日志的使用。
参考链接:
代码链接:
爬取结果:
链接:excel文件 密码:c7wt
原定计划是后续处理每一个歌名在网易云里面通过API插曲评论数目,以评论数目作为关键字排序,然后创建一个歌单。
哇哇~~想想还是蛮有意思的@_@
最后,祝大家新的一年,学到更多的知识。
python 主线程 等待 子线程 知乎_[Python] 知乎多线程爬虫相关推荐
- c++主线程等待子线程结束_简单明了的 Python 多线程来了 | 原力计划
作者 | 万里羊责编 | 王晓曼出品 | CSDN博客线程和进程计算机的核心是CPU,它承担了所有的计算任务,就像是一座工厂在时刻运行.如果工厂的资源有限,一次只能供一个车间来使用,也就是说当一个车间 ...
- Java并发编程原理与实战六:主线程等待子线程解决方案
Java并发编程原理与实战六:主线程等待子线程解决方案 参考文章: (1)Java并发编程原理与实战六:主线程等待子线程解决方案 (2)https://www.cnblogs.com/pony1223 ...
- 【多线程】学习记录七种主线程等待子线程结束之后在执行的方法
最近遇到一个问题需要主线程等待所有的子线程结束,才能开始执行,统计所有的子线程执行结果,返回,网上翻阅各种资料,最后记录一下,找到七种方案 第一种:while循环 对于"等待所有的子线程结束 ...
- java 主线程等待_Java实现主线程等待子线程
本文介绍两种主线程等待子线程的实现方式,以5个子线程来说明: 1.使用Thread的join()方法,join()方法会阻塞主线程继续向下执行. 2.使用Java.util.concurrent中的C ...
- Java多线程之----主线程会等待子线程结束再结束么,怎么让主线程等待子线程结束呐?
首先给出结论: 主线程和子线程之间没有谁先谁后结束这种关联,它们只是各自负责自己的线程任务,如果该线程的任务结束了,该线程自然会结束运行. talk is cheap,show me the code ...
- 如何实现java主线程等待子线程执行完毕之后再执行?
本文转自:问题:如何实现java主线程等待子线程执行完毕之后再执行? - jseven - 博客园 点击关注强哥,查看更多精彩文章呀 工作总往往会遇到异步去执行某段逻辑, 然后先处理其他事情, 处理完 ...
- Java主线程等待子线程、线程池
public class TestThread extends Thread { public void run() { System.out.println(this.getName() + &qu ...
- java等待5秒_Java并发编程-主线程等待子线程解决方案
主线程等待所有子线程执行完成之后,再继续往下执行的解决方案 public class TestThread extends Thread { public void run() { System.ou ...
- python主线程和子线程_python 在threading中如何处理主进程和子线程的关系
之前用python的多线程,总是处理不好进程和线程之间的关系.后来发现了join和setDaemon函数,才终于弄明白.下面总结一下. 1.使用join函数后,主进程会在调用join的地方等待子线程结 ...
最新文章
- 如何matlab导入邻接矩阵,“excel如何做矩阵“matlab中读取excle中的邻接矩阵
- Matlab如何读取文本文件
- 【Vegas原创】添加SQL Server Agent作业步骤中的运行身份
- 再谈 BigInteger - 使用快速傅里叶变换
- 北航博士,研究所月入两万,是一种什么体验?
- 计算机的操作系统的那个好,电脑操作系统哪个最好用?
- gps天线拆解图片_GPS天线原理
- ubuntu20.04安装ROS极简教程 (noetic)
- 人人商城小程序总是弹出“百度未授权使用地图API”的解决方法
- mmWave AWR1x Interference Detection - A crucial step to effective mitigation
- 蚁群算法原理及其实现(python)
- 雨人网络E卡通免费上网的方法
- DOS命令行界面打开文件
- 文件存储-CephFS
- [视频访谈翻译]David Kaneda访谈:移动HTML5设计和开发
- 计算机语言栏在哪里,win7语言栏不见了怎么办,教您win7系统语言栏不见了怎么办...
- (硅谷课堂项目)Java开发笔记4:前端基础知识(二)
- Windows系统下CMD添加删除用户、用户组
- Access to XMLHttpRequest at ‘http://localhost:8000/v1/users/staffs/‘ from origin ‘http://loca 报错
- Python代码计算素数(质数)