# 爬取糗百信息

import threading
from queue import Queue
import requests
from lxml import etree
import time# 最大开启采集线程数(并发数)
concurrent = 3
# 解析并发数
conparse = 3class Crawl(threading.Thread):def __init__(self,i,task_q,data_q):self.task_q = task_qself.data_q = data_qself.i = isuper(Crawl, self).__init__()def run(self):print('%d号采集线程启动' % self.i)while not self.task_q.empty():fullurl = self.task_q.get()response = requests.get(fullurl)if 200 <= response.status_code <= 300:html = response.textdata_q.put(html)else:print('采集异常',response.status_code)time.sleep(1)print('%d号采集线程结束over' % self.i)class Parse(threading.Thread):def __init__(self,i,data_q,crawl_list):self.i = iself.data_q = data_qself.crawl_list = crawl_listself.is_parse = Truesuper(Parse, self).__init__()def run(self):print('%d号解析线程开启' % self.i)# 判断是否结束解析线程条件# 1.采集线程是否存活# 2.数据队列是否为空while True:for t in self.crawl_list:# 判断采集线程是否存活if t.is_alive():breakelse:if self.data_q.empty():self.is_parse = False# 线程有存活的if self.is_parse:try:html = self.data_q.get(timeout=3)self.parse(html)except Exception as e:passelse:breakprint('%d号解析线程结束' % self.i)# 解析页面def parse(self,html):html = etree.HTML(html)nick = html.xpath('//h2/text()')print(nick)if __name__ == '__main__':# 任务队列task_q = Queue()# 数据队列data_q = Queue()base_url = 'https://www.qiushibaike.com/8hr/page/%d/'for i in range(1,13 + 1):fullurl = base_url % itask_q.put(fullurl)#创建采集线程crawl_list = []for i in range(1,concurrent + 1):t = Crawl(i,task_q,data_q)t.start()crawl_list.append(t)#创建解析线程parse_list = []for i in range(conparse):t = Parse(i,data_q,crawl_list)t.start()parse_list.append(t)# 阻塞主进程(等待采集和解析工作完毕)for t in crawl_list:t.join()for t in parse_list:t.join()

# 爬取结果如下:

C:\Users\cz\AppData\Local\Programs\Python\Python35\python.exe E:/Python/python爬虫/14.py
1号采集线程启动
2号采集线程启动
3号采集线程启动
0号解析线程开启
1号解析线程开启
2号解析线程开启
['\n钻戒礼服和我的她\n', '\n蕾丝隐形船袜\n', '\n单身穷哥\n', '匿名用户', '\n流民不是流氓\n', '\n驯猴师\n', '\n半颗真心不喂狗\n', '\n吃了两碗又盛\n', '\n无^_^昵称\n', '\n佩基\n', '\n愛是寂寞撒的谎\n', '\n夕冬温存\n', '\n江关一叶秋\n', '\n野野这小孩很乖\n', '\n江南字子川。\n', '\n鲲鹏九天\n', '\n黄山小妖\n', '匿名用户', '\n安贤3\n', '\n陌上花还未开\n', '\n该用户已渡劫升仙\n', '\n愛是寂寞撒的谎\n', '匿名用户', '\n其实真不糗\n', '\n七良\n']
['\n西湖醋鱼夹生\n', '\n吃了两碗又盛\n', '\n醉笑红尘济南\n', '\n只为你脱裤子\n', '\n礁石_\n', '\n吃了两碗又盛\n', '\n(驹迷)真的爱你\n', '\n婚纱摄影PS修图\n', '\n陈雪2\n', '\n偏执患者。\n', '\n樱落蝶舞\n', '\n星劫\n', '\n天若有情被抢了\n', '\n花七七…\n', '匿名用户', '\n调皮丫头长的美\n', '\n胡子灬哥\n', '匿名用户', '\n坦然平静\n', '\nMs小野猫\n', '\n逗逼模式已完成\n', '\n爱哭的瓶子\n', '\nYCCCCCaaa…\n', '\n夕冬温存\n', '匿名用户']
['\n皇家御赐最佳官人\n', '\n道士下山会女神\n', '\n花七七…\n', '\n用尽一生的恨\n', '\n丙嘣\n', '\n愛是寂寞撒的谎\n', '\n驯猴师\n', '\n1飞翔的雄鹰\n', '\n白百丽儿\n', '\n糖太甜苦瓜太苦\n', '\n风吹屁股蛋子疼\n', '\n倾心倾情%%\n', '\n阳春佐罗\n', '\n周易师叔\n', '\n蜜姐店铺\n', '\n偷情贼\n', '\n花安静\n', '\n11鈫\n', '\n风吹屁股蛋子疼\n', '\n修心徒^^\n', '\n青刺莓\n', '\n吃货最怕饿梦.\n', '\n阿木963\n', '\n抱我51\n', '\n该用户已渡劫升仙\n']
['匿名用户', '\n站上冰箱装高冷\n', '\n表姨父\n', '\n好吃的焦糖饼干………\n', '\n听雨ing\n', '\n墙交术之霉\n', '\n我是煮茶\n', '\n花七七…\n', '\n丫偷儿\n', '\n独宠丽妃\n', '\n吃了两碗又盛\n', '\n抱我51\n', '\n抒情式、情歌\n', '\n爱哭的瓶子\n', '\n婷婷依卓\n', '\n浅浅一笑恰逢你来\n', '\n胖香\n', '匿名用户', '匿名用户', '\n夜~方丈带队上青楼…\n', '匿名用户', '\n别动呗\n', '\n白百丽儿\n', '匿名用户', '\nCapricorn…\n']
['\n在下&瞄人…\n', '\n孤心~魅影\n', '\n娇爷£\n', '\n加气混凝土移动师\n', '\n寂寞的烟0033\n', '\n我家熊孩子不熊\n', '\n赵赵赵小西\n', '\n随时离开\n', '\n林晓九的忧伤哥\n', '\n一个人擦擦地\n', '\n花美男MC\n', '\n好吃的焦糖饼干………\n', '\n下一站★改变\n', '\n璐璐℃\n', '\n梨花落尽柳花时\n', '\n愛是寂寞撒的谎\n', '\n跑呀!跑不掉了吧~…\n', '\n风拂轻尘\n', '\n緣來是伱\n', '\n坏坏好像不坏\n', '\n调皮丫头长的美\n', '\n兔子急了,还咬人\n', '\n向戴安澜将军致敬\n', '\n别回头,安好!\n', '\n哆啦A梦是我的\n']
['匿名用户', '\n狸土豆大人\n', '\n神化坏宝宝\n', '\n剧本丶\n', '\n别给哥喝酒\n', '\n倾心倾情%%\n', '\n爱哭的瓶子\n', '\n向昨天说再见。\n', '\n生活生不易活更难\n', '\n流民不是流氓\n', '\n哎,吆,喂\n', '\n纳花\n', '\n饭岛爱相随\n', '\n雁塔留雁雁不落\n', '\n防护镜\n', '\n西门爬墙\n', '\n公众号:自察社\n', '\n星劫\n', '\n『Neng』\n', '\n忘记。。。…\n', '\n素·敵\n', '\n王云(笨笨)\n', '\n二女子、\n', '\n鱼七七…\n', '\n上凹下凸\n']
['匿名用户', '\n偷惢\n', '\nA_宁静致远\n', '\n222/222\n', '\n留不住就放手吧\n', '\n◣听歌◥\n', '\n林晓九\n', '\n谁来装饰你的梦\n', '\n过夜的开水\n', '\n风丿行\n', '\n123开始猥琐\n', '\n傻妞也\n', '\n卖玫瑰的小男孩丶\n', '\n老刘忙_\n', '\n屋岩下的男孩\n', '\n偷惢\n', '\n王八与蛋\n', '\n天下第22帅他爸\n', '\n单身狗爱流浪猫\n', '\n绦子\n', '\n在下&瞄人…\n', '\n偷情贼\n', '\n酒中的痛\n', '\n遇到你是最美丽的意…\n', '\nQueroi\n']
['\n城中小草\n', '\n沃土秋实\n', '\n鲲鹏九天\n', '\n十三年资深潜水员\n', '\n淡淡的稻花香2\n', '\n驯猴师\n', '\n小咪^\n', '\n周景全\n', '\n黄山小妖\n', '\n孤独与你°\n', '\n吃了两碗又盛\n', '\n守龛人\n', '\n不帅但很能干的人\n', '\n鲲鹏九天\n', '\nπ_π拈花\n', '\n寂寞真诚\n', '\n失伈疯。\n', '\n卟乖(>_&…\n', '\n花脚猫的花\n', '\n我叫小贵\n', '\n傻菲°\n', '\n王八与蛋\n', '匿名用户', '\n不是很帅但很能干\n', '\n瑜儿好想你\n']
['\n夕冬温存\n', '\n小猪背起行囊\n', '\n你是俺di\n', '\n阿~塰\n', '\n琳妹儿(二)\n', '\n挖鼻孔的老虎\n', '\n把酒煮温\n', '\n该用户已渡劫升仙\n', '\n非法用户名zP9r…\n', '\n温柔小箭\n', '\n我是煮茶\n', '\n愛是寂寞撒的谎\n', '\n薄荷味白衬衫\\\\n…\n', '\n慕容语嫣~\n', '\n卖姑娘的大灰狼\n', '\n墙交术之霉\n', '\n愛是寂寞撒的谎\n', '\n富川人\n', '\n你家邻居叫马乐\n', '\n被抢糖吃de孩纸\n', '\n他城她梦丶\n', '\n悠悠我心*\n', '\n星劫\n', '\n驯猴师\n', '\n人送外号海伦子\n']
['\n大道独行我为仙\n', '\nV根号三\n', '\n伊伊wan\n', '\n天若有情被抢了\n', '\n请叫我狂奔\n', '\n十里柔情一帘幽梦\n', '\n羊皮为裘\n', '\n倾心倾情%%\n', '\n偷惢\n', '\n爱吃面条的龟\n', '\ndarling-汉…\n', '\n鲲鹏九天\n', '\n不甜不要钱i\n', '\n这个冬天只要拥抱\n', '\n叫我阿道\n', '\n“孔夫子”\n', '\n樱落蝶舞\n', '\n丶彧言\n', '\n小风吹,彼岸花开\n', '\n挚爱一人为她撸\n', '\nA-Mr.G\n', '\n挖鼻孔的老虎\n', '\n好吃的焦糖饼干………\n', '\n加腾鹰的手指\n', '\n我是煮茶\n']
['\n隔壁老王头儿66\n', '\n不帅但很能干的人\n', '\n消失在海里的鱼\n', '\n非法用户名kJ6G…\n', '\n实在不知道叫啥了\n', '\n素·敵\n', '\n偷情贼\n', '\n调皮的小汪汪\n', '\n秀气散发磊落光明\n', '\n道士下山会女神\n', '\n风吹屁股蛋子疼\n', '\n。地上一只鸭\n', '\n长风长醉\n', '\n迪丽冷九...\n', '\n石沐子\n', '\n樱落蝶舞\n', '\n星劫\n', '\n江哥007\n', '\nAiNuO\n', '\n自由之翼1314\n', '\n伺候不爽你弄死我\n', '\n鬼龙小爆\n', '\nif空空\n', '\n電动、小马达\n', '\n鑫酱就酱紫\n']
['\n西帝君\n', '\n吃货最怕饿梦.\n', '\n放屁成个调\n', '\n爱哭的瓶子\n', '\n枯藤扯着老树\n', '\n沐莘\n', '\n墙交术之霉\n', '\n王云(笨笨)\n', '\n愿你快乐不要悲伤\n', '\n奇怪的地球人\n', '匿名用户', '\n小月团子\n', '\n小风吹,彼岸花开\n', '\n调皮的小汪汪\n', '\n坚挺的大香蕉呀\n', '\n大三学长\n', '\n退隐段子手\n', '\n.炒粉\n', '\n贪吃的加菲猫疯了\n', '\n文艺小榴芒\n', '\n小风吹,彼岸花开\n', '\n花凝雪\n', '\n我家有个彪娘们\n', '\n心里藏你的梦\n', '\n漠落\n']
3号采集线程结束over
2号采集线程结束over
['匿名用户', '\nxzc454\n', '\n小时候可好咯\n', '\ncrazy土豆丝\n', '\n穿着棉袄吃冰棒\n', '\nDY交\n', '\n傻晴°\n', '\n春水无边\n', '\n么么么哒哒69\n', '\n叽喱咕噜︶\n', '\n星劫\n', '\n琦只~\n', '\n4+1=5\n', '\n挖鼻孔的老虎\n', '\n我真的屎匿名用户\n', '\n吃了两碗又盛\n', '\n傻月゛\n', '\n小心蛋毛\n', '匿名用户', '\n星星15\n', '\n驯猴师\n', '\n沐莘\n', '\n没有常的春藤\n', '\n不约而同丿\n', '\n不甜不要钱i\n']
1号采集线程结束over
1号解析线程结束
2号解析线程结束
0号解析线程结束Process finished with exit code 0

兄弟连学python

Python学习交流、资源共享群:563626388 QQ

(68)-- 爬取糗百信息相关推荐

  1. Python爬虫之selenium爬虫,模拟浏览器爬取天猫信息

    由于工作需要,需要提取到天猫400个指定商品页面中指定的信息,于是有了这个爬虫.这是一个使用 selenium 爬取天猫商品信息的爬虫,虽然功能单一,但是也算是 selenium 爬虫的基本用法了. ...

  2. python爬取酒店信息练习

    爬取酒店信息,首先知道要用到那些库.本次使用request库区获取网页,使用bs4来解析网页,使用selenium来进行模拟浏览. 本次要爬取的美团网的蚌埠酒店信息及其评价.爬取的网址为"h ...

  3. Scrapy项目之自动爬取网页信息

    前文已经介绍了利用Scrapy框架与手写爬虫,比较了Scrapy框架的优势.前面介绍的scrapy框架爬取是针对一个网页的爬取,而本文介绍的是实现多个网页的自动爬取,本文将以爬取虎扑湿乎乎论坛帖子信息 ...

  4. python刷新页面_Python模拟浏览器爬取天猫信息

    由于工作需要,需要提取到天猫400个指定商品页面中指定的信息,于是有了这个爬虫.这是一个使用 selenium 爬取天猫商品信息的爬虫,虽然功能单一,但是也算是 selenium 爬虫的基本用法了. ...

  5. 以下用于数据存储领域的python第三方库是-Python3爬虫学习之MySQL数据库存储爬取的信息详解...

    本文实例讲述了Python3爬虫学习之MySQL数据库存储爬取的信息.分享给大家供大家参考,具体如下: 数据库存储爬取的信息(MySQL) 爬取到的数据为了更好地进行分析利用,而之前将爬取得数据存放在 ...

  6. MATLAB实战系列(二十八)-用matlab爬取火车票信息

    前言 之前博主使用matlab爬取火车票信息,博主觉得这个爬取过程还蛮有趣的,所以和大家分享一下如何用matlab爬取火车票信息. 比如我想要获取以下这些车次的始发站和终点站信息, 大家第一反应可能会 ...

  7. [python应用案例] 一.BeautifulSoup爬取天气信息并发送至QQ邮箱

    前面作者写了很多Python系列文章,包括: Python基础知识系列:Python基础知识学习与提升 Python网络爬虫系列:Python爬虫之Selenium+Phantomjs+CasperJ ...

  8. [python] 常用正则表达式爬取网页信息及分析HTML标签总结

    这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬 ...

  9. python小爬虫(爬取职位信息和博客文章信息)

    1.python爬取招聘信息 简单爬取智联招聘职位信息(仅供学习) # !/usr/bin/env python # -*-coding:utf-8-*- """ @Au ...

  10. 爬虫项目三:爬取选课信息

    爬虫项目三:爬取whut-jwc选课信息 项目实现:主要获得通识选修.个性选课.英语体育选课的课程信息 核心: 1.实现网页登陆 2.爬取课程信息 一.网页信息登陆 from selenium imp ...

最新文章

  1. Docker中的“公开”和“发布”有什么区别?
  2. 【Jmeter】 Report Dashboard 生成html图形测试报告
  3. [转]调试AngularJS应用
  4. 嗅探软件和网络测试,决战无线网络 七款浏览器载入速度测试
  5. 记住:用户不是傻*,她是你的老婆大人
  6. boost::callable_traits的remove_varargs_t的测试程序
  7. java 弹出下载_java如何实现下载弹出的对话框
  8. 汇编语言 明明定义了栈仍然no stack segment 以及栈空间数据被篡改问题
  9. eq值 推荐算法_利用 SVD 实现协同过滤推荐算法
  10. RabbitMQ和Kafka的显著差异(3)
  11. 在CF卡上实现EWF功能
  12. pcie协议_如何通过PCIE协议实现FPGA 配置?详情请戳这里!
  13. 先写接口文档还是先开发
  14. 月老在线牵盲盒/交友盲盒/一元交友/存取小纸条盲盒/分销功能
  15. 戴尔新电脑笔记本桌面没有计算机,自主日常维修,更换戴尔灵越15屏幕过程记录...
  16. 解决Keras的failed to create cublas handle: CUBLAS_STATUS_ALLOC_FAILED、attempting to perform BLAS operat
  17. [siggraph13]《命运》的实时渲染技术
  18. 用FPGA做一个生日礼物
  19. 4.R语言【dplyr包】使用方法
  20. 方案设计阶段目标成本形成过程

热门文章

  1. k64 datasheet学习笔记1---概述
  2. java 游戏打砖块_基于JAVA的打砖块游戏
  3. 宁静以致远,淡泊以明志
  4. 【苹果家庭群发推】Metal performance shader软件安装框架
  5. android 设计psd,如何将PSD设计转换为Android xml?
  6. 三本计算机专业考研211,一个三本学渣逆袭211的考研心得
  7. python推理拟合函数
  8. 我的世界电脑服务器怎么显示键盘,我的世界电脑版操作按键
  9. Halcon算子学习:distance_object_model_3d
  10. Python学习记录 使用百度aip模块(API Python-SDK)实现人脸识别