这个是在之前的微博爬取(Python)–中大微博前100条微博内容以及评论转发点赞数目爬取
的并发版本

代码

import requests
from gevent import monkey
import geventmonkey.patch_all(select=False)
from pyquery import PyQuery as pqheaders = {'Host': 'm.weibo.cn','Referer': 'https://m.weibo.cn/u/1892723783?uid=1892723783&luicode=10000011&lfid=1076031892723783&featurecode=20000320','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36','X-Requested-With': 'XMLHttpRequest','X-DevTools-Emulate-Network-Conditions-Client-Id': 'A20EA5B172E6DC82709D213A40AD0E8F'
}def get_page(page):url = 'https://m.weibo.cn/api/container/getIndex?uid=1892723783&luicode=10000011&lfid=1076031892723783&featurecode=20000320&type=uid&value=1892723783&containerid=1076031892723783&page=%d' % pagetry:res = requests.get(url, headers=headers)if res.status_code == 200:return res.json()except requests.ConnectionError as e:print("Error", e.args)def parse_page(json):if json:items = json.get('data').get('cards')for item in items:item = item.get('mblog')weibo = {}weibo['text'] = pq(item.get('text')).text()weibo['attitudes'] = item.get('attitudes_count')weibo['comments'] = item.get('comments_count')weibo['reposts'] = item.get('reposts_count')yield weibodef oper(page):global datajson = get_page(page)results = parse_page(json)count = 0for res in results:data[page * 20 + count] = '\n'.join([res['text'], '【评论数: ' + str(res['comments']) + ' 转发数: ' + str(res['reposts']) + ' 点赞数: ' + str(res['attitudes']) + '】\n\n'])count += 1if __name__ == '__main__':data = {}gevent.joinall([gevent.spawn(oper, page) for page in range(1, 11)])with open('weibo.txt', 'w', encoding='utf-8') as f:f.write(''.join(data.values()))

多协程爬取中大微博内容(以及转发数,点赞数,评论数)相关推荐

  1. Python分别用单线程,多线程,异步协程爬取一部小说,最快仅需要5s

    文章目录 单线程爬取 多线程爬取 异步协程爬取 本文运用了三种方式爬取一整部小说,分别运用了单线程爬取,多线程爬取和异步协程爬取. 小说网址:` http://www.doupo321.com/dou ...

  2. Python爬虫——aiohttp异步协程爬取同程旅行酒店评论

    大家好!我是霖hero Python并发编程有三种方式:多线程(Threading).多进程(Process).协程(Coroutine),使用并发编程会大大提高程序的效率,今天我们将学习如何选择多线 ...

  3. 送书 | aiohttp异步协程爬取同程旅行酒店评论并作词云图

    大家好!我是啃书君! Python并发编程有三种方式:多线程(Threading).多进程(Process).协程(Coroutine),使用并发编程会大大提高程序的效率,今天我们将学习如何选择多线程 ...

  4. 利用协程爬取m3u8视频

    利用协程爬取m3u8视频 ​ 在进行了爬虫的相关学习之后,自己尝试爬取了一些视频,但动辄ts文件就几百个,单线程伤不起那时间,一个一个等实在太慢了,想利用多线程,查看相关资料,又说python是假的多 ...

  5. python从网址爬图片协程_Python爬虫多任务协程爬取虎牙MM图片

    查看: 4420|回复: 241 [作品展示] Python爬虫多任务协程爬取虎牙MM图片 电梯直达 发表于 2019-4-17 21:35:47 | 只看该作者 |倒序浏览 |阅读模式 马上注册,结 ...

  6. 链家网开源java_异步协程爬取链家租房信息

    异步协程抓取链家数据+pandas写入csv import asyncio import aiohttp import pandas from bs4 import BeautifulSoup fro ...

  7. 协程爬取整站豆瓣网络

    爬取豆瓣网络思路: 从标签页进入,提取所有标签URL 进入每个标签页,提取所有列表URL 进入每个列表页,提取每一页的详情URL和下一页列表URL 进入每个详情页,拿到书名 如此往复循环,直到数据抓取 ...

  8. python协程爬取斗鱼美女图片

    分析网站寻找需要的网址 用谷歌浏览器摁F12打开开发者工具,然后打开斗鱼颜值分类的页面,如图: 在里面的请求中,最后发现它是以ajax加载的数据,数据格式为json,如图: 圈住的部分是我们需要的数据 ...

  9. python异步协程爬取百度小说之西游记

    爬虫百度小说之西游记 参考文章链接:https://blog.csdn.net/weixin_45788900/article/details/119539952 一.百度小说之西游记网址:小说网址 ...

最新文章

  1. 给博客园加一个会动的小人-spig.js
  2. Windows程序设计之创建窗口示例
  3. 【杂谈】有三AI知识星球一周年了!为什么公众号+星球才是完整的?
  4. C\C++ 交换两个变量的方法
  5. linux 查看用户上次修改密码的日期
  6. 编程通用知识 二叉树
  7. js 对象数组和对象的使用
  8. 2.3.14 Python 函数进阶-生成器
  9. HTMl中3d变换卡片制作方法,CSS如何实现卡片3D翻转效果
  10. 计算机二级Access软件百度云,全国计算机等级考试二级ACCESS练习软件
  11. 抽奖随机滚动_老板让我做年会抽奖系统,我用Excel制作内定抽到自己的大奖!...
  12. INT32_MIN溢出
  13. 计量模型 | 前定变量#时间FE
  14. OpenGLES 3.0
  15. pycrypto 和 lua-resty-rsa 进行跨语言的RSA加密解密.md
  16. 四级单词pdf_2017年6月大学英语四级真题及答案解析(完整三套可打印)
  17. “System.NullReferenceException”类型的异常在 App_Web_j2s3gau3.dll 中发生,但未在用户代码中进行处理的Bug解决方案
  18. precision、recall、f1score的计算
  19. 双路由设置上网与共享
  20. 【Unity3D日常开发】Unity3D模板 WEBGL模板 自定义Templates 使用教程

热门文章

  1. badboy 不支持html5,html5_iframe.htm
  2. c语言对n个数选择排序_选择排序法 -- C语言
  3. 华为如何打造智能终端的有趣灵魂?(下)
  4. 为什么说能源管理是分布式光伏发电的突破口?
  5. iOS动画编程-Layer动画[ 2 ] Getting Started with Layer Animations
  6. Aria2:轻量命令行下载工具
  7. 一个很好的练听力的网站
  8. 算法导论之有关数论的算法
  9. DLL的高级操作技术——Windows核心编程学习手札之二十
  10. 对python的认识作文500字_对阅读新认识作文500字