一、新浪微博全栈爬虫

先不扯皮,直接上获取数据效果图

爬虫策略:递归获取每个用户的粉丝用户id,想要获取多少用户id,则可以获取多少;利用获取的用户id再获取每个用户的所有数据

例如爬黑猫警长GIAO的一条微博所有评论

爬虫策略:进入手机端找到微博对应的微博id,进行爬虫,利用如下方式组合成url,进行爬虫

url组合方式:'https://m.weibo.cn/comments/hotflow?id={}&mid={}&max_id_type={}'.format(id, id, max_id_type)

爬到的评论数据,由于截图有限,只能显示部分数据

二、杂谈

最近利用空闲时间研究了一下新浪微博全栈爬虫,目前可以获取微博上面每个用户的全部信息,包括用户发布的所有博客评论、点赞数量、转发数量、评论数量和用户个人性别、昵称、地区、生日、粉丝等信息。

个人感受从新浪上面爬少量用户数据并没有很大难度,但是如果想快速获取大量数据的话,还是有些困难,目前新浪好像将个人账户对网站的访问做了限流,同一时间如果访问量过大,直接会被新浪把部分请求拒绝,从而导致爬虫大量用户信息失败。

如果想获取大量数据,采用异步线程,增加并发量的策略是行不通的;我感觉目前只能通过使用代理ip池的形式,进行多个账户同时连接,可以快速获取大量数据。

三、爬虫技巧分享

1、技巧一如何采用requests用户登录的话,python3使用如下第三方库,可以将cookielib记住,防止后续爬虫cookie过期的问题import http.cookiejar as cookielibsession = requests.session()session.cookies = cookielib.LWPCookieJar(filename='cookie')
2、技巧二爬虫新浪使用手机端链接爬虫要比PC版的链接好获取数据许多,PC版新浪提供了一部分数据获取接口,但是能获取数据很受限制,不利于全栈获取数据
3、技巧三个人感觉使用第三方库lxml中etree.HTML格式化requests请求获取到的数据,要比bs4中BeautifulSoup格式化数据更友好,etree.HTML的对象搭配使用xpath,格式化数据速度很快,而且获取一些标签数据也很容易
4、技巧四第三方库concurrent.futures是异步爬虫的一个利器,直接可以创建异步线程池,增加数据获取并发相当简单

分享即快乐,以上仅献给想研究如何爬虫的程序猿

个人邮箱:2849971028@qq.com,有问题欢迎指正

python爬虫新浪微博相关推荐

  1. Python爬虫——新浪微博(网页版)

    欢迎加入Python学习交流QQ群:201044047  禁止闲聊 ! 名额有限 ! 非喜勿进 ! 最近事情比较多,所以从上周就开始写的新浪微博爬虫一直拖到了现在,不过不得不说新浪微博的反扒,我只想说 ...

  2. Python 爬虫-新浪微博

    新浪微博爬取 前言   现在这个数据时代,要做点数据研究,少不了爬虫.毕竟自己没有可以研究的数据呀.本篇文章已爬取新浪微博为实例驱动,讲解爬虫.主要有微博文章爬取,评论爬取,用户信息爬取(用户名称,所 ...

  3. python微博评论爬虫_详解用python写网络爬虫-爬取新浪微博评论 基于Python的新浪微博爬虫研究...

    怎样爬取新浪微博的评论信息 针对八爪鱼在微博的应用上,除了用户信息之外还包括话题内容方面的采集,目前绝大多数企业均在微博设有官方微博,八爪鱼可以协助企业快速及时的抓取与企业产品相关联的话题信息,规则市 ...

  4. Python爬虫 爬取新浪微博热搜

    Python爬虫 爬取新浪微博热搜 文章目录 Python爬虫 爬取新浪微博热搜 网页分析 数据爬取 数据存储 全部代码 网页分析 找到热搜的排名,标题和热度,发现它们在同一路径 数据爬取 impor ...

  5. Python爬虫开源项目代码(爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网 等等)...

    文章目录 1.简介 2.开源项目Github 2.1.WechatSogou [1]– 微信公众号爬虫 2.2.DouBanSpider [2]– 豆瓣读书爬虫 2.3.zhihu_spider [3 ...

  6. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...

  7. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) —— 编写一个基本的 Spider 爬取微博用户信息

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目 在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...

  8. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...

  9. 如何利用python刷微博粉丝_使用python进行新浪微博粉丝爬虫

    由于最近没事在学python,正好最近也想趴下新浪微博上边的一些数据,在这里主要爬去的是一个人的粉丝具体信息(微博昵称,个人介绍,地址,通过什么方式进行关注),所以就学以致用,通过python来爬去微 ...

最新文章

  1. mongoDB数据库操作工具库
  2. 使用WinINet和WinHTTP实现Http访问
  3. 在网页中插入时间 自动更新
  4. Android之UI控件
  5. pyqt5中QWidget的show 一闪而过的原因及解决办法实例
  6. 华为nova 7 se鸿蒙,荣耀v40和华为Nova7Pro哪个好-参数对比-更值得入手
  7. 4月24日云栖精选夜读 | 阿里云POLARDB如何助力轻松筹打造5亿用户信赖的大病筹款平台?...
  8. (42)Xilinx FIFO IP核配置(三)(第9天)
  9. 2021年最值得推荐的13个提高开发效率工具,程序员必备
  10. Reflect对象的设计目的有这样几个
  11. Hyper-v下安装网络流量监测图形分析工具 Cacti
  12. 多个生产者多个消费者,只有5个包子
  13. 兼容各浏览器的js回车事件
  14. python框架之Flask(4)-上下文管理
  15. windows 进程学习
  16. latex下载安装记录
  17. Brainfuck与Ook!编程语言解析与解密
  18. lisp 练习取得对象属性
  19. 技术支持快递第6 期
  20. matlab设置列宽,matlab和Excel的交互-(2-单元格操作)

热门文章

  1. RabbitMQ在特来电的深度应用
  2. 什么是REST以及 RESTful?
  3. 2022-2027年中国公共图书馆数字化行业市场全景评估及发展战略规划报告
  4. java选择题_JAVA试题及答案(50道选择题)
  5. 短视频平台-小说推文(知乎)推广任务详情
  6. 数据库基础知识ACID,隔离级别RC,RR,RU,SERIALIZABLE,Phantom Rows幻读,解决幻读,脏读dirty read
  7. 北京中考英语听说计算机考试时间,2020北京中考英语听说计算机考试时间
  8. 高防CDN和融合CDN的区别
  9. 微信小程序 TypeError: r.apply is not a function
  10. Java8:接口里面可以写实现方法吗【可以】 、接口可以多继承吗【可以】