python爬虫新浪微博

2024-06-02 08:54:05

一、新浪微博全栈爬虫

先不扯皮，直接上获取数据效果图

爬虫策略：递归获取每个用户的粉丝用户id，想要获取多少用户id，则可以获取多少；利用获取的用户id再获取每个用户的所有数据

例如爬黑猫警长GIAO的一条微博所有评论

爬虫策略：进入手机端找到微博对应的微博id，进行爬虫，利用如下方式组合成url，进行爬虫

url组合方式：'https://m.weibo.cn/comments/hotflow?id={}&mid={}&max_id_type={}'.format(id, id, max_id_type)

爬到的评论数据，由于截图有限，只能显示部分数据

二、杂谈

最近利用空闲时间研究了一下新浪微博全栈爬虫，目前可以获取微博上面每个用户的全部信息，包括用户发布的所有博客评论、点赞数量、转发数量、评论数量和用户个人性别、昵称、地区、生日、粉丝等信息。

个人感受从新浪上面爬少量用户数据并没有很大难度，但是如果想快速获取大量数据的话，还是有些困难，目前新浪好像将个人账户对网站的访问做了限流，同一时间如果访问量过大，直接会被新浪把部分请求拒绝，从而导致爬虫大量用户信息失败。

如果想获取大量数据，采用异步线程，增加并发量的策略是行不通的；我感觉目前只能通过使用代理ip池的形式，进行多个账户同时连接，可以快速获取大量数据。

三、爬虫技巧分享

1、技巧一如何采用requests用户登录的话，python3使用如下第三方库，可以将cookielib记住，防止后续爬虫cookie过期的问题import http.cookiejar as cookielibsession = requests.session()session.cookies = cookielib.LWPCookieJar(filename='cookie')
2、技巧二爬虫新浪使用手机端链接爬虫要比PC版的链接好获取数据许多，PC版新浪提供了一部分数据获取接口，但是能获取数据很受限制，不利于全栈获取数据
3、技巧三个人感觉使用第三方库lxml中etree.HTML格式化requests请求获取到的数据，要比bs4中BeautifulSoup格式化数据更友好，etree.HTML的对象搭配使用xpath，格式化数据速度很快，而且获取一些标签数据也很容易
4、技巧四第三方库concurrent.futures是异步爬虫的一个利器，直接可以创建异步线程池，增加数据获取并发相当简单

分享即快乐，以上仅献给想研究如何爬虫的程序猿

个人邮箱：2849971028@qq.com，有问题欢迎指正

python爬虫新浪微博相关推荐

Python爬虫——新浪微博（网页版）
欢迎加入Python学习交流QQ群:201044047 禁止闲聊 ! 名额有限 ! 非喜勿进 ! 最近事情比较多,所以从上周就开始写的新浪微博爬虫一直拖到了现在,不过不得不说新浪微博的反扒,我只想说 ...
Python 爬虫-新浪微博
新浪微博爬取前言现在这个数据时代,要做点数据研究,少不了爬虫.毕竟自己没有可以研究的数据呀.本篇文章已爬取新浪微博为实例驱动,讲解爬虫.主要有微博文章爬取,评论爬取,用户信息爬取(用户名称,所 ...
python微博评论爬虫_详解用python写网络爬虫-爬取新浪微博评论基于Python的新浪微博爬虫研究...
怎样爬取新浪微博的评论信息针对八爪鱼在微博的应用上,除了用户信息之外还包括话题内容方面的采集,目前绝大多数企业均在微博设有官方微博,八爪鱼可以协助企业快速及时的抓取与企业产品相关联的话题信息,规则市 ...
Python爬虫爬取新浪微博热搜
Python爬虫爬取新浪微博热搜文章目录 Python爬虫爬取新浪微博热搜网页分析数据爬取数据存储全部代码网页分析找到热搜的排名,标题和热度,发现它们在同一路径数据爬取 impor ...
Python爬虫开源项目代码（爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等等）...
文章目录 1.简介 2.开源项目Github 2.1.WechatSogou [1]– 微信公众号爬虫 2.2.DouBanSpider [2]– 豆瓣读书爬虫 2.3.zhihu_spider [3 ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（四） —— 应对反爬技术（选取 User-Agent、添加 IP代理池以及Cookies池）
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（二） —— 编写一个基本的 Spider 爬取微博用户信息
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（三） —— 数据的持久化——使用MongoDB存储爬取的数据
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...
如何利用python刷微博粉丝_使用python进行新浪微博粉丝爬虫
由于最近没事在学python,正好最近也想趴下新浪微博上边的一些数据,在这里主要爬去的是一个人的粉丝具体信息(微博昵称,个人介绍,地址,通过什么方式进行关注),所以就学以致用,通过python来爬去微 ...

最新文章

热门文章