python爬取微博用户关注列表_GitHub - dataabc/weibo-follow: 爬取关注列表中微博账号的微博...
爬取一个或多个指定微博用户关注列表中的微博账号,批量获取其user_id,并写入user_id_list.txt文件。
程序支持读文件,一个用户最多可以获取200个user_id,写入user_id_list.txt文件;然后可以用生成的user_id_list.txt作为config.json文件“user_id_list”参数的值,继续获取user_id,生成文件,最多可以获得200X200=40000个use_id;然后又可以利用这40000个user_id获得40000X200=8000000个user_id,以此类推,可以获得大量user_id。
使用方法
获取程序
$ git clone https://github.com/dataabc/weibo-follow.git
安装依赖
$ pip install -r requirements.txt
配置config.json文件
{
"user_id_list": "user_id_list.txt",
"cookie": "your cookie"
}
user_id_list可以填目标用户user_id文件路径,上面填的就是路径,user_id_list.txt内容是user_id,可以写多个,每个user_id一行,可以像下面这样填:
1669879400
1223178222
具体如何获取一个微博用户的user_id,见如何获取user_id,
也可以添加注释,这样填:
1669879400 Dear-迪丽热巴
1223178222 胡歌
也可以直接填目标用户user_id,如:
"user_id_list": ["1669879400", "1223178222"]
上面的意思是分别获取user_id为“1669879400”、“1223178222”的用户的关注列表,并将被关注者的user_id写入user_id_list.txt;
cookie是微博爬虫cookie,具体如何获取cookie见如何获取cookie,获取后用真实的cookie替换“your cookie”就可以。
运行程序
$ python weibo_follow
如何获取cookie
1.用Chrome打开https://passport.weibo.cn/signin/login;
2.输入微博的用户名、密码,登录,如图所示:
登录成功后会跳转到https://m.weibo.cn;
3.按F12键打开Chrome开发者工具,在地址栏输入并跳转到https://weibo.cn,跳转后会显示如下类似界面:
4.依此点击Chrome开发者工具中的Network->Name中的weibo.cn->Headers->Request Headers,"Cookie:"后的值即为我们要找的cookie值,复制即可,如图所示:
如何获取user_id
1.打开网址https://weibo.cn,搜索我们要找的人,如"迪丽热巴",进入她的主页;
2.按照上图箭头所指,点击"资料"链接,跳转到用户资料页面;
如上图所示,迪丽热巴微博资料页的地址为"https://weibo.cn/1669879400/info",其中的"1669879400"即为此微博的user_id。
事实上,此微博的user_id也包含在用户主页(https://weibo.cn/u/1669879400?f=search_0)中,之所以我们还要点击主页中的"资料"来获取user_id,是因为很多用户的主页不是"https://weibo.cn/user_id?f=search_0"的形式,而是"https://weibo.cn/个性域名?f=search_0"或"https://weibo.cn/微号?f=search_0"的形式。其中"微号"和user_id都是一串数字,如果仅仅通过主页地址提取user_id,很容易将"微号"误认为user_id。
python爬取微博用户关注列表_GitHub - dataabc/weibo-follow: 爬取关注列表中微博账号的微博...相关推荐
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...
- python小练习--模拟用户登录,(3次重试机会,登录成功展示登录账号密码)
知识点使用:1.格式化输出的两种方法---% .formate 2.while循环的使用,及跳出循环的两种方法---break(跳出循环体).continue(结束本次循环,继续下次循环) 3.if条 ...
- python设计一个验证用户密码程序出入小区卡_自助餐取菜顺利为_______。
[简答题]听力理解,一天三十分钟,可以听写,可以做真题.做完后请发图片.3次一起交. [其它]1 .下面是对某 IC 卡加油机应用系统的基本流和备选流的描述. 基本流 A ; 序号 用例 名称 用例描 ...
- python爬取微博用户关注_Paython微博根据用户名搜索爬取该用户userId
根据微博用户名搜索爬取该用户userId并返回 import urllib.request from urllib import parse from bs4 import BeautifulSoup ...
- python爬微博数据合法吗_GitHub - ChaliceRunRunRun/weibo-crawler: 新浪微博爬虫,用python爬取新浪微博数据...
功能 连续爬取一个或多个新浪微博用户(如Dear-迪丽热巴.郭碧婷)的数据,并将结果信息写入文件.写入信息几乎包括了用户微博的所有数据,主要有用户信息和微博信息两大类,前者包含用户昵称.关注数.粉丝数 ...
- python爬取微博用户信息(六)—— 完整代码
本节为爬取微博用户信息的完整代码,以及项目结构. 感兴趣的小伙伴可以收藏哦! 另外,关于本代码的效果展示,以及教程,点击以下链接即可. python爬取微博用户信息(一)-- 效果展示 python爬 ...
- python爬取微博用户信息(四)—— 爬取用户信息的功能函数
这一节,将会将 MicroBlog.py 文件中的函数介绍一下. 感兴趣的小伙伴可以收藏哦! 另外,关于本代码的效果展示,以及教程,点击以下链接即可. python爬取微博用户信息(一)-- 效果展示 ...
- python爬取微博用户信息(一)—— 效果展示
有时,我们想要了解一个人,一般会通过ta的微博.朋友圈以及朋友的看法去了解. 特别是面对自己喜欢的明星,我们常常会浏览ta的微博,了解ta的动态. 那么,在大数据时代,数据已经成为了不可缺少的一部分, ...
- python爬取微博用户信息(三)—— 创建MicroBlog类实例
这一节,主要讲述 main.py文件,该文件创建了一个MicroBlog类,MicroBlog类中包含一些爬取微博内容的函数. 以及简单介绍traceback的用法. 感兴趣的小伙伴可以收藏哦! 另外 ...
最新文章
- hash表建立 很久没写数据结构了
- IOS开发笔记6-C语言基础复习
- java 缓存 单例_单例模式应用:高速缓存和查找对象(转)
- 省常中模拟 Test3 Day2
- ubuntu18.10 cosmic更换阿里云的源
- 查看oracle自动优化,使用索引查询更快,优化器为何不能自动识别
- php 标点符号,php 过滤英文标点符号及过滤中文标点符号代码
- 微信小游戏的前端攻城狮玩法
- 好消息 | 顶级 AI 华人学者拟加入清华大学自动化系!
- LeetCode-106:从中序与后序遍历序列构造二叉树
- 关于前段与后端数据库的连接
- 优秀网络安全从业者的五项核心技能
- nodejs下载集成到idea
- 线性调频(LFM信号)脉冲压缩雷达matlab仿真- 脉冲压缩 测距 测速 距离速度三维像(附matlab代码)
- 梦殇 chapter one
- java咖啡平台,22年最新
- epr系统服务器配置,erp系统云服务器配置要求
- android 屏蔽电源键,home键
- 如何通过数据分析,提升游戏次日留存
- 记录一个vue监控屏幕宽度的问题
热门文章
- Oracle数据库三种备份方式介绍
- MOTO被裁团队被行业巨头争抢的背后
- [python刷题模板] 珂朵莉树 ODT (基于支持随机访问的跳表
- 小程序入门到精通一篇就够了!
- 1.定义一个结构体变量(包括年、月、日),编写程序,要求输入年、月、日,程序能判断该年是否为闰年。(闰年的条件是符合下面两者之一: ①能被4整除,但不能被100整除; ②能被100整除,又能被400整
- 如何将Oracle 当前日期加一天、一分钟?
- 由git push -f引发的程序员枪击血案
- 一周热图|蔡依林助力蒂佳婷;戚薇亮相上海时装周大秀;自然堂携手赵今麦推新品...
- dbeaver的安装
- Swin transformer 简单理解