GitHub:新浪微博爬虫,用Python采集新浪微博数据
hello,小伙伴们,大家好,今天给大家分享的开源项目是:weiboSpider
,看名字也可以猜到这个项目是做什么的了!没错,这个开源项目就是采集新浪微博一个或多个用户(如:胡歌、迪丽热巴、郭碧婷)数据,并将结果信息写入文件或数据库,写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。这个开源项目需设置cookie来获取微博访问权限,后面会讲解如何获取cookie。如果不想设置cookie,可以使用免cookie版,二者功能类似。
具体的写入文件类型如下:
- 写入txt文件(默认)
- 写入csv文件(默认)
- 写入json文件(可选)
- 写入MySQL数据库(可选)
- 写入MongoDB数据库(可选)
- 下载用户原创微博中的原始图片(可选)
- 下载用户转发微博中的原始图片(免cookie版特有)
- 下载用户原创微博中的视频(可选)
- 下载用户转发微博中的视频(免cookie版特有)
- 下载用户原创微博Live Photo中的视频(免cookie版特有)
- 下载用户转发微博Live Photo中的视频(免cookie版特有)
项目列表
自定义字段
本部分为爬取到的字段信息说明,为了与免cookie版区分,下面将两者爬取到的信息都列出来。如果是免cookie版所特有的信息,会有免cookie标注,没有标注的为二者共有的信息。
用户信息
- 用户id:微博用户id,如"1669879400",其实这个字段本来就是已知字段
- 昵称:用户昵称,如"Dear-迪丽热巴"
- 性别:微博用户性别
- 生日:用户出生日期
- 所在地:用户所在地
- 学习经历:用户上学时学校的名字和时间
- 工作经历:用户所属公司名字和时间
- 阳光信用(免cookie版):用户的阳光信用
- 微博注册时间(免cookie版):用户微博注册日期
- 微博数:用户的全部微博数(转发微博+原创微博)
- 关注数:用户关注的微博数量
- 粉丝数:用户的粉丝数
- 简介:用户简介
- 主页地址(免cookie版):微博移动版主页url
- 头像url(免cookie版):用户头像url
- 高清头像url(免cookie版):用户高清头像url
- 微博等级(免cookie版):用户微博等级
- 会员等级(免cookie版):微博会员用户等级,普通用户该等级为0
- 是否认证(免cookie版):用户是否认证,为布尔类型
- 认证类型(免cookie版):用户认证类型,如个人认证、企业认证、政府认证等
- 认证信息:为认证用户特有,用户信息栏显示的认证信息
微博信息
- 微博id:微博唯一标志
- 微博内容:微博正文
- 头条文章url:微博中头条文章的url,若微博中不存在头条文章,则值为’’
- 原始图片url:原创微博图片和转发微博转发理由中图片的url,若某条微博存在多张图片,每个url以英文逗号分隔,若没有图片则值为"无"
- 视频url: 微博中的视频url,若微博中没有视频,则值为"无"
- 微博发布位置:位置微博中的发布位置
- 微博发布时间:微博发布时的时间,精确到分
- 点赞数:微博被赞的数量
- 转发数:微博被转发的数量
- 评论数:微博被评论的数量
- 微博发布工具:微博的发布工具,如iPhone客户端、HUAWEI Mate 20 Pro等
- 结果文件:保存在当前目录weibo文件夹下以用户昵称为名的文件夹里,名字为"user_id.csv"和"user_id.txt"的形式
- 微博图片:原创微博中的图片和转发微博转发理由中的图片,保存在以用户昵称为名的文件夹下的img文件夹里
- 微博视频:原创微博中的视频,保存在以用户昵称为名的文件夹下的video文件夹里
- 微博bid(免cookie版):为免cookie版所特有,与本程序中的微博id是同一个值
- 话题(免cookie版):微博话题,即两个#中的内容,若存在多个话题,每个url以英文逗号分隔,若没有则值为’’
- @用户(免cookie版):微博@的用户,若存在多个@用户,每个url以英文逗号分隔,若没有则值为’’
- 原始微博(免cookie版):为转发微博所特有,是转发微博中那条被转发的微博,存储为字典形式,包含了上述微博信息中的所有内容,如微博id、微博内容等等
运行环境
- 开发语言:python2/python3
- 系统: Windows/Linux/macOS
部署项目
源码安装
$ git clone https://github.com/dataabc/weiboSpider.git
$ cd weiboSpider
$ pip install -r requirements.txt
或者
$ python3 -m pip install weibo-spider
运行程序
源码安装的用户可以在weiboSpider目录运行如下命令,pip安装的用户可以在任意有写权限的目录运行如下命令
$ python3 -m weibo_spider
第一次执行,会自动在当前目录创建config.json配置文件,配置好后执行同样的命令就可以获取微博了。如果你已经有config.json文件了,也可以通过config_path参数配置config.json路径,运行程序,命令行如下:
$ python3 -m weibo_spider --config_path="config.json"
个性化定制程序(可选)
本部分为可选部分,如果不需要个性化定制程序或添加新功能,可以忽略此部分。
本程序主体代码位于weibo_spider.py文件,程序主体是一个 Spider 类,上述所有功能都是通过在main函数调用 Spider 类实现的,默认的调用代码如下:
config = get_config()
wb = Spider(config)
wb.start() # 爬取微博信息
用户可以按照自己的需求调用或修改 Spider 类。通过执行本程序,我们可以得到很多信息。
定期自动爬取微博(可选)
要想让程序每个一段时间自动爬取,且爬取的内容为新增加的内容(不包括已经获取的微博),请查看定期自动爬取微博。
如何获取cookie
要了解获取cookie方法,请查看cookie文档。
如何获取user_id
要了解获取user_id方法,请查看user_id文档,该文档介绍了如何获取一个及多个微博用户user_id的方法。
开源地址:https://github.com/dataabc/weiboSpider
感兴趣的老铁不防去应用一下,一来可以参考一下作者的编码风格,二来对刚刚入门或者是入门不久的朋友提供一个采集数据的思路。
今天的推荐不知道大家喜不喜欢?如果大家喜欢话,请在文章底部留言或点赞,以表示对我的支持,你们的留言,点赞,转发关注是我持续更新的动力,peace!
关注公众号回复:"1024
",免费领取一大波学习资源,先到先得哦!
GitHub:新浪微博爬虫,用Python采集新浪微博数据相关推荐
- 如何使用爬虫一键批量采集新浪微博内容
信息时代如何真正做到,秀才不出门,能知天下事.不知道你们用的是啥,反正小喵我用的是微博.现在微博上新闻是多的不得了,国家大事,社会日常,娱乐新闻.微博热搜上随便一个话题都可以引起网民们的激烈讨论.那么 ...
- 用Python采集财经数据信息并作可视化
嗨嗨,大家好下午好,我是小圆 ~ 今天给大家分享一下,如何用python采集财经数据信息并作可视化 开发环境: 解释器版本: python 3.8 代码编辑器: pycharm 2021.2 requ ...
- python微博评论爬虫_详解用python写网络爬虫-爬取新浪微博评论 基于Python的新浪微博爬虫研究...
怎样爬取新浪微博的评论信息 针对八爪鱼在微博的应用上,除了用户信息之外还包括话题内容方面的采集,目前绝大多数企业均在微博设有官方微博,八爪鱼可以协助企业快速及时的抓取与企业产品相关联的话题信息,规则市 ...
- Python采集股票数据信息
前言 今天打算来整整股票,简简单单的采集一些股票数据 对这个有兴趣的就一起来瞧瞧吧. 准备 开发环境 & 第三方模块 解释器版本: python 3.8 代码编辑器: pycharm 2021 ...
- Python采集天气数据,做可视化分析【附源码】
知识点: 动态数据抓包 requests发送请求 结构化+非结构化数据解析 开发环境: python 3.8 运行代码 pycharm 2021.2 辅助敲代码 requests 如果安装python ...
- 【python 新浪微博爬虫】python 爬取新浪微博24小时热门话题top500
一.需求分析 模拟登陆新浪微博,爬取新浪微博的热门话题版块的24小时内的前TOP500的话题名称.该话题的阅读数.讨论数.粉丝数.话题主持人,以及对应话题主持人的关注数.粉丝数和微博数. 二.开发语言 ...
- python爬虫案例:采集股票数据并制作可视化柱图~
前言 嗨喽!大家好呀,这里是魔王~ 雪球,聪明的投资者都在这里 - 4300万投资者都在用的投资社区, 沪深港美全球市场实时行情,股票基金债券免费资讯,与投资高手实战交流. 模块使用 requests ...
- 【Python实战】Python采集二手车数据——超详细讲解
前言 今天,我们将采集某二手车数据,通过这个案例,加深我们对xpath的理解.通过爬取数据后数据分析能够直观的看到二手车市场中某一品牌的相对数据,能够了解到现在的二手车市场情况,通过分析数据看到二手车 ...
- 双十一特辑:Python采集商品数据,实时了解商品价格
前言 双十一还没有过去,虽然现在是某D的场景期,但是出这篇文章也不晚,可以冲刺一下10号的高峰期~ 各位朋友,尤其是学Python的直男朋友,看了这篇文章,准备准备给对象购买一下新年礼物吧,哈哈(也可 ...
- Python采集天天基金数据信息,买到中意的股,赚上一笔小钱~
前言 嗨喽!大家好,这里是魔王~ 赚了钱后我们在确定不能约束自己花钱大手大脚时,会想着借用外力来控制自己,让自己存点钱来买车买房 相信很多人会把钱存入基金中,保证自己不乱花钱的前提下还能赚小部分钱,毕 ...
最新文章
- pig脚本不需要后缀名(python tempfile模块生成pig脚本临时文件,执行)
- 海淀温泉镇迎来大爆发!5G基站、产业转移示范基地、自动驾驶核心测试区.........
- multiprocessing python_Python多线程/进程(threading、multiprocessing)知识覆盖详解
- C#循环语句(for循环)
- python中一切都是对象_python中一切皆对象
- H236各个版本的区别总结
- 31部黑客电影,你看过哪几部?
- 下载并安装IDA Pro 7.0
- 微信小程序如何使用阿里巴巴矢量图标库彩色图标
- 在Excel中插入项目符号的基本方法
- excel冻结窗格参与排序_冻结窗格在Excel中消失
- kali2021.1安装pdtools挤牙膏式爬坑日记
- chrome浏览器怎么模拟手机访问网页(已測OK)
- 亿道丨三防平板丨加固平板丨三防加固平板丨改善资产管理
- 如何运行vue项目(详细步骤)
- h5微信f分享链接给对方获取对方手机号_微信生日贺卡链接制作
- #3. 复读机(LibreOJ)
- Ubuntu 18.04机器学习环境安装
- Android EditText 格式化手机号 xxx xxxx xxxx
- Data Analysis - Day2 - Matplotlib 案例
热门文章
- 虚拟机游戏服务器更新物品,【青云志】虚拟机镜像一键服务端+全物品ID配套客户端+图文架设教程+GM工具...
- c 是高级程序设计语言吗,下列各类计算机程序语言中,不属于高级程序设计语言的是()。A.Visual BasicB.FORTRAN语言C.Pasca...
- Windows密码查看器实现原理
- Qt 基于Google引擎的拼音输入法
- 每月物品消耗统计表_预算统计表- .doc
- 数据结构期末考试试题及答案
- acp cp linux命令,系统运维
- 加好友饥荒服务器没有响应,饥荒进不去别人的服务器 | 手游网游页游攻略大全...
- 智能化弱电系统工程部分规程
- FileZillaServer创建FTP服务器