原标题:Python爬虫:利用API实时爬取斗鱼弹幕

这些天一直想做一个斗鱼爬取弹幕,但是一直考试时间不够,而且这个斗鱼的api接口虽然开放了但是我在github上没有找到可以完美实现连接。我看了好多文章,学了写然后总结一下。也为后面数据分析做准备,后面先对弹幕简单词云化,然后再对各个房间的数据可视化。

这次爬取的房间是斗鱼直播的芜湖大司马,因为他人气比较多,方便分析。然后把弹幕的信息的uid,昵称,等级,弹幕内容保存mongodb。

先看看效果

一:运行环境

IDE:Pycharm

Python3.6

pymongo 3.4.0

二:实例分析

首先要想爬取弹幕要看看官方的开发文档。

第一点就是协议组成:

第二点是登录请求,之后把这个传递给sendmsg即可发送请求:

第三点是获取弹幕信息

第四点是要保存登录状态

第五点是要把接受到的byte,转换我们识别的编码,然后保存到monggodb,也可以保存到text文档中。

补充说明

到这里这个API的主要功能已经了解了,剩下的就是具体实现,有以下几点:

1.用户输入房间号,获取房间说明

2.发送数据后,我们就会接受到斗鱼返回的数据,但是返回的数据是二进制所以我 们需要对数据转换编码。

3.我这里爬取了斗鱼用户发送弹幕的信息有uid,昵称,等级,弹幕内容,这里的等级有的人是空的,如果不处理就会造成错误所以要使用下面处理一下。

四:实战代码

五:弹幕的后续使用

这里我们是将弹幕的几个信息,uid,用户昵称,等级,弹幕内容保存到mongodb,后续要对数据分析就可以直接拿出来,如果我们只需要弹幕那么就可以只把弹幕信息保存到txt文档中就行了。

觉得本文有帮助?请分享给更多人

关注「猿助猿」成就顶级开发

技术交流QQ群:517877452返回搜狐,查看更多

责任编辑:

python爬斗鱼直播_Python爬虫:利用API实时爬取斗鱼弹幕相关推荐

  1. python自动爬取更新电影网站_Python爬虫之—微信实时爬取电影咨询

    本文将介绍如何使用爬虫在微信对话中实现实时的电影咨询爬取功能,希望和大家一起来分享" 1. 撩妹起源 俗话说的好:少壮不撩妹,长大徒伤悲啊! 说的很对,但是在这个撩妹的时代,要想成功把到妹, ...

  2. python爬网易新闻_Python爬虫实战教程:爬取网易新闻;爬虫精选 高手技巧

    Python爬虫实战教程:爬取网易新闻:爬虫精选 高手技巧 发布时间:2020-02-21 17:42:43 前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有, ...

  3. python爬虫beautifulsoup爬当当网_Python爬虫包 BeautifulSoup 递归抓取实例详解_python_脚本之家...

    Python爬虫包 BeautifulSoup  递归抓取实例详解 概要: 爬虫的主要目的就是为了沿着网络抓取需要的内容.它们的本质是一种递归的过程.它们首先需要获得网页的内容,然后分析页面内容并找到 ...

  4. python 爬网站 实例_python爬虫实战:之爬取京东商城实例教程!(含源代码)

    前言: 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1 ...

  5. python交通调查数据处理_Python突破高德API限制爬取交通态势数据+GIS可视化(超详细)...

    一.需求: 爬取高德的交通态势API,将数据可视化为含有交通态势信息的矢量路网数据. 二.使用的工具: Python IDLE.记事本编辑器.ArcGIS 10.2.申请的高德开发者KEY(免费). ...

  6. python爬网易新闻_Python爬虫实战教程:爬取网易新闻

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Amauri PS:如有需要Python学习资料的小伙伴可以加点击 ...

  7. python爬虫爬取图片代码_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...

    Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...

  8. python爬虫爬取图片代码_python爬虫-20行代码爬取王者荣耀所有英雄图片,小白也轻轻松松...

    1.环境python3.6 需要用到的库: re.os.requests 2.简介 王者荣耀可以算得上是比较受欢迎的手游之一了,应该有不少的人都入坑过农药,我们今天的目的就是要爬取王者荣耀的高清英雄壁 ...

  9. python模拟app请求_python + 爬虫 + fiddler + 夜神模拟器 爬取app(1)

    抓包 抓包是爬虫里面经常用到的一个词,完整的应该叫做抓取数据请求响应包 ,而Fiddler这款工具就是干这个的 普通https抓包设置 打开Fiddler ------> Options .然后 ...

最新文章

  1. predicate 列存储索引扫描_在SQL SERVER中导致索引查找变成索引扫描的问题分析
  2. leetcode算法题--两数相加 II
  3. jbuilder2006注册机
  4. 10个帮助你快速调试和排错的小技巧
  5. Django简介Django 各个环境下的安装
  6. Webservice开发之xsd中开发请求数据的响应接口
  7. 数据库设计原理【B树、B-树、B+树】
  8. android mm 修改路径,Android 编译系统模块
  9. 控制工程实践(8)——PID四种类型控制器(之比例-积分控制器PI)
  10. (伪)点到线段的距离 C++
  11. java微信刷卡支付demo,微信刷卡支付API详解
  12. 分享几款C/C++在线编译器
  13. 小猫特别聪明的shoow
  14. 如何用手机播放电脑的声音
  15. 福昕阅读器无法注释的解决
  16. PTX-PEG-TCO 紫杉醇-聚乙二醇-反式环辛烯
  17. 【网络协议】互联网协议入门(一)
  18. 自我高数学习笔记——知识点
  19. 一份实践性超强的架构部操作手册,拿走不谢!
  20. iOS微信授权登录中Universal Link(通用链接)的配置 ,解决ios13,ios14微信支付不走回调问题

热门文章

  1. 这座城又多了一个伤心的人
  2. mac运行什么脚本_这是什么过程,为什么要在我的Mac上运行?
  3. NLP-预训练模型-GPT系列-20221130:chatGPT【证明了大语言模型的可行新】
  4. 你是否常常下决心“不改变”?
  5. 三分钟教你Mac下安装VmWare虚拟机
  6. Ubuntu输入法问题解决方案
  7. Unreal中的Config标记宏
  8. 两个LinearLayout或者ConstraintLayout平分布局
  9. 创客匠人:五月,爱成长的力量,有爱必赢
  10. 码农翻身讲计算机基础:补码,程序编译与递归