突然想爬一下哔哩哔哩的弹幕,视频不重要,弹幕才是本体,从弹幕的内容里还可以看出来大众的态度和情绪,是一个很好的舆论分析的工具。
分析一下接口,

是一个以list开头的xhr文件

import time,requests,re
from selenium import webdriver
from lxml import etree
"""解析哔哩哔哩弹幕:
哔哩哔哩二次请求的弹幕文件是一个xml文件,这里用两种方法来解析"""
# 第一种方式,使用selenium来解析,这种方式不用解码与编码
# driver = webdriver.PhantomJS(executable_path=r'C:\python3.5.3\phantomjs-2.1.1-windows\bin\phantomjs.exe')
# base_url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=100236969'
# driver.get(base_url)
# # 弹幕主体是被d标签包围的
# muma=driver.find_elements_by_tag_name('d')
# for dan in muma:
#     print(dan.text)# 第二种方式是用requests与xpath来解析,不需要解码
base_url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=100236969'
contents = requests.get(base_url).content
contents = etree.XML(contents)
#使用html也可以
#contents = etree.XML(contents)
muma = contents.xpath('.//d/text()')
for dan in muma:print(dan)# 第三种方式是正则提取,需要解码
# base_url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=100236969'
# contents = requests.get(base_url).content.decode('utf-8')
# muma_rule = re.compile(r'<d.*?>(.*?)</d>')
# muma = muma_rule.findall(contents)
# for dan in muma:
#     print(dan)

爬虫之哔哩哔哩弹幕的获取相关推荐

  1. 菜鸟弟弟从零开始的爬取Bilibili弹幕的Python爬虫教程-哔哩哔哩 - ( ゜- ゜)つロ 干杯~

    从零开始的爬取Bilibili弹幕的Python爬虫教程 或许可以作为一个爬虫小白的练手的demo? 还是先看看什么是爬虫吧!(还有Bilibili! ) 网络爬虫: 网络爬虫(又称为网页蜘蛛,网络机 ...

  2. 如何写一只抓哔哩哔哩弹幕的爬虫

    原文地址:http://blog.csdn.net/bigbigsman/article/details/78639053 如何写一只抓哔哩哔哩弹幕的爬虫 爬虫工作流程 解析首页获得视频cid 构造所 ...

  3. 清除string内容_python爬取哔哩哔哩网页弹幕内容,并将爬取的内容以五角星的形式显示出来...

    转载:03 爬虫实例-获取网页弹幕内容 思路: 向哔哩哔哩网站发送请求 请求成功后,解析爬取的弹幕内容保存到一个文件中 读取文件并分析弹幕内容中词组或文字出现的频率 将这些词组或文字组成五角星图形 组 ...

  4. 本地播放哔哩哔哩弹幕+视频

    本地播放哔哩哔哩弹幕+视频 1.打开你喜欢或者收藏的视频播放页面 2.下载视频 方法1:一劳永逸的下载工具: IDM 方法2:利用浏览器插件的嗅探[^1]工具(不太推荐,感兴趣的可以百度学习一下) 方 ...

  5. beautifulsoup爬取网页中的表格_python爬取哔哩哔哩网页弹幕内容,并将爬取的内容以五角星的形式显示出来...

    转载:03 爬虫实例-获取网页弹幕内容 思路: 向哔哩哔哩网站发送请求 请求成功后,解析爬取的弹幕内容保存到一个文件中 读取文件并分析弹幕内容中词组或文字出现的频率 将这些词组或文字组成五角星图形 组 ...

  6. 哔哩哔哩弹幕爬取以及BV与AV号之间的转换

    作为b站老粉丝,我有义务向新人科普bilibili的发展与纪年史,本人持中立态度,仅做记录工作. B站的API端口都是开放的,用一个很简单的调用命令就可以计算出BV号对应的AV号. B站的源码已经在G ...

  7. Python3 爬虫实战 — 模拟登陆哔哩哔哩【滑动验证码对抗】

    登陆时间:2019-10-21 实现难度:★★★☆☆☆ 请求链接:https://passport.bilibili.com/login 实现目标:模拟登陆哔哩哔哩,攻克滑动验证码 涉及知识:滑动验证 ...

  8. 哔哩哔哩公布2021年度弹幕:“破防了”

    11月29日消息,今日,哔哩哔哩(以下简称B站)与人民文学出版社.中国社会科学院新闻与传播研究所联合发布2021年度弹幕"破防了". 作为一种即时性互动方式,弹幕直观地呈现了观众对 ...

  9. python手机端如何下载_过去,哔哩哔哩上面的视频只能在手机上面下载;现在,我用Python爬虫实现了能在PC端上面下载...

    运用Python爬虫下载哔哩哔哩上面的视频 前言 之前一直没有时间写博客,从今天开始基本又有时间了,又可以高高兴兴地写博客了.本篇文章纯属于小编原创,未经小编允许禁止转载,还请大家见谅! 目录 运用P ...

最新文章

  1. SAP PM入门系列3 - 设备主数据里无‘检验类型‘栏位,那何处定义维护订单可以触发检验批?
  2. 90%的开发都不太考虑这个,但只要出问题直接公司完蛋!
  3. 如何补救数据中心电缆
  4. 显示驱动包含在Linux内核层,驱动程序层(上) - Linux内核--网络栈实现分析_Linux编程_Linux公社-Linux系统门户网站...
  5. MySQL查询结果导出到文件
  6. 160 - 25 CodeZero.1
  7. [Leetcode][第679题][JAVA][24点游戏][回溯][暴力]
  8. LeetCode 659. 分割数组为连续子序列(哈希)
  9. 通过Nacos让Nginx拥有服务发现能力
  10. Docker-Oracle和物理机Oracle数据库性能测试
  11. Luogu 3479 [POI2009]GAS-Fire Extinguishers
  12. 使用 Flask 框架写用户登录功能的Demo时碰到的各种坑(一)——创建应用
  13. (转)通过 Javacore 诊断线程挂起等性能问题
  14. 2023年中国矿业大学会计专硕考研经验
  15. 海贝音频384khz_海贝音乐app下载_海贝音乐安卓版下载[音乐播放器]-下载之家
  16. 匹配的通配符很全面,但无法找到元素mvc:annotation-driven的声明
  17. 算法工程师的工程修养:Linux 服务器性能故障分析
  18. 用原生js制作一个动态简历(多动症简历)及在线预览部署过程
  19. 三菱伺服图纸,三菱驱动器图纸
  20. 计算机常见的多媒体素材有,拿来主义 常见多媒体素材获取途径面面观

热门文章

  1. Python项目实战 3.4:异步消息队列.Celery+RabbitMQ
  2. HALCON示例程序ball电路板焊点识别、检测、测量程序剖析
  3. OpenLayers基础教程——常规的地图控件
  4. 南开大学计算机考研大纲,南开大学2019年考研812计算机综合基础考试大纲
  5. DNF 关键组件Gameloader.exe
  6. VirtualBox虚拟机与主机互通,并且虚拟机又能上网配置
  7. 灰度共生矩阵特征提取步骤_【数字图像处理】 灰度共生矩阵特征分析法
  8. 《Web系统与技术》教材 第1章 Web系统与技术的基础知识 课件1(PPTX)
  9. 南阳理工学院计算机专业很强吗,南阳理工学院最好的专业?实力最强的是那个专业...
  10. 西交计算机科学与技术学院,2021年“工科大学”专业排名,哈工大、西安交大、华科进入前20名...