目录

1、获取视频cid参数

2、程序源代码

3、程序运行结果

4、总结


1、获取视频cid参数

首先我们打开一个有弹幕的B站视频,比如:《我好像在哪见过你》人们把难言的爱都埋入土壤里_哔哩哔哩_bilibili

然后我们打开控制台(快捷键F12)

我们可以找到该视频的cid值:420771013

然后我们将cid作为程序的参数即可。

2、程序源代码

#!/usr/bin/python
# -*- coding: UTF-8 -*-
"""
@author: Roc-xb
"""import requests
from bs4 import BeautifulSoup
import pandas as pd
import reif __name__ == '__main__':# 弹幕保存文件file_name = '弹幕.csv'# 获取页面cid = input("请输入cid:")# 弹幕API接口url = "https://comment.bilibili.com/{}.xml".format(cid)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}request = requests.get(url=url, headers=headers)# 设置请求编码格式request.encoding = 'utf-8'# 提取弹幕soup = BeautifulSoup(request.text, 'lxml')results = soup.find_all('d')# 数据处理data = [data.text for data in results]# 正则去掉多余的空格和换行for i in data:i = re.sub('\s+', '', i)# 查看数量print("弹幕数量为:{}".format(len(data)))# 输出到文件df = pd.DataFrame(data)df.to_csv(file_name, index=False, header=None, encoding="utf_8")print("弹幕抓取成功!")

3、程序运行结果

4、总结

程序代码主要只做了一件事情,就是请求API接口,然后解析出弹幕数据,相对而言,算是一个比较简单的案例,适合刚学习python的朋友练练手。

【第4篇】Python爬虫实战-抓取B站弹幕视频相关推荐

  1. Python爬虫实战---抓取图书馆借阅信息

    Python爬虫实战---抓取图书馆借阅信息 原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息 前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...

  2. python抓取视频违法吗,科学网—【python爬虫】抓取B站视频相关信息(一) - 管金昱的博文...

    昨天我在B站上写了这么一篇文章,但是被他们锁住了.无奈之下我复制到知乎上先保存起来 在这篇名为<三天学会用python进行简单地爬取B站网页视频数据>文章中我主要提到了两点在已知aid的情 ...

  3. python爬虫招聘-Python爬虫实战-抓取boss直聘招聘信息

    实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Python过程中会遇到各种烦恼问题,没有人帮答疑容易放弃.为此小编建了个Python全栈免费答疑.裙 : ...

  4. python 爬虫实战 抓取学校bbs相关板块的发帖信息

    1. 前言 之前也因为感兴趣, 写过一个抓取桌面天空里面喜欢的动漫壁纸的爬虫代码.这两天突然看到有人写了这么一篇文章: 爬取京东本周热卖商品基本信息存入MySQL 觉得蛮有趣的, 正好临近找工作的季节 ...

  5. python爬虫实战-抓取同花顺股票信息

    前言: 在之前介绍requests的基础上,现在开始进行实战. 目标网站:http://q.10jqka.com.cn//index/index/board/all/field/zdf/order/d ...

  6. Python爬虫实战 | 抓取小说网完结小说斗罗大陆

    储备知识应有:Python语言程序设计 Python网络爬虫与信息提取 两门课程都是中国大学MOOC的精彩课程,特别推荐初学者.环境Python3 本文整体思路是:1.获取小说目录页面,解析目录页面, ...

  7. Python爬虫实战抓取十一旅游最优惠的机票!

    目的 获取去哪儿默认页面的机票航班信息 详细需求 目标URL:https://m.flight.qunar.com/h5/flight/ 源码实现 #!/usr/bin/env python # -* ...

  8. python爬取boss直聘招聘信息_Python爬虫实战-抓取boss直聘招聘信息

    Python Python开发 Python语言 Python爬虫实战-抓取boss直聘招聘信息 实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Pyth ...

  9. python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

    http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...

最新文章

  1. ZooKeeper和Diamond有什么不同
  2. Xampp安装PHPUnit
  3. docker svn
  4. ubuntu下 mysql安装以后无法登陆的的解决方法((ERROR 1698 (28000): Access denied for user 'root'@'localhost'))...
  5. jQuery获取input复选框的值
  6. guid主键 oracle_使用GUID作为数据库主键的测试
  7. 关于Consul的几个问题
  8. [Ext JS 4] 布局之实战二 - 中间区块不会自动伸展 (tab)续
  9. -rw-r--r--@ what's @
  10. mdt 计算机名_配置 MDT 部署共享规则
  11. Python 编写自动化工具
  12. 收货地址列表html,收货地址.html
  13. cdr三角形转化为圆角,CDR实现圆角多边形的三种方法
  14. AppStore信息填写指南
  15. VPS上安装Zpanle面板
  16. Ackerman函数 非递归 java_ackerman(ackerman是谁)
  17. win10系统如何删除不用的输入法
  18. js如何实现侧边广告_如何用稳定器轻松实现低成本的商业级广告片制作?
  19. 利用 NSS Key Log 解密 HTTPS
  20. 手机软件无法打开或一直闪退,黑屏的原因及解决方案?

热门文章

  1. 使用Json封装scroll,已处理其兼容性问题
  2. Java语言程序设计(基础篇) 第十一章 继承和多态
  3. 用贝叶斯定理解决三门问题并用Python进行模拟(Bayes‘ Rule Monty Hall Problem Simulation Python)
  4. Jenkins 配置邮箱 530Authentication required ,535 uthentication failed 的解决方法
  5. Win10下python不同版本同时安装并解决pip共存问题
  6. iOS - UITableView reloadData滚动到顶部无效问题解决
  7. 旅行场景下的推荐算法探索
  8. 初步认识泊松重建(比较全的综合教程)
  9. 推荐系统实战第二部分 评价指标
  10. 深度学习基础 | 从Language Model到RNN