【第4篇】Python爬虫实战-抓取B站弹幕视频
目录
1、获取视频cid参数
2、程序源代码
3、程序运行结果
4、总结
1、获取视频cid参数
首先我们打开一个有弹幕的B站视频,比如:《我好像在哪见过你》人们把难言的爱都埋入土壤里_哔哩哔哩_bilibili
然后我们打开控制台(快捷键F12)
我们可以找到该视频的cid值:420771013
然后我们将cid作为程序的参数即可。
2、程序源代码
#!/usr/bin/python
# -*- coding: UTF-8 -*-
"""
@author: Roc-xb
"""import requests
from bs4 import BeautifulSoup
import pandas as pd
import reif __name__ == '__main__':# 弹幕保存文件file_name = '弹幕.csv'# 获取页面cid = input("请输入cid:")# 弹幕API接口url = "https://comment.bilibili.com/{}.xml".format(cid)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}request = requests.get(url=url, headers=headers)# 设置请求编码格式request.encoding = 'utf-8'# 提取弹幕soup = BeautifulSoup(request.text, 'lxml')results = soup.find_all('d')# 数据处理data = [data.text for data in results]# 正则去掉多余的空格和换行for i in data:i = re.sub('\s+', '', i)# 查看数量print("弹幕数量为:{}".format(len(data)))# 输出到文件df = pd.DataFrame(data)df.to_csv(file_name, index=False, header=None, encoding="utf_8")print("弹幕抓取成功!")
3、程序运行结果
4、总结
程序代码主要只做了一件事情,就是请求API接口,然后解析出弹幕数据,相对而言,算是一个比较简单的案例,适合刚学习python的朋友练练手。
【第4篇】Python爬虫实战-抓取B站弹幕视频相关推荐
- Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息 原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息 前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
- python抓取视频违法吗,科学网—【python爬虫】抓取B站视频相关信息(一) - 管金昱的博文...
昨天我在B站上写了这么一篇文章,但是被他们锁住了.无奈之下我复制到知乎上先保存起来 在这篇名为<三天学会用python进行简单地爬取B站网页视频数据>文章中我主要提到了两点在已知aid的情 ...
- python爬虫招聘-Python爬虫实战-抓取boss直聘招聘信息
实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Python过程中会遇到各种烦恼问题,没有人帮答疑容易放弃.为此小编建了个Python全栈免费答疑.裙 : ...
- python 爬虫实战 抓取学校bbs相关板块的发帖信息
1. 前言 之前也因为感兴趣, 写过一个抓取桌面天空里面喜欢的动漫壁纸的爬虫代码.这两天突然看到有人写了这么一篇文章: 爬取京东本周热卖商品基本信息存入MySQL 觉得蛮有趣的, 正好临近找工作的季节 ...
- python爬虫实战-抓取同花顺股票信息
前言: 在之前介绍requests的基础上,现在开始进行实战. 目标网站:http://q.10jqka.com.cn//index/index/board/all/field/zdf/order/d ...
- Python爬虫实战 | 抓取小说网完结小说斗罗大陆
储备知识应有:Python语言程序设计 Python网络爬虫与信息提取 两门课程都是中国大学MOOC的精彩课程,特别推荐初学者.环境Python3 本文整体思路是:1.获取小说目录页面,解析目录页面, ...
- Python爬虫实战抓取十一旅游最优惠的机票!
目的 获取去哪儿默认页面的机票航班信息 详细需求 目标URL:https://m.flight.qunar.com/h5/flight/ 源码实现 #!/usr/bin/env python # -* ...
- python爬取boss直聘招聘信息_Python爬虫实战-抓取boss直聘招聘信息
Python Python开发 Python语言 Python爬虫实战-抓取boss直聘招聘信息 实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Pyth ...
- python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述
http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...
最新文章
- ZooKeeper和Diamond有什么不同
- Xampp安装PHPUnit
- docker svn
- ubuntu下 mysql安装以后无法登陆的的解决方法((ERROR 1698 (28000): Access denied for user 'root'@'localhost'))...
- jQuery获取input复选框的值
- guid主键 oracle_使用GUID作为数据库主键的测试
- 关于Consul的几个问题
- [Ext JS 4] 布局之实战二 - 中间区块不会自动伸展 (tab)续
- -rw-r--r--@ what's @
- mdt 计算机名_配置 MDT 部署共享规则
- Python 编写自动化工具
- 收货地址列表html,收货地址.html
- cdr三角形转化为圆角,CDR实现圆角多边形的三种方法
- AppStore信息填写指南
- VPS上安装Zpanle面板
- Ackerman函数 非递归 java_ackerman(ackerman是谁)
- win10系统如何删除不用的输入法
- js如何实现侧边广告_如何用稳定器轻松实现低成本的商业级广告片制作?
- 利用 NSS Key Log 解密 HTTPS
- 手机软件无法打开或一直闪退,黑屏的原因及解决方案?
热门文章
- 使用Json封装scroll,已处理其兼容性问题
- Java语言程序设计(基础篇) 第十一章 继承和多态
- 用贝叶斯定理解决三门问题并用Python进行模拟(Bayes‘ Rule Monty Hall Problem Simulation Python)
- Jenkins 配置邮箱 530Authentication required ,535 uthentication failed 的解决方法
- Win10下python不同版本同时安装并解决pip共存问题
- iOS - UITableView reloadData滚动到顶部无效问题解决
- 旅行场景下的推荐算法探索
- 初步认识泊松重建(比较全的综合教程)
- 推荐系统实战第二部分 评价指标
- 深度学习基础 | 从Language Model到RNN