爬取B站弹幕数据的API:https://api.bilibili.com/x/v1/dm/list.so?oid=XXX

方法一:获取oid

  1. 我们要想知道这个oid是什么,首先要获取到cid。弹幕数据的接口我们虽然找不到,但是目录页接口还是可以找到的,
    网址如下。https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp <bvid在b站的视频url中就能找到>
    通过这个网址我们可以获取到我们要的那个cid,cid这个键对应的值,就是我们要的oid数字串

  2. 首先,bilibili的弹幕是在xml文件里,每个视频都有其对应的cid和aid,我们取到cid中的数字放入url中

  3. 合成url http://comment.bilibili.com/201056987.xml 就可以看到弹幕文件xml <注:cid=201056987 是专辑《MOJITO》专辑视频的cid>

  4. 由于这个MV只有一个完整的视频,所以这里只有一个cid,如果一个视频是分不同小结发布的,这里就会有多个cid,不同的cid代表不同的视频。

方法二:获取oid

  1. F12命令

  2. 点击 Network

  3. Console搜索框中搜索 oid 即可出现数字

# -*- coding: utf-8 -*-
# @Time    : 2020/6/14 0:03
# @Author  : AWAYASAWAY
# @File    : b站爬虫.py
# @IDE     : PyCharm
import requests
import json
import chardet
import re
from pprint import pprint
# 1.根据bvid请求得到ciddef get_cid():url = 'https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp'res = requests.get(url).textjson_dict = json.loads(res)pprint(json_dict)return json_dict["data"][0]["cid"]
cid = get_cid()
print(cid)
```python{'code': 0,'data': [{'cid': 201056987,'dimension': {'height': 1080, 'rotate': 0, 'width': 1920},'duration': 189,'from': 'vupload','page': 1,'part': 'JAY-MOJITO_完整MV(更新版)','vid': '','weblink': ''}],'message': '0','ttl': 1}201056987
# 2.根据cid请求弹幕,解析弹幕得到最终的数据def get_data(cid):final_url = "https://api.bilibili.com/x/v1/dm/list.so?oid=" + str(cid)final_res = requests.get(final_url)final_res.encoding = chardet.detect(final_res.content)['encoding']final_res = final_res.textpattern = re.compile('<d.*?>(.*?)</d>')data = pattern.findall(final_res)# pprint(final_res)return data
data = get_data(cid)
print(data)
    ['我爱了', '爱了爱了', '苹果手机震起来了你们的呢', '爱了爱了', '小公主我爱你啊啊啊', '前方核能!!', '旁边两位是谁', '太好听了!', '手机在震动?', '爱了爱了', '#FFAAD5', 'i了i了', '哇', '为啥看这个视频手机会震动啊', '高能预警!', '好听极了', '爱了杰伦', '小公举必须是粉色鸭!', '杰伦啊啊啊啊啊啊啊啊', '手机震了', '我的手机怎么也在振', '啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊', '哇哦', '乌乌……好好听', '啊啊啊啊啊杰伦啊啊', 'ai爱了,', '粉', '这里好听爆了', '杰伦の牌面 爱了爱了', '开头就上头,不愧是周总', '我手机在抖', '再来一遍', '粉了粉了', 'mojito', '我感觉这个舞要火', '爱了爱了555', '来了~', '#FFAAD5ilil', '爱了', '嗨粉', 'hi', '这音质太好了 手机都在震', '粉色', '震动iPhone8以上才有哦', '爱了爱了', '再来一遍', '变了', '#FFAAD5 略略略', '太上头了', 'JAY!JAY!JAY!', '再来亿遍', '自动变色', '速8?', '太喜欢了!', '自动变色', '杰伦!!!', '他怎么这么有才华啊啊啊啊啊啊', '好好好好好好好听啊', '真的会粉?', '甜甜的杰伦!', '恋爱色', '略略略', '怎么变粉', ' 来嘞', '甜甜的歌蹭蹭以后我都甜甜的!', '自动变色', '再听一遍', '自动变粉', '粉色的排面来一波', '震动好爽', '周董', '取景地:dust 2 ', '手机在震动', '哈哈', '啊啊啊啊啊', '给奶茶公举排面', 'mojito    ', '再来一次', '爱了爱了', '手机怎么振了???', '爱了爱了爱了', '我粉了吗', '啦啦啦啦', '排面', '爱了爱了', '千万合影', '杰伦', '啊啊啊啊啊', 'pink', '我伦!!!!?!!!!', '爷的青春回来了', 'pink', '再来亿遍', '太上头了', '增加一个粉色的弹幕', '为杰沉沦!!!!!!!!!我伦!!!!!!', '爱辽爱辽', '好听', '前方核能!!', '来了', '抱歉上头了', '必须有排面', '来了来了', '很好听', '啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊', 'aaa绝了', '哇', '爱了爱了', '自动变粉', '有粉色吗', '我伦!!!!!', '70w的时候我在,728w的时候我还在', '啦啦啦啦啦', '粉色粉色', '变色', '杰伦!!!', 'i了i了', '这是做了什么效果么,手机全程抖动', '好听好听好听好听好听好听好听好听好听', '自动变色', '自动变粉!!', 'rap很绝', '!!', '粉色占领高地', '节奏好轻快', '爷青回', '爱了爱了爱了', '有一说一 ,欣赏不来', '杰伦牛逼!', '我又来了', '啊啊啊啊啊啊啊啊啊!!!!', '爱了爱了', '727w合影', '爷青回', '我伦!!!!!', '前方高能', '爱了', '墨镜好酷', '再来亿遍', '耶', '爱了爱了', '这歌一定要多听几遍才能体会它的美妙!', 'JayJayJayJayJayJay', '来了', '爷的青春回来了', '颜色', '全体起立', '我来了', '857', '啊啊啊可爱', '爱了爱了', '粉一个', '爷青回!', '粉色', '颜色', '几代人的青春', '爱了爱了!!!', '太适合跳拉丁了吧', '太好听了!', '越听越上头', '手机震感太舒服了', '太爱了', '粉色来了', '\uf8ff\uf8ff', '甜', '粉红色的夏天 甜甜', '这播放量', '手机一直抖,是个什么效果', '这里超爽', '下方黄字真没素质', '爷   青   回', '??', 'OK', 'haha', '假音真的好丝滑!', '我已经循环了30多遍了,播放量不到一千万我是停不下来的', 'Mojito', '好瘦', '好听好听', '爱了爱了', '800w助攻', '好听!!!!!', '爷青回', '爷青回!!!', '爱了爱了', '怎么粉', '你所在之处,裤裆都被征服', '666', '正在前往,哈瓦那', 'rap直接起飞', '来了', '小学2年级开始听杰伦现已初三', '几代人的青春', '来了来了', '谁还不是个粉红系', '自动变粉', '不错不错,好听', '0.75新世界', '我的为啥不振', '666', '粉?', '#FFAAD5爷青回', 'mojito', '再来亿遍', 'awsl', '我不看了,我手机动了。', '有那味', '爷的青春回来了!!!', '666666', '什么时候出中国风的啊', '爱了爱了', '再来亿遍 好听啊', '0.75不一样的感觉', '一天数遍', '粉了', '这个颜色', 'gogo', '啊啊啊啊', '小米手机为什么一直震动??????', '粉粉粉粉', '上头', '杰伦标配色', '粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了', '粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了', '666', '爱了', '上', '粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了', '6666', '自动变色', '芜湖', '手机为什么一直震动???????', '杰伦牛逼', '哇哦', '粉', '粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了', '爷爱了', '粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了粉了', '抖得停不下来了', '变粉', '啊啊啊啊', '来了来了', '粉粉粉', '800w冲', '粉就完了', '老夫的少女心爱~', '自动变色?', '前方高能', '入坑曲', '爱了爱了', '爷青回', '手机为什么会震动', '感谢昆凌让我男神这么幸福啊~', '从此mv无美女', '叶惠清', '粉了hhh', '粉', '今天我们生物老师一上课就放了哈哈哈哈', '变粉', '#FFAAD5好丝滑!', '来了', '我也要有一条弹幕', '为社么手机在震', '旁边伴舞的终于不是雪糕,小麦了', '730w!!', 'sshangt', '啊啊啊啊rap爷青回', '舞王“讲师”', '爱了ailail', '黄俊郎没以父之名的统治力了', '这个歌词好甜啊', '爱了爱了', '粉色', '啊啊啊啊', '爱了爱了爱了爱了', '走起', '爱来了', '流弊', '周董帅帅帅,迷妹爱爱爱', '好神奇', '爷青回', '啊啊啊啊啊啊啊啊', '爷青回', '粉', '800万冲啊', '混入其中', '这也行?', '这个色?', '来了来了', '我又听不清歌词了 爷青回', '小鸡小鸡相机洗的', '海海海海海海', 'nxxnjxj', 'ZHEG', 'OHHHHHHHHH', '爷的青春回来了', '来了来了', '???', '变色', '樱花粉是怎么来的', '走开走开苦中苦', '熟悉的感觉又来了!!!!', '为啥手机还在震动?', '甜', '来了要来了!', '700w了~~~弹幕8w~~~', '再来一遍', '爱了爱了', '洗脑了', '猛男粉', '来了', '欢迎回来', '甜啊', '变色', '每天亿遍', '冲冲冲', '小可爱', 'F粉', 'Mojito', '爷青回', '粉', '绝了', '爱了爱了', '这段真的太好听了', '我的手机在震动诶!也太厉害了吧!', '爷青回', '再来亿遍', '我手机在在震', '自动震动', '泪目', '???', '#cffaa05', '我的也在抖!', '为啥会震动', '730W留言!!!', 'iiiiiii', '爱爱', '莫吉托', '我粉了吗', '嘿', '嘿嘿', '完了,出不去了咋办!', '胖了', 'iiiiiiiiiiiiiiiiiiiiiiiiiiiiii', '高能', '刚听完以父之名,从满分掉到及格线的感觉', '为啥手机会震', '为啥我手机会震动', '周子钲', '我手机会跳舞了?', '杰伦杰伦!', '啊啊啊啊', 'Mojito', '哇哦', '\uf8ff\uf8ff', '杰伦!!', '芜湖~', '变色成功没', '来啦', '哇', '再来亿遍', '冲', 'RAP 在长点就完美了', '爱了爱了', '全体起立', '爷青回', '曾小贤曾小贤', '苏A再来亿遍', '太好听了!!', ':变变', '好听', '粉粉粉', '爱了爱了', 'n', '莫吉托', '来了来了', '多听几遍哈哈', '喜欢', '变粉', '哈哈', '为什么手机会震动?', '9100在看,强', '单曲循环一整天', '哇哇哇', '爱了爱了', '啊啊啊啊啊啊我死了', '目标 哈瓦那,准备进攻', '周杰伦永远是周杰伦', '来了来了', '自动变色', '好听啊', '晚安', '无敌奥', '爱了爱了', '每天一遍', '爷青回', '超上头!!', 'o', '!', '手机为什么会震动', '啊啊啊啊', '。。。', '吼吼', 'ohh', '再来亿遍', '粉红色的周董', '手机为啥会震动啊', '再来亿遍', '牛逼', '哇哇哇', '舒服', '爷青回', '公举粉', '#FFAAD5', '粉起来', '就这?', '666', '真的么', '墨迹图', '爱人是我', '为啥不变粉', '爱了爱了', '好听啊', '迷迭香', '?', '粉了哈哈哈', 'rap大赞!!!!', '那个男人来了', '我手机也震动了', '好', 'Mojito', '歌词好甜', '爷青回', '粉粉粉', '爱了爱了', '自动变粉', '我以为左边是马丽', '手机一直震动  咋关', '。', '甜甜甜', '800w助攻', '请自觉不要遮挡字幕', '粉色', '爱了爱了~', '就是这个味~~', '啊啊啊啊啊', '原来这样发', '我手机也震动个不停', '自动变色', '731万', '周董牛*罒▽罒*', '自动变色', '粉色', '爱', '爷青回啊啊啊啊啊啊啊啊啊啊', '上头', 'ohhh', '开头见', '再来一遍', '开头见', '柯有伦', '粉色', '来啦来啦来啦', '努巴尼?', '哈哈哈哈哈哈哈你们发色值的', '合影', 'ohhhhh', '欢迎回来', '好甜啊', 'swag', '变色', '爷青回', '第203条弹幕由我来发', '粉嫩', '双人舞', '111', '爱了', '自动变粉', '我伦啊啊啊啊啊', '爷青回', '这段rap就是神仙!!!!!!!!!!!!!!!!', '哈哈哈', '啊啊啊啊啊啊啊啊啊啊啊啊啊啊阿啊啊啊啊', 'Mojito', '爱了', '啊啊啊啊啊啊', '!', '又把以前的歌听了一遍', '再来亿遍', '为啥手机会震动', '爱了爱了', 'ohhh', '粉', '好听好听好听好听', '弹幕颜色搞起来', '这个rap超级喜欢', '爱了爱了', '来了', '爷青回', '杰伦杰伦杰伦杰伦杰伦杰伦杰伦', '来了来了', '欢迎来到哈瓦那', '旁边那几个是谁啊', '好好听', '爱了爱了', '瘦了✺◟(∗❛ัᴗ❛ั∗)◞✺', '杰伦新歌好棒', 'i了i了', '好听好听好听好听好听好听好听好听好听好听', '还带震动的?!', '爱了爱了', 'o.o', '莫吉托杰伦', '爷青回!!!', '怎么振动了', '零点了,八千多个小伙伴不困吗', '好听好听好听好听好听好听好听好听', '杰伦还是那么酷,爷春回', '走起', '啊啊啊啊啊我爱啊', '第亿遍', '666', '上头', '爷青回', '嗨', '爱了爱了', '青回', '超好听', '爷青回', 'Mojito ', '❤️', '来了', '爷青回', '爷青回', '卧槽!!', '爷青回', '好听', '800W冲冲冲!!!', '再来一次', '为什么我戴着耳机听手机还会震?', '秀', '爷青回', '我手机喇叭在震动……', 'wowwwww', '果然一样,美少女战士啊', '变色', '我的咖啡不用太甜', '舍不得快进', '我手机要震没了', '爷青回', '爱了', '爱了', ' 出不去了 已经第十一遍了', '好听!', '爷青回', '爱了爱了', '来了', '嘿嘿', '再来亿遍', '自动变粉', '帅死了', '再来亿遍', '正在前往哈瓦那', 'Jay!', '爷青回', '爷青回', '把啊啊啊啊啊', '喜欢', '我还以为我手机有问题,一直震动', '700万合影!!!!', '哈哈哈', '想去古巴旅游了', '手机响了', '好好听!', '亿遍了', '吹爆我伦', '自动变色', '我来试试手机震动效果的~', '听说有8千人', '哥哥好酷', '好甜', '周杰伦', '好听好听好听好听', '怎么一直震动', '爷青回', '啊啊啊啊啊啊啊啊啊', '好听!', 'mojito', '我手机听坏了', '啊啊啊啊啊啊啊好棒!', '爷青回', '来了来了', '是内味', '66666', '必须为杰伦留下弹幕!', '14年jay迷来了', '爷青回', '好想去古巴喝莫吉托', '是粉的吗', '留下弹幕!', '???', '不好听', '我也变色', '变粉了!!', '无与伦比', '怎么关啊', '啊啊啊啊啊', '哇周董排面', '哇偶', '是这个吗', '迷迭香的感觉', '小潮院长你啥时候学的跳舞?', '粉色高能预警~!!!', '好', '听起来好熟悉……', '爱了', '太短了不够听啊!', '公举色', '出不去了', '来啦来啦', '8270 人正在看', '有内味!', '粉粉', '粉色粉色粉色666', '前方高能', '要来了', '爱了', '来了', '粉色!', '为什么我的手机在震动', '核能 核能', '品红!', '好听啊', '啊啊啊', '那你', '爱了啊', '自动变色', '来了来了', '粉?????', '变色了吗', '冲冲冲', '再来亿遍', '0:08 点了,你们都不睡觉吗', '我以为我手机坏了', '周杰伦牛逼', '粉了', '好听', '手机也是振的', '时代变了', '手机一直在震', '粉了', '好', '手机一直震', '哥', '真的会自动变色吗', '甜死啦!!!!', '来了来了', '上头', '这句 Havana 漫步 ,真的好浪漫', '自动变色', '在来在来', '莫名觉得他和陈赫是一波的', '多开一点', '啊啊啊啊啊啊变色成功!!!', '爱了爱了', '来啦', '芜湖起飞', '终于等到你!!!!!', '爷青回', '爷青回', '再来一遍', 'moyito', '好好听!!!!!', '哇哦', '来了来了', '来了来了', '杰伦', '好听', '炙 热 沙 城 2', '我是粉色', 'rap好酷', '我变粉了', '我爱杰伦', '来来来', '好听', '牛逼!!!!!!!!', '越听越上头', '粉粉粉粉粉', '牛逼!!!', 'ilil', '好听!!!!!!', '啊啊啊啊啊啊啊啊啊啊啊啊', 'rap帅呆', '震动', '真的会变色耶', '永远爱你的音乐啊Jay!!!', '\uf8ff\uf8ff\uf8ff\uf8ff\uf8ff', '杰伦的颜色昂', '呀呀呀粉色~~', '甜啊', '全体起立', '爱了爱了', '中年大叔,粉色来一波', '啊啊啊啊啊啊啊啊啊啊', '入坑曲', '留名', '爱了', '哈哈哈哈哈哈哈哈,来一杯', '爷青回', '哈哈哈', '爷青回!!!', '排面', 'gogogo', '粉色', '哈哈', '太爱你了  这首歌一点也不水', '厉害', '粉粉粉粉粉粉的粉粉粉粉', '来了', '合影', '超爱', 'lei了!lei了!', 'mjito', '再来亿遍,好甜好漫', '变粉', '来啦', '爷的青春回来了', '冲击1000W!!!', '爱了', '爱了爱了', '周!杰!伦!', '起飞', '好听到手机都在震动', 'jayzhou', '好听', 'M', '啊啊啊啊啊啊啊啊', '为什么手机震动', '睡前不来一遍怎么能做美梦呢', '洗脑循坏', '手机震动', '111', '就这样默默变色!!!', '粉色来啦', '爷的青春回来了,周董多发歌哦', '我的手机针震动了', 'ohhhhhhhh', 'rapppppppp来了!!!', '爷青回', '再来一遍', '啊', '上头', '欢迎回来', '为什么我手机震的那么严重', '竟然有振动', '手机一震一震的', '谁还没个粉色了', '猛男粉', '莫hi do', '上头', '粉了粉了', '噢噢噢噢噢噢噢噢', '#FFDDA5 爱了', '啦啦啦', '爷青回', '好听好听', '好听', '哇哦', '一句牛逼表示我来了', '大家记得1.25倍', '变变变粉粉粉', '杰伦!', '我的手机也在跟着振动?', '来了', '啊啊啊啊啊啊', '爷青回', '我手机震动了……', '好好听啊', '奇奇怪怪', '阿巴阿巴阿巴阿巴', '窒息了', '我手机咋震啦?', '66', '好甜啊啊啊啊啊啊', '爷青回', '欣赏不来', '强', '爷的青春啊', '榈', '好', 'Mojito', '的', '#FFAA05 111', '为什么我手机也跟着震动啦', '干杯就完事了', '为什么我的手机震动了???', '上头', '来了!', '还是周杰伦', '!', 'Mojito', '自动变粉', '结婚后的mv', '手机震炸了,赔钱!!', '哈哈', '好', '我的妈啊!!!!!!!!!', '自动变粉', '杰伦爱了爱了', '哈哈哈哈', '必须排面', '少年感', '我也想变粉色', '粉了', '爱了爱了', '!', '再来亿遍', '??我手机在震动', 'Mojito ', '手机一直震动什么操作', '这一句我喜欢', '你们手机震动了吗?', '这个?', '哇哇哇这是内个熟悉的周杰伦啊啊啊', '好听啊啊啊啊啊', '苹果手机在震颤', '自动变色?', '杰伦杰伦!!!!', '为杰伦打call!!!', '来了!', '甜甜甜', '好听', '手机为啥一直震动', '好好听', '你大爷还是你大爷,你杰伦还是你杰伦', '啦啦啦啦啦', '手机震炸了,赔钱!', '变色', '好听好听www', '爷青回', '又来了', '诶阿姨来一杯卡布奇诺', '爷起', '麻烦给我的爱人来一杯二锅头', '粉了粉了', '爷青回', '。', '我是什么颜色', '再来亿遍', '变粉', '怎么变粉色的?', '爷青回', '亿遍', '美少女战士前奏???', '好好听', '??????', '啊啊啊', '周杰伦就是最吊的!', '爱了爱了', '拯救古巴经济', '芜湖~', '爱了爱了', '确实有听过的感觉', '来了来了', '哈哈哈', '来了', '真真好听呀~~~~~~', '粉色', '爷青回', '周才子爱了爱了', '爷青回', '手机会震…', '老青结工了', '有点像迷迭香的味道', '异域风情', 'mojiko', '740我等你', '粉红', '手机在振动呢', '我粉了', '我的手机在抖!', '爷春回!!!', '起飞~', '永远喜欢小公举', '华语乐坛第一,没有之一!', '?', '变色', '看着MV从72万到736万,wdm呀', '上头', '快要破千万了', 'dust2蓝车', 'hh', '右上角三个点里可以关闭振动', '再来再来', '爷春回!!!!', '甜甜甜', '爱了', '瘦了', '应援色', '起飞', '粉色的吗?', '变色', '0:00', '结婚后的甜滋滋', '爷青回', '咖啡', '杰伦粉', '为什么我的苹果看这个视频马达会跟着旋律一起震动', '爷青回', '好听', '吼吼吼', '啊啊啊啊啊', '粉粉爱', '爷青回', '我尽然可以听懂歌词~~~~', '不好听', '再来一遍', '爱了爱了', '安逸,哈哈哈', '啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊', '666', '啊!我最爱的迷迭香 ', '粉色', '词真的不错', '我是什么颜色', '为什么手机在震动', '粉色', '粉?', '啊啊啊啊棒', '粉色吗', '粉了', '手机会震太厉害了', '变色', '是不是大家把屏幕挂着啊,哈哈哈,闭上眼睛享受这夜晚周杰伦带给自己的独处的安宁和惬意', 'APP断的画质好差', '粉', '粉?', '哈哈哈哈', '我用电脑试试看我的电脑会不会震', '纷纷', '甜甜的', '我知道你也在看,嘿嘿', '粉粉嫩嫩才是真', '这个粉色不够粉', '甜', '粉色粉色', '棒棒棒赞赞赞', '真的哭了。', '再来亿遍', '亿遍', '赞赞赞', '粉', '再来再来', '粉', '来了', '给小公主排面!!', '爷青回', '爷粉了', '66666', '太美了', '曾小贤??', '为什么手机会一直震撼', '太牛了', '好听', '为啥手机会振', '可以变色吗', '粉了', '为什么我的手机会震动啊', '换个颜色', '哈哈哈哈哈', '一张口就是老清洁工了', '都', '扁粉', '粉色', '我爱你杰伦', '0,,', '不会真的1000万吧', '陈赫唱的不错哦', '妈呀第二次听 好好听', '爷青回', '爷青回', '好好听', '爱了', '嘿嘿嘿', '绝了', '粉阿粉', '自动变色', '有情调的曲子', '我变颜色了', '粉', '粉色', '咖啡', '粉', '恕我直言…真的挺一般', '没有什么笑容', '来了来了', '再来亿遍', '700W合影', 'wow', '粉色']
# 3.保存弹幕列表def save_to_file(data):with open("dan_mu.txt", mode="w", encoding="utf-8") as f:for i in data:f.write(i)f.write("\n")
save_to_file(data)
# 1 导入相关库
import pandas as pd
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from imageio import imreadimport warnings
warnings.filterwarnings("ignore")# 2 读取文本文件,并使用lcut()方法进行分词
with open("dan_mu.txt",encoding="utf-8") as f:txt = f.read()
txt = txt.split()
data_cut = [jieba.lcut(x) for x in txt]
data_cut
# 3 读取停用词
stop = [" ","道","说道","说",'了']
# 4 去掉停用词之后的最终词
s_data_cut = pd.Series(data_cut)
all_words_after = s_data_cut.apply(lambda x:[i for i in x if i not in stop])
# 5 词频统计
all_words = []
for i in all_words_after:all_words.extend(i)
word_count = pd.Series(all_words).value_counts()
# 6 词云图的绘制
# 1)读取背景图片
back_picture = imread(r"公主1.jpeg")# 2)设置词云参数
wc = WordCloud(font_path="C:/Users/Windows/fonts/simhei.ttf",background_color="white",max_words=2000,mask=back_picture,max_font_size=200,random_state=42)
wc2 = wc.fit_words(word_count)# 3)绘制词云图
plt.figure(figsize=(16,8), dpi=300)
plt.imshow(wc2)
plt.axis("off")
plt.show()
wc.to_file("ciyun.jpg")

爬虫----b站弹幕相关推荐

  1. Java爬虫——B站弹幕爬取

    如何通过B站视频AV号找到弹幕对应的xml文件号 首先爬取视频网页,将对应视频网页源码获得 就可以找到该视频的av号aid=8678034 还有弹幕序号,cid=14295428 弹幕存放位置为  h ...

  2. Python爬取B站弹幕方法介绍

    Python爬取B站弹幕方法介绍 文章目录 Python爬取B站弹幕方法介绍 前言 寻找弹幕数据 编写爬虫 B站弹幕数量 新技术介绍 参考文章 前言 最近同学要做东西,需要用 B 站的视频对应的弹幕数 ...

  3. 爬虫数据云词图片怎么做?小姐姐教你用python做B站弹幕爬虫,并进行数据分析生成词云

    hello大家好,我是你们的可爱丸,大家平时在B站看视频时有没有开弹幕的习惯呢?如果不把视频从头看到尾,那么多弹幕,我们怎么快速的知道大家都说了些什么并且持有什么观点呢? 今天小姐姐就教你做一个简单的 ...

  4. python爬虫和定位_Python网络爬虫实战,照片定位与B站弹幕!

    之前两篇已经说完了如何爬取网页以及如何解析其中的数据,那么今天我们就可以开始第一次实战了. Python资源共享群:626017123 这篇实战包含两个内容. * 利用爬虫调用Api来解析照片的拍摄位 ...

  5. python爬虫和定位_Python网络爬虫实战(三)照片定位与B站弹幕

    之前两篇已经说完了如何爬取网页以及如何解析其中的数据,那么今天我们就可以开始第一次实战了. 这篇实战包含两个内容. * 利用爬虫调用Api来解析照片的拍摄位置 * 利用爬虫爬取Bilibili视频中的 ...

  6. 爬虫6_周杰伦新歌《Mojito》B站弹幕分析

    6.12周杰伦发布新歌<Mojito>,赶紧蹭个热点来看一下大家弹幕都会说点什么. 爬取链接[官方MV]Mojito - 周杰伦 本项目源码,提取码duq8 目前弹幕只能抓取1000条,再 ...

  7. 爬虫B站任意视频 弹幕文字+时间

    import pandas as pd import re import requests from bs4 import BeautifulSoup time_nature=[] comments= ...

  8. 用Python爬取b站弹幕,看大家还会接受《爱情公寓5》吗?

    尽管抄袭傍身,也没能阻挡<爱情公寓5>进击的脚步. 最近爱情公寓电视剧微博发布了长达8分钟的揭幕视频,官宣新季将在2020正式开播. 几位主演纷纷转发宣传,将#爱情公寓5揭幕#的话题送上了 ...

  9. python接收弹幕_闲着没事,尝试一下用Python爬取B站弹幕呀~

    原标题:闲着没事,尝试一下用Python爬取B站弹幕呀~ 前言 最近同学要做东西,需要用 B 站的视频对应的弹幕数据做分析,于是请我帮忙爬取 B 站视频的弹幕数据. 对于爬虫而言,我们需要找到对应数据 ...

最新文章

  1. 一份 Spring Boot 项目搭建模板
  2. Erlang和Ruby的Socket通讯
  3. 【深度学习】短袖短裤识别算法冠军方案总结
  4. vue时间控件美化成IOS样式(移动端),vux组件datatime添加星期几/周几教程
  5. 718. Maximum Length of Repeated Subarray 最长重复子数组
  6. Android 设计模式 - 装饰者模式
  7. Android笔记 fragment的生命周期
  8. Ora-00942:表或视图不存在
  9. 尝试安装pg gem时找不到#39;libpq-fe.h标头
  10. [java变量] - 字符串数组转long型数组
  11. [摘录]第五部分 经验谈(2)
  12. 分享给设计师们9款免费和有用的英文字体
  13. 蓝墨云班课php答案,蓝墨云班课试题库答案
  14. 黑马java学习笔记4 强化部分 常见API
  15. webApp 之 常见问题
  16. html页面高度不同浏览器兼容性设置
  17. (HYSBZ - 4198)荷马史诗
  18. 怎么调试S12X微控制器的XGATE上的软件
  19. Seaborn系列| 绘制相关性热图(仅显示下三角相关性)
  20. 明朝皇帝有哪些(按在位顺序排列)?

热门文章

  1. 干支纪年、干支纪月、干支纪日、干支纪时
  2. 安晴同学|大榕树下的友谊
  3. ChibiOS系列:五、将STM32 USART与ChibiOS串行驱动程序配合使用
  4. 边缘计算系列之MEC介绍
  5. 现在程序员圈竞争激烈,如何才能避免焦虑?如何才能打破现状......
  6. 爬虫—有道翻译案例(史上最详细分析教程)
  7. Ubuntu18.04 双屏显示 双显卡设置
  8. 【厚积薄发系列】读书笔记4—《伙伴教练:转化团队高效能的关键力量》小记
  9. 和亚马逊Amazon进行跨境电商业务,需要接入EDI吗?
  10. 猜解小米5.99元蓝牙Mesh模组