MOJITO

最近一直啥都没写,追个热点都赶不上热乎的,鄙视自己一下。

周董的新歌 「MOJITO」 发售(6 月 12 日的零点)至今大致过去了一周,翻开 B 站 MV 一看,播放量妥妥破千万,弹幕破十万,这人气还真是杠杠的。

说实话, 「MOJITO」 这个名字对我来讲有点超纲了,第一次见到完全不知道啥意思。

不过问题不大,没有什么是百度解决不了的,如果有,那就再加一个知乎。

MOJITO 的中文名是莫吉托,百度百科上是这么介绍莫吉托的:

莫吉托(Mojito)是最有名的朗姆调酒之一。起源于古巴。传统上,莫吉托是一种由五种材料制成的鸡尾酒:淡朗姆酒、糖(传统上是用甘蔗汁)、莱姆(青柠)汁、苏打水和薄荷。最原始的古巴配方是使用留兰香或古巴岛上常见的柠檬薄荷。莱姆(青柠)与薄荷的清爽口味是为了与朗姆酒的烈性相互补,同时也使得这种透明无色的调酒成为夏日的热门饮料之一。这种调酒有着相对低的酒精含量(大约10%)。

酒精度数在 10% 左右的话,姑且可以认为一种饮料吧。

当然,如果要开车的话就不能把 MOJITO 当成饮料了,酒精含量再低那也是酒精。

整个 MV 我翻来覆去的看了好几遍, 「MOJITO」 这个东西除了在歌词和名字中有出现,在 MV 当中一次都没出现,毫无存在感。

爬取 B 站弹幕

弹幕数据的爬取比较简单,我就不一步一步的抓请求给各位演示了,注意下面这几个请求连接:

弹幕请求地址:

https://api.bilibili.com/x/v1/dm/list.so?oid=XXXhttps://comment.bilibili.com/XXX.xml

第一个地址由于 B 站的网页做了更换,现在在 Chrome 工具的 network 里面已经找不到了,不过还可以用,这个是我之前找到的。

第二个地址来源于百度,我也不知道各路大神是从哪找出来这个地址的,供参考吧。

上面这两个弹幕地址实际上都需要一个叫 oid 的东西,这个 oid 获取方式如下:

首先可以找到一个目录页接口:

https://api.bilibili.com/x/player/pagelist?bvid=XXX&jsonp=jsonp

这个接口也是来源于 Chrome 的 network ,其中 bvid 这个参数来源于视频地址,比如周董的这个 「MOJITO」 的 MV ,地址是 https://www.bilibili.com/video/BV1PK4y1b7dt ,那么这个 bvid 的值就是最后那一部分 BV1PK4y1b7dt

接下来在 https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp 这个接口中,我们可以看到返回的 json 参数,如下:

{"code":0,"message":"0","ttl":1,"data":[{"cid":201056987,"page":1,"from":"vupload","part":"JAY-MOJITO_完整MV(更新版)","duration":189,"vid":"","weblink":"","dimension":{"width":1920,"height":1080,"rotate":0}}]
}

注意:由于这个 MV 只有一个完整的视频,所以这里只有一个 cid ,如果一个视频是分不同小节发布的,这里就会有多个 cid ,不同的 cid 代表不同的视频。

当然,这里的 cid 就是我们刚才想找的那个 oid ,把这个 cid 拼到刚才的链接上,可以得到 https://api.bilibili.com/x/v1/dm/list.so?oid=201056987 这样一个地址,然后输入到浏览器中,可以看到弹幕的返回数据,是一个 xml 格式的文本。

源代码如下:

import requests
import re# 获取 cid
res = requests.get("https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp")
cid = res.json()['data'][0]['cid']# 将弹幕 xml 通过正则取出,生成 list
danmu_url = f"https://api.bilibili.com/x/v1/dm/list.so?oid={cid}"
result = requests.get(danmu_url).content.decode('utf-8')
pattern = re.compile('<d.*?>(.*?)</d>')
danmu_list = pattern.findall(result)# 将弹幕 list 保存至 txt 文件
with open("dan_mu.txt", mode="w", encoding="utf-8") as f:for item in danmu_list:f.write(item)f.write("\n")

这里我将获取到的弹幕保存在了 dan_mu.txt 文件中,方便后续分析。

绘制词云图

第一步先将刚才保存在 dan_mu.txt 文件中的弹幕读取出来,放到了一个 list 当中:

# 读取弹幕 txt 文件
with open("dan_mu.txt", encoding="utf-8") as f:txt = f.read()
danmu_list = txt.split("\n")

然后使用分词工具对弹幕进行分词,我这里使用的分词工具是最好的 Python 中文分词组件 jieba ,没有安装过 jieba 的同学可以使用以下命令进行安装:

pip install jieba

使用 jieba 对刚才获得的弹幕 list 进行分词:

# jieba 分词
danmu_cut = [jieba.lcut(item) for item in danmu_list]

这样,我们获得了分词后的 danmu_cut ,这个同样是一个 list 。

接着我们对分词后的 danmu_cut 进行下一项操作,去除停用词:

# 获取停用词
with open("baidu_stopwords.txt",encoding="utf-8") as f:stop = f.read()
stop_words = stop.split()# 去掉停用词后的最终词
s_data_cut = pd.Series(danmu_cut)
all_words_after = s_data_cut.apply(lambda x:[i for i in x if i not in stop])

这里我引入了一个 baidu_stopwords.txt 文件,这个文件是百度停用词库,这里我找到了几个常用的中文停用词库,来源: https://github.com/goto456/stopwords 。

词表文件 词表名
baidu_stopwords.txt 百度停用词表
hit_stopwords.txt 哈工大停用词表
scu_stopwords.txt 四川大学机器智能实验室停用词库
cn_stopwords.txt 中文停用词表

这里我使用的是百度停用词表,大家可以根据自己的需要使用,也可以对这几个停用词表先做整合后再使用,主要的目的就是去除一些无需关注的词,上面这几个停用词库我都会提交到代码仓库,有需要的自取。

接着我们统计去除停用词后的词频:

# 词频统计
all_words = []
for i in all_words_after:all_words.extend(i)
word_count = pd.Series(all_words).value_counts()

最后一步就是生成我们的最终结果,词云图:

wordcloud.WordCloud(font_path='msyh.ttc',background_color="#fff",max_words=1000,max_font_size=200,random_state=42,width=900,height=1600
).fit_words(word_count).to_file("wordcloud.png")

最终结果就是下面这个:

从上面这个词云图中可以看到,粉丝对「MOJITO」这首歌是真爱啊,出现频率最高的就是 啊啊啊 还有

当然哈,这个 也有可能是说 MV 当中那台骚气十足的粉色的老爷车。

还有一个出现频率比较高的是 爷青回 ,我估计这个意思应该是 爷的青春回来啦 ,确实,周董伴随着我这个年龄段的人一路走来,做为一位 79 年的人现在已经是 41 岁的「高龄」了,回首往昔,让人唏嘘不已。

当年一首 「双节棍」 火遍了中华大地,大街上的音像店整天都在循环这几首歌,在学校上学的我这一代人,基本上是人人都能哼两句,「快使用双截棍,哼哼哈嘿」成了我们这一代人共有的回忆。

智能情感倾向分析

我们还可以对弹幕进行一次情感倾向分析,这里我使用的是 「百度 AI 开放平台」 的情感倾向分析接口。

百度 AI 开放平台文档地址:https://ai.baidu.com/ai-doc/NLP/zk6z52hds

首先是根据文档接入 「百度 AI 开放平台」 ,获取 access_token ,代码如下:

# 获取 Baidu API access_token
access_token_url = f'https://aip.baidubce.com/oauth/2.0/token?grant_type={grant_type}&client_id={client_id}&client_secret={client_secret}&'res = requests.post(access_token_url)access_token = res.json()['access_token']# 通用情感接口
# sentiment_url = f'https://aip.baidubce.com/rpc/2.0/nlp/v1/sentiment_classify?charset=UTF-8&access_token={access_token}'
# 定制化情感接口
sentiment_url = f'https://aip.baidubce.com/rpc/2.0/nlp/v1/sentiment_classify_custom?charset=UTF-8&access_token={access_token}'

百度 AI 开放平台有两个情感分析接口,一个是通用的,还有一个是定制化的,我这里使用的是经过训练的定制化的接口,如果没有定制化的接口,使用通用的接口也没有问题。

上面使用到的 grant_typeclient_idclient_secret 这几个参数,大家注册一下就能得到, 「百度 AI 开放平台」 上的这些接口都有调用数量的限制,不过我们自己使用已经足够了。

然后读取我们刚才保存的弹幕文本:

with open("dan_mu.txt", encoding="utf-8") as f:txt = f.read()
danmu_cat = txt.split("\n")

在调用接口获得情感倾向之前,我们还需要做一件事情,对弹幕进行一次处理,因为弹幕中会有一些 emoji 表情,而 emoji 直接请求百度的接口会返回错误,这里我使用另一个工具包对 emoji 表情进行处理。

首先安装工具包 emoji :

pip install emoji

使用是非常简单的,我们对弹幕数据使用 emoji 进行一次处理:

import emojiwith open("dan_mu.txt", encoding="utf-8") as f:txt = f.read()
danmu_list = txt.split("\n")for item in danmu_list:print(emoji.demojize(item))

我们的弹幕数据中是有这样的 emoji 表情的:

❤❤❤❤❤❤❤# 处理后:
:red_heart::red_heart::red_heart::red_heart::red_heart::red_heart::red_heart:

然后,我们就可以调用百度的情感倾向分析接口,对我们的弹幕数据进行分析了:

# 情感计数器
optimistic = 0
neutral = 0
pessimistic = 0for danmu in danmu_list:# 因调用 QPS 限制,每次调用间隔 0.5stime.sleep(0.5)req_data = {'text': emoji.demojize(danmu)}# 调用情感倾向分析接口if len(danmu) > 0:r = requests.post(sentiment_url, json = req_data)print(r.json())for item in r.json()['items']:if item['sentiment'] == 2:# 正向情感optimistic += 1if item['sentiment'] == 1:# 中性情感neutral += 1if item['sentiment'] == 0:# 负向情感pessimistic += 1print('正向情感:', optimistic)
print('中性情感:', neutral)
print('负向情感:', pessimistic)attr = ['正向情感','中性情感','负向情感']
value = [optimistic, neutral, pessimistic]c = (Pie().add("", [list(attr) for attr in zip(attr, value)]).set_global_opts(title_opts=opts.TitleOpts(title="「MOJITO」弹幕情感分析")).render("pie_base.html")
)

最后的结果图长这样:

从最后的结果上来看,正向情感占比大约在 2/3 左右,而负向情感只有不到 1/4 ,看来大多数人看到周董的新歌还是满怀激动的心情。

不过这个数据不一定准确,最多可以做一个参考。

源代码

需要源代码的同学可以在公众号后台回复「MOJITO」获取。

您的扫码关注,是对小编坚持原创的最大鼓励:)

MOJITO 发布一周,爬一波弹幕分析下相关推荐

  1. 菜鸟弟弟从零开始的爬取Bilibili弹幕的Python爬虫教程-哔哩哔哩 - ( ゜- ゜)つロ 干杯~

    从零开始的爬取Bilibili弹幕的Python爬虫教程 或许可以作为一个爬虫小白的练手的demo? 还是先看看什么是爬虫吧!(还有Bilibili! ) 网络爬虫: 网络爬虫(又称为网页蜘蛛,网络机 ...

  2. 今天分享个用Python爬虫爬取Bilibili弹幕的小例子解析

    先来思考一个问题,B站一个视频的弹幕最多会有多少? 比较多的会有2000条吧,这么多数据,B站肯定是不会直接把弹幕和这个视频绑在一起的. 也就是说,有一个视频地址为 https://www.bilib ...

  3. 支付宝发布“城市生活周”电影票预售成绩单:预售票房已涨20倍

    支付宝今天对外发布"城市生活周"电影票预售成绩单:近400家电影院上线后,预售票房已涨20倍,多家影院的观影券被秒光.杭州.上海.南京.北京.苏州等城市领跑全国电影预售票房榜,其中 ...

  4. python爬取bilibili弹幕_Python爬虫爬取Bilibili弹幕过程解析

    先来思考一个问题,B站一个视频的弹幕最多会有多少? 比较多的会有2000条吧,这么多数据,B站肯定是不会直接把弹幕和这个视频绑在一起的. 也就是说,有一个视频地址为https://www.bilibi ...

  5. 爬取24w+弹幕信息后,我果断去追剧了

    数据获取是数据分析中的重要的一步,数据获取的途径多种多样,在这个信息爆炸的时代,数据获取的代价也是越来越小.尽管如此,仍有很多小伙伴们不清楚如何获取有用信息.本文以最近热播排行榜第一名的<流金岁 ...

  6. 关于《后浪》的B站弹幕分析总结(一)——爬取B站视频的上万条弹幕的方法

    目录 一.先尝试爬取1000条 1 .1 查找弹幕所在地址 1.2 代码实现 二.1000条不够我想要更多怎么办? 三.B站弹幕文件里的其他信息有用吗? 注意:这是一篇技术类文章 前几天我做了B站&l ...

  7. python爬斗鱼直播_Python爬虫:利用API实时爬取斗鱼弹幕

    原标题:Python爬虫:利用API实时爬取斗鱼弹幕 这些天一直想做一个斗鱼爬取弹幕,但是一直考试时间不够,而且这个斗鱼的api接口虽然开放了但是我在github上没有找到可以完美实现连接.我看了好多 ...

  8. python获取虎牙弹幕_python爬取虎牙弹幕礼物数据

    python爬取虎牙弹幕礼物数据 查看官方文档 找到弹幕传输的方式 生成websocket对应的参数 第一步: 第二步: 调通websocket 建立链接 获取数据和保持心跳 附上完整代码 注: 查看 ...

  9. python爬取bilibili弹幕_Python抓取BiliBili拦河坝并生成单词云,爬取,bilibili,弹幕

    木秀于林,风亦惧之:虽为萤火,亦绽光芒. Python爬取bilibili弹幕并生成词云 目标网站: 哔哩哔哩: https://www.bilibili.com/ 我这里以 TES vs SN 第四 ...

最新文章

  1. ROM,RAM,DRAM,SDRAM,SRAM
  2. cudnn v4安装
  3. 开放封闭原则(OCP)
  4. C语言循环遍历文件夹查找文件内容(搜素/proc文件夹下的内容获取进程pid)
  5. 关于网络投票的反思2018-11-11
  6. 解决Linux 忘记root 密码的办法
  7. android 多个启动页,Android启动页的问题整理
  8. [机器学习-Sklearn]K-means(K均值)学习与总结
  9. Ajax(二)-XMLHttpRequest(核心)对象的属性和方法
  10. 计算机如何做分类轴无刻度线,用excel画散点图,怎样使横坐标与纵坐标刻度一致?不用电脑默认的间距-刻度条间距...
  11. iconv-----linux gbk 转 UTF-8
  12. js上传文件到OSS
  13. 抢红包算法 c++_【优化求解】基于粒子群算法的光伏电池MPPT控制策略
  14. 卡西欧科学计算机使用方法,卡西欧科学计算器使用教程
  15. easyX——图形库
  16. 347. Top K Frequent Elements
  17. 离职原因该怎么说才比较好 ?
  18. 关于backgroundColor=red写法是否正确的解答
  19. 如何保证游戏长盛不衰
  20. MySQL入门 初学者详细笔记

热门文章

  1. 《地震及时通》1.0版介绍
  2. c51中断优先级c语言,基于proteus的51单片机开发实例(14)中断嵌套和中断优先级...
  3. BBEdit—HTML文本编辑器
  4. ORB-SLAM2系统中的优化函数
  5. python 创建画板_OpenCV +Python 制作画板
  6. 上传文件到服务器打不开,关于软件上传到服务器后出现图片打不开的解决方法...
  7. 《落地,请开手机》里面最经典的一句台词
  8. android设备判断是否支持NFC功能
  9. Win7自动关机重启指令
  10. html输入日期算出星座,通过日期计算星座