数据分析展示B站UP主假吃强(Cram阿强)的面目-视频与简介篇
相关文章
- 数据分析展示B站UP主假吃强(Cram阿强)的面目-评论篇
文章目录
- 相关文章
- 一、获取数据
- 二、数据分析
- 字云图
- 词云图
强势四联
还有一张?在垃圾桶里
一、获取数据
上次写了篇爬取假吃强视频评论并进行数据可视化处理的博客,有小伙伴质疑真实性,那么此次本人将对假吃强所有视频的标题和描述进行可视化处理
接口信息:获取UP主所有视频信息
参数:
- mid : UP主的编号
- pn : page number 页码
- ps : 每页显示的条数
此处为爬取假吃强所有视频信息的接口URL为:
https://api.bilibili.com/x/space/arc/search?mid=246534959&pn=1&ps=100
即爬取第一页视频的信息,共100条.使用Postman测试:
可以看见是没有问题的.接下来将所有视频信息爬取下来存入JSON文件中
def get_json(mid, pn, ps):url = 'https://api.bilibili.com/x/space/arc/search?mid=%s&pn=%s&ps=%s' % (mid,pn, ps)res = requests.get(url, 'utf-8')# 将获取的数据转换为dict格式data = res.json()file_name = '%s-%s.json' % (mid, pn)# JSON文件格式为uttf-8with open('json/' + file_name, "w", encoding='utf-8') as fp:# 以JSON格式保存文件,indent决定JSON缩进,ensure_ascii确保汉字不被转换为编码fp.write(json.dumps(data, indent=4, ensure_ascii=False))print(pn + "爬取完成")
二、数据分析
接下来提取每个JSON文件的数据,将假吃强每个视频的标题和简介分别写入两个txt文件中
def filter_data(mid, pn):# 读取json文件内容,返回字典格式with open('json/%s-%s.json' % (mid, pn), 'r', encoding='utf8') as fp:data = json.load(fp)data = data["data"]["list"]["vlist"]fp.close()with open('title.txt', 'a', encoding='utf-8') as f1, open('description.txt', 'a', encoding='utf-8') as f2:for i in data:title = i["title"].replace('\n', '').replace('\r', '')description = i["description"].replace('\n', '').replace('\r', '')# 写入标题f1.write(title + '\n')# 过滤掉无效数据if description == '-' or description == '':continue# 写入简介f2.write(description + '\n')f1.close()f2.close()
好的,现在开始关键字分析
字云图
def analyze_txt(file):# 统计字出现次数的字典num = {}# 非统计范围with open(file, 'r', encoding='UTF-8') as text:for line in text:for i in line:# 如果是汉字if u'\u4e00' <= i <= u'\u9fa5':# 如果该字已经被统计if i in num.keys():num[i] += 1else:num[i] = 1wc = wordcloud.WordCloud(font_path='simsun.ttc',max_words=1000,max_font_size=2000,# 设置了背景,宽高,width=1000,height=880,background_color="white")wc.generate_from_frequencies(num)wc.to_file("%s-word.jpg" % (file))
- 标题
孝子们还洗吗?不是大胃王吃饭是按斤算的吗?按斤算吃的才过瘾.右下角真实
- 简介
按一天一顿算,吃一年胃不炸,那只能是垃圾桶炸了
小伙…算了算了
词云图
- 标题
小伙一顿不是一斤就是二斤要不三斤,再来鸡腿排骨狂吸才过瘾
- 简介
假吃强今天咋不更新了
说本人乱锤人的,本人可以把数据发给你,所有数据均来自B站假吃强的主页
数据分析展示B站UP主假吃强(Cram阿强)的面目-视频与简介篇相关推荐
- 周涨粉超30w B站UP主非非宇Fay粉丝增长密码是什么?
飞瓜数据发布2021年12.06-12.12B站平台全部行业UP主涨粉榜周榜,分别从UP主涨粉总人数.粉丝人数增量.粉丝人数增长率等客观数据维度展示B站UP主涨粉数据情况. 本周UP主非非宇Fay位居 ...
- B站UP主涨粉周榜排行榜来啦,腾格尔献唱草原版《孤勇者》,周涨粉近30W
飞瓜轻数发布2022年3月7日-3月13日飞瓜数据UP主涨粉周榜排行榜(B站平台),分别从UP主涨粉总人数.涨粉人数增量.涨粉人数增长率等客观数据维度展示B站UP主涨粉数据情况. 通过飞瓜数据UP主涨 ...
- 8月B站UP主涨粉排行榜周榜发布,前三名: M木糖M、云视听小电视—TV、AS极客
飞瓜B站发布2021年8月30日-9月05日B站UP主周榜涨粉排行榜,分别从UP主粉丝总数.粉丝增量.涨粉率等客观数据维度展示B站UP主涨粉的数据情况. 通过飞瓜B站UP主涨粉周榜排行榜来体现UP主每 ...
- B站榜单丨2021年5月B站UP主充电排行榜
飞瓜数据B站发布2021年5月B站UP主充电排行榜,分别从UP主充电总人数.充电人数增量.充电人数增长率等客观数据维度展示B站UP主充电的数据情况. 通过飞瓜B站UP主充电月榜排行榜来体现UP主每月作 ...
- B站up主排名丨B站2021年4月up主充电排行榜榜单发布!
飞瓜B站发布2021年4月1日-4月30日B站UP主月榜充电排行榜,分别从UP主充电总人数.充电人数增量.充电人数增长率等客观数据维度展示B站UP主充电的数据情况. 通过飞瓜B站UP主充电月榜排行榜来 ...
- 太牛了!B站up主用AI分析,跨年演唱会上这些歌手假唱了!
机器之心报道 编辑:泽南.蛋酱 世界上怕就怕「认真」二字. 唱功和音色是衡量歌手能力的重要标准,但观众对演唱技巧的评价见仁见智,既会因为喜好不够客观,又不时会遇到调音与假唱.所以很长一段时间里说到比较 ...
- Python爬虫分析——B站UP主视频数据分析
背景 一个朋友的要求,对B站UP主的视频进行分析.至于要做什么,你懂的. 核心 使用B站提供的API,爬取数据,进行分析.具体B站提供的API就不说了,https://www.bilibili.com ...
- B站UP主指法芬芳张大仙弹幕爬取及可视化
文章目录 前言 一.爬取视频弹幕相关信息 1.B站弹幕接口 2.获取视频的cid 3.获取视频弹幕信息 二.弹幕数据可视化 1.弹幕内容可视化 -- 词云图 2.弹幕发送者可视化 -- 水平条形图 3 ...
- B站up主硬核打造「螃蟹火星车」,遥控、拍照、测距,还能做人脸检测;网友:赛博螃克...
鱼羊 白交 发自 凹非寺 量子位 报道 | 公众号 QbitAI 吃完的螃蟹壳是干垃圾还是湿垃圾? 或者,裹上一层黑科技,让它变身「火星车」,馋哭隔壁家小孩. 更硬核的是,这样一台螃蟹火星车,并非只是 ...
最新文章
- pip 升级_python的pip命令
- 表单之label标签
- clickhouse官方文档_clickhouse分析:chproxy使用
- python生成多级文件夹_Python zipfile压缩文件和文件夹(支持多级目录)
- CentOS6.4安装Samba(匿名)共享服务器
- JAVA基础学习大全(笔记)
- 系统会自带java吗_使用eclipse自带制作帮助系统
- 微商人赚钱的4个落地动作
- mac composer 安装
- python学习手册-Python学习手册(第4版) 中文版.pdf
- 2019数字中国创新大赛西安(分区)、北京(分区) 决赛 观看总结
- windows下如何下载g++以及gcc
- 计算机中任务管理器的主要功能是什么,任务管理器的作用有哪些 可以解决9成电脑问题...
- ps小技巧:修改图标颜色
- Android仿京东、天猫商品详情页
- 计算机ps工具字母,PhotoShop7怎么把英文字母抠出来 一个工具搞定
- VUE前端二级部门联动下拉菜单
- linux系统提升硬盘写速度的方法
- php tp6 错误接管分析,ThinkPHP5 异常接管
- 绑定异常 Invalid bound statement (not found): com.fwind.blog.dao.mapper.TagMapper