相关文章

  • 数据分析展示B站UP主假吃强(Cram阿强)的面目-评论篇

文章目录

    • 相关文章
  • 一、获取数据
  • 二、数据分析
    • 字云图
    • 词云图

强势四联

还有一张?在垃圾桶里


一、获取数据

上次写了篇爬取假吃强视频评论并进行数据可视化处理的博客,有小伙伴质疑真实性,那么此次本人将对假吃强所有视频的标题和描述进行可视化处理

接口信息:获取UP主所有视频信息
参数:

  • mid : UP主的编号
  • pn : page number 页码
  • ps : 每页显示的条数

此处为爬取假吃强所有视频信息的接口URL为:
https://api.bilibili.com/x/space/arc/search?mid=246534959&pn=1&ps=100
即爬取第一页视频的信息,共100条.使用Postman测试:

可以看见是没有问题的.接下来将所有视频信息爬取下来存入JSON文件中

def get_json(mid, pn, ps):url = 'https://api.bilibili.com/x/space/arc/search?mid=%s&pn=%s&ps=%s' % (mid,pn, ps)res = requests.get(url, 'utf-8')# 将获取的数据转换为dict格式data = res.json()file_name = '%s-%s.json' % (mid, pn)# JSON文件格式为uttf-8with open('json/' + file_name, "w", encoding='utf-8') as fp:# 以JSON格式保存文件,indent决定JSON缩进,ensure_ascii确保汉字不被转换为编码fp.write(json.dumps(data, indent=4, ensure_ascii=False))print(pn + "爬取完成")

二、数据分析

接下来提取每个JSON文件的数据,将假吃强每个视频的标题和简介分别写入两个txt文件中

def filter_data(mid, pn):# 读取json文件内容,返回字典格式with open('json/%s-%s.json' % (mid, pn), 'r', encoding='utf8') as fp:data = json.load(fp)data = data["data"]["list"]["vlist"]fp.close()with open('title.txt', 'a', encoding='utf-8') as f1, open('description.txt', 'a', encoding='utf-8') as f2:for i in data:title = i["title"].replace('\n', '').replace('\r', '')description = i["description"].replace('\n', '').replace('\r', '')# 写入标题f1.write(title + '\n')# 过滤掉无效数据if description == '-' or description == '':continue# 写入简介f2.write(description + '\n')f1.close()f2.close()

好的,现在开始关键字分析

字云图

def analyze_txt(file):# 统计字出现次数的字典num = {}# 非统计范围with open(file, 'r', encoding='UTF-8') as text:for line in text:for i in line:# 如果是汉字if u'\u4e00' <= i <= u'\u9fa5':# 如果该字已经被统计if i in num.keys():num[i] += 1else:num[i] = 1wc = wordcloud.WordCloud(font_path='simsun.ttc',max_words=1000,max_font_size=2000,# 设置了背景,宽高,width=1000,height=880,background_color="white")wc.generate_from_frequencies(num)wc.to_file("%s-word.jpg" % (file))
  • 标题

孝子们还洗吗?不是大胃王吃饭是按斤算的吗?按斤算吃的才过瘾.右下角真实


  • 简介

按一天一顿算,吃一年胃不炸,那只能是垃圾桶炸了

小伙…算了算了

词云图

  • 标题

小伙一顿不是一斤就是二斤要不三斤,再来鸡腿排骨狂吸才过瘾

  • 简介

假吃强今天咋不更新了

说本人乱锤人的,本人可以把数据发给你,所有数据均来自B站假吃强的主页

数据分析展示B站UP主假吃强(Cram阿强)的面目-视频与简介篇相关推荐

  1. 周涨粉超30w B站UP主非非宇Fay粉丝增长密码是什么?

    飞瓜数据发布2021年12.06-12.12B站平台全部行业UP主涨粉榜周榜,分别从UP主涨粉总人数.粉丝人数增量.粉丝人数增长率等客观数据维度展示B站UP主涨粉数据情况. 本周UP主非非宇Fay位居 ...

  2. B站UP主涨粉周榜排行榜来啦,腾格尔献唱草原版《孤勇者》,周涨粉近30W

    飞瓜轻数发布2022年3月7日-3月13日飞瓜数据UP主涨粉周榜排行榜(B站平台),分别从UP主涨粉总人数.涨粉人数增量.涨粉人数增长率等客观数据维度展示B站UP主涨粉数据情况. 通过飞瓜数据UP主涨 ...

  3. 8月B站UP主涨粉排行榜周榜发布,前三名: M木糖M、云视听小电视—TV、AS极客

    飞瓜B站发布2021年8月30日-9月05日B站UP主周榜涨粉排行榜,分别从UP主粉丝总数.粉丝增量.涨粉率等客观数据维度展示B站UP主涨粉的数据情况. 通过飞瓜B站UP主涨粉周榜排行榜来体现UP主每 ...

  4. B站榜单丨2021年5月B站UP主充电排行榜

    飞瓜数据B站发布2021年5月B站UP主充电排行榜,分别从UP主充电总人数.充电人数增量.充电人数增长率等客观数据维度展示B站UP主充电的数据情况. 通过飞瓜B站UP主充电月榜排行榜来体现UP主每月作 ...

  5. B站up主排名丨B站2021年4月up主充电排行榜榜单发布!

    飞瓜B站发布2021年4月1日-4月30日B站UP主月榜充电排行榜,分别从UP主充电总人数.充电人数增量.充电人数增长率等客观数据维度展示B站UP主充电的数据情况. 通过飞瓜B站UP主充电月榜排行榜来 ...

  6. 太牛了!B站up主用AI分析,跨年演唱会上这些歌手假唱了!

    机器之心报道 编辑:泽南.蛋酱 世界上怕就怕「认真」二字. 唱功和音色是衡量歌手能力的重要标准,但观众对演唱技巧的评价见仁见智,既会因为喜好不够客观,又不时会遇到调音与假唱.所以很长一段时间里说到比较 ...

  7. Python爬虫分析——B站UP主视频数据分析

    背景 一个朋友的要求,对B站UP主的视频进行分析.至于要做什么,你懂的. 核心 使用B站提供的API,爬取数据,进行分析.具体B站提供的API就不说了,https://www.bilibili.com ...

  8. B站UP主指法芬芳张大仙弹幕爬取及可视化

    文章目录 前言 一.爬取视频弹幕相关信息 1.B站弹幕接口 2.获取视频的cid 3.获取视频弹幕信息 二.弹幕数据可视化 1.弹幕内容可视化 -- 词云图 2.弹幕发送者可视化 -- 水平条形图 3 ...

  9. B站up主硬核打造「螃蟹火星车」,遥控、拍照、测距,还能做人脸检测;网友:赛博螃克...

    鱼羊 白交 发自 凹非寺 量子位 报道 | 公众号 QbitAI 吃完的螃蟹壳是干垃圾还是湿垃圾? 或者,裹上一层黑科技,让它变身「火星车」,馋哭隔壁家小孩. 更硬核的是,这样一台螃蟹火星车,并非只是 ...

最新文章

  1. pip 升级_python的pip命令
  2. 表单之label标签
  3. clickhouse官方文档_clickhouse分析:chproxy使用
  4. python生成多级文件夹_Python zipfile压缩文件和文件夹(支持多级目录)
  5. CentOS6.4安装Samba(匿名)共享服务器
  6. JAVA基础学习大全(笔记)
  7. 系统会自带java吗_使用eclipse自带制作帮助系统
  8. 微商人赚钱的4个落地动作
  9. mac composer 安装
  10. python学习手册-Python学习手册(第4版) 中文版.pdf
  11. 2019数字中国创新大赛西安(分区)、北京(分区) 决赛 观看总结
  12. windows下如何下载g++以及gcc
  13. 计算机中任务管理器的主要功能是什么,任务管理器的作用有哪些 可以解决9成电脑问题...
  14. ps小技巧:修改图标颜色
  15. Android仿京东、天猫商品详情页
  16. 计算机ps工具字母,PhotoShop7怎么把英文字母抠出来 一个工具搞定
  17. VUE前端二级部门联动下拉菜单
  18. linux系统提升硬盘写速度的方法
  19. php tp6 错误接管分析,ThinkPHP5 异常接管
  20. 绑定异常 Invalid bound statement (not found): com.fwind.blog.dao.mapper.TagMapper

热门文章

  1. 简谈高通Trustzone的实现【转】
  2. LinearLayout布局添加下划线
  3. 提问的力量三:提问式思维----你是学习者还是评判者?
  4. 西门子simens电脑模拟 828D840D 仿真
  5. 易助工资总额管控产品介绍
  6. 椭圆曲线数字签名算法(ECDSA)
  7. ios App支付宝开放平台申请支付宝支付具体步骤
  8. 干掉 Swagger (丝袜哥),试试这个新工具!
  9. lisp倒入excel数据画图_如何将EXCEL中的数据导入CAD2007画图
  10. 如何练习插画?插画应该如何构图?