爬取音乐排行_TapTap排行榜数据大盘点
为了了解国内热门手游的大概情况,发现热门手游的规律。本次使用Web Scraper爬取TapTap排行榜上相关榜单。将数据清洗、去重后导入Tableau进行数据统计、可视化。
数据摘要:
数据日期:2020年2月24日
数据数量:合计300款游戏,涉及180家游戏厂商,相关数据2400项,此次爬取的游戏数据包括:排名,名称,厂商,评分,类型,帖子数,安装数量,关注人数,标签。
数据清洗和整理
爬虫到相关数据后,我们用exce简单排除掉,重复值,无用字符后,发现一些处在测试的游戏关注人数存在null值,暂时将这些值等于安装数量。到此,数据清洗的部分完成。切选出我们想要的内容进行后续分析
先对数据进行几个描述统计。
数据概览
接下来我们将其导入到Tableau进行分析。我们先从安装次数,活跃度,评价人数看一下top10游戏分别是哪些
1. 安装次数,论坛活跃度,评价人数TOP10
对安装次数,论坛活跃,评价人数进行数量统计,这其中:
1.在安装次数中在前十中动作类游戏占据一半。其中香肠派对安装次数远高于其他游戏,追踪发现该应用只有TapTap上上架,其他应用商店没有上架,下载渠道较单一,所以安装次数也现对较高。
2.论坛活跃度TOP3依次是明日方舟,想不想修真,忍者必须死3。其中明日方舟以精良的画面,独特的玩法收获大量的关注热度。
3.评价人数TOP3依次是明日之后,王者荣耀,和平精英。其中明天之后,王者荣耀的评分较低,不超过5分。追踪发现明日之后由于初期炸服原因,氪金问题导致大量差评。而王者荣耀则在平衡性,抄袭问题导致差评较多。
2.上榜游戏数量TOP10厂商的游戏口碑
对上榜游戏TOP10的游戏厂商进行评分统计,这其中:
1、腾讯游戏、网易游戏上榜次数最多,合计超过剩余8个厂商的总和。
2、抛开异常值不论,玩赏家对识君、Kunpo、胖布丁这3个厂商发行的游戏印象最好,开发的游戏大多集中在9分左右。
3、抛开异常值不论,玩赏家对腾讯、哔哩哔哩游戏、龙渊网络、创梦天地科技这4个厂商发行的游戏争议最大。
3.各类型游戏欢迎度
在游戏类型方面,对各类型平均评分和计数统计,这其中:
1、益智,音乐,街机类游戏评分较高,平均集中在8.8左右。但发现这些类型在排行榜上游戏个数较少。
2、游戏类型TOP3依次是角色扮演,策略,动作。这三种类型占据热门榜的一半。
4.热门游戏标签统计
对热门游戏的标签进行了词频统计:
可以看到在热门游戏中单机,二次元,养成,策略,放置等等为高频标签,代表游戏如明日方舟等,具备以上一些标签的游戏容易受欢迎。
最后碎碎念:
TapTap排行榜这个平台并不能完全反应国内手游市场,相对于其他游戏应用市场,它针对的是那些对游戏有明确的需求,有一定的审美品味的年轻用户。通过对热门榜的分析,我们可以了解一款热门游戏的成功要素,大众更偏爱哪种游戏类型和要素。
爬取音乐排行_TapTap排行榜数据大盘点相关推荐
- python爬取音乐排行_python爬取网易云音乐热歌榜实例代码
首先找到要下载的歌曲排行榜的链接,这里用的是: https://music.163.com/discover/toplist?id=3778678 然后更改你要保存的目录,目录要先建立好文件夹,例如我 ...
- python爬取音乐排行_Python爬取酷狗Top500的歌曲!够你吹个小牛皮了吧
一.准备工作 安装 requests 库和 beautifulsoup4 库: requests 库是处理HTTP请求的一个简洁且简单的第三方库:beautifulsoup4 库是一个解析和处理HTM ...
- python爬取B站网页排行榜数据(进阶版)
我们已经在基础版本中获取了网站的排行,更新状态,名称,播放量,弹幕量和综合评分. 如下图所示,没看过基础版的建议先去基础版把前面的代码看完,这边不会再讲. 我们这次的目标是获取B站动漫的点赞量,投币数 ...
- 爬取123粉丝网明星数据榜单,看看你的爱豆现在排名变化情况
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 以下文章来源于云+社区,作者 深雾 转载地址 https://blog.csdn ...
- 大数据Python爬取B站电影排行榜——爬取信息
大数据Python爬取B站电影排行榜-信息爬取 前言 一.配置环境 二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息 三.建立Excel表并导出 总 ...
- Python疫起学习·万丈高楼平地起Day09(精简版|浓缩就是精华)爬虫知识附上案例爬取北京地区短租房信息、爬取酷狗TOP500的数据以及爬取网易云音乐热歌榜单
爬虫知识 Requests库 部分运行结果如下: 有时爬虫需要加入请求头来伪装成浏览器,以便更好地抓取数据.在Chrome浏览器中按F12键打开Chrome开发者工具,刷新网页后找到User-Agen ...
- python实战(一)Python爬取猫眼评分排行前100电影及简单数据分析可视化python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化
python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化 一.抓取数据 需要的库 request库 响应http请求 json库 将文本保存成json形式 pyquery 类似JQ ...
- python爬虫入门练习:BeautifulSoup爬取猫眼电影TOP100排行榜,pandas保存本地excel文件
传送门:[python爬虫入门练习]正则表达式爬取猫眼电影TOP100排行榜,openpyxl保存本地excel文件 对于上文使用的正则表达式匹配网页内容,的确是有些许麻烦,替换出现任何的差错都会导致 ...
- ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理
ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理 目录 对爬取的某平台二手房数据进行数据分析以及特征工程处理 1.定义数据集 2.特征工程(数据分析+数据处理) 对爬取的某平台二手房数 ...
最新文章
- 软件设计师备考知识05--设计模式
- git和其他版本控制系统的区别
- shujufenxi : shenzhenditie
- java修车_JAVA小练习34——使用java描述一个车类与一个修车厂类
- 第七天Python学习记录
- Spark报错:JDOFatalInternalException: Error creating transactional connection factory
- Mac远程服务器文件上传rz和sz的安装使用
- 怎么自动选中select中所有option
- mysql中数据导出到json文件的读取办法:
- 怎样创建数据库?4种流行数据库的创建方法介绍
- 黑白双色背景图java_黄色背景黑白双色简洁ppt图表
- PostgreSQL中with和without time zone两者有什么区别
- webrtc QOS方法一(NACK实现)
- 微软逼迫Office客户切换成年度付费会员:否则月度订阅价格将提高20%
- 高数习题9.69.7
- 百度智能云的“星辰大海”
- python信息采集管理系统_基于Python的求职信息采集分析系统设计与实现
- python QQ邮件发送
- 【Java】斗地主和斗牛游戏
- GBTC牛市中的天使,熊市中恶魔!
热门文章
- 【2016-09-27-DP小练】
- javaScript实现字符串首字母大写
- 使用IB_DESIGNABLE与IBInspectable特性实现可在视图编辑器的功能栏中设置
- 要继续使用 App Engine 标准应用,您必须在 2021 年 1 月 31 日之前添加付款信息。
- OpenAI智能体上演捉迷藏攻防大战,自创套路与反套路
- html里面执行js跳转页面,JS函数执行和指定跳转其他页面
- python代码怎么设置,如何设置PyCharm中的Python代码模版(推荐)
- 父类的静态方法能否被子类重写?
- 010_AOPXml方式开发
- 021_html文本格式化标签