为了了解国内热门手游的大概情况,发现热门手游的规律。本次使用Web Scraper爬取TapTap排行榜上相关榜单。将数据清洗、去重后导入Tableau进行数据统计、可视化。

数据摘要:

数据日期:2020年2月24日

数据数量:合计300款游戏,涉及180家游戏厂商,相关数据2400项,此次爬取的游戏数据包括:排名,名称,厂商,评分,类型,帖子数,安装数量,关注人数,标签。

数据清洗和整理

爬虫到相关数据后,我们用exce简单排除掉,重复值,无用字符后,发现一些处在测试的游戏关注人数存在null值,暂时将这些值等于安装数量。到此,数据清洗的部分完成。切选出我们想要的内容进行后续分析

先对数据进行几个描述统计。

数据概览

接下来我们将其导入到Tableau进行分析。我们先从安装次数,活跃度,评价人数看一下top10游戏分别是哪些

1. 安装次数,论坛活跃度,评价人数TOP10

对安装次数,论坛活跃,评价人数进行数量统计,这其中:

1.在安装次数中在前十中动作类游戏占据一半。其中香肠派对安装次数远高于其他游戏,追踪发现该应用只有TapTap上上架,其他应用商店没有上架,下载渠道较单一,所以安装次数也现对较高。

2.论坛活跃度TOP3依次是明日方舟,想不想修真,忍者必须死3。其中明日方舟以精良的画面,独特的玩法收获大量的关注热度。

3.评价人数TOP3依次是明日之后,王者荣耀,和平精英。其中明天之后,王者荣耀的评分较低,不超过5分。追踪发现明日之后由于初期炸服原因,氪金问题导致大量差评。而王者荣耀则在平衡性,抄袭问题导致差评较多。

2.上榜游戏数量TOP10厂商的游戏口碑

对上榜游戏TOP10的游戏厂商进行评分统计,这其中:

1、腾讯游戏、网易游戏上榜次数最多,合计超过剩余8个厂商的总和。

2、抛开异常值不论,玩赏家对识君、Kunpo、胖布丁这3个厂商发行的游戏印象最好,开发的游戏大多集中在9分左右。

3、抛开异常值不论,玩赏家对腾讯、哔哩哔哩游戏、龙渊网络、创梦天地科技这4个厂商发行的游戏争议最大。

3.各类型游戏欢迎度

在游戏类型方面,对各类型平均评分和计数统计,这其中:

1、益智,音乐,街机类游戏评分较高,平均集中在8.8左右。但发现这些类型在排行榜上游戏个数较少。

2、游戏类型TOP3依次是角色扮演,策略,动作。这三种类型占据热门榜的一半。

4.热门游戏标签统计

对热门游戏的标签进行了词频统计:

可以看到在热门游戏中单机,二次元,养成,策略,放置等等为高频标签,代表游戏如明日方舟等,具备以上一些标签的游戏容易受欢迎。

最后碎碎念:

TapTap排行榜这个平台并不能完全反应国内手游市场,相对于其他游戏应用市场,它针对的是那些对游戏有明确的需求,有一定的审美品味的年轻用户。通过对热门榜的分析,我们可以了解一款热门游戏的成功要素,大众更偏爱哪种游戏类型和要素。

爬取音乐排行_TapTap排行榜数据大盘点相关推荐

  1. python爬取音乐排行_python爬取网易云音乐热歌榜实例代码

    首先找到要下载的歌曲排行榜的链接,这里用的是: https://music.163.com/discover/toplist?id=3778678 然后更改你要保存的目录,目录要先建立好文件夹,例如我 ...

  2. python爬取音乐排行_Python爬取酷狗Top500的歌曲!够你吹个小牛皮了吧

    一.准备工作 安装 requests 库和 beautifulsoup4 库: requests 库是处理HTTP请求的一个简洁且简单的第三方库:beautifulsoup4 库是一个解析和处理HTM ...

  3. python爬取B站网页排行榜数据(进阶版)

    我们已经在基础版本中获取了网站的排行,更新状态,名称,播放量,弹幕量和综合评分. 如下图所示,没看过基础版的建议先去基础版把前面的代码看完,这边不会再讲. 我们这次的目标是获取B站动漫的点赞量,投币数 ...

  4. 爬取123粉丝网明星数据榜单,看看你的爱豆现在排名变化情况

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 以下文章来源于云+社区,作者 深雾 转载地址 https://blog.csdn ...

  5. 大数据Python爬取B站电影排行榜——爬取信息

    大数据Python爬取B站电影排行榜-信息爬取 前言 一.配置环境 二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息 三.建立Excel表并导出 总 ...

  6. Python疫起学习·万丈高楼平地起Day09(精简版|浓缩就是精华)爬虫知识附上案例爬取北京地区短租房信息、爬取酷狗TOP500的数据以及爬取网易云音乐热歌榜单

    爬虫知识 Requests库 部分运行结果如下: 有时爬虫需要加入请求头来伪装成浏览器,以便更好地抓取数据.在Chrome浏览器中按F12键打开Chrome开发者工具,刷新网页后找到User-Agen ...

  7. python实战(一)Python爬取猫眼评分排行前100电影及简单数据分析可视化python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化

    python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化 一.抓取数据 需要的库 request库 响应http请求 json库 将文本保存成json形式 pyquery 类似JQ ...

  8. python爬虫入门练习:BeautifulSoup爬取猫眼电影TOP100排行榜,pandas保存本地excel文件

    传送门:[python爬虫入门练习]正则表达式爬取猫眼电影TOP100排行榜,openpyxl保存本地excel文件 对于上文使用的正则表达式匹配网页内容,的确是有些许麻烦,替换出现任何的差错都会导致 ...

  9. ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理

    ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理 目录 对爬取的某平台二手房数据进行数据分析以及特征工程处理 1.定义数据集 2.特征工程(数据分析+数据处理) 对爬取的某平台二手房数 ...

最新文章

  1. 软件设计师备考知识05--设计模式
  2. git和其他版本控制系统的区别
  3. shujufenxi : shenzhenditie
  4. java修车_JAVA小练习34——使用java描述一个车类与一个修车厂类
  5. 第七天Python学习记录
  6. Spark报错:JDOFatalInternalException: Error creating transactional connection factory
  7. Mac远程服务器文件上传rz和sz的安装使用
  8. 怎么自动选中select中所有option
  9. mysql中数据导出到json文件的读取办法:
  10. 怎样创建数据库?4种流行数据库的创建方法介绍
  11. 黑白双色背景图java_黄色背景黑白双色简洁ppt图表
  12. PostgreSQL中with和without time zone两者有什么区别
  13. webrtc QOS方法一(NACK实现)
  14. 微软逼迫Office客户切换成年度付费会员:否则月度订阅价格将提高20%
  15. 高数习题9.69.7
  16. 百度智能云的“星辰大海”
  17. python信息采集管理系统_基于Python的求职信息采集分析系统设计与实现
  18. python QQ邮件发送
  19. 【Java】斗地主和斗牛游戏
  20. GBTC牛市中的天使,熊市中恶魔!

热门文章

  1. 【2016-09-27-DP小练】
  2. javaScript实现字符串首字母大写
  3. 使用IB_DESIGNABLE与IBInspectable特性实现可在视图编辑器的功能栏中设置
  4. 要继续使用 App Engine 标准应用,您必须在 2021 年 1 月 31 日之前添加付款信息。
  5. OpenAI智能体上演捉迷藏攻防大战,自创套路与反套路
  6. html里面执行js跳转页面,JS函数执行和指定跳转其他页面
  7. python代码怎么设置,如何设置PyCharm中的Python代码模版(推荐)
  8. 父类的静态方法能否被子类重写?
  9. 010_AOPXml方式开发
  10. 021_html文本格式化标签