1. 数据清洗

示例代码:

import pandas as pd#  读取数据
app = pd.read_csv('../data/excel_data/applestore.csv')
app.info()

#发现了unname 0这个奇怪的变量,需要进行清理
app.drop('Unnamed: 0', axis=1, inplace=True)
#drop默认是对行
#inplace表示直接替换掉原有数据
#同样可以用位置来举
#app.drop(app.columns[0],axis=1,inplace=True)
app.head()

# 考虑将sizebytes变成mb,新增数据
app['size_mb'] = app['size_bytes'] / (1024 * 1024.0)
app.size_mb.describe()

# 根据价格新增标签
app['paid'] = app['price'].apply(lambda x: 1 if x > 0 else 0)
#lambda阐述规则,X为price,为paid赋值,即当price>0,paid为1,其他情况下,paid为0
app.paid.describe()

2. 单变量分析

示例代码:

#value_counts (price,prime_genre)
#value_Coutn只能对应series,不能对整个dataframe做操作
app.price.value_counts()

# 价格>50的比较少
#数据的快速分组
bins = [0,2,10,300]
labels = [  '<2', '<10','<300']
app['price_new'] = pd.cut(app.price, bins, right=False, labels=labels)
#分组后查看数据分布情况
app.groupby(['price_new'])['price'].describe()

# groupby的操作,不同类别app的价格分布
app.groupby(['prime_genre'])['price'].describe()

#删除价格大于等于49.99的app
app=app[app['price']<=49.99]#评论情况分析
app.rating_count_tot.describe()

#对用户打分的分组
bins = [0,1000,5000,100000,5000000]
app['rating_new']=pd.cut(app.rating_count_tot, bins, right=False)#用户打分和价格的关系
app.groupby(['rating_new'])['price'].describe()

3. 业务数据可视化

示例代码:

#可视化部分
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
#app评分关系
plt.figure(figsize=(30,20))#调整大小
sns.relplot(x="prime_genre", y="user_rating",kind='line', data=app) #折线图

app1=app[app['price']<=9.99]
#直方图,APP价格的分布
sns.distplot(app1['price'])

#箱线图,不同类别APP价格
plt.figure(figsize=(10,8))#调整大小
sns.boxplot(x='price',y='prime_genre',data=app[app['paid']==1]) # 价格绝大部分都集中在9.99美元以内,个别类别(如医疗)等因专业性总体价格会高于其他类别

#散点图,价格和用户评分的分布
sns.scatterplot(x='price',y='user_rating',data=app)

#只保留五个类别数据
top5= ['Games','Entertainment', 'Education', 'Photo & Video', 'Utilities']
app5 = app[app.prime_genre.isin(top5)]#柱状图,前5个类别app的用户评分均值
#同一类别,将免费和付费的评分进行对比
plt.figure(figsize=(10,8))
sns.barplot(x='prime_genre',y='user_rating',hue='paid',data=app5)

#使用countplot--count是对数据加总,plot将数据进行可视化
#使用order对数据进行排序plt.figure(figsize=(20,10))
sns.countplot(y='prime_genre',hue='paid',data=app,order=app['prime_genre'].value_counts().index)
plt.tick_params(labelsize=20)

#  免费与收费的APP在不同评分区间的分布
bins=[0,0.1,2.5,4.5,5]
app['rating_level']=pd.cut(app.user_rating,bins,right=False)
app.groupby(['rating_level'])['user_rating'].describe()

sns.countplot(x='paid',hue='rating_level',data=app)

#  APP的大小和用户评分之间的关系
q4=['user_rating','price','size_mb']
app[q4].corr()

#热力图,展现变量之间两两之间关系的强弱
sns.heatmap(app[q4].corr())  # 大小价格都不和评分没有直接关系,但是价格和大小之间有正相关关系

APP Store案例数据分析相关推荐

  1. 案例 APP Store 数据分析

    1 案例介绍 案例背景 对APP下载和评分数据分析帮助App开发者获取和留存用户 通过对应用商店的数据分析为开发人员提供可操作的意见 通过数据分析要解决的问题 免费和收费的App都集中在哪些类别 收费 ...

  2. 淘宝APP用户行为数据分析案例(附python代码及注释)

    淘宝APP用户行为数据分析案例 一.分析背景与目的 1.1背景与数据限制 电商平台的最核心的功能就是为买卖双方提供高效和体验良好的交易服务.得益于算法技术的发展,淘宝APP给买方提供了搜索.推荐及广告 ...

  3. 重磅推出开发者计划、App Store,赛灵思普及自适应计算的一大步

    得开发者得天下.尤其随着AI技术落地趋势加剧,其中大部分创新来自软件应用,市场对软件开发者有着极大需求.因此,无论是互联网公司还是传统的IT厂商都在尝试将开发者沉淀到自己的平台. 作为FPGA的开创者 ...

  4. 盘它:上线 2 个月碾压微信、抖音,音遇登顶 App Store 榜幕后的数据真相

    在万物互联的大数据时代,伴随着科技变革和产业变革的浪潮,有寒冬凛冽的凋亡,也有光芒四射的新生. 音乐+社交+游戏的巧妙融合,诞生了一款爆款音乐社交产品--音遇,上线不久,就获得了傲人的数据反馈,一跃至 ...

  5. 全渠道、多场景、跨平台,App如何借助数据分析渠道流量

    随着互联网流量生态的发展,App渠道投放的效率和体验已经得到质的提升,但移动端多场景的数据监测却变得愈发复杂,用户行为往往需要横跨社交媒体.广告推送.扫码触达.应用市场.站内交互等多个场景,如何高效打 ...

  6. 出海买量难,游戏类产品如何利用App Store突围?

    近年来,在疫情的影响下,海外市场用户对游戏的需求呈上升趋势,游戏市场仍处于持续扩张态势,而广告主们买量渠道繁多,回报却差强人意,究其原因主要是买量渠道受隐私政策影响,导致获客成本上扬. 得益于 App ...

  7. 数据科学项目:适用于App Store和Google Play的有利可图的应用配置文件

    At Dataquest, we strongly advocate portfolio projects as a means of getting a first data science job ...

  8. App推广:数据分析与渠道质量及17款国内数据分析工具对比

    Part 1 如何从数据评估渠道质量 Part 2 国内数据分析工具介绍 Part 3 如何从数据辨别渠道作弊 Part 1.如何从数据评估渠道质量 渠道数量过多,鱼龙混杂,想要挑选出合适的优质渠道非 ...

  9. Xcode11 上传苹果卡在Authenticating with the iTunes store 或者transpoter上传卡在正在验证 APP - 正在通过App Store进行认证

    目前2020年12月份再用的时候,更新了transpoter,已经完全可以了,以下方法已不管用 这里直接借鉴网上案例我自己试成功的方法, Xcode11后,会移除自带的transpoter,我们需要自 ...

最新文章

  1. Meta AI推出“杂食者”:一个模型搞定图像、视频和3D数据三大分类任务,性能还不输独立模型...
  2. 【拓扑排序】【堆】CH Round #57 - Story of the OI Class 查错
  3. 上传图片时,图片大小不一,设置宽高,图片拉伸,如何处理呢,我来告诉你...
  4. 医疗项目中对网编的一些理解看法
  5. HALCON示例程序forest.hdev识别森林中的树
  6. 一个娃娃竟然拍出50万......
  7. 里用gam使用_第一次使用Roam一头雾水?
  8. 彩色BMP转换成灰度图的原理
  9. 视频主观质量评价工具:MSU Perceptual Video Quality tool
  10. Amlogic_Android7.1 HDMI显示流程源码分析
  11. SOME/IP报文格式-Payload
  12. 推荐五个免费UML建模工具
  13. 破解钉钉旧版本强制更新(实现旧版本登录)
  14. 1.2Sakura语法基础篇
  15. Android service 不被杀死“永不退出的服务”(双进程,服务,多进程,微信)
  16. 蓝牙搜索显示结果到ListView(十分精简)
  17. C++boost库中sp_counted_impl_x实现解析
  18. docker启动容器指定主机名,网络和ip地址
  19. Oracle 10g 在win10下的安装
  20. org.apache.ibatis.binding.BindingException:

热门文章

  1. 首场见习挑战赛倒计时3天!20000元奖学金瓜分就等你了!
  2. 性价比超高:苹果发布了新数据集,助力室内场景理解
  3. DPU加持下的阿里云如何做加密计算?
  4. 如果特斯拉制造相机的梦想像激光雷达一样真正实现,它可能会帮助到更多同行...
  5. 如何用Python快速抓取Google搜索?
  6. CornerNet: 成对关键点物体检测 | CSDN博文精选
  7. 这款耳机一点不输千元级的AirPods
  8. 太火!这本AI图书微软强推,程序员靠它拿下50K!
  9. SpringBean默认是单例的,高并发情况下,如何保证并发安全?
  10. 用了这么久 IDEA,你竟然不知道有个功能叫自动补全!