一、前言

最近钉钉火了,因为疫情影响,钉钉被教育部选为给学生用来在线上网课的平台,本以为自己因为业务过硬得到官方的认可,是2020上天选中的宠鹅,万万没想到到由于小学生不爽被占用寒假时间上课,于是集体出征在各大应用商店给钉钉打低分⬇️

于是就出现了前几天的“钉钉十一亿下载量,整体评分只有一星”,真是好惨一软件。那么就跟随本文一起通过爬取钉钉在App Store的评分,看看用户的真实反应吧。

二、数据爬取

我们的目标就是从App Store官网拿下这些评论数据做分析⬇️

本来以为要写个爬虫在用正则表达式去提取,结果一搜发现有现成的App Store评论API⬇️

https://itunes.apple.com/rss/customerreviews/page=1/id=/sortby=mostrecent/json?l=en&&cc=cn

只要将钉钉的id添加进去就OK,这就很简单了,连F12都不用⬇️

于是我们很轻松的就得到了钉钉在App Store的评论API

https://itunes.apple.com/rss/customerreviews/page=1/id=930368978/sortby=mostrecent/json?l=en&&cc=cn

打开看看,OK就是这个⬇️,但是比较可惜的是App Store并没有提供评论时间,所以对我们有用的数据就只有用户评分、评论标题、评论内容。

注意到这仅仅是第一页的评论,而通过测试发现最多可以查看10页的评论,所以写一个简单的循环把我们需要的信息提取出来,具体代码⬇️

import requests
import pandas as pd
from pandas import DataFrame
flag = [1,2,3,4,5,6,7,8,9,10]
urllist = []
for i in flag:url = f"https://itunes.apple.com/rss/customerreviews/page={i}/id=930368978/sortby=mostrecent/json?l=en&&cc=cn"urllist.append(url)
rating = [] #评分
title = [] #标题
content = [] #内容
for url in urllist:res = requests.get(url)data = res.json()['feed']['entry']for i in range(len(data)):rating.append(data[i]['im:rating']['label'])title.append(data[i]['title']['label'])content.append(data[i]['content']['label'])
data = {'打分':rating,'标题':title,'内容':content}
df = DataFrame(data)

最终爬取的数据长这样⬇️

三、数据分析

我们首先看下这500条评分的分值分布

从图中可以看出一共500次评分,1分和5分占了490次,其中打一分的250人,5分的240人,而2分、3分、4分的人数则分别为1、3、6人。看来打分的各位还真是爱憎分明。

接着我们再从title和content中提取与学生相关的文字并统计⬇️

看来不管是不是评论者是不是小学生,都喜欢在评论里面聊小学生。

我们再统计一下标题和内容中出现最多的一些关键词。可以用pandas里面的.str.contains()方法⬇️

再可视化一下⬇️

可以看到,给好评的人和给一星的人旗鼓相当,有骂钉钉吵着下架的,也有鼓励钉钉喊着加油的。但是唯一值得关注的是,有不少人想分期消费

好了,最后我们来制作下词云图,上面的可视化主要利用pyecharts,具体在我之前文章中有详细说明。而词云图的制作选择了python里的wordcloud库,具体使用方法就不细说,看代码⬇️

from wordcloud import WordCloud
import matplotlib.pyplot as plt  #绘制图像的模块
import  jieba                    #jieba分词path_txt='content.txt'
f = open(path_txt,'r',encoding='UTF-8').read()# 结巴分词,生成字符串,wordcloud无法直接生成正确的中文词云
cut_text = " ".join(jieba.cut(f))wordcloud = WordCloud(#设置字体,不然会出现口字乱码,文字的路径是电脑的字体一般路径,可以换成别的font_path="msyh.ttc",#设置了背景,宽高background_color="white",width=2000,height=1880).generate(cut_text)plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

从标题生成的词云图来看,依旧是褒贬掺半

下面是由内容生成的词云图

四、结束语

以上就是本文的全部内容,笔者也是使用钉钉进行办公。而对于钉钉这波哭笑不得的热搜,我想钉钉官方鬼畜已经给出了答案

情人节用python写个网站对ta表白吧!

使用SIR模型对2019新型冠状病毒的疫情发展进行分析

GitHub上3k+star的python爬虫库你了解吗?详解MechanicalSoup爬虫库

疫情来袭,30分钟学会用python开发部署疫情可视化网站

点个在看在走哦

钉钉在线求饶?五星分期付款?爬取钉钉App Store真实评价数据并分析相关推荐

  1. Python爬取中原地产香港26281套在售二手房数据并分析

    背景 香港的贫富差距问题一直十分尖锐,最突出的体现就是收入和楼价的巨大差异.早在60年代末香港房价就经历了暴涨,人们早已对不动产的金融属性了如指掌,全港的投资情绪一直都相当火热.即便香港当前失业率高企 ...

  2. 爬取猫眼电影《一出好戏》数据并分析

    一.获取数据 1. 简介 ​ 本次获取的是猫眼APP的评论数据,如图所示: 通过分析发现猫眼APP的评论数据接口为: http://m.maoyan.com/mmdb/comments/movie/1 ...

  3. 我悄咪咪告诉你:罩杯越小的妹子倾向买越贵的内衣~~Python爬取京东9000条内衣销售数据之数据关联度分析

    将爬取的9000条内衣销售数据整理清洗后,基于Apriori关联算法,针对"罩杯和消费价格倾向这两个元素有无关系"这个问题进行分析 上一篇用数据库清洗数据,点这里 再上一篇爬取数据 ...

  4. Python Fiddler 钉钉PC端群回放视频爬取

    Python Fiddler 钉钉PC端群回放视频爬取 钉钉群里的回放视频被群管理员设置为不能下载,可是有时候又需要这些视频可以方便传阅和打开调倍速等等,而且还可以不用再打开PC端就可以直接看到视频多 ...

  5. 钉钉编辑在线表格突然闪退,整个钉钉就关了

    环境: 电脑:惠普288 pro G6 系统:Windows 10 专业版 64位 钉钉:V.6.5.20 问题描述: 钉钉编辑在线表格突然闪退,整个钉钉就关了 解决方案: 1.官网下载覆盖安装最新版 ...

  6. 爬取了 31502 条北京自如租房数据,看看是否居者有其屋?

    作者 | 小狮子是LEO 责编 | 郭芮 自如友家作为北京租房的主要途径之一,租房数据都展示在官方网站之上,价格等房屋信息与网站数据一致,数据可信度较高.格式规整.因而选取自如友家官方网站作为租房数据 ...

  7. 在当当买了python怎么下载源代码-Python爬取当当网APP数据

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于AirPython ,作者星安果 目标 场景:有时候通过传统的方法去 ...

  8. python爬百度翻译-Python爬取百度翻译(利用json提取数据)

    本篇文章给大家带来的内容是关于Python爬取百度翻译(利用json提取数据),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 工具:Python 3.6.5.PyCharm开发工具. ...

  9. 爬取异步请求(XHR/JS)数据方法

    概述 之前在做爬虫的时候,比如在爬取到https://www.1688.com/?spm=a261p.8650866.0.0.2dfa36c3tjLrCQ网页的时候,发现很多内容明明在浏览器看得见,但 ...

最新文章

  1. Spring 的 BeanUtils 踩坑记,你是不是遇到过这些问题?
  2. mysql日期格式转化
  3. 熊吃人该不该杀?这头3米高的大熊吃了7个人,还在洞里藏了很多女人用的东西.........
  4. 清华90后博士后万蕊雪:科研这场马拉松,我会一直跑下去
  5. 分布式数据库在金融应用场景中的探索与实践
  6. MinIO Client完全指南 ​​​​​​​
  7. inode索引节点---初识
  8. Ubuntu安装时没注册root用户密码,怎么登录root
  9. c mysql dll_PHP5.3以上版本没有libmysql.dll,以及由此带来的困扰
  10. 【CCCC】L2-013 红色警报 (25分),,并查集计算集合个数
  11. JSON 之 SuperObject(8): 关于乱码的几种情况 - 向 Henri Gourvest 大师报告
  12. Linux统计文件夹下文件数量
  13. paip.-Djava.library.path -Djava.ext.dirs= 的区别
  14. 东芝打印机共享怎么设置_东芝e-studio181打印机怎么设置网络打印机
  15. word段落每行首字怎么对齐_怎样使word文章段落乖乖对齐!一个设置就行!
  16. 传奇GEE引擎版本如何封挂?GEE引擎设置简单的封挂脚本教程
  17. Ubuntu 16.04 安装GTX 1060 显卡驱动和CUDA 10.2
  18. php开启sockets模块,wdlinux 增加php的sockets模块
  19. 设置PPT幻灯版自动翻页播放
  20. 畅邮(DM Pro)-一款强悍、纯净而稳定的重量级电子邮箱客户端(支持分发、追踪)...

热门文章

  1. 【LeetCode】【HOT】101. 对称二叉树(BFS+队列/递归)
  2. 力扣141.环形链表
  3. 热点Key问题的发现与解决
  4. 虫师自动化测试robot Framework 框架的学习2
  5. 【C#】三种结构:顺序、分支(if、switch、条件运算符)、循环
  6. 互联网高级Java面试总结
  7. 二分查找(Java实现)
  8. sriov查看pf-vf对应关系
  9. 25@JSP_day09
  10. python经典笔试、面试题-01