pycharm获取yelp相关数据(三)
# 2、用户分析
# 2-1 分析每年加入的用户数量
df12 = df0 \.select(col("yelping_since"),to_timestamp(col("yelping_since"), "MM/dd/yyyy hh:mm:ss a")) \.groupBy(year("yelping_since")) \.count() \.orderBy(desc("count")) \.show()
# 2-2 统计评论达人
df13 = df0 \.select('user_id','review_count') \.orderBy(col('review_count').desc()).limit(20) \.show()
# 2-3 统计人气最高的用户
df14 = df0 \.select('user_id','fans') \.orderBy(col('fans').desc()) \.limit(20) \.show()
# 2-4 统计每年优质用户、普通用户
df15 = df0 \.select('elite','user_id') \.withColumn('year',explode(split(col('elite'),',')) \.alias('year')) \.distinct()
df15 = df15 \.select('year') \.groupBy('year') \.agg(count('year').alias('elite_count')) \.orderBy(desc('elite_count')) \.show()
# 2-5 显示每年总用户数、沉默用户数(未写评论)的比例 16
# 沉默用户数
df16_2 = df0.select('review_count') \.where(col('review_count')==0).agg(count('review_count').alias('沉默用户数')) \.show()
# 总用户数
df16_1 = df0.select('user_id','review_count') \.agg(countDistinct('user_id').alias('总用户数')) \.show()
# 文章中出现的df,请查看第一章节即可知晓。
"""
如果通过上述文章未能解决你的问题,请联系QQ:1491284097,请注明来意,将协助你解决问题。
"""
pycharm获取yelp相关数据(三)相关推荐
- pycharm获取yelp相关数据(四)
# 3.评分分析 # 3-1 统计每年的评论数 ( 评论表 ) df17 = rev_df.withColumn('year',year('date')) df17=df17.select('year ...
- pycharm获取yelp相关数据(一)
1.商户分析 # 1-1 找出美国最常见商户(前20) from pyspark.sql import SparkSession from pyspark.sql.functions import * ...
- pycharm获取yelp相关数据(五)
# 4.打卡分析 # 4-1 统计每年的打卡次数 df22 = checkin_df \.select(col('business_id'), explode(split(col('date'), ' ...
- linux无线网卡的拨号状态获取,命令行下获取无线网卡相关数据
经讨论,了解到ralink原生驱动才带有ap client功能,其他厂家的IC默认只支持station模式.但ap_client必须和ap server在同一频道. 对此我万分纠结,到底是继续使用MT ...
- Struts2-从值栈获取list集合数据(三种方式)
创建User封装数据类 public class User {private String username;private String password;public String getPass ...
- Android中获取流量相关数据的方法
获取流量的相关数据主要使用的是TrafficStats工具类.这里列举一下该类的主要方法. getTotalRxBytes:获取接收流量的总字节数. getTotalTxBytes:获取发送流量的总字 ...
- 用Java获取vSphere相关数据
2019独角兽企业重金招聘Python工程师标准>>> 1.到官网下载SDK,VMware-vSphere-SDK-6.0.0-2561048.zip解压下来会有5个目录,VMwar ...
- tushare调用API获取金融相关数据
首页:https://tushare.pro/ 整体的思路是: 首先获得token,可以参考官网教程 代码中传入token,调用接口 步骤 1. 获得token 首先进入网站:https://tush ...
- 泛微OA集成Wps-V5版本,获取授权相关数据
wpsV5版本查看授权时间 1.访问开放平台,登录wpsadmin 账号 2. 访问 wps服务部署地址+/open/api/docs_mid_third/app/info 获取超管的appi ...
最新文章
- 青铜峡高级中学2021高考成绩查询,2021年吴忠高考成绩排名及成绩公布时间什么时候出来...
- nginx 在负载均衡中 的配置 以获取真实IP
- 《交互式线性代数》完整版正式发布!支持在线全交互式体验(含源码,离线也能看)...
- After Opp is saved - change mode filling place
- linux mint 18 mysql_linux mint下mysql中文支持问题
- 使用Speedment 3.0.17及更高版本简化交易
- 社区架构培训班四期开始报名了
- nodejs 遍历json数据_PostgreSQL 务实应用(四/5)JSON
- java 编写无状态代码,一种真正实现RMI无状态化的方法续:JVM源码修改步骤
- HTML5 Web Storage -- 让Cookies看起来如此古老
- Mybatis快速入门并实现CRUD操作
- 3DMAX 的重要知识和插件介绍
- VS2017使用C#编写COM组件
- MySql 使用关键字做字段名
- 强网杯S6初赛 部分题解
- matlab中的高阶导数,MATLAB如何求函数的n阶导数?
- input number 数字输入限制,最大值最小值输入范围限制
- Mybatis从零开始
- 干支纪年java_天干地支纪年法 - osc_xcg0s5cw的个人空间 - OSCHINA - 中文开源技术交流社区...
- Mac iterm2 中文乱码