# 2、用户分析
# 2-1 分析每年加入的用户数量

df12 = df0 \.select(col("yelping_since"),to_timestamp(col("yelping_since"), "MM/dd/yyyy hh:mm:ss a")) \.groupBy(year("yelping_since")) \.count() \.orderBy(desc("count")) \.show()

# 2-2 统计评论达人

df13 = df0 \.select('user_id','review_count') \.orderBy(col('review_count').desc()).limit(20) \.show()

# 2-3 统计人气最高的用户

df14 = df0 \.select('user_id','fans') \.orderBy(col('fans').desc()) \.limit(20) \.show()

# 2-4 统计每年优质用户、普通用户

df15 = df0 \.select('elite','user_id') \.withColumn('year',explode(split(col('elite'),',')) \.alias('year')) \.distinct()
df15 = df15 \.select('year') \.groupBy('year') \.agg(count('year').alias('elite_count')) \.orderBy(desc('elite_count')) \.show()

# 2-5 显示每年总用户数、沉默用户数(未写评论)的比例 16

# 沉默用户数

df16_2 = df0.select('review_count') \.where(col('review_count')==0).agg(count('review_count').alias('沉默用户数')) \.show()

# 总用户数

df16_1 = df0.select('user_id','review_count') \.agg(countDistinct('user_id').alias('总用户数')) \.show()

# 文章中出现的df,请查看第一章节即可知晓。

"""
        如果通过上述文章未能解决你的问题,请联系QQ:1491284097,请注明来意,将协助你解决问题。
"""

pycharm获取yelp相关数据(三)相关推荐

  1. pycharm获取yelp相关数据(四)

    # 3.评分分析 # 3-1 统计每年的评论数 ( 评论表 ) df17 = rev_df.withColumn('year',year('date')) df17=df17.select('year ...

  2. pycharm获取yelp相关数据(一)

    1.商户分析 # 1-1 找出美国最常见商户(前20) from pyspark.sql import SparkSession from pyspark.sql.functions import * ...

  3. pycharm获取yelp相关数据(五)

    # 4.打卡分析 # 4-1 统计每年的打卡次数 df22 = checkin_df \.select(col('business_id'), explode(split(col('date'), ' ...

  4. linux无线网卡的拨号状态获取,命令行下获取无线网卡相关数据

    经讨论,了解到ralink原生驱动才带有ap client功能,其他厂家的IC默认只支持station模式.但ap_client必须和ap server在同一频道. 对此我万分纠结,到底是继续使用MT ...

  5. Struts2-从值栈获取list集合数据(三种方式)

    创建User封装数据类 public class User {private String username;private String password;public String getPass ...

  6. Android中获取流量相关数据的方法

    获取流量的相关数据主要使用的是TrafficStats工具类.这里列举一下该类的主要方法. getTotalRxBytes:获取接收流量的总字节数. getTotalTxBytes:获取发送流量的总字 ...

  7. 用Java获取vSphere相关数据

    2019独角兽企业重金招聘Python工程师标准>>> 1.到官网下载SDK,VMware-vSphere-SDK-6.0.0-2561048.zip解压下来会有5个目录,VMwar ...

  8. tushare调用API获取金融相关数据

    首页:https://tushare.pro/ 整体的思路是: 首先获得token,可以参考官网教程 代码中传入token,调用接口 步骤 1. 获得token 首先进入网站:https://tush ...

  9. 泛微OA集成Wps-V5版本,获取授权相关数据

    wpsV5版本查看授权时间 1.访问开放平台,登录wpsadmin 账号  2. 访问   wps服务部署地址+/open/api/docs_mid_third/app/info  获取超管的appi ...

最新文章

  1. 青铜峡高级中学2021高考成绩查询,2021年吴忠高考成绩排名及成绩公布时间什么时候出来...
  2. nginx 在负载均衡中 的配置 以获取真实IP
  3. 《交互式线性代数》完整版正式发布!支持在线全交互式体验(含源码,离线也能看)...
  4. After Opp is saved - change mode filling place
  5. linux mint 18 mysql_linux mint下mysql中文支持问题
  6. 使用Speedment 3.0.17及更高版本简化交易
  7. 社区架构培训班四期开始报名了
  8. nodejs 遍历json数据_PostgreSQL 务实应用(四/5)JSON
  9. java 编写无状态代码,一种真正实现RMI无状态化的方法续:JVM源码修改步骤
  10. HTML5 Web Storage -- 让Cookies看起来如此古老
  11. Mybatis快速入门并实现CRUD操作
  12. 3DMAX 的重要知识和插件介绍
  13. VS2017使用C#编写COM组件
  14. MySql 使用关键字做字段名
  15. 强网杯S6初赛 部分题解
  16. matlab中的高阶导数,MATLAB如何求函数的n阶导数?
  17. input number 数字输入限制,最大值最小值输入范围限制
  18. Mybatis从零开始
  19. 干支纪年java_天干地支纪年法 - osc_xcg0s5cw的个人空间 - OSCHINA - 中文开源技术交流社区...
  20. Mac iterm2 中文乱码

热门文章

  1. IEC61850 专用语笔记
  2. Linux中case的用法
  3. AT89S52与CF卡的接口设计
  4. 计算机专业大专单招面试题,单招计算机面试题
  5. HBASE一些简单的查询语句
  6. 人脸识别 开放书籍 下载地址
  7. sqlserver 死锁原因及解决方法
  8. Java 源码出发彻底搞懂String与StringBuffer和StringBuilder的区别
  9. idea修改堆内存后启动失败
  10. Golang标准库-syscall(什么是系统调用/Go 语言中的系统调用)