# 2、用户分析
# 2-1 分析每年加入的用户数量

df12 = df0 \.select(col("yelping_since"),to_timestamp(col("yelping_since"), "MM/dd/yyyy hh:mm:ss a")) \.groupBy(year("yelping_since")) \.count() \.orderBy(desc("count")) \.show()

# 2-2 统计评论达人

df13 = df0 \.select('user_id','review_count') \.orderBy(col('review_count').desc()).limit(20) \.show()

# 2-3 统计人气最高的用户

df14 = df0 \.select('user_id','fans') \.orderBy(col('fans').desc()) \.limit(20) \.show()

# 2-4 统计每年优质用户、普通用户

df15 = df0 \.select('elite','user_id') \.withColumn('year',explode(split(col('elite'),',')) \.alias('year')) \.distinct()
df15 = df15 \.select('year') \.groupBy('year') \.agg(count('year').alias('elite_count')) \.orderBy(desc('elite_count')) \.show()

# 2-5 显示每年总用户数、沉默用户数(未写评论)的比例 16

# 沉默用户数

df16_2 = df0.select('review_count') \.where(col('review_count')==0).agg(count('review_count').alias('沉默用户数')) \.show()

# 总用户数

df16_1 = df0.select('user_id','review_count') \.agg(countDistinct('user_id').alias('总用户数')) \.show()

# 文章中出现的df,请查看第一章节即可知晓。

"""
        如果通过上述文章未能解决你的问题,请联系QQ:1491284097,请注明来意,将协助你解决问题。
"""

pycharm获取yelp相关数据(三)相关推荐

  1. pycharm获取yelp相关数据(四)

    # 3.评分分析 # 3-1 统计每年的评论数 ( 评论表 ) df17 = rev_df.withColumn('year',year('date')) df17=df17.select('year ...

  2. pycharm获取yelp相关数据(一)

    1.商户分析 # 1-1 找出美国最常见商户(前20) from pyspark.sql import SparkSession from pyspark.sql.functions import * ...

  3. pycharm获取yelp相关数据(五)

    # 4.打卡分析 # 4-1 统计每年的打卡次数 df22 = checkin_df \.select(col('business_id'), explode(split(col('date'), ' ...

  4. linux无线网卡的拨号状态获取,命令行下获取无线网卡相关数据

    经讨论,了解到ralink原生驱动才带有ap client功能,其他厂家的IC默认只支持station模式.但ap_client必须和ap server在同一频道. 对此我万分纠结,到底是继续使用MT ...

  5. Struts2-从值栈获取list集合数据(三种方式)

    创建User封装数据类 public class User {private String username;private String password;public String getPass ...

  6. Android中获取流量相关数据的方法

    获取流量的相关数据主要使用的是TrafficStats工具类.这里列举一下该类的主要方法. getTotalRxBytes:获取接收流量的总字节数. getTotalTxBytes:获取发送流量的总字 ...

  7. 用Java获取vSphere相关数据

    2019独角兽企业重金招聘Python工程师标准>>> 1.到官网下载SDK,VMware-vSphere-SDK-6.0.0-2561048.zip解压下来会有5个目录,VMwar ...

  8. tushare调用API获取金融相关数据

    首页:https://tushare.pro/ 整体的思路是: 首先获得token,可以参考官网教程 代码中传入token,调用接口 步骤 1. 获得token 首先进入网站:https://tush ...

  9. 泛微OA集成Wps-V5版本,获取授权相关数据

    wpsV5版本查看授权时间 1.访问开放平台,登录wpsadmin 账号  2. 访问   wps服务部署地址+/open/api/docs_mid_third/app/info  获取超管的appi ...

最新文章

  1. R 语言柱状图示例笔记
  2. 9-10 rpm程序包管理和YUM仓库
  3. linux hexdump命令详解
  4. python爬取音乐_利用Python对网易云音乐进行爬取!无所不爬的爬虫啊!
  5. java main 如何不退出_为什么java main主线程退出了子线程还能运行;golang main结束所有协程都被结束了...
  6. [python教程入门学习]使用Python六步制作小鸟管道游戏(附源码)
  7. 【数据蒋堂】报表应用的三层结构
  8. 微软云服务器搭建,75分钟快速构建微软Server 2012私有云
  9. 怎么引流推广?10种有效引流吸粉方法
  10. 服务器怎么在线播放flv视频,服务器无法播放flv文件
  11. centos7.4运行hyperLedger fabric 1.3.0 first network
  12. Java-JavaWeb—(4)MySQL数据库
  13. LaTeX使用excel2latex插入表格
  14. 用C语言对一元二次方程求解
  15. Yii框架中setFlash和getFlash函数的用法
  16. [2021时空AI白皮书]时空人工智能:城市数字化转型的新引擎
  17. python: plt.cm.Set1, Set2,Set3返回颜色
  18. 一个程序员眼中的北京和上海
  19. win10无线网卡共享网络给有线网卡再共享给其他电脑
  20. Ubuntu 20 安装 pyodbc 数据库驱动

热门文章

  1. Uncaught TypeError: normalizeKey is not a function
  2. java产生不重复随机学生学号_Java代码随机产生学号
  3. 计算机毕业设计(附源码)python中小学图书馆管理
  4. python库是什么意思最近那么火_好腻害 据说这个Python库要火了
  5. PMS启动 APK 安装流程详解
  6. 电话号码标记查询服务搭建
  7. 肖申克的救赎 经典语录
  8. 腾云忆想科技和腾讯关系_科技+文化这对CP,我站定了
  9. 目标检测领域必看的6篇论文
  10. 黑客讲故事:攻下隔壁女生路由器后,我都做了些什么