pycharm获取yelp相关数据(三)
# 2、用户分析
# 2-1 分析每年加入的用户数量
df12 = df0 \.select(col("yelping_since"),to_timestamp(col("yelping_since"), "MM/dd/yyyy hh:mm:ss a")) \.groupBy(year("yelping_since")) \.count() \.orderBy(desc("count")) \.show()
# 2-2 统计评论达人
df13 = df0 \.select('user_id','review_count') \.orderBy(col('review_count').desc()).limit(20) \.show()
# 2-3 统计人气最高的用户
df14 = df0 \.select('user_id','fans') \.orderBy(col('fans').desc()) \.limit(20) \.show()
# 2-4 统计每年优质用户、普通用户
df15 = df0 \.select('elite','user_id') \.withColumn('year',explode(split(col('elite'),',')) \.alias('year')) \.distinct()
df15 = df15 \.select('year') \.groupBy('year') \.agg(count('year').alias('elite_count')) \.orderBy(desc('elite_count')) \.show()
# 2-5 显示每年总用户数、沉默用户数(未写评论)的比例 16
# 沉默用户数
df16_2 = df0.select('review_count') \.where(col('review_count')==0).agg(count('review_count').alias('沉默用户数')) \.show()
# 总用户数
df16_1 = df0.select('user_id','review_count') \.agg(countDistinct('user_id').alias('总用户数')) \.show()
# 文章中出现的df,请查看第一章节即可知晓。
"""
如果通过上述文章未能解决你的问题,请联系QQ:1491284097,请注明来意,将协助你解决问题。
"""
pycharm获取yelp相关数据(三)相关推荐
- pycharm获取yelp相关数据(四)
# 3.评分分析 # 3-1 统计每年的评论数 ( 评论表 ) df17 = rev_df.withColumn('year',year('date')) df17=df17.select('year ...
- pycharm获取yelp相关数据(一)
1.商户分析 # 1-1 找出美国最常见商户(前20) from pyspark.sql import SparkSession from pyspark.sql.functions import * ...
- pycharm获取yelp相关数据(五)
# 4.打卡分析 # 4-1 统计每年的打卡次数 df22 = checkin_df \.select(col('business_id'), explode(split(col('date'), ' ...
- linux无线网卡的拨号状态获取,命令行下获取无线网卡相关数据
经讨论,了解到ralink原生驱动才带有ap client功能,其他厂家的IC默认只支持station模式.但ap_client必须和ap server在同一频道. 对此我万分纠结,到底是继续使用MT ...
- Struts2-从值栈获取list集合数据(三种方式)
创建User封装数据类 public class User {private String username;private String password;public String getPass ...
- Android中获取流量相关数据的方法
获取流量的相关数据主要使用的是TrafficStats工具类.这里列举一下该类的主要方法. getTotalRxBytes:获取接收流量的总字节数. getTotalTxBytes:获取发送流量的总字 ...
- 用Java获取vSphere相关数据
2019独角兽企业重金招聘Python工程师标准>>> 1.到官网下载SDK,VMware-vSphere-SDK-6.0.0-2561048.zip解压下来会有5个目录,VMwar ...
- tushare调用API获取金融相关数据
首页:https://tushare.pro/ 整体的思路是: 首先获得token,可以参考官网教程 代码中传入token,调用接口 步骤 1. 获得token 首先进入网站:https://tush ...
- 泛微OA集成Wps-V5版本,获取授权相关数据
wpsV5版本查看授权时间 1.访问开放平台,登录wpsadmin 账号 2. 访问 wps服务部署地址+/open/api/docs_mid_third/app/info 获取超管的appi ...
最新文章
- R 语言柱状图示例笔记
- 9-10 rpm程序包管理和YUM仓库
- linux hexdump命令详解
- python爬取音乐_利用Python对网易云音乐进行爬取!无所不爬的爬虫啊!
- java main 如何不退出_为什么java main主线程退出了子线程还能运行;golang main结束所有协程都被结束了...
- [python教程入门学习]使用Python六步制作小鸟管道游戏(附源码)
- 【数据蒋堂】报表应用的三层结构
- 微软云服务器搭建,75分钟快速构建微软Server 2012私有云
- 怎么引流推广?10种有效引流吸粉方法
- 服务器怎么在线播放flv视频,服务器无法播放flv文件
- centos7.4运行hyperLedger fabric 1.3.0 first network
- Java-JavaWeb—(4)MySQL数据库
- LaTeX使用excel2latex插入表格
- 用C语言对一元二次方程求解
- Yii框架中setFlash和getFlash函数的用法
- [2021时空AI白皮书]时空人工智能:城市数字化转型的新引擎
- python: plt.cm.Set1, Set2,Set3返回颜色
- 一个程序员眼中的北京和上海
- win10无线网卡共享网络给有线网卡再共享给其他电脑
- Ubuntu 20 安装 pyodbc 数据库驱动