电影评分分析

  • 数据
    • 原始数据展示
    • json格式说明
    • 数据字段含义
  • 需求
    • 1.每个用户评分最高的10部电影评分信息(用户最喜爱的十部电影)
    • 2.每个用户的uid和评分的平均值。
    • 3.最大方(评分平均值高)的n个用户的uid和评分平均值。
    • 4.最热门的10部电影id和评价次数。
    • 5.评价最高的10部电影id和评分均值
  • 需求实现
    • json解析测试
    • 1.每个用户评分最高的10部电影评分信息-实现
    • 2.每个用户的uid和评分的平均值-实现
    • 3.最大方(评分平均值高)的n个用户的uid和评分平均值-实现

数据

原始数据展示

原始数据是json数据,大约有100万条数据,样例数据如下:

{"movie":"608","rate":"4","timeStamp":"978301398","uid":"1"}
{"movie":"1246","rate":"4","timeStamp":"978302091","uid":"1"}
{"movie":"1357","rate":"5","timeStamp":"978298709","uid":"2"}
{"movie":"3068","rate":"4","timeStamp":"978299000","uid":"2"}
{"movie":"1537","rate":"4","timeStamp":"978299620","uid":"2"}
{"movie":"647","rate":"3","timeStamp":"978299351","uid":"2"}

json格式说明

json是一种常用的数据格式,广泛的适用于数据的存储和数据的传输。数据是使用大括号,冒号,双引号,中括号组成,这些元素是可以嵌套的。

  • {}表示一个对象
  • Key-value(中间使用冒号分割:)
  • 每一个key-value中间使用逗号分割
  • []中括号表示数组

数据字段含义

电影评分数据包含了电影id,电影评分,评论时间,用户id。

  • movie 电影的id
  • rate 电影评分
  • timestamp 评论时间
  • uid 用户id

需求

1.每个用户评分最高的10部电影评分信息(用户最喜爱的十部电影)

样例结果:

uid=1的前十条数据
{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}
{"movie":"2355","rate":"5","timeStamp":"978824291","uid":"1"}
{"movie":"1287","rate":"5","timeStamp":"978302039","uid":"1"}
{"movie":"2804","rate":"5","timeStamp":"978300719","uid":"1"}
。。。此处省略六条。。。
uid=2的前十条数据
{"movie":"1357","rate":"5","timeStamp":"978298709","uid":"2"}
{"movie":"2268","rate":"5","timeStamp":"978299297","uid":"2"}
{"movie":"648","rate":"4","timeStamp":"978299913","uid":"2"}
。。。此处省略n条数据。。。

2.每个用户的uid和评分的平均值。

样例结果:

uid=1   平均分=4.98
uid=2  平均分=4.39
uid=3  平均分=4.87
uid=4  平均分=4.98
uid=5  平均分=5.00
。。。此处省略n条数据。。。

3.最大方(评分平均值高)的n个用户的uid和评分平均值。

其实就是在问题2的基础上找出平均数比较高的前n条数据。
样例输出:

uid=5   平均分=5.00
uid=329    平均分=4.98
uid=23 平均分=4.95
uid=435    平均分=4.89
uid=324    平均分=4.89

4.最热门的10部电影id和评价次数。

热门的定义: 评论次数多的就是热门
样例输出数据:

movie=217   评论次数:737284
movie=2345 评论次数:733213
movie=748  评论次数:684372
。。。此处省略七条数据。。。

5.评价最高的10部电影id和评分均值

样例数据输出:

movie=5 平均分=5.00
movie=329  平均分=4.98
movie=23   平均分=4.95
movie=435  平均分=4.89
movie=324  平均分=4.89
。。。此处省略5条数据。。。

需求实现

json解析测试

json解析是把数据解析成对象,所以需要先创建json数据相对应的javabean
json对应的javaBean

package cn.pengpeng.day01.bean;/*** json数据对应的javabean* @author pengpeng*/
public class RateBean {//{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}private String movie;private int rate;private String timeStamp;private String uid;public String getMovie() {return movie;}public void setMovie(String movie) {this.movie = movie;}public int getRate() {return rate;}public void setRate(int rate) {this.rate = rate;}public String getTimeStamp() {return timeStamp;}public void setTimeStamp(String timeStamp) {this.timeStamp = timeStamp;}public String getUid() {return uid;}public void setUid(String uid) {this.uid = uid;}@Overridepublic String toString() {return "RateBean [movie=" + movie + ", rate=" + rate + ", timeStamp=" + timeStamp + ", uid=" + uid + "]";}
}

测试fastjson使用

package cn.pengpeng.day01.test;import com.alibaba.fastjson.JSON;import cn.pengpeng.day01.bean.RateBean;/*** 测试json数据,json和javabean相互转换*/
public class TestJson {public static void main(String[] args) {String json = "{\"movie\":\"1193\",\"rate\":\"5\",\"timeStamp\":\"978300760\",\"uid\":\"1\"}";RateBean bean = JSON.parseObject(json, RateBean.class);System.out.println(bean);Object object = JSON.toJSON(bean);String string = object.toString();System.out.println(object);  }
}

1.每个用户评分最高的10部电影评分信息-实现


2.每个用户的uid和评分的平均值-实现


3.最大方(评分平均值高)的n个用户的uid和评分平均值-实现


案例分析-电影评分分析相关推荐

  1. 利用python进行数据分析_第二章_案例2_movielens_电影评分分析

    自己尝试了一下数据分析,和书里的方法不完全一样.标*的为比较好的方法. ================================================ MovieLens电影评分数据 ...

  2. 大数据Hive集成python分析框架—搜狗实验室(用户查询日志)—电影评分分析

    一.Spark 大数据分析框架 1.1 数据结构 1.2 SQL语句简介 二.搜狗实验室(用户查询日志)数据分析 2.1获取数据集并初步分析: 2.2 创建数据库/表--导入数据分析 三.电影评分分析 ...

  3. 【Python数据分析】文本情感分析——电影评论分析(二)

    接上一篇<[Python数据分析]文本情感分析--电影评论分析(一)>. 目录 文本向量化 词袋模型 TF-IDF 建立模型 构建训练集与测试集 特征选择 方差分析 逻辑回归 朴素贝叶斯 ...

  4. python数据挖掘电影评分分析_Pyhon数据分析项目——男女电影评分差异比较

    <用 Python 玩转数据>数据分析项目 一.程序功能 基于 MovieLens 100k 数据集中男性女性对电影的评分来判断男性还是女性电影 评分的差异性更大. 二.数据来源 数据集下 ...

  5. 豆瓣电影评分分析(数据分析)

    本文主要通过对豆瓣电影爬取的数据进行的简要分析,观察得出各部分之间对应的关系影响. 一.数据抓取 我们要想进行数据分析,首先就要通过爬虫对分析对象网页的数据爬取保存,可以保存到数据库或者文件形式到本地 ...

  6. 【Python数据分析】文本情感分析——电影评论分析(一)

      情感分析是文本分析的一种,它能够从一段文本描述中理解文本的感情色彩,是褒义.贬义还是中性.常见的情感分析的使用场景就是客户对商品或服务的评价.反馈,传统模式下的人工审核,不仅消耗大量人力,而且效率 ...

  7. Python 电影评分分析

    关注微信号:小程在线 关注CSDN博客:程志伟的博客 import numpy as np import pandas as pd import matplotlib.pyplot as plt %m ...

  8. SQL语句查询电影评分案例分析

    SQL语句查询电影评分案例分析 部分数据:(全数据有100万条) {"movie":"1193","rate":"5", ...

  9. python数据分析案例2:电影评分数据集的分析

    这里是南京财经大学的Mooc课程的个人学习笔记,课程网址是:https://www.icourse163.org/course/NJUE-1458311167,课程是免费的,老师讲的很好很认真,欢迎学 ...

最新文章

  1. 变态跳台阶,很难很难,终于想出来了,附推导过程,为自己鼓掌
  2. 【转】The Google File System 中文版
  3. java制作程序启动进度窗口
  4. mysql varchar char text
  5. linux tcp 包大小,linux – 通过大量连接和小数据包流量高的千兆网络提高TCP性能...
  6. Powershell管理系列(三十一)PowerShell操作之批量创建邮箱
  7. ++实现 ipv6数据报_IPV6报文格式和IPV4有什么区别?
  8. 专访福建移动林志云: 5G使能,运营商全面进入数字化转型之路
  9. ionic 上拉加载更多
  10. rabbitmq消息的序列化与反序列化
  11. 拓端tecdat|如何用r语言制作交互可视化报告图表
  12. PyQt4--下拉列表QComboBox
  13. flutter 截图 截长图 滚动截图 保存到手机
  14. 2022年化肥行业发展趋势
  15. AI 作画:Stable Diffusion 模型原理与实践
  16. 如何成为一名优秀的技术 Leader?(转)
  17. 高山流水 (余秋雨)
  18. 基于大数据的线上线下电商用户数据挖掘研究
  19. python数据入库_python爬虫(中)--数据建模与保存(入库)
  20. 电子检测报告如何盖骑缝章?

热门文章

  1. 语义分割算法总结(一)
  2. Address localhost:1099 is already in use
  3. npm ERR code ERR_SOCKET_TIMEOUT npm ERR 出现错误改正方法
  4. 系统特征根_20160204
  5. 中秋节静态HTML网页作业作品 大学生中秋网页设计制作成品 简单DIV CSS布局网站
  6. SAP ABAP 基础知识
  7. 树莓派4正式发布!TYPE-C,USB3.0,支持4K双屏,售价35美金起
  8. StoreFront配置本地安装Receiver客户端
  9. 30天入门 Android 开发, Google 与你一起圆梦
  10. python 每分钟运行一次_python 每60秒执行一次