电影数据分析(大数据分享)
1.导入包:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
2.导入用户数据;
unames = ['user_id','gender','age','occupation','zip']
users=pd.read_table('ml-1m/users.dat',sep='::',header=None,names=unames)
3.导入电影分数表:
rating_name=['user_id','movie_id','rating','timestamp']
ratings = pd.read_table('ml-1m/ratings.dat',sep='::',header=None,names=rating_name)
4.导入电影基本信息表:
movie_name = ['movie_id','title','genres']
moives = pd.read_table('ml-1m/movies.dat',sep='::',header=None,names=movie_name)
5.合并数据表
data =pd.merge(pd.merge(users,ratings),moives)
6.筛选电影平均分
ratings_by_gender=data.pivot_table(values='rating',index='title',columns='gender',aggfunc='mean')
7.筛选出电影男生和女生人数:
by_boy_movies =data[data.gender=='F']
by_girl_movies=data[data.gender=='M']
8.筛选各个电影男生人数,然后放入新建表中:
by_boy_movies_sum= by_boy_movies.groupby('title').size()
df_by_boy_movies_sum=pd.DataFrame({'F_sum':by_boy_movies_sum})
9.在(8)中的表(df_by_boy_movies_sum)中筛选人数大于250,目的是减少男生的人数不足,存在数据误差:
df_by_boy_movies_hot=df_by_boy_movies_sum.loc[df_by_boy_movies_sum.F_sum>250]
10.筛选最受男生欢迎电影(前十):
df_by_boy_movies_hot.sort_values(by='F_sum',ascending=False).head(10)
11.同理筛选最受女生欢迎电影(前十):
by_girl_movies_sum=by_girl_movies.groupby('title').size()
df_by_girl_movies_sum=pd.DataFrame({'M_sum':by_girl_movies_sum})
df_by_girl_movies_hot=df_by_girl_movies_sum.loc[df_by_girl_movies_sum.M_sum>250]
df_by_girl_movies_hot.sort_values(by='M_sum',ascending=False).head(10)
12.筛选出最受欢迎电影(前十):
b=pd.concat([df_by_boy_movies_hot,df_by_girl_movies_hot],axis=1)
by_hot_movies=b.dropna()
by_movies_hot=ratings_by_gender.loc[ratings_by_gender.index.isin(by_hot_movies.index)]
by_movies_hot
13.筛选出高分而最受欢迎电影(前十)
by_movies_hot_plot=by_movies_hot.sort_values(by='diff',ascending=False).abs().head(10)
by_movies_hot_plot
电影数据分析(大数据分享)相关推荐
- 【大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析
[大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析-哔哩哔哩https://b23.tv/saIKtBH flask web框架,数据使用requests模块爬取数据, ...
- 视频教程-数据挖掘基础:零基础学Python数据分析-大数据
数据挖掘基础:零基础学Python数据分析 辽宁师范大学教师,特聘教授,硕士生导师.大数据与商务智能实验室主任. 李洪磊 ¥198.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+技术 ...
- 【爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】
[爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj
- 视频教程-完整的Python和SAS数据分析-大数据
完整的Python和SAS数据分析 北美运筹学硕士,统计学博士 就职于北美各大银行,信用局,交通和零售企业和咨询公司 李盛刚 ¥168.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+ ...
- 【【数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】-哔哩哔哩】 https://b23.tv/iTt30QG
[[数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩]-哔哩哔哩] https://b23.tv/iTt30QG ht ...
- 2018年贺岁档电影票房大数据报告!国产电影的黄金时代已经到来?
要说春节期间哪里人最多,电影院若是第二,估计没人敢说第一.尤其在2018年春节档(2月16日--2月21日)更是创下了近57亿的票房,较2017年的33.4亿增长了70%,成为了内地史上最强贺岁档! ...
- java项目-第96期基于ssm+hadoop+spark的电影推荐系统-大数据毕业设计
java项目-第96期基于ssm+hadoop+spark的电影推荐系统 [源码请到资源专栏下载] 1.项目简述 电影推荐系统,基于大数据分析的推荐系统,适合学习和企业应用. 首先电影推荐相对于其它推 ...
- 数据分析大数据面试题大杂烩02
Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill ...
- 数据分析大数据面试题大杂烩01
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东) 电信,银行统计营收和针对用户的个人画像:处理大量非实时数据 政府:健康码 ...
- 云帆教育大数据分享-Flume-0.9.4源码编译及一些编译出错解决方法
Flume-0.9.4源码编译及一些编译出错解决方法 由于需要在Flume里面加入一些我需要的代码,这时候就需要重新编译Flume代码,因为在编译Flume源码的时候出现了很多问题,所以写出这篇博客, ...
最新文章
- 2022-2028年中国塑胶模具行业市场专项调研及前瞻分析报告
- strace 命令详解
- dart系列之:HTML的专属领域,除了javascript之外,dart也可以
- IdentityServer4(六)授权码流程原理之SPA
- 高中数学40分怎么办_2019年第35届全国高中数学联赛试题及参考答案
- AngularJs ng-repeat限制循环次数
- OJ1003: 两个整数的四则运算
- 设计灵感|独具中国韵味的海报设计
- Python检验某个字符(串)是否属于另一个字符串
- 【linux】暂时解决sis m672(神舟F4000 D9) linux驱动 宽屏分辨率的问题?
- GC之详解CMS收集过程和日志分析
- 机器视觉软包装行业质量检测解决方案
- 【转载】GIS概念解析:大地高 | 海拔 | 正高 | 正常高
- 基于FPGA 的CRC校验码生成器
- 立创开源|esp8266三路继电器
- photoshop ps2022软件下载
- 百度AI开放平台,共建AI生态
- 解析错误:解析软件包时出现问题
- 估值调整 - 凸性调整
- 读论文|利用GAN生成三维点云WarpingGAN: Warping Multiple Uniform Priors for Adversarial 3D Point Cloud Generation