电影数据分析（大数据分享）

1.导入包：

%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt

2.导入用户数据;

unames = ['user_id','gender','age','occupation','zip']
users=pd.read_table('ml-1m/users.dat',sep='::',header=None,names=unames)

3.导入电影分数表：

rating_name=['user_id','movie_id','rating','timestamp']
ratings = pd.read_table('ml-1m/ratings.dat',sep='::',header=None,names=rating_name)

4.导入电影基本信息表：

movie_name = ['movie_id','title','genres']
moives = pd.read_table('ml-1m/movies.dat',sep='::',header=None,names=movie_name)

5.合并数据表

data =pd.merge(pd.merge(users,ratings),moives)

6.筛选电影平均分

ratings_by_gender=data.pivot_table(values='rating',index='title',columns='gender',aggfunc='mean')

7.筛选出电影男生和女生人数：

by_boy_movies =data[data.gender=='F']
by_girl_movies=data[data.gender=='M']

8.筛选各个电影男生人数，然后放入新建表中：

by_boy_movies_sum= by_boy_movies.groupby('title').size()
df_by_boy_movies_sum=pd.DataFrame({'F_sum':by_boy_movies_sum})

9.在（8）中的表（df_by_boy_movies_sum）中筛选人数大于250，目的是减少男生的人数不足，存在数据误差：

df_by_boy_movies_hot=df_by_boy_movies_sum.loc[df_by_boy_movies_sum.F_sum>250]

10.筛选最受男生欢迎电影（前十）：

df_by_boy_movies_hot.sort_values(by='F_sum',ascending=False).head(10)

11.同理筛选最受女生欢迎电影（前十）：

by_girl_movies_sum=by_girl_movies.groupby('title').size()
df_by_girl_movies_sum=pd.DataFrame({'M_sum':by_girl_movies_sum})
df_by_girl_movies_hot=df_by_girl_movies_sum.loc[df_by_girl_movies_sum.M_sum>250]
df_by_girl_movies_hot.sort_values(by='M_sum',ascending=False).head(10)

12.筛选出最受欢迎电影（前十）：

b=pd.concat([df_by_boy_movies_hot,df_by_girl_movies_hot],axis=1)
by_hot_movies=b.dropna()
by_movies_hot=ratings_by_gender.loc[ratings_by_gender.index.isin(by_hot_movies.index)]
by_movies_hot

13.筛选出高分而最受欢迎电影（前十）

by_movies_hot_plot=by_movies_hot.sort_values(by='diff',ascending=False).abs().head(10)
by_movies_hot_plot

电影数据分析（大数据分享）相关推荐

【大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析
[大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析-哔哩哔哩https://b23.tv/saIKtBH flask web框架,数据使用requests模块爬取数据, ...
视频教程-数据挖掘基础：零基础学Python数据分析-大数据
数据挖掘基础:零基础学Python数据分析辽宁师范大学教师,特聘教授,硕士生导师.大数据与商务智能实验室主任. 李洪磊 ¥198.00 立即订阅扫码下载「CSDN程序员学院APP」,1000+技术 ...
【爬虫+数据可视化毕业设计：英雄联盟数据爬取及可视化分析，python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取，程序开发-哔哩哔哩】
[爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj
视频教程-完整的Python和SAS数据分析-大数据
完整的Python和SAS数据分析北美运筹学硕士,统计学博士就职于北美各大银行,信用局,交通和零售企业和咨询公司李盛刚 ¥168.00 立即订阅扫码下载「CSDN程序员学院APP」,1000+ ...
【【数据可视化毕业设计：差旅数据可视化分析，python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取，程序开发-哔哩哔哩】-哔哩哔哩】 https://b23.tv/iTt30QG
[[数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩]-哔哩哔哩] https://b23.tv/iTt30QG ht ...
2018年贺岁档电影票房大数据报告！国产电影的黄金时代已经到来？
要说春节期间哪里人最多,电影院若是第二,估计没人敢说第一.尤其在2018年春节档(2月16日--2月21日)更是创下了近57亿的票房,较2017年的33.4亿增长了70%,成为了内地史上最强贺岁档! ...
java项目-第96期基于ssm+hadoop+spark的电影推荐系统-大数据毕业设计
java项目-第96期基于ssm+hadoop+spark的电影推荐系统 [源码请到资源专栏下载] 1.项目简述电影推荐系统,基于大数据分析的推荐系统,适合学习和企业应用. 首先电影推荐相对于其它推 ...
数据分析大数据面试题大杂烩02
Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill ...
数据分析大数据面试题大杂烩01
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东) 电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码 ...
云帆教育大数据分享-Flume-0.9.4源码编译及一些编译出错解决方法
Flume-0.9.4源码编译及一些编译出错解决方法由于需要在Flume里面加入一些我需要的代码,这时候就需要重新编译Flume代码,因为在编译Flume源码的时候出现了很多问题,所以写出这篇博客, ...

电影数据分析（大数据分享）

电影数据分析（大数据分享）相关推荐

最新文章

热门文章