1.导入包:

%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt

2.导入用户数据;

unames = ['user_id','gender','age','occupation','zip']
users=pd.read_table('ml-1m/users.dat',sep='::',header=None,names=unames)

3.导入电影分数表:

rating_name=['user_id','movie_id','rating','timestamp']
ratings = pd.read_table('ml-1m/ratings.dat',sep='::',header=None,names=rating_name)

4.导入电影基本信息表:

movie_name = ['movie_id','title','genres']
moives = pd.read_table('ml-1m/movies.dat',sep='::',header=None,names=movie_name)

5.合并数据表

data =pd.merge(pd.merge(users,ratings),moives)

6.筛选电影平均分

ratings_by_gender=data.pivot_table(values='rating',index='title',columns='gender',aggfunc='mean')

7.筛选出电影男生和女生人数:

by_boy_movies =data[data.gender=='F']
by_girl_movies=data[data.gender=='M']

8.筛选各个电影男生人数,然后放入新建表中:

by_boy_movies_sum= by_boy_movies.groupby('title').size()
df_by_boy_movies_sum=pd.DataFrame({'F_sum':by_boy_movies_sum})

9.在(8)中的表(df_by_boy_movies_sum)中筛选人数大于250,目的是减少男生的人数不足,存在数据误差:

df_by_boy_movies_hot=df_by_boy_movies_sum.loc[df_by_boy_movies_sum.F_sum>250]

10.筛选最受男生欢迎电影(前十):

df_by_boy_movies_hot.sort_values(by='F_sum',ascending=False).head(10)

11.同理筛选最受女生欢迎电影(前十):

by_girl_movies_sum=by_girl_movies.groupby('title').size()
df_by_girl_movies_sum=pd.DataFrame({'M_sum':by_girl_movies_sum})
df_by_girl_movies_hot=df_by_girl_movies_sum.loc[df_by_girl_movies_sum.M_sum>250]
df_by_girl_movies_hot.sort_values(by='M_sum',ascending=False).head(10)

12.筛选出最受欢迎电影(前十):

b=pd.concat([df_by_boy_movies_hot,df_by_girl_movies_hot],axis=1)
by_hot_movies=b.dropna()
by_movies_hot=ratings_by_gender.loc[ratings_by_gender.index.isin(by_hot_movies.index)]
by_movies_hot


13.筛选出高分而最受欢迎电影(前十)

by_movies_hot_plot=by_movies_hot.sort_values(by='diff',ascending=False).abs().head(10)
by_movies_hot_plot

电影数据分析(大数据分享)相关推荐

  1. 【大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析

    [大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析-哔哩哔哩https://b23.tv/saIKtBH flask web框架,数据使用requests模块爬取数据, ...

  2. 视频教程-数据挖掘基础:零基础学Python数据分析-大数据

    数据挖掘基础:零基础学Python数据分析 辽宁师范大学教师,特聘教授,硕士生导师.大数据与商务智能实验室主任. 李洪磊 ¥198.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+技术 ...

  3. 【爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】

    [爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj

  4. 视频教程-完整的Python和SAS数据分析-大数据

    完整的Python和SAS数据分析 北美运筹学硕士,统计学博士 就职于北美各大银行,信用局,交通和零售企业和咨询公司 李盛刚 ¥168.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+ ...

  5. 【【数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】-哔哩哔哩】 https://b23.tv/iTt30QG

    [[数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩]-哔哩哔哩] https://b23.tv/iTt30QG ht ...

  6. 2018年贺岁档电影票房大数据报告!国产电影的黄金时代已经到来?

    要说春节期间哪里人最多,电影院若是第二,估计没人敢说第一.尤其在2018年春节档(2月16日--2月21日)更是创下了近57亿的票房,较2017年的33.4亿增长了70%,成为了内地史上最强贺岁档! ...

  7. java项目-第96期基于ssm+hadoop+spark的电影推荐系统-大数据毕业设计

    java项目-第96期基于ssm+hadoop+spark的电影推荐系统 [源码请到资源专栏下载] 1.项目简述 电影推荐系统,基于大数据分析的推荐系统,适合学习和企业应用. 首先电影推荐相对于其它推 ...

  8. 数据分析大数据面试题大杂烩02

    Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill ...

  9. 数据分析大数据面试题大杂烩01

    互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东) 电信,银行统计营收和针对用户的个人画像:处理大量非实时数据 政府:健康码 ...

  10. 云帆教育大数据分享-Flume-0.9.4源码编译及一些编译出错解决方法

    Flume-0.9.4源码编译及一些编译出错解决方法 由于需要在Flume里面加入一些我需要的代码,这时候就需要重新编译Flume代码,因为在编译Flume源码的时候出现了很多问题,所以写出这篇博客, ...

最新文章

  1. 2022-2028年中国塑胶模具行业市场专项调研及前瞻分析报告
  2. strace 命令详解
  3. dart系列之:HTML的专属领域,除了javascript之外,dart也可以
  4. IdentityServer4(六)授权码流程原理之SPA
  5. 高中数学40分怎么办_2019年第35届全国高中数学联赛试题及参考答案
  6. AngularJs ng-repeat限制循环次数
  7. OJ1003: 两个整数的四则运算
  8. 设计灵感|独具中国韵味的海报设计
  9. Python检验某个字符(串)是否属于另一个字符串
  10. 【linux】暂时解决sis m672(神舟F4000 D9) linux驱动 宽屏分辨率的问题?
  11. GC之详解CMS收集过程和日志分析
  12. 机器视觉软包装行业质量检测解决方案
  13. 【转载】GIS概念解析:大地高 | 海拔 | 正高 | 正常高
  14. 基于FPGA 的CRC校验码生成器
  15. 立创开源|esp8266三路继电器
  16. photoshop ps2022软件下载
  17. 百度AI开放平台,共建AI生态
  18. 解析错误:解析软件包时出现问题
  19. 估值调整 - 凸性调整
  20. 读论文|利用GAN生成三维点云WarpingGAN: Warping Multiple Uniform Priors for Adversarial 3D Point Cloud Generation

热门文章

  1. 港科资讯 | 香港科技大学与Microsoft香港签订AI商学院2.0合作备忘录
  2. 快递员能开你家锁了,问你怕不怕?
  3. consistent gets
  4. 亲爱的老狼-opacity、rgba、transparent的应用
  5. php 图片处理羽化,ps中羽化是什么意思
  6. C++电话号码转对应字母
  7. 山地自行车系统的组成部分及论如何自己组装一台山地车
  8. php45 上海北诺,Bio-Gel P6 生物胶P100 Bio-Rad 150-1940
  9. 【NLP】深度文本匹配综述
  10. thinkjs + mysql 写后台接口的入坑指南