Python对电影数据简单分析
文章说明:对movie_metadata数据做简单的分析处理,做了三个简单的案例分析,可在此基础上进行拓展和更好的分析。
movie_metadata数据下载链接
1、电影排行榜
import pandas as pd# 数据预处理
movies_df = pd.read_csv('movie_metadata.csv')
movies_df = movies_df.drop_duplicates() # 数据清洗去重
movies_df = movies_df.dropna() # 删除缺失值""" 字段说明imdb_score 电影在imdb上的评分movie_title 电影名称
"""# 获取最大评分的电影
movie_sort_imdb_score = movies_df.sort_values(['imdb_score'], ascending=False).head(10)
movie_max_series = pd.Series(data=movie_sort_imdb_score['imdb_score'].values,index=movie_sort_imdb_score['movie_title'])print(movie_max_series)"""写自己对这个结果的分析"""
2、词云
from wordcloud import WordCloud
import pandas as pd
""" 对【plot_keywords】词云分析
1、提取字段数据并转为一行
2、生成词云
"""# 数据预处理
movies_df = pd.read_csv('movie_metadata.csv')
movies_df = movies_df.drop_duplicates() # 数据清洗去重
movies_df = movies_df.dropna() # 删除缺失值movies_plot_keywords = movies_df['plot_keywords'] # 提取plot_keywords数据
# print(movies_plot_keywords)
plot_keywords = ''
# 遍历数据
for word in movies_plot_keywords:plot_keywords += '|' + word# print(plot_keywords)
wc = WordCloud().generate(plot_keywords) # 生成词云
wc.to_file('xiaomu.jpg') # 保存图片"""写自己对这个结果的分析"""
3、相关性分析
import pandas as pd"""
1、将电影imdb上的评分和各个因素进行相关性分析
2、将相关性的占比做成百分比形式
"""# 数据预处理(自己考量怎那么处理)
movies_df = pd.read_csv('movie_metadata.csv')
movies_df = movies_df.drop_duplicates() # 数据清洗去重
movies_df = movies_df.dropna() # 删除缺失值
drop_list = ['movie_imdb_link', 'num_voted_users', 'num_critic_for_reviews', 'num_user_for_reviews']
print(movies_df)
# movies_df.drop(labels=[drop_list], axis=1, inplace=True) # 删除列""" 字段说明facenumber_in_poster: 海报中的人脸数量director_name: 导演姓名 movie_title: 电影片名director_facebook_likes: 脸书喜欢该导演的人数 title_year: 电影年份duration: 电影时长actor_1_name: 男一号姓名 country: 国家actor_1_facebook_likes: 脸书上喜爱男一号的人数 genres: 电影题材color: 画面颜色。actor_2_name: 男二号姓名 aspect_ratio: 画布的比例actor_2_facebook_likes: 脸书上喜爱男二号的人数 content_rating: 电影分级plot_keywords: 剧情关键字actor_3_name: 三号男演员姓名 language: 语言actor_3_facebook_likes: 脸书上喜爱3号男演员的人数 budget: 制作成本cast_total_facebook_likes: 脸书上投喜爱的总数 gross: 总票房movie_facebook_likes: 脸书上被点赞的数量 movie_imdb_link: imdb地址imdb_score: imdb上的评分num_voted_users: 参与投票的用户数量num_critic_for_reviews: 评论家评论的数量num_user_for_reviews: 用户的评论数量
"""
# 将所有的字段和 【imdb_score】 字段做相关性分析
movies_imdb_score = movies_df.corr()['imdb_score']
# 将imdb_score删除并排序(降序)
movies_imdb_score = movies_imdb_score.sort_values(ascending=False).drop("imdb_score")
# 将类型转为DataFrame
movies_imdb_score = movies_imdb_score.to_frame()
# 重置索引(将索引构造出来)
movies_imdb_score = movies_imdb_score.reset_index()
# 改列名为【field】和【imdb上的评分】
movies_imdb_score.rename(columns={'index': 'field', 'imdb_score': 'imdb_score_corr'}, inplace=True)
print(movies_imdb_score)"""写自己对这个结果的分析"""
Python对电影数据简单分析相关推荐
- 基于python的电影数据可视化分析与推荐系统
温馨提示:文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :) 1. 项目简介 本项目利用网络爬虫技术从国外某电影网站和国内某电影评论网站采集电影数据,并对电影数据进行可视化分析, ...
- 基于Python的电影数据可视化分析系统 设计报告+答辩PPT+项目源码
目录 引言 2 1.1 编写目的 2 1.2 读者对象 2 1.3 软件项目概述 2 1.4 文档概述 2 1.5 定义 2 1.6 参考资料 3 软件的一般性描述 4 2.1软件产品与其环境之间的关 ...
- 数据分析与挖掘案例之使用python抓取豆瓣top250电影数据进行分析
使用python抓取豆瓣top250电影数据进行分析 抓取豆瓣Top250电影数据的链接和电影名称 代码如下: import urllib.request as urlrequest from bs4 ...
- 使用Python以UCI心脏病数据集为例,进行数据简单分析
本文章包含以下内容: 以UCI心脏病数据集为例,进行数据简单分析: 求心脏病患者年龄的平均值.中位数和众数,从结果里分析年龄与心脏病的关系: 胆固醇正常值是0-200mg/dL,区分胆固醇不合格和不合 ...
- Python爬虫以及数据可视化分析
Python爬虫以及数据可视化分析之Bilibili动漫排行榜信息爬取分析 简书地址:https://www.jianshu.com/u/40ac87350697 简单几步,通过Python对B站番剧 ...
- python爬虫及数据可视化分析
python爬虫及数据可视化分析 1.前言 2.数据爬取 2.1定位到爬取数据 2.2爬虫实现方法 3.数据可视化分析 3.1将短文学网的各类文章做一个统计 3.2对某一类文章进行分析 1.前言 本篇 ...
- python 豆瓣评论分析方法_使用python抓取豆瓣top250电影数据进行分析
抓取豆瓣Top250电影数据的链接和电影名称 代码如下: import urllib.request as urlrequest from bs4 import BeautifulSoup impor ...
- python+scrapy+selenium爬京东零食数据+简单分析
一.工具 win8.1 python3.7 pycharm fiddle firefox.chrome MySQL 二.项目简介 本项目爬取了京东的商品编号.商品名称.评论数.价格.好评度等信息.其中 ...
- Python爬虫以及数据可视化分析!
简单几步,通过Python对B站番剧排行数据进行爬取,并进行可视化分析 源码文件可以参考Github上传的项目:https://github.com/Lemon-Sheep/Py/tree/maste ...
- 基于Python的基金数据汇总分析
资源下载地址:https://download.csdn.net/download/sheziqiong/86169088 资源下载地址:https://download.csdn.net/downl ...
最新文章
- AAD Connect 微软官方的描述准确吗?
- mysql phpmyadmin 修改下一个自增值的开始位置 计数重置
- 每日一皮:我觉得明明很好用啊,谁知道客户是这样用的呢?
- App.js实现使用js开发app的应用,此文是中文文档
- c语言第四版课后答案第三章3.4,算法与数据结构C语言版课后习题答案(机械工业出版社)第3,4章 习题参考答案...
- Socket的send函数在执行时报EAGAIN的错误
- 2.3)深度学习笔记:超参数调试、Batch正则化和程序框架
- 一些有用的SQL Server函数
- php开发当中遇到的各种问题,PHP项目开发中遇到过的问题
- matlab 马丢函数,振幅调制产生马丢光束的方法与流程
- Java中的封装,继承和多态(详解)
- 华为防火墙重启_华为USG6000系列防火墙的Console密码重置过程
- 服务器排队系统怎么做,多服务器排队系统的平均排队时间的近似分析
- IMAP4协议介绍nbsp;工作原理
- win oracle卸载工具,[转]oracle windows 之完美卸载
- @Primary注解在spring中的使用
- python tkinter treeview制作_python-3.x – Tkinter Treeview标题样式
- 解决:Mac “微信”意外退出
- Linux基本命令 初级10个
- app下载页面html源码,带弹幕 ,3分钟安装
热门文章
- 熟练运用计算机的重要性,计算机*实习目的和意义
- 《创业时代》原型:为什么Talkbox、子弹短信都失败了?
- 现代汉语常用3500字=常见字2500字+次常见字1000字
- 推荐一些经典的学习书籍
- Cant open /dev/sdb1exclusively.Mounted filesystem
- matlab 0x000007b,windows应用程序无法正常启动(0x000007b)怎么办_windows应用程序无法正常启动(0x000007b)解决办法_飞翔教程...
- c#中Debug和Release的区别实验
- Emulex/QLogic万兆争夺继续 存储还是板载优先?
- python 小说下载工具_Python制作全网小说下载器
- feedburner怎么用_在FeedSky和FeedBurner中无缝切换