Python对电影数据简单分析

文章说明：对movie_metadata数据做简单的分析处理，做了三个简单的案例分析，可在此基础上进行拓展和更好的分析。
movie_metadata数据下载链接

1、电影排行榜

import pandas as pd# 数据预处理
movies_df = pd.read_csv('movie_metadata.csv')
movies_df = movies_df.drop_duplicates()  # 数据清洗去重
movies_df = movies_df.dropna()  # 删除缺失值""" 字段说明imdb_score      电影在imdb上的评分movie_title     电影名称
"""# 获取最大评分的电影
movie_sort_imdb_score = movies_df.sort_values(['imdb_score'], ascending=False).head(10)
movie_max_series = pd.Series(data=movie_sort_imdb_score['imdb_score'].values,index=movie_sort_imdb_score['movie_title'])print(movie_max_series)"""写自己对这个结果的分析"""

2、词云

from wordcloud import WordCloud
import pandas as pd
""" 对【plot_keywords】词云分析
1、提取字段数据并转为一行
2、生成词云
"""# 数据预处理
movies_df = pd.read_csv('movie_metadata.csv')
movies_df = movies_df.drop_duplicates()  # 数据清洗去重
movies_df = movies_df.dropna()  # 删除缺失值movies_plot_keywords = movies_df['plot_keywords']  # 提取plot_keywords数据
# print(movies_plot_keywords)
plot_keywords = ''
# 遍历数据
for word in movies_plot_keywords:plot_keywords += '|' + word# print(plot_keywords)
wc = WordCloud().generate(plot_keywords)  # 生成词云
wc.to_file('xiaomu.jpg')  # 保存图片"""写自己对这个结果的分析"""

3、相关性分析

import pandas as pd"""
1、将电影imdb上的评分和各个因素进行相关性分析
2、将相关性的占比做成百分比形式
"""# 数据预处理（自己考量怎那么处理）
movies_df = pd.read_csv('movie_metadata.csv')
movies_df = movies_df.drop_duplicates()  # 数据清洗去重
movies_df = movies_df.dropna()  # 删除缺失值
drop_list = ['movie_imdb_link', 'num_voted_users', 'num_critic_for_reviews', 'num_user_for_reviews']
print(movies_df)
# movies_df.drop(labels=[drop_list], axis=1, inplace=True)  # 删除列""" 字段说明facenumber_in_poster：      海报中的人脸数量director_name：             导演姓名 movie_title：               电影片名director_facebook_likes：   脸书喜欢该导演的人数 title_year：                电影年份duration：                  电影时长actor_1_name：              男一号姓名 country：                   国家actor_1_facebook_likes：    脸书上喜爱男一号的人数 genres：                    电影题材color：                     画面颜色。actor_2_name：              男二号姓名 aspect_ratio：              画布的比例actor_2_facebook_likes：    脸书上喜爱男二号的人数 content_rating：            电影分级plot_keywords：             剧情关键字actor_3_name：              三号男演员姓名 language：                  语言actor_3_facebook_likes：    脸书上喜爱3号男演员的人数 budget：                    制作成本cast_total_facebook_likes： 脸书上投喜爱的总数 gross：                     总票房movie_facebook_likes：      脸书上被点赞的数量 movie_imdb_link：           imdb地址imdb_score：                imdb上的评分num_voted_users：           参与投票的用户数量num_critic_for_reviews：    评论家评论的数量num_user_for_reviews：      用户的评论数量
"""
# 将所有的字段和 【imdb_score】 字段做相关性分析
movies_imdb_score = movies_df.corr()['imdb_score']
# 将imdb_score删除并排序（降序）
movies_imdb_score = movies_imdb_score.sort_values(ascending=False).drop("imdb_score")
# 将类型转为DataFrame
movies_imdb_score = movies_imdb_score.to_frame()
# 重置索引（将索引构造出来）
movies_imdb_score = movies_imdb_score.reset_index()
# 改列名为【field】和【imdb上的评分】
movies_imdb_score.rename(columns={'index': 'field', 'imdb_score': 'imdb_score_corr'}, inplace=True)
print(movies_imdb_score)"""写自己对这个结果的分析"""

Python对电影数据简单分析相关推荐

基于python的电影数据可视化分析与推荐系统
温馨提示:文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :) 1. 项目简介本项目利用网络爬虫技术从国外某电影网站和国内某电影评论网站采集电影数据,并对电影数据进行可视化分析, ...
基于Python的电影数据可视化分析系统设计报告+答辩PPT+项目源码
目录引言 2 1.1 编写目的 2 1.2 读者对象 2 1.3 软件项目概述 2 1.4 文档概述 2 1.5 定义 2 1.6 参考资料 3 软件的一般性描述 4 2.1软件产品与其环境之间的关 ...
数据分析与挖掘案例之使用python抓取豆瓣top250电影数据进行分析
使用python抓取豆瓣top250电影数据进行分析抓取豆瓣Top250电影数据的链接和电影名称代码如下: import urllib.request as urlrequest from bs4 ...
使用Python以UCI心脏病数据集为例，进行数据简单分析
本文章包含以下内容: 以UCI心脏病数据集为例,进行数据简单分析: 求心脏病患者年龄的平均值.中位数和众数,从结果里分析年龄与心脏病的关系: 胆固醇正常值是0-200mg/dL,区分胆固醇不合格和不合 ...
Python爬虫以及数据可视化分析
Python爬虫以及数据可视化分析之Bilibili动漫排行榜信息爬取分析简书地址:https://www.jianshu.com/u/40ac87350697 简单几步,通过Python对B站番剧 ...
python爬虫及数据可视化分析
python爬虫及数据可视化分析 1.前言 2.数据爬取 2.1定位到爬取数据 2.2爬虫实现方法 3.数据可视化分析 3.1将短文学网的各类文章做一个统计 3.2对某一类文章进行分析 1.前言本篇 ...
python 豆瓣评论分析方法_使用python抓取豆瓣top250电影数据进行分析
抓取豆瓣Top250电影数据的链接和电影名称代码如下: import urllib.request as urlrequest from bs4 import BeautifulSoup impor ...
python+scrapy+selenium爬京东零食数据+简单分析
一.工具 win8.1 python3.7 pycharm fiddle firefox.chrome MySQL 二.项目简介本项目爬取了京东的商品编号.商品名称.评论数.价格.好评度等信息.其中 ...
Python爬虫以及数据可视化分析！
简单几步,通过Python对B站番剧排行数据进行爬取,并进行可视化分析源码文件可以参考Github上传的项目:https://github.com/Lemon-Sheep/Py/tree/maste ...
基于Python的基金数据汇总分析
资源下载地址:https://download.csdn.net/download/sheziqiong/86169088 资源下载地址:https://download.csdn.net/downl ...

Python对电影数据简单分析

1、电影排行榜

2、词云

3、相关性分析

Python对电影数据简单分析相关推荐

最新文章

热门文章