目录

相关系数矩阵

热力图


电影信息的各个属性(字段)之间存在相关性,选取budget,popularity,release_date,revenue,runtime,status,vote_average,vote_count字段作为分析对象

相关系数矩阵

每个子图都是每个维度和其他某个维度的相关关系图,这其中主对角线上的图,则是每个维度的数据分布直方图。其中可以看出各因素间相关性强弱的大小。

其中与评分相关性较强的因素有电影的popularity(流行度),runtime(电影时长),vote_count(影评人数) ,revenue(电影收益)。

代码部分:

使用 Pandas 库中的 read_csv() 方法读取名为 "data_mo.csv" 的 CSV 文件,并将其储存在一个名为 data_m 的 Pandas DataFrame 对象中。最后,使用 data_m 变量打印 DataFrame 中的所有数据。

import pandas as pd
data_m=pd.read_csv("data/项目一/data_mo.csv")
data_m

使用 Pandas 库中的 DataFrame 对象 data_m,通过选取包含在列表 ["budget","popularity","release_date","revenue","runtime","status","vote_average","vote_count"] 中的列来创建一个新的 DataFrame 对象 data_corr。这些列包含了与数据集中电影预算、流行度、上映日期、收入、片长、状态、评分和投票次数相关的信息。最后,使用 data_corr 变量打印新 DataFrame 对象中的所有数据。这段代码可以用于对数据集中的特定变量进行探索性数据分析(EDA)和相关性分析

data_corr=data_m[["budget","popularity","release_date","revenue","runtime","status","vote_average","vote_count"]]data_corr

对年份字段进行切分 ,保留年份信息进行后续的分析

# 保留年份
data_corr.release_date=data_corr.release_date.str.split("-",expand=True)[0]
data_corr.release_date=data_corr.release_date.astype(int)

# 每个子图都是每个维度和其他某个维度的相关关系图,这其中主对角线上的图,则是每个维度的数据分布直方图。
# 而第二行代码是画出同样的图形,但却以vote_average这个维度的数据为标准,来对各个数据点进行着色,其结果如图所示。
# 从图中可以看出,vote_average这列数据共10个不同的数值,每个数值一种颜色,所以生成的图是彩色的

import seaborn as snssns.pairplot(data_corr)
sns.pairplot(data_corr , hue ='vote_average')

# 每个子图都是每个维度和其他某个维度的相关关系图,这其中主对角线上的图,则是每个维度的数据分布直方图。
# 而第二行代码是画出同样的图形,但却以vote_average这个维度的数据为标准,来对各个数据点进行着色,其结果如图所示。
# 从图中可以看出,vote_average这列数据共10个不同的数值,每个数值一种颜色,所以生成的图是彩色的

热力图

通过相关系数矩阵与热力图分析各个字段间的相关性,各个字段间的相关系数在表中都呈现了强弱不同的关系

import matplotlib.pyplot as plt
figure, ax = plt.subplots(figsize=(12, 12))
sns.heatmap(data_corr.corr(), square=True, annot=True, ax=ax)

通过热力图可以看到电影的popularity,runtime,vote_count,revenue与电影的评分vote_average存在较强的相关性与budget,release_datet相关性较弱

python分析各因素之间的相关性相关推荐

  1. 【python量化】如何分析两段时间序列之间的相关性

    作者:Andrew Chung 公众号:WealthQuant 链接: https://www.zhihu.com/question/23525783/answer/956912446 已获得作者授权 ...

  2. 如何用python进行相关性分析_使用 Python 查找分类变量和连续变量之间的相关性...

    在表格数据集上创建任何机器学习模型之前, 通常我们会检查独立变量和目标变量之间是否存在关系.这可以通过测量两个变量之间的相关性来实现.在 python 中, pandas 提供了一个函数 datafr ...

  3. 实例 | 分析38万条数据,用Python分析保险产品交叉销售和哪些因素有关

    公众号后台回复"图书",了解更多号主新书内容  CDA数据分析师 出品   作者:真达.Mika 数据:真达   [导读] 今天教大家用Python分析保险产品交叉销售和哪些因素有 ...

  4. ML之FE:利用FE特征工程(分析两两数值型特征之间的相关性)对AllstateClaimsSeverity(Kaggle2016竞赛)数据集实现索赔成本值的回归预测

    ML之FE:利用FE特征工程(分析两两数值型特征之间的相关性)对AllstateClaimsSeverity(Kaggle2016竞赛)数据集实现索赔成本值的回归预测 目录 输出结果 设计思路 核心代 ...

  5. GDP越高就越幸福吗?用Python分析《世界幸福指数报告》后我们发现…

    公众号后台回复"图书",了解更多号主新书内容 作者:CDA数据分析师 来源:CDA数据分析师  CDA数据分析师 出品   作者:真达.Mika 数据:真达   [导读] 今天教大 ...

  6. 用python构建多只股票日收益率直方图_用Python分析多股票的投资组合

    俗话说不要将所有的鸡蛋放在同一个篮子里,在投资股票的时候我们也会多买几只以抵抗风险.本文将带领着你使用Python,来分析多只股票投资时的收益和风险,并找到最优的投资组合方案.这是上一篇文章<用 ...

  7. 用Python分析了十年电影票房,原来我错过了这么多好电影!

    "玩电影票房数据,我教你啊" 3月8日妇女节,我很期待的超级英雄电影<惊奇队长>上映了,票房表现很快过亿,但大众口碑却让人失望. 一个有趣且常见的现象是,隔壁获奖无数, ...

  8. 用Python分析了1w场吃鸡数据,原来吃鸡要这么玩!

    微信改版,加星标不迷路! 用Python分析如何才能高效吃鸡? 作者:阿广 概述 前言 获取数据 观察数据 数据处理 吃鸡到底和哪个数据相关性最强? 分析热度图 期望研究的问题 结论 阿广说 推荐阅读 ...

  9. 'python program'.count('p')的值是_如何用Python分析泰坦尼克号生还率?

    原标题:如何用Python分析泰坦尼克号生还率? 1912年当时世界上最大的豪华客轮泰坦尼克号在处女航中撞上冰山沉没,船上船员及乘客共有2224人,只有710人生还.当灾难突然降临时,所有人的生死瞬间 ...

最新文章

  1. 【互动有奖】年薪百万的程序员是怎样的?
  2. nginx启动只有master没有worker_深入浅出Nginx
  3. 『TensorFlow』函数查询列表_张量属性调整
  4. WIN32 Inline HOOK
  5. tab s6 linux on dex,S Pen + DeX模式 三星Galaxy Tab S6让你秒变办公达人
  6. golang微服务框架对比_Go语言开发的微服务框架,你了解多少?
  7. InnoDB 的辅助索引叶子节点为什么不直接保存的记录地址而要存主键键值
  8. LeetCode 881. 救生艇(贪心,双指针)
  9. chown: 无效的用户: hadoop-3.1.4_Ubuntu 21.04 用户主目录权限将14年来首次变更及新功能预览...
  10. iftop网卡流量监控软件
  11. 软件工程导论复习知识点
  12. 动态规划算法解Travelling Salesman Problem(TSP)问题
  13. etsme--Me盒使用初体验
  14. autoware下ndt_mapping节点解读
  15. 数据仓库建设——主题和主题域的划分
  16. CCF期刊阅读18.1--城市计算和智能
  17. ESB(Enterprise Service Bus,即企业服务总线)
  18. ECharts-漏斗图
  19. 英语四六级常用八种时态
  20. 解决NavigationDuplicated: Avoided redundant navigation to current location: 问题

热门文章

  1. 反向传播神经网络(BPNN)的实现(Python,附源码及数据集)
  2. cannot create temp dir for unpacking extensions
  3. STM32 定时器中断相关知识及配置
  4. Python线程 一
  5. 关于Ctrl+PageDown在使用查找功能后不能使用的问题
  6. 栈展开(stack unwinding)
  7. 智能卡:常见智能卡芯片型号及其厂家-1
  8. python里面的爬虫爬取网页
  9. JDBC中execute、executeQuery和executeUpdate的区别
  10. DDK开发介绍_自我学习