原文:

Data Source Transfer Summary

We (Kaggle) have removed the original version of this dataset per a DMCA takedown request from IMDB. In order to minimize the impact, we're replacing it with a similar set of films and data fields from The Movie Database (TMDb) in accordance with their terms of use. The bad news is that kernels built on the old dataset will most likely no longer work.

The good news is that:

  • You can port your existing kernels over with a bit of editing. This kernel offers functions and examples for doing so. You can also find a general introduction to the new format here.

  • The new dataset contains full credits for both the cast and the crew, rather than just the first three actors.

  • Actor and actresses are now listed in the order they appear in the credits. It's unclear what ordering the original dataset used; for the movies I spot checked it didn't line up with either the credits order or IMDB's stars order.

  • The revenues appear to be more current. For example, IMDB's figures for Avatar seem to be from 2010 and understate the film's global revenues by over $2 billion.

  • Some of the movies that we weren't able to port over (a couple of hundred) were just bad entries. For example, this IMDB entry has basically no accurate information at all. It lists Star Wars Episode VII as a documentary.

Data Source Transfer Details

  • Several of the new columns contain json. You can save a bit of time by porting the load data functions [from this kernel]().

  • Even in simple fields like runtime may not be consistent across versions. For example, previous dataset shows the duration for Avatar's extended cut while TMDB shows the time for the original version.

  • There's now a separate file containing the full credits for both the cast and crew.

  • All fields are filled out by users so don't expect them to agree on keywords, genres, ratings, or the like.

  • Your existing kernels will continue to render normally until they are re-run.

  • If you are curious about how this dataset was prepared, the code to access TMDb's API is posted here.

New columns:

  • homepage

  • id

  • original_title

  • overview

  • popularity

  • production_companies

  • production_countries

  • release_date

  • spoken_languages

  • status

  • tagline

  • vote_average

Lost columns:

  • actor1facebook_likes

  • actor2facebook_likes

  • actor3facebook_likes

  • aspect_ratio

  • casttotalfacebook_likes

  • color

  • content_rating

  • directorfacebooklikes

  • facenumberinposter

  • moviefacebooklikes

  • movieimdblink

  • numcriticfor_reviews

  • numuserfor_reviews

译:

TMDB 5000电影数据集

来自TMDb的约5000部电影的元数据

一部电影在上映前的成功我们能说些什么呢?是否有某些公司(皮克斯?)找到了一致的公式?考虑到制作成本超过1亿美元的主要电影仍然会失败,这个问题对电影业来说比以往任何时候都更加重要。电影迷可能有不同的兴趣。我们能预测哪些电影会获得很高的评价,不管它们是否商业成功?

这是一个开始深入研究这些问题的好地方,它提供了数千部电影的情节、演员、人员、预算和收入的数据。

数据源传输摘要

我们(Kaggle)已经根据IMDB的DMCA takedown请求删除了这个数据集的原始版本。为了减少影响,我们根据电影数据库(TMDb)的使用条款,用一组类似的胶片和数据字段来代替它。坏消息是,基于旧数据集构建的内核很可能不再工作。

好消息是:

  • 你可以通过一些编辑来移植现有的内核。这个内核提供了这样做的函数和示例。您也可以在这里找到对新格式的一般介绍。

  • 新的数据集包含了演员和剧组的全部学分,而不仅仅是前三名演员。

  • 演员和女演员现在按他们在演职员中出现的顺序排列。目前还不清楚原始数据集使用了什么样的排序;对于我抽查过的电影,它既不符合学分顺序,也不符合IMDB的明星顺序。

  • 收入似乎更具流动性。例如,IMDB对《阿凡达》的数据似乎来自2010年,低估了该片的全球收入超过20亿美元。

  • 有些电影我们无法移植(几百部)只是不好的作品。例如,这个IMDB条目基本上没有准确的信息。它被列为第七集的纪录片。

数据源传输详细信息

  • 一些新列包含json。通过移植[来自这个内核]的加载数据函数()可以节省一点时间。

  • 即使是在诸如runtime这样的简单字段中,版本之间也可能不一致。例如,先前的数据集显示了Avatar的扩展剪切的持续时间,而TMDB显示了原始版本的时间。

  • 现在有一个单独的文件包含演员和剧组的全部演职人员。

  • 所有的字段都是由用户填写的,所以不要期望他们在关键字、流派、评分等方面达成一致。

  • 现有内核将继续正常呈现,直到重新运行为止。

  • 如果您想知道这个数据集是如何准备的,那么访问TMDb API的代码就发布在这里。

新列:

  • 主页

  • 身份证件

  • 原始_标题

  • 概述

  • 人气

  • 制片公司

  • 生产国

  • 发布日期

  • 口语

  • 地位

  • 标语

  • 投票平均数

丢失的列:

  • actor1facebook_likes

  • actor2facebook_likes

  • actor3facebook_likes

  • aspect_ratio

  • casttotalfacebook_likes

  • color

  • content_rating

  • directorfacebooklikes

  • facenumberinposter

  • moviefacebooklikes

  • movieimdblink

  • numcriticfor_reviews

  • numuserfor_reviews

大家可以到官网地址下载数据集,我自己也在百度网盘分享了一份。可关注本人公众号,回复“2020101705”获取下载链接。

TMDB 5000电影数据集相关推荐

  1. The Movies Dataset(电影数据集)

    原文: The Movies Dataset Metadata on over 45,000 movies. 26 million ratings from over 270,000 users. T ...

  2. ML之K-means:基于K-means算法利用电影数据集实现对top 100 电影进行文档分类

    ML之K-means:基于K-means算法利用电影数据集实现对top 100 电影进行文档分类 目录 输出结果 实现代码 输出结果 先看文档分类后的结果,一共得到五类电影: 实现代码 # -*- c ...

  3. ML之H-Clusters:基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类

    ML之H-Clusters:基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类 目录 输出结果 实现代码 输出结果 先看输出结果 实现代码 # -*- coding: ut ...

  4. 如何查看python代码中的数据集 按住data鼠标右键_Python小练习——电影数据集TMDB预处理...

    加载TMDB数据集,进行数据预处理 TMDb电影数据库,数据集中包含来自1960-2016年上映的近11000部电影的基本信息,主要包括了电影类型.预算.票房.演职人员.时长.评分等信息.用于练习数据 ...

  5. python数据获取及预处理_Python小练习——电影数据集TMDB预处理

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: IvanFX 复兴计算机社团 转载地址 https://blog. ...

  6. 【机器学习】从电影数据集到推荐系统

    作者 | Amine Zaamoun 编译 | VK 来源 | Towards Data Science 最初是一个数据集,现在是一个由Amine Zaamoun开发的电影推荐系统: 为什么是推荐系统 ...

  7. Rmarkdown对电影数据集进行统计分析

    任务一 读入电影数据.csv数据集,将其命名为a,尝试使用summary函数查看数据总体情况.重点查看缺失情况,如果有缺失,请将缺失数据所在行全部删除(提示:你可能需要检索一些处理缺失数据的函数).展 ...

  8. keras随笔-读取IMDB电影数据集

    1.加载IMDB数据集 # -*- coding: utf-8 -*- """ Created on Wed May 22 13:12:05 2019@author: l ...

  9. 1 ,spark 电影点评项目 : 简介,项目历史 ,元数据下载 ,电影数据集网站 ( 非常好的网站 )

    1 ,可以采用的技术 :选哪种方式都行,我们都用用 RDD DataFrame DataFrame + RDD DataSet 2 ,需求 : 某电影 : 男性不同年龄观看者人数 某电影 : 女性不同 ...

  10. 推荐系统:MovivLens20M数据集解析

    MovieLens 是历史最悠久的推荐系统.它由美国 Minnesota 大学计算机科学与工程学院的 GroupLens 项目组创办,是一个非商业性质的.以研究为目的的实验性站点.MovieLens ...

最新文章

  1. c++, 派生类的构造函数和析构函数 , [ 以及operator=不能被继承 or Not的探讨]
  2. 细述 Java垃圾回收机制→Types of Java Garbage Collectors
  3. 9月份国外最佳WordPress主机提供商Top12
  4. 解题:USACO14OPEN Fair Photography
  5. centos mount 用法_linux screen的用法 - mouseleo
  6. golang mysql封装_golang如何封装路由
  7. 面试精讲之面试考点及大厂真题 - 分布式专栏 07 说一说什么是正向代理,反向代理
  8. 1分钟理解pytorch的reshape函数中-1表示的意义
  9. Windows Server 2019安装Intel I219-V I211网卡驱动
  10. dnf修改服务器时间限制,DNF历史性革新,团本刷新时间改为周六,为黑鸦让路
  11. 乐优商城遇到的坑(三)之Centos6.5下安装nginx出错
  12. SCI文献参考基本格式(全)
  13. MATLAB数值计算学习笔记(二)误差理论和非线性方程求解
  14. 获取新浪微博滚动加载内容
  15. Markdown语法图文详解
  16. java做的桌面应用_把一个java web应用包装成桌面应用的简单做法
  17. 02_Pulsar的集群架构、架构基本介绍、Pulsar提供的组件介绍、Brokers介绍、Zookeeper的元数据存储、基于bookKeeper持久化存储、Pulsar代理
  18. 关闭交互式服务检测(UI0Detect)
  19. 安装rabbitMQ踩的坑
  20. 一番谈话,深自反思。

热门文章

  1. Fast R-CNN算法
  2. html:运用表单表格制作简易个人简历
  3. 花了三天三夜才收集整理出来的经典 SQL 数据库笔试题及答案
  4. VS2015卸载。非常干净-亲测有用
  5. endnotex8使用教程_EndNote X8使用教程
  6. c++ strlen 使用
  7. 盘点年度最佳10大顶级绘图软件,满足你99%的图表需求,赶紧收藏
  8. 基于SNMP的网络管理软件设计方案和实现
  9. 【qt+opencv】实现人脸识别打卡系统2.0
  10. Win10纯净版和官方原版哪个好?