该项目源自科赛网的训练项目。

背景

项目简介

此数据集包含来自MovieLens 电影推荐服务的5星评分和文本标记数据和来自IMDB1950-2012年IMDB TOP10000排行榜数据。

MovieLens数据集包含27278部电影的20000263份评分和465564次标签应用。 这些数据是由1995年1月9日至2015年3月31日期间的138493个用户创建。

练习内容

MDBTOP10000数据集包含1950-2012年IMDB TOP10000电影排行榜数据集。包含电影名称,上映时间,评分,投票数,时长和流派信息。 以下为可选角度:

  1. 什么样题材的电影评分会相对较高(较低);
  2. 电影时长对评分是否有影响;
  3. 不同年代什么类型电影较受欢迎;
  4. 其他自选角度。

该数据集由MovieLens的“genome-scores.csv”“genome-tags.csv”“links.csv”“movies.csv”“ratings.csv”“tags.csv”6个数据文件和“imdb10000.csv”组成,但科赛网站上的数据集已经丢失。该数据集的前5个部分可根据超链接下载,但是imdb10000.csv缺失,网上寻找无果(csdn上倒是有,但是我没有积分啊),因此考虑自己用爬虫爬取该部分数据。

文件名 genome_scores.csv genome_tags.csv link.csv movie.csv rating.csv tag.csv imdb10000.csv
内容 包含tag的相关性数据 包含tag信息 电影在IMDb与TMDb中的ID 电影信息 用户对电影的评分信息 用户对电影的tag数据 Top10000电影名称,上映时间,评分,投票数,时长和流派信息

爬虫目标网址:https://www.imdb.com/search/title?title_type=feature&year=1950-01-01,2012-12-31&sort=num_votes,desc&ref_=adv_prv

爬取目标:Top10000电影imdbID,名称,上映时间,评分,投票数,时长和流派信息

Movielens/IMDB电影数据分析(一)相关推荐

  1. 机器学习数据科学包(三)——Pandas实例:MovieLens电影数据分析

    电影数据分析 准备工作 从网站 grouplens.org/datasets/movielens 下载 MovieLens 1M Dataset 数据. 数据说明 参阅数据介绍文件 README.tx ...

  2. 豆瓣已玩烂,来爬点有逼格的——IMDB电影提升你的品位

    作者 | 翻滚吧羊宝宝 来源 | 数据森麟(ID:shujusenlin) 前沿 转战Python半年,接触爬虫2个月,期间读了10本相关书籍,完成此作,算是对过去学习.实践的一次回顾.也希望与更多的 ...

  3. Python来爬点有逼格的 ——IMDB 电影提升你的品位

    前言 转战Python半年,接触爬虫2个月,期间读了10本相关书籍,完成此作,算是对过去学习.实践的一次回顾.也希望与更多的python,爬虫爱好者小伙伴们一起交流.成长. 选此题目,一来豆瓣作为爬虫 ...

  4. python电影数据分析的代码_python-small-examples

    Kaggle电影数据分析实战 本项目基于Kaggle电影影评数据集,通过这个系列,你将学到如何进行数据探索性分析(EDA),学会使用数据分析利器pandas,会用绘图包pyecharts,以及EDA时 ...

  5. 大数据项目开发案例_大数据分析技术——项目案例1(猫眼电影数据分析上)...

    壹 猫眼Top100电影数据分析概述 从这一节开始,我们就综合利用已学到的一些分析技术来尝试做一些比较复杂的实际数据分析项目.在这些实际的项目案例中,我们将会看到一个完整的数据分析流程:数据清理--数 ...

  6. 自然语言处理--Keras 实现LSTM循环神经网络分类 IMDB 电影评论数据集

    LSTM 对于循环网络的每一层都引入了状态(state)的概念,状态作为网络的记忆(memory).但什么是记忆呢?记忆将由一个向量来表示,这个向量与元胞中神经元的元素数量相同.记忆单元将是一个由 n ...

  7. Rotten Tomatoes 电影数据分析

    "烂番茄"电影数据分析 "烂番茄"电影数据分析 背景 数据采集及处理 数据可视化 得出结论 背景 一千个读者眼中有一千个哈姆雷特, 看电影也是一种艺术鉴赏活动, ...

  8. Tableau制作全球电影数据分析/全球超市利润混合地图

    数据集,课程,作业文件打包放在github上 https://github.com/JCATHoney/tableau 作业5: 1.创建产地电影数量与评分(以此命名)的符号地图,处理未知位置信息,以 ...

  9. 豆瓣电影数据分析--Tableau

    数据说明:原始数据为1888年-2016年上映电影数据,由于年份跨度较大且部分年份数据缺失,故抽取1990年-2015年电影数据分析. 第一部分:整体上映电影数分析 仪表盘: 感觉这个排版有点挤,显示 ...

  10. python基于爬虫技术的海量电影数据分析源码,数据处理分析可视化,GUI界面展示

    基于爬虫技术的海量电影数据分析 介绍 一个基于爬虫技术的海量电影数据分析系统 系统架构 本系统主要分为四个部分,分别为后端爬虫抓取.数据处理分析可视化.GUI界面展示.启动运行,分别对应getData ...

最新文章

  1. wrs-tuya-cloud
  2. 百度飞浆行人多目标跟踪笔记
  3. 数学图形之克莱因瓶(klein bottle)
  4. P3224 [HNOI2012]永无乡(并查集+权值线段树合并/平衡树)
  5. javascript 西瓜一期 03 机器语言与高级语言
  6. x内存满白苹果解决_苹果最佳MacBook和Mac:顶级苹果台式机和笔记本电脑
  7. 原来,是我的眼光出了错
  8. python `__slots__`
  9. python中多条件语句_Python中的带条件语句
  10. 建班子:企业需要建立什么样的班子?
  11. 程序员翻车时的 30 种常见反应!第21个深有感触...
  12. VPP使用心得(一)初步安装
  13. 华师大的计算机专业属于提前批吗,关于华师大、上师大提前批的问题
  14. java最早的游戏_回忆S60(塞班)年代的JAVA游戏
  15. 静电纺聚丙烯腈纳米级纤维滤膜的制备
  16. mac——清理磁盘空间
  17. Javaweb回炉简要学习笔记
  18. a.gray.Bulimia.a病毒
  19. 2020年全球及中国动物模型(模式动物)行业发展现状及竞争格局分析,行业增速较快,发展前景良好「图」
  20. 数据结构期末考试——判断题

热门文章

  1. 百度指数、淘宝指数学习笔记
  2. 千博日志索引,收录了带头大哥、laok、王国强、严为民等人的博客
  3. html制作作业提交入口,最全的提交网站入口大全
  4. LESS CSS 框架简介
  5. Go runtime发展历程图片
  6. ssoj1556土地购买
  7. BZOJ1597 [Usaco2008 Mar]土地购买
  8. 2022自动驾驶商业化落地,主流将是什么?丨曼孚科技
  9. 职高计算机专业个人鉴定范文大全,职高个人自我鉴定300字左右
  10. 怎么找网页源文件位置_无法查看网页的源文件该怎么办?