虎牙直播电影一天收入

“美国电影协会(MPAA)的首席执行官J. Valenti提到:“没有人能告诉您电影在市场上的表现。 直到电影在黑暗的剧院里放映并且银幕和观众之间都散发出火花。 (“The CEO of Motion Picture Association of America (MPAA) J. Valenti mentioned that ‘No one can tell you how a movie is going to do in the marketplace. Not until the film opens in darkened theater and sparks fly up between the screen and the audience’”)

Cigdem Tuncer西格德·图姆斯

Follow跟随

Aug 9 8月9

The modern film industry, a business of nearly 10 billion dollars per year, is a cutthroat business competition.

现代电影业每年的营业额接近100亿美元,是一场残酷的商业竞争。

Each year in the United States, hundreds of films are released to domestic audiences in the hope that they will become the next “blockbuster.” Predicting how well a movie will perform at the box office is hard because there are so many factors involved in success.

在美国,每年都会向国内观众放映数百部电影,希望它们将成为下一部“大片”。 很难预测电影在票房上的表现如何,因为成功涉及很多因素。

The goal of this project is to develop a computational model for predicting the revenues based on public data for movies extracted from Boxofficemojo.com online movie database.

该项目的目标是开发一种计算模型,该模型可以基于从Boxofficemojo.com在线电影数据库中提取的电影的公共数据来预测收入。

The first phase is web scraping. Different types of features are extracted from Boxofficemojo.com which will be described later. Second phase is data cleaning. After scrapping data from our source, we cleaned our data mainly depend on unavailability of some features. After cleaning all data, next phase is exploratory data analysis. In third phase we create graphics to understand data. Fourth phase is feature engineering, where you create features for machine learning model from raw text data. Fifth phase is model analysis, where I applied one of the machine learning algorithms on our data set.

第一阶段是刮纸。 从Boxofficemojo.com中提取了不同类型的功能,这将在后面描述。 第二阶段是数据清理。 从我们的来源中删除数据后,我们清理数据主要取决于某些功能的不可用性。 清除所有数据后,下一阶段是探索性数据分析。 在第三阶段,我们创建图形来理解数据。 第四阶段是功能工程,其中您可以从原始文本数据创建用于机器学习模型的功能。 第五阶段是模型分析,其中我在数据集上应用了一种机器学习算法。

网页抓取 (Web Scraping)

Web scraping is a program or algorithm to extract and process large amounts of data from the web. Whether you are a data scientist, engineer, or anybody who analyzes large amounts of datasets, the ability to scrape data from the web is a useful skill to have.

Web抓取是从Web提取和处理大量数据的程序或算法。 无论您是数据科学家,工程师,还是任何分析大量数据集的人员,从网络中抓取数据的能力都是一项有用的技能。

It’s a good idea to do some research on your own and make sure that you’re not violating any Terms of Service before you start a large-scale project. To learn more about the legal aspects of web scraping, check out Legal Perspectives on Scraping Data from the Modern Web.

最好自己进行一些研究,并确保在开始大规模项目之前,不要违反任何服务条款。 要了解有关网络抓取的法律方面的更多信息,请查阅《现代网络中关于数据搜集的法律观点》 。

For this project;

对于这个项目;

· BeautifulSoup Library is used for data extraction from the web.

· BeautifulSoup库用于从Web提取数据。

· Pandas Library is used for data manipulation and cleaning.

· 熊猫库用于数据处理和清理。

· Matplotlib and Seaborn are used for data visualization.

· MatplotlibSeaborn用于数据可视化。

My data set contains 8319 movies released in between 2010 to 2019. Recent movies are not selected because Covid-19 not much movie released in 2020. I collect Title, Distributor, Release, MPAA, Time, Genre, Domestic, International, Worldwide, Opening, Budget, and Actors information.

我的数据集包含2010年至2019年之间发行的8319部电影。由于Covid-19 2020年发行的电影不多,因此未选择近期电影。我收集标题,发行商,发行,MPAA,时间,类型,国内,国际,全球,开幕,预算和演员信息。

数据清理 (Data Cleaning)

At the beginning my data set had 8319 movies. Then I recognize that there were many movies which don’t have all data available. So unavailability of features was the main reason behind eliminating movies from my data set.

最初,我的数据集包含8319部电影。 然后我意识到有很多电影没有所有可用数据。 因此,功能不可用是从我的数据集中删除电影的主要原因。

Most of the movie doesn’t have budget data available. So, null rows have been deleted.

这部电影大部分没有可用的预算数据。 因此,空行已被删除。

Dtype is converted from “Object” to “float” for numeric columns.

对于数字列,Dtype从“对象”转换为“浮点”。

“Release” data is checked for leap year detail and found data is modified. Dtype is converted from “Object” to “datetime” for Release column. Data from “Distributor” column is cleaned from not related info.

检查“发布”数据中的leap年细节,并修改找到的数据。 Dtype从Release列的“ Object”转换为“ datetime”。 来自“分销商”列的数据已从不相关的信息中清除。

Duplicate rows have been deleted from data set.

重复的行已从数据集中删除。

After removing those movies I finally got my data set with 1293 movies which have all information available.

删除这些电影后,我终于获得了包含所有可用信息的1293电影的数据集。

探索性数据分析(EDA) (Exploratory Data Analysis (EDA))

In statistics, exploratory data analysis (EDA) is an approach to analyzing data sets to summarize their main characteristics, often with visual methods. A statistical model can be used or not, but primarily EDA is for seeing what the data can tell us beyond the formal modeling or hypothesis testing task.

在统计中,探索性数据分析(EDA)是一种分析数据集以总结其主要特征的方法,通常使用视觉方法。 可以使用统计模型,也可以不使用统计模型,但是EDA主要用于查看数据可以在形式建模或假设检验任务之外告诉我们的内容。

Let’s look at the data relation between “Domestic Total Gross” and “Budget” for each year.

让我们看一下每年“国内总收入”和“预算”之间的数据关系。

While there are an almost overwhelming number of methods to use in EDA, one of the most effective starting tools is the pairs plot (also called a scatterplot matrix). A pairs plot allows us to see both distribution of single variables and relationships between two variables. Pair plots are a great method to identify trends for follow-up analysis and, fortunately, are easily implemented in Python.

尽管在EDA中使用了几乎绝大多数方法,但最有效的入门工具之一是结对图(也称为散点图矩阵)。 配对图使我们可以看到单个变量的分布以及两个变量之间的关系。 配对图是识别趋势以进行后续分析的一种好方法,幸运的是,可以在Python中轻松实现。

A Heatmap is a graphical representation of data where the individual values contained in a matrix are represented as colors. Heatmaps are perfect for exploring the correlation of features in a data set. We can now use either Matplotlib or Seaborn to create the heatmap. To get the correlation of the features inside a data set we can call <dataset>.corr(), which is a Pandas dataframe method. This will give us the correlation matrix.

热图是数据的图形表示,其中矩阵中包含的各个值表示为颜色。 热图非常适合探索数据集中要素的相关性。 现在,我们可以使用Matplotlib或Seaborn来创建热图。 为了获得数据集中内部<dataset>.corr()的相关性,我们可以调用<dataset>.corr() ,这是Pandas数据<dataset>.corr()方法。 这将给我们相关矩阵。

特征工程 (Feature Engineering)

Feature engineering means building additional features out of existing data which is often spread across multiple related tables. Feature engineering requires extracting the relevant information from the data and getting it into a single table which can then be used to train a machine learning model.

特征工程意味着从现有数据中构建附加特征,这些数据通常分布在多个相关表中。 特征工程需要从数据中提取相关信息,并将其放入一个表中,然后该表可用于训练机器学习模型。

Machine learning fits mathematical notations to the data in order to derive some insights. The models take features as input. A feature is generally a numeric representation of an aspect of real-world phenomena or data. Just the way there are dead ends in a maze, the path of data is filled with noise and missing pieces. Our job as a Data Scientist is to find a clear path to the end goal of insights.

机器学习使数学符号适合数据,以得出一些见解。 这些模型将要素作为输入。 特征通常是真实现象或数据方面的数字表示。 就像迷宫中的死胡同一样,数据的路径充满了噪声和丢失的碎片。 作为数据科学家,我们的工作是找到通往最终见解的明确路径。

Let’s look at the description of dataset and see distribution of target column.

让我们看一下数据集的描述并查看目标列的分布。

We want the target variable to be predicted in the model to have a normal distribution. When we examine the distribution of our target variable, we see that there is no right skewed distribution. We can correct this situation by applying a logarithmic transformation to the target variable.

我们希望在模型中预测目标变量具有正态分布。 当我们检查目标变量的分布时,我们发现没有右偏分布。 我们可以通过对目标变量应用对数转换来纠正这种情况。

Ordinary least-squares (OLS) models assume that the analysis is fitting a model of a relationship between one or more explanatory variables and a continuous or at least interval outcome variable that minimizes the sum of square errors, where an error is the difference between the actual and the predicted value of the outcome variable.

普通最小二乘(OLS)模型假设分析适合一个或多个解释变量与连续或至少区间结果变量之间的关系模型,该变量使平方误差之和最小,其中误差是结果变量的实际值和预测值。

When I do OLS model with two numerical features from data set, I got low cond. no, but also got low R-2 score. To increase R-2 score I will do feature engineering to add new features from categorical variables from out data set.

当我使用数据集中的两个数值特征进行OLS模型建模时,cond降低。 不,但R-2得分也很低。 为了增加R-2分数,我将进行特征工程设计以从数据集中的分类变量中添加新特征。

· The “year” column and four season columns were created from the “Release” column.

·从“发布”列中创建了“年”列和四个季节列。

· Four Dummy columns were created from “MPAA” column.

·从“ MPAA”列中创建了四个虚拟列。

· Running time (min) column were created from “time” column.

·运行时间(分钟)列是从“时间”列中创建的。

· New columns created for all distributors with more than 49 rows.

·为具有49行以上的所有分发者创建的新列。

· Logs of “Budget” and “Opening” columns were created.

·创建了“预算”和“开放”列的日志。

模型分析 (Model Analysis)

Now is the time to split our data into sets of training, testing and validation. Let’s rerun our model and finally compare the Ridge, Lasso and Polynomial regression results.

现在是时候将我们的数据分为训练,测试和验证的集合了。 让我们重新运行模型,最后比较Ridge,Lasso和多项式回归结果。

Data set was split as a train (60%), validation (20%), and test (20%). The tuning parameters (alpha) of the Lasso and Ridge models were chosen from a wide value range than put the 10-fold cross-validation.

数据集分为训练(60%),验证(20%)和测试(20%)。 拉索和里奇模型的调整参数(alpha)是从10倍交叉验证的宽泛范围内选择的。

When we included the variables we applied feature engineering into the model, OLS model R-2 score is increased to 0.759, but at the same time the cond. no. increased. Lasso Regression and Ridge Regression brought us the same results. The result of Linear Regression was also very close to them. We have the best result in a Degree 2 Polynomial Regression and the second is Ridge Polynomial Regression.

当我们将变量应用到模型中时,将OLS模型R-2得分提高到0.759,但同时条件也有所提高。 没有。 增加。 拉索回归和岭回归为我们带来了相同的结果。 线性回归的结果也非常接近它们。 我们在2次多项式回归中得到最好的结果,第二个是Ridge多项式回归。

Now it’s time to do Cross Validation (CV) and look at Mean Absolute Error (MAE) score. When we cross validate each model (kfold = 10), we see little drop in scores.

现在是时候进行交叉验证(CV)和查看平均绝对误差(MAE)分数了。 当我们交叉验证每个模型(kfold = 10)时,我们看到分数几乎没有下降。

结论 (Conclusion)

Finally, when we look at the mean absolute errors on the established models, we can say that Ridge Polynomial Regression will bring us the most accurate results.

最后,当我们查看已建立模型的平均绝对误差时,可以说岭多项式回归将为我们带来最准确的结果。

Five fundamental assumptions of the linear regression analysis were checked as these can be seen on Jupyter Notebook.

检查了线性回归分析的五个基本假设,因为可以在Jupyter Notebook中看到这些假设。

GitHub repository for web scraping and data processing is here.

用于Web抓取和数据处理的GitHub存储库在这里 。

Thank you for your time and reading my article. Please feel free to contact me if you have any questions or would like to share your comments.

感谢您的时间和阅读我的文章。 如果您有任何疑问或想分享您的意见,请随时与我联系。

翻译自: https://medium.com/analytics-vidhya/predicting-a-movies-revenue-3709fb460604

虎牙直播电影一天收入


http://www.taodudu.cc/news/show-2045052.html

相关文章:

  • 虎牙代理php,huya虎牙PHP
  • 斗鱼 虎牙24 小时直播电影教程
  • 影像图矢量化水系
  • openlayers+vue水流图
  • 制图综合:河流水系提取简化
  • ArcGIS-云南洱海流域地形图制作及使用图层下载(shp+dem)
  • 关于利用DEM生成水系图
  • 中国主要水系、河流、湖泊数据矢量数据(shp格式)下载地址
  • 在哪里可以找水系图_请问在哪可以找到广西的水系图
  • gis怎么提取水系_ArcGIS水文分析实战教程(7)细说流域提取
  • 怎么下载全国水系图层
  • gis怎么提取水系_ArcGIS提取水系并进行生态敏感性分析
  • 汇总3种获取水系数据的途径
  • 黑龙江水系
  • gis怎么提取水系_arcgis水系提取流程(dem)
  • 水系图一般在哪里找得到_厦大赵金保团队EnSM:新型聚阴离子锌盐水凝胶电解质实现具有高择优取向沉积的超稳定、高可逆水系锌金属负极...
  • 水系图一般在哪里找得到_虹吸雨水排水系统相较于传统重力排水有哪些优点?...
  • 水系图一般在哪里找得到_广东工业大学《JACS》:一种全新的高性能水系可充电铝离子电池!...
  • 水系图一般在哪里找得到_天津大学钟澄ESM综述:高能量密度水系电池的核心组件盐包水电解质...
  • 水系图一般在哪里找得到_腾远带你了解:虹吸排水系统原理、组成及应用优势...
  • gis怎么提取水系_如何使用ArcGIS从天地图中提取水系
  • 水系图一般在哪里找得到_真空排水系统在综合管廊工程中的应用探讨
  • 水系图一般在哪里找得到_Nano Energy:铝离子扩层V2O5nH2O用于高性能水系锌离子电池...
  • 水系图一般在哪里找得到_城市供水系统防护体系的探索与思考
  • 水系图一般在哪里找得到_水系电池再发Nature,事实力证或将迎来发展的春天!...
  • 水系图一般在哪里找得到_水系电池再发Nature,事实力证将迎来发展的春天!
  • 水系图一般在哪里找得到_进展 | 水系钾离子电池研究取得重要进展
  • 水系图一般在哪里找得到_雨水排水系统施工及设备要点详解!
  • 水系图一般在哪里找得到_如何对于排水系统的服务范围进行统计分析
  • 【Arc GIS 零基础教学】环境专业专题图层水系图的绘制方法

虎牙直播电影一天收入_电影收入相关推荐

  1. 猫眼电影评论_电影的人群意见和评论家的意见一样好吗?

    猫眼电影评论 Ryan Bellgardt's 2018 movie, The Jurassic Games, tells the story of ten death row inmates who ...

  2. dataframe 加一行_虎牙公会是干嘛的?虎牙直播有必要加公会吗?

    虎牙直播以游戏直播为主,很多人选择在虎牙开直播,那么虎牙公会是干嘛的?虎牙直播有必要加公会吗?一起来看看吧. 招虎牙游戏主播,娱乐主播,游戏陪玩主播,公众号:[海星播吧]欢迎关注哦! 虎牙主播礼物收入 ...

  3. HTML5期末大作业:动漫网站设计——火影忍者动漫(7页) HTML+CSS+JavaScript 漫画网页制作作业_电影网页设计...

    HTML5期末大作业:动漫网站设计--火影忍者动漫(7页) HTML+CSS+JavaScript 漫画网页制作作业_电影网页设计- 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. 电 ...

  4. 静态HTML网页设计作品——火影忍者动漫(7页) HTML+CSS+JavaScript 漫画网页制作作业_电影网页设计

    HTML5期末大作业:动漫网站设计--火影忍者动漫(7页) HTML+CSS+JavaScript 漫画网页制作作业_电影网页设计- 文章目录 HTML5期末大作业:动漫网站设计--火影忍者动漫(7页 ...

  5. 在…视域下是什么意思_电影中出现的出品人是什么意思?你需要了解下

    随着市场经济的发展,中国国内的影视市场已经成为了全球第二大电影市场.2020年更有望成为全球第一大电影市场. 我们有时候在看电影时就会看到电影中出现出品人的字样,哪这出品人是什么意思呢? 出品人:一部 ...

  6. python协同过滤电影推荐的论文_协同过滤?教你用Python实现协同过滤

    提到ALS相信大家应该都不会觉得陌生,它是协同过滤的一种,并被集成到Spark的Mllib库中.本文就ALS的基本原理进行讲解,并手把手.肩并肩地带您实现这一算法. 协同过滤?教你用Python实现协 ...

  7. movielens推荐_电影推荐系统movielens grouplens

    movielens推荐 As many of us can assume, the availability of movies is endless to the point that a pers ...

  8. python下载电影_打造一款Python实现自动下载电影的“脚本”!那种电影也可以哦!...

    原标题:打造一款Python实现自动下载电影的"脚本"!那种电影也可以哦! 都很有规律不是吗?而在Scrapy里面,就可以设定我们想要的规律,Scrapy就可以对这些符合规律的网址 ...

  9. python爬虫下载电影百度文档_写一个python 爬虫爬取百度电影并存入mysql中

    目标是利用python爬取百度搜索的电影 在类型 地区 年代各个标签下 电影的名字 评分 和图片连接 以及 电影连接 首先我们先在mysql中建表 create table liubo4( id in ...

  10. python对电影进行预测评分_推荐系统—影视评分预测

    本文根据Andrew Ng的 Machine Learning 的课写就. ======================================= 一.预测电影评分 ============= ...

最新文章

  1. prometheus监控_使用Prometheus和Grafana监视开放自由
  2. 比特币钱包(1) 钱包协议总览
  3. LeNet试验(二)权重参数随训练的变化
  4. SQL取出第 m 条到第 n 条记录的方法
  5. lua cocos 中对FNT字体的使用
  6. linux查看apache配置文件路径,linux 命令行下查看apache配置文件httpd.conf位置
  7. rename、remove
  8. 飞鸽传书2007很给力
  9. json字符串和字典的区别
  10. Inno Setup 简体中文语言包
  11. 网易云接口加直链下载vip歌曲
  12. C#批量发送短信操作
  13. php 输入经纬度查询位置,根据经纬度查询附近地点信息
  14. 在我眼中的生活的苦难
  15. typeScript构建失败:Non-string value passed to `ts.resolveTypeReferenceDirective`
  16. Codeforces Round #807 (Div. 2) A-C题解
  17. 使用FastJson进行驼峰下划线相互转换写法及误区
  18. MATLAB中如何作随时间变化图
  19. 机器学习西瓜书第一章总结
  20. kibana基本操作

热门文章

  1. 谷歌地球离线地图包_水经注全国离线地图都有哪些地图数据?
  2. 13.辅助.合同管理.文档配置.知识产权.变更.流程.知识
  3. php网页版进销存源码ERP多仓库管理系统源码
  4. CTFmisc常见音频隐写总结
  5. 计算机面试 OA 试题及答案,办公自动化题库OA(附答案)
  6. [经验] 三星I9300recovery中文版基于CWM 6.0.1.2,支持挂载U盘
  7. 51单片机实现电子时钟代码
  8. mongodb导出csv文件到vcf
  9. 中国卫生健康统计年鉴(2006-2021年)
  10. MPQ4573:和“讨厌”的二极管说拜拜