拓端tecdat|回归树模型分析纪录片播放量影响因素|数据分享
原文链接:http://tecdat.cn/?p=26131
原文出处:拓端数据部落公众号
纪录片能够真实、详尽地反映一个地区的风貌,展示经济发展和社会进步。2018年,纪录片发展迅猛,出现了几部大热作品,加之BBC纪录片造假的舆论导向,让人们对纪录片更加关注。本文所用的纪录片数据来自哔哩哔哩网站,是目前主流视频网站上最丰富、最接近的数据来源。
数字特征和文本特征相结合,分析影响播放量的因素。采用回归树模型分析自变量对播放量的影响。
纪录片播放量分布
视频播放量是检验视频质量和视频热度的一个直观媒介。内容质量高、话题性强的视频自然会引起广泛关注。对于没有与平台签约的UP主来说,通过视频创作激励计划和奖励机制(充值计划),播放量与他们的收入直接挂钩。探讨影响纪录片播放量的因素,有助于更好地理解如何提高纪录片视频的关注度,以及如何更好地创作出令人愉悦的自制微纪录片。
纪录片的播放量与它的内容主题有关,有些主题很受欢迎,有些则很小众。不同的人有不同的兴趣点,会体现在弹幕、金币、分享等指标上,所以不同类别下的纪录片分布也会有所不同。
为了便于观察,图中只显示了播放量低于7000的纪录片。从图中可以看出,四类纪录片的播放量分布存在明显差异,人文●历史类纪录片的播放量总体上高于其余三类,且呈右偏态(数据集中的所有定量变量都是右偏态的)。军事类和社会食品类纪录片的分布则比较接近。旅游类纪录片的分布比较接近,总的来说,四类纪录片的播放量差异很大,因此不能用同一个模型进行分析。有必要对参数进行区分,并对每个类别下的纪录片进行不同的分析。
纪录片高频词特点
以下是对各个纪实分类下的文本的词频特征的分析。哔哩哔哩网站上最相关的纪录片细分类别是社会和旅游类,该类别的纪录片文本的高频词比较生活化。下图是对该细分领域的纪录片视频文本进行细分过滤后得到的高频词的词频图。
图中显示了社会和旅游纪录片文本中的12个高频词。其中,"旅游 "以1118次排名第一,与 "旅游 "相关的 "旅游 "和 "旅游摄影 "分别排名第4和第6位。"食品 "以1111次排名第二,与 "食品 "相关的 "食品 "排名第11。"人文 "以607次排名第五,而与之相关的 "纪录片 "则排名第八。
此外,"中国"、"日本 "和 "世界 "的出现频率也很高。文字是由UP主编辑的,目的是让用户更好地理解视频内容,国家类高频词的出现表明,纪录片内容发生的国家是观众决定是否观看视频的重要决定。
词频分析显示了高频词在纪录片中的分布情况,但不能仅根据词频给出纪录片的选择建议。
播放量的影响因素分析
接下来,我们研究变量对播放量的影响。回归树模型被用来确定自变量对播放量的影响程度。
对回归树进行模拟,在RMSE折线图的拐点处确定最优的树深为7,叶子节点的最小样本数设为25,分支节点的最小数量设为50。
进行十折交叉验证,建立回归树,下图为回归树的模型结构。
在图中,观察叶子节点的框线图可以发现,大部分纪录片的播放量都很低,这些纪录片位于树状图的左侧,其判别变量是评论数和弹幕数。树状图的最右边的叶子节点划分了具有高播放量的纪录片,其判别变量是评论数和弹出窗口数,其次是相邻的左边叶子节点,其父节点有评论数、弹出窗口数和硬币数的分类变量。因此,与播放次数密切相关的变量是弹幕数、评论数和金币数,它们对高播放次数的影响更大。从右侧的叶子节点可以看出,如果评论数、弹幕数和金币数越高,那么播放量也就越高。在建立回归树模型时,自变量的重要性依次为:评论数(44)、弹幕数(18)、金币数(17)、分享数(8)、粉丝数(6)、收藏数(6)和提交数(1)。最重要的变量是观众与纪录片视频和UP主之间的互动程度,UP主在制作视频和选择能产生强烈互动的内容材料时,可以考虑到这一点。但是,这一点比较主观,没有量化的调整方案,也无法控制,无法确认所选的主题素材是否会带来高数量的评论和弹幕。
本文章中的所有信息(包括但不限于分析、预测、建议、数据、图表等内容)仅供参考,拓端数据(tecdat)不因文章的全部或部分内容产生的或因本文章而引致的任何损失承担任何责任。
最受欢迎的见解
1.从决策树模型看员工为什么离职
2.R语言基于树的方法:决策树,随机森林
3.python中使用scikit-learn和pandas决策树
4.机器学习:在SAS中运行随机森林数据分析报告
5.R语言用随机森林和文本挖掘提高航空公司客户满意度
6.机器学习助推快时尚精准销售时间序列
7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用
8.python机器学习:推荐系统实现(以矩阵分解来协同过滤)
9.python中用pytorch机器学习分类预测银行客户流失
拓端tecdat|回归树模型分析纪录片播放量影响因素|数据分享相关推荐
- tree | 分类回归树模型
专注系列化.高质量的R语言教程 推文索引 | 联系小编 | 付费合集 分类回归树(Classification and Regression Trees,CART)模型分为分类树模型和回归树模型:当因 ...
- ❤️解决非线性回归问题的机器学习方法总结:多项式线性模型、广义线性(GAM)模型、回归树模型、支持向量回归(SVR)模型
文章目录 前言 多项式回归模型 概念解释: sklearn实现多项式回归模型: 广义线性可加(GAM)模型 概念解释: pygam实现广义线性可加模型: GAM模型的优点与不足: 回归树模型 概念解释 ...
- 拓端tecdat荣获掘金社区入驻新人奖
2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...
- 传统机器学习笔记6——回归树模型
目录 前言 一.决策树回归 1.1.核心思想 二.启发式切分与最优属性选择 2.1.回归模型示例 2.2.回归树的构建方法 递归二分 过拟合与正则化 3.1.过拟合问题 3.2.过拟合问题的解决方法 ...
- 拓端tecdat荣获2022年度51CTO博主之星
相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生 ...
- Axure高保真移动端智能数据监控+用户画像+饼状图+条形图+折线图数据统计+抖音直播app用户数据统计+智慧移动端主播粉丝、评论、播放量大数据统计+套餐购买、续费套餐prd流程
作品介绍:Axure高保真移动端智能数据监控+用户画像+饼状图+条形图+折线图数据统计+直播app用户数据统计+智慧移动端主播粉丝.评论.播放量大数据统计+套餐购买.续费套餐prd流程 原型演示及下载 ...
- 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...
- 拓端tecdat|bilibili视频流量数据潜望镜
最近我们被客户要求撰写关于bilibili视频流量的研究报告,包括一些图形和统计输出. 最新研究表明,中国有超过7亿人在观看在线视频内容.Bilibili,被称为哔哩哔哩或简称为B站,是中国大陆第二个 ...
- CART决策树(分类回归树)分析及应用建模
一.CART决策树模型概述(Classification And Regression Trees) 决策树是使用类似于一棵树的结构来表示类的划分,树的构建可以看成是变量(属性)选择的过程,内部节 ...
- python用支持向量机回归(SVR)模型分析用电量预测电力消费
最近我们被客户要求撰写关于支持向量机回归的研究报告,包括一些图形和统计输出. 本文描述了训练支持向量回归模型的过程,该模型用于预测基于几个天气变量.一天中的某个小时.以及这一天是周末/假日/在家工作日 ...
最新文章
- plsql配置远程连接数据库
- mysql让数据库的数据按照id来排序方法
- linux文本分析工具awk解读
- class mywnd : pubic qwidget是什么意思_学了这么久java反射,你知道class.forName和classloader的区别吗?...
- Spring boot配置log4j输出日志
- HTML5 Web Worker
- idea复制maven项目,source root为原项目的解决方法
- win10搭建hadoop环境
- 气动调节阀基本结构图
- “反催收”渐成黑灰产业 专家呼吁协同治理“债闹”黑灰产
- 虚拟Python环境可以这样创建
- Microsoft SQL Server数据库部署过程
- JAVA8十大新特性详解
- 呼叫中心系统okcc怎样防护盗打?
- 电商项目中遇到的经典问题
- Android APP签名找回终极版
- MS104-SH4 与Toppers/JSP(µItron)嵌入式系统构筑
- @Value为null问题排查及解决方法
- 2017年12月英语六级翻译洞庭湖
- Mall电商实战项目专属学习路线,主流技术一网打尽!