目录

一、实现目标

二、分析方法

IFL模型

三、数据预处理

去重

缺失值分析与处理

异常值分析与处理

​编辑

可视化展示

构建特征值

构造F值

​编辑

构造IFL分析数据集

​编辑

构造L值

数据标准化

​编辑

运用K-Means聚类方法

建立模型

聚类结果特征分析

结论分析



一、实现目标

根据数据集中的up主视频播放信息,参考RFM模型,运用K-Means聚类方法对b站up主进行分群,比较不同up主的特征,挖掘出值得关注的up主、高价值的up主群体


二、分析方法

IFL模型

I(Interaction_rate): I值反映的是平均每个视频的互动率,互动率越高,表明其视频更能产生用户的共鸣,使其有话题感。 **I=(总弹幕数+总评论数)/总播放量/统计范围内视频数量

F(Frequence): F值表示的是每个视频的平均发布周期,每个视频之间的发布周期越短,说明内容生产者创作视频的时间也就越短,创作时间太长,不是忠实粉丝的用户可能将其遗忘。 **F=(统计范围内最晚发布视频时间-最早发布视频时间)/发布视频的数量

L(Like_rate): L值表示的是统计时间内发布视频的平均点赞率,越大表示视频质量越稳定,用户对up主的认可度也就越高。 **L=(点赞数X1+投币数X2+收藏数X3+分享数X4)/播放量X发布视频数


三、数据预处理

分析数据基于 bilibili 网站上的公开信息,主要采集了以下数据维度:

2019年1月~2020年3月,科技区播放量过5w视频的分区名称、作者名称、作者id、发布时间、播放数、硬币数、弹幕数、收藏数、点赞数、分享数、评论数,一共50130行。

数据来自 公众号 数据不吹牛

去重

缺失值分析与处理

异常值分析与处理

可视化展示

构建特征值

构造F值

构造IFL分析数据集

构造L值

数据标准化


运用K-Means聚类方法

建立模型

聚类结果特征分析


结论分析

从案例结果来看,所有的渠道被分为3个类别,每个类别的样本量分别为:265、1082、204,对应占比分别为:17%、70%、13%。

类别1:索引为0的up主

该类别的I值略高于平均值,证明与观众的互动率较高,话题性也较高;但F值明显高于其他两类,创作周期较长; L值平均点赞率良好,仍有可提升空间;该类别大部分为业余up主,处于成长期。

类别2:索引为1的up主

该部分占了70%,是该分区的主要群体;该类别的I值稍低于平均值,与观众的互动良好;F值为三者中最低,更新频率高,活跃程度高; 但L值平均点赞率是短板,较低,暂未能获得大量观众的点赞、投币、收藏;需要提高视频稿件的质量,创作符合观众口味的视频,收获更多的三连

类别3:索引为2的up主

该部分up主群体I值远高于平均值,受到观众的喜爱,话题感十足;视频更新稳定,在保证不拖更的同时,收获到观众大量的三连(点赞、投币、收藏); 该类up主粉丝数目也大部分超过十万,能够提供高质量且稳定的视频稿件,为该分区的高价值up主群体。

投稿不易,感谢点赞!

数据仓库与数据挖掘-挖掘高价值B站up主案例相关推荐

  1. 大数据公司挖掘数据价值的49个典型案例

    大数据公司挖掘数据价值的49个典型案例 对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找"正在做"大数据的49个样本. 本文力图从企业运营和管理的角度 ...

  2. 大数据公司挖掘数据价值的49个典型案例!信息量很大

    大数据公司挖掘数据价值的49个典型案例 对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找"正在做"大数据的49个样本. 力图从企业运营和管理的角度,梳 ...

  3. 数据挖掘,你知道的大公司有哪些?独家揭秘:大数据公司挖掘数据价值的49个典型案例

    对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找"正在做"大数据的49个样本. 本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以 ...

  4. 下篇 | 大数据公司挖掘数据价值的49个典型案例(值得收藏)

    紧接着上篇中的25项案例介绍剩余其他的大数据公司挖掘数据价值的典型案例... 26. 众趣的行为辩析 众趣是国内第一家社交媒体数据管理平台,目前国内主要的社交开放平台在用户数据的开放性方面仍比较保守, ...

  5. 如何挖掘高价值用户,实现付费转化率逆势增长

    引言 本文向大家介绍Now冥想App如何运用华为分析来挖掘高价值用户,实现付费转化率的逆势增长,希望给同样在增长之路上探索的你带来一点参考. 关于Now 冥想 Now 冥想于2016年2月诞生,致力于 ...

  6. Smartbi助你解决银行高价值客户流失难题

    目前银行产品存在同质化现象,客户选择产品和服务的途径越来越多,客户对产品的忠诚度越来越低,所以客户流失已经成为银行业最关注的问题之一.而获得新客的成本远高于维护老客户成本. 据调研表明,商业银行客户流 ...

  7. 数据仓库与数据挖掘的一些基本概念

    下面内容摘自互联网并作了整理. 名词: BI(Business Intelligence):商业智能, DW(Data Warehouse):数据仓库,详见正文Q1部分. OLTP(On-Line T ...

  8. 《数据仓库与数据挖掘教程》ch01绪论 章节整理

    数据仓库概述 从传统数据库到数据仓库 计算机数据处理有两种主要方式 事务型处理 分析型处理 传统数据库与事务处理 传统数据库是长期存储在计算机内的.有组织的.可共享的数据集合 有严格的数学理论支持,并 ...

  9. 《数据仓库与数据挖掘》期末复习总结

    <数据仓库与数据挖掘>期末复习总结 适用教材:<数据挖掘概念与技术(第3版)>,Jiawei Han,Mieheline Kamber,Jian Pei著,机械工业出版社 提示 ...

最新文章

  1. 基于Golang的CLI 命令行程序开发
  2. Angular 选项卡
  3. python怎么安装myqr模块-python二维码操作:对QRCode和MyQR入门详解
  4. linux忘记root密码怎么办
  5. Elasticsearch 实战经验总结
  6. leetcood学习笔记-58-最后一个单词的长度
  7. 《OOD启思录》—第2章2.6节角色与类
  8. 【Twitter】时序图神经网络
  9. Java序列化技术即将被废除!!!
  10. 隐藏网络计算机,XP电脑如何在网络中隐藏自己的计算机名称?
  11. NHibernate的缓存管理机制
  12. solr6 mysql增量更新_solr 的全量更新与增量更新
  13. 命令提示符死亡之ping教程
  14. matlab分簇教程,leach分簇算法仿真(基于matlab)
  15. 时域进行两次傅里叶变换
  16. 可靠性试验与环境试验概述
  17. 计算机学院实习报告3000字(Java开发实习)--持续更新中,多个专业,以及版本
  18. 信号处理:时域和频域的关系
  19. 解决win7 下面 利用docker搭建jitsi-meet测试环境局域网无法访问的问题
  20. 词云 文字云 标签云 教程19年最新版

热门文章

  1. Verilog专题(二十四)Lemmings3
  2. 聚类与分类方法的主要区别是什么?
  3. linux服务器好管理吗,给初学者Linux服务器管理建议
  4. Firefox(火狐浏览器)常用插件
  5. C++动态规划入门习题+解析
  6. JAVA图片裁剪工具类
  7. activiti自定义流程之整合(六):获取我的申请任务
  8. JavaWeb开发 —— HTML
  9. 华三,思科ACL命令解析
  10. 2018互联网实习秋招回顾(BATM+MS+Intel+NE+DJI)