不管前浪还是后浪 ,能够浪起来的才算是好浪。

相信大家最近都被号称“浪里白条”的b站刷了不止一次屏。这次咱们先不谈价值观,主要从数据的角度,扒一扒让b站能够在浪里穿梭的资本——优质UP主。

本文在RFM模型基础上做了调整,尝试用更符合b站特性的IFL模型,找到各分区优质up主。整个过程以分析项目的形式展开,最终附上了完整源数据和代码,方便感兴趣的同学练手。

项目概览

分析目的

对2019年1月~2020年3月发布的视频进行分析,挑选出视频质量高,值得关注的up主。

数据来源

分析数据基于 bilibili 网站上的公开信息,主要爬取了以下数据维度:

2019年1月~2020年3月,科技区播放量过5w视频的 分区名称、作者名称、作者id、发布时间、播放数、硬币数、弹幕数、收藏数、点赞数、分享数、评论数, 共计50130行。

源数据下载链接

完整数据 源和代码 链接:https://pan.baidu.com/s/1RIxOxh-TFMey9sGvZLVuJg 提取码:bhh2

数据概览

视频信息表:

coins:投硬币数

danmu:弹幕数

favorite:收藏数

likes:点赞数

replay:评论数

share:分享数

view:播放量

各字段数量:

缺失值数量:

数据清洗

删除空值

df = df.dropna()
df.info()

共删除了19行数据,剩余50111行数据

删除重复值

df = df.drop_duplicates()
df.info()

删除了1312行重复的数据,剩余数据量48799行

提取所需关键词

df = df[['分区', 'author','date','coins','danmu','favorite','likes','replay','share','view']]
df.head()

构建模型

RFM模型是衡量客户价值和创利能力的重要工具和手段。通过一个客户近期购买行为、购买的总体频率以及消费金额三项指标来描述客户的价值状况。

R:最近一次消费时间(最近一次消费到参考时间的间隔)

F:消费的频率(消费了多少次)

M:消费的金额 (总消费金额)

但RFM模型并不能评价视频的质量,所以在这里针对up主的视频信息构建了IFL模型,以评估视频的质量。

I(Interaction_rate):

I值反映的是平均每个视频的互动率,互动率越高,表明其视频更能产生用户的共鸣,使其有话题感。

F(Frequence):

F值表示的是每个视频的平均发布周期,每个视频之间的发布周期越短,说明内容生产者创作视频的时间也就越短,创作时间太长,不是忠实粉丝的用户可能将其遗忘。

L(Like_rate):

L值表示的是统计时间内发布视频的平均点赞率,越大表示视频质量越稳定,用户对up主的认可度也就越高。

提取需要的信息

根据不同的分区进行IFL打分,这里以科普区为例

sc = df.loc[df['分区']=='科学科普']
so = df.loc[df['分区']=='社科人文']
ma = df.loc[df['分区']=='机械']
tec = df.loc[df['分区']=='野生技术协会']
mi = df.loc[df['分区']=='星海'] # 一般发布军事内容
car = df.loc[df['分区']=='汽车']
sc.info()

关键词构造

F值:首先,先筛选出发布视频大于5的up主,视频播放量在5W以上的视频数少于5,说明可能是有些视频标题取得好播放量才高,而不是视频质量稳定的up主。

# 计算发布视频的次数
count = sc.groupby('author')['date'].count().reset_index()
count.columns =['author','times']
# 剔除掉发布视频少于5的up主
com_m = count[count['times']>5]
#com_m = pd.merge(count,I,on='author',how='inner')
com_m.info()

筛选完只剩下208个up主的视频数在5个以上:

last = sc.groupby('author')['date'].max()
late = sc.groupby('author')['date'].min()
# 最晚发布日期与最早之间的天数/发布次数,保留整数,用date重新命名列
F =round((last-late).dt.days/sc.groupby('author')['date'].count()).reset_index()
F.columns =['author', 'F']
F = pd.merge(com_m, F,on='author', how='inner')
F.describe()

通过describe()方法发现,最晚发布日期与最早发布日期为0的现象,猜测是在同一天内发布了大量的视频。

# 查找的一天内发布视频数大于5的人
F.loc[F['F'].idxmin()]

其视频皆为转载,将其剔除统计范围内 。

F = F.loc[F['F']>0]
F.describe()

I值

# 构建I值
danmu = sc.groupby('author')['danmu'].sum()
replay = sc.groupby('author')['replay'].sum()
view = sc.groupby('author')['view'].sum()
count = sc.groupby('author')['date'].count()
I =round((danmu+replay)/view/count*100,2).reset_index() #
I.columns=['author','I']
F_I = pd.merge(F,I,on='author',how='inner')
F_I.head()

L值

# 计算出点赞率计算出所有视频的点赞率
sc['L'] =(sc['likes']+sc['coins']*2+sc['favorite']*3)/sc['view']*100
sc.head()

# 构建L值
L =(sc.groupby('author')['L'].sum()/sc.groupby('author')['date'].count()).reset_index()
L.columns =['author', 'L']
IFL = pd.merge(F_I, L, on='author',how='inner')
IFL = IFL[['author', 'I','F','L']]
IFL.head()

维度打分

维度确认的核心是分值确定,按照设定的标准,我们给每个消费者的I/F/L值打分,分值的大小取决于我们的偏好, 即我们越喜欢的行为,打的分数就越高 :

  • I值,I代表了up主视频的平均评论率,这个值越大,就说明其视频越能使用户有话题,当I值越大时,分值越大。
  • F值表示视频的平均发布周期,我们当然想要经常看到,所以这个值越大时,分值越小。
  • L值表示发布视频的平均点赞率,S值越大时,质量越稳定,分值也就越大。 I /S值根据四分位数打分,F值根据更新周期打分。

IFL.describe()

I值打分:

L值打分:

F值根据发布周期打分:

分值计算

# bins参数代表我们按照什么区间进行分组
# labels和bins切分的数组前后呼应,给每个分组打标签
# right表示了右侧区间是开还是闭,即包不包括右边的数值,如果设置成False,就代表[0,30)
IFL['I_SCORE'] = pd.cut(IFL['I'], bins=[0,0.03,0.06,0.11,1000],
                        labels=[1,2,3,4], right=False).astype(float)
IFL['F_SCORE'] = pd.cut(IFL['F'], bins=[0,7,15,30,90,1000],
                        labels=[5,4,3,2,1], right=False).astype(float)
IFL['L_SCORE'] = pd.cut(IFL['L'], bins=[0,5.39,9.07,15.58,1000],
                        labels=[1,2,3,4], right=False).astype(float)
IFL.head()

判断用户的分值是否大于平均值:

# 1为大于均值 0为小于均值
IFL['I是否大于平均值'] =(IFL['I_SCORE'] > IFL['I_SCORE'].mean()) *1
IFL['F是否大于平均值'] =(IFL['F_SCORE'] > IFL['F_SCORE'].mean()) *1
IFL['L是否大于平均值'] =(IFL['L_SCORE'] > IFL['L_SCORE'].mean()) *1
IFL.head()

客户分层

RFM经典的分层会按照R/F/M每一项指标是否高于平均值,把用户划分为8类,我们根据根据案例中的情况进行划分,具体像下面表格这样:

引入人群数值的辅助列,把之前判断的I\F\S是否大于均值的三个值串联起来:

IFL['人群数值'] =(IFL['I是否大于平均值'] *100) +(IFL['F是否大于平均值'] *10) +(IFL['L是否大于平均值'] *1)
IFL.head()

构建判断函数,通过判断人群数值的值,来返回对应标签:

将标签分类函数应用到人群数值列:

IFL['人群类型'] = IFL['人群数值'].apply(transform_label)

IFL.head()

各类用户占比

cat = IFL['人群类型'].value_counts().reset_index()
cat['人数占比'] = cat['人群类型'] / cat['人群类型'].sum()
cat

各分区up主排行top15

科学科普分区

high = IFL.loc[IFL['人群类型']=='高价值up主']
rank = high[['author','L','I','F']].sort_values('L',ascending=False)
rank.to_excel('rank.xlsx', sheet_name='科学科普',encoding='utf-8')

  社科人文分区

机械分区

机械分区高价值up主只有5位,因为机械分区在科技区是个小分区,发布视频的up主仅有54位。

野生技术协会分区

 星海

汽车

源码获取私信小编01哦!

Python模型分析B站优质up主!这些人的视频能学到不少东西!相关推荐

  1. python分析b站_实战 | Python模型分析B站优质up主

    作者 | 远辰 来源 | 数据不吹牛 不管前浪还是后浪,能够浪起来的才算是好浪. 相信大家最近都被号称"浪里白条"的b站刷了不止一次屏.这次咱们先不谈价值观,主要从数据的角度,扒一 ...

  2. ❤️大佬都在学什么?Python爬虫分析C站大佬收藏夹,跟着大佬一起学, 你就是下一个大佬❤️!

    ❤️大佬都在学什么?Python爬虫分析C站大佬收藏夹,跟着大佬一起学,你就是下一个大佬❤️! 前言 程序说明 数据爬取 获取 CSDN 作者总榜数据 获取收藏夹列表 获取收藏数据 爬虫程序完整代码 ...

  3. 如何用 RFM 模型扒出 B 站优质 UP 主?| 附实战代码

    作者 | 远辰 责编 | 郭芮 不管前浪还是后浪,能够浪起来的才算是好浪. 相信大家最近都被号称"浪里白条"的b站刷了不止一次屏.这次咱们先不谈价值观,主要从数据的角度,扒一扒让b ...

  4. 我用加强版RFM模型,轻松扒出B站优质up主!(含数据+实战代码)

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 红军不怕远征难,万水千山只等闲. ...

  5. 加强版RFM模型,轻松扒出B站优质up主!

    不管前浪还是后浪,能够浪起来的才算是好浪. 相信大家最近都被号称"浪里白条"的b站刷了不止一次屏.这次咱们先不谈价值观,主要从数据的角度,扒一扒让b站能够在浪里穿梭的资本--优质U ...

  6. Python爬虫分析——B站UP主视频数据分析

    背景 一个朋友的要求,对B站UP主的视频进行分析.至于要做什么,你懂的. 核心 使用B站提供的API,爬取数据,进行分析.具体B站提供的API就不说了,https://www.bilibili.com ...

  7. B站头部UP主抱团垄断优质资源,腰部UP主的流量突破口在哪?

    本篇关键词:UP主.B站.涨粉.流量.内容创作 B站头部UP主一直是热门视频榜的常驻嘉宾,老番茄.雨哥到处跑.绵羊料理.老师好我叫何同学等. 参考UP主老师好我叫何同学,10月17日发布<[何同 ...

  8. python为啥爬取数据会有重复_使用python爬取B站千万级数据

    Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理 ...

  9. python爬取b站数据_如果利用Python爬取B站上千万数据?B站直播都是大屌萌妹吗?...

    粉丝独白 说起热门的B站相信很多喜欢玩动漫的,看最有创意的Up主的同学一定非常熟悉.我突发奇想学Python这么久了,为啥不用Python爬取B站中我关注的人,已经关注的人他们关注的人,看看全站里面热 ...

最新文章

  1. SpringMVC整合fastdfs-client-java实现web文件上传下载
  2. python 填充多边形 学习笔记
  3. Elasticsearch 100问(上)
  4. 微服务架构日志集中化 安装 EFK (Fluentd ElasticSearch Kibana) 采集nginx日志
  5. 计算机复试比重低的学校,又有985院校发布调剂信息,这个34所降低复试比重!...
  6. 一步步编写操作系统 07 开机启动bios
  7. atoi函数_每日一道 LeetCode (50):字符串转换整数 (atoi)
  8. python交叉验证函数_python – 在sklearn中使用交叉验证和AUC-ROC作为逻辑回归模型...
  9. 计算机需要会那些英语翻译,计算机专业英语翻译
  10. 全面屏手机有什么缺点?
  11. python支付宝蚂蚁森林_Python教你迅速成为“蚂蚁森林排行榜”第一名
  12. LQR控制算法及代码实践
  13. JPA如何查询部分字段
  14. 专家建议|2022内容运营的5大SEO错误以及如何避免
  15. java中final关键字。PS:转自海子
  16. LINGO学习笔记01
  17. 宜家新型智能灯泡被指易遭黑客入侵
  18. 用一封邮箱定位对方的位置
  19. 使用shell脚本获取当前路径的目录、上级目录、目录字段截取
  20. npm install 报错没有匹配版本:No matching version found for

热门文章

  1. 82583V在server2008下网卡驱动安装步骤
  2. MySQL远程访问权限的设置
  3. 手机上的python怎么运行,python在手机上怎么操作
  4. UVA 10074 Take the Land dp/暴力+剪枝
  5. 1013---IBM X3850 X6 重新构建Raid5---过程记录
  6. python2爬取虎扑NBA的新闻标题和内容发送到QQ邮箱
  7. 基于android平台的条码扫描软件的设计与实现,基于android平台的条码扫描软件的设计与实现...
  8. 服务安全:如何保证服务器不断电数据不丢失?
  9. 编程入门笔记:状态机模式在工控机中的体现
  10. 逆向中常见寄存器及常用汇编指令