基于R的Bilibili视频数据建模及分析——预处理篇

文章目录

  • 基于R的Bilibili视频数据建模及分析——预处理篇
    • 0、写在前面
    • 1、项目介绍
      • 1.1 项目背景
      • 1.2 数据来源
      • 1.3 数据集展示
    • 2、数据预处理
      • 2.1 删除空数据
      • 2.2 增加id字段
      • 2.3 处理数值字段
    • 3、参考资料


0、写在前面

实验环境

  • Python版本:Python3.9
  • Pycharm版本:Pycharm2021.1.3
  • R版本:R-4.2.0
  • RStudio版本:RStudio-2021.09.2-382

该实验一共使用4个数据集,但文章讲述只涉及到一个数据集,并且对于每个数据集的分析,数据大小在110条左右

1、项目介绍

1.1 项目背景

Bilibili是国内比较热门的视频网站,本次实验是通过对Bilibili四个不同专区视频数据进行R使用的统计分析、聚类分析以及建模分析

1.2 数据来源

  • 数据来源于和鲸社区

https://www.heywhale.com/mw/dataset/62a45d284619d87b3b2b9147/file

数据字段描述说明

  • title:视频的标题
  • duration:视频时长
  • publisher:视频作者
  • descriptions:视频描述信息
  • pub_time:视频发布时间
  • view:视频播放量
  • comments:视频评论数
  • praise:视频点赞量
  • coins:视频投币数
  • favors:视频收藏数
  • forwarding:视频转发量

1.3 数据集展示

表单机游戏——游戏区:

2、数据预处理

2.1 删除空数据

整行数据为空,直接删除

2.2 增加id字段

在Excel每张表的首列添加id字段,
预处理后数据展示:

2.3 处理数值字段

对于view,comments,praise,coins,favors,forwarding这些数值型字段,原始数据中,1万以上的数值是以xxx.xx万的形式展示的,为方便后续统计,此处将这些类型的字段值转换为常规数字格式。

此处的预处理操作使用Python来处理,代码如下

import pandas as pd
data1 = pd.read_csv('data/videos1.csv', encoding='utf8')print(data1.shape)
print('---------------------------------------')# TODO 处理数值字段(view,comments,praise,coins,favors,forwarding)
import pandas as pd
import operator
data1 = pd.read_csv('data/videos1.csv', encoding='utf8')
print(data1.head(3))
print('-------------------------------------------------------')# # TODO  id,title,duration,publisher,pub_time,view,comments,praise,coins,favors,forwarding
def operateVideos1() :for i in range(0, len(data1)):# if i == 0 :#     print(data1.iloc[i])#     print(data1.iloc[i][5])id = data1.iloc[i][0]view = data1.iloc[i][5]comments = data1.iloc[i][6]praise = data1.iloc[i][7]coins = data1.iloc[i][8]favors = data1.iloc[i][9]forwarding = data1.iloc[i][10]if operator.contains(view, '万'):num = int(float(view[0: len(view) - 1]) * 10000)data1._set_value(i, "view", num)if operator.contains(comments, '万'):num = int(float(comments[0: len(comments) - 1]) * 10000)data1._set_value(i, "comments", num)if operator.contains(praise, '万'):num = int(float(praise[0: len(praise) - 1]) * 10000)data1._set_value(i, "praise", num)if operator.contains(coins, '万'):num = int(float(coins[0: len(coins) - 1]) * 10000)data1._set_value(i, "coins", num)if operator.contains(favors, '万'):num = int(float(favors[0: len(favors) - 1]) * 10000)data1._set_value(i, "favors", num)if operator.contains(forwarding, '万'):num = int(float(forwarding[0: len(forwarding) - 1]) * 10000)data1._set_value(i, "forwarding", num)data1.to_csv('out/v1.csv', index=False)operateVideos1()

预处理之后的部分数据展示:

数据集1:

3、参考资料

  • 多元统计分析及R使用(第五版)

结束!

基于R的Bilibili视频数据建模及分析——预处理篇相关推荐

  1. Java做rtp解包封包_基于RTP的H视频数据打包解包类DoubleLi博客园.pdf

    基于RTP的H视频数据打包解包类DoubleLi博客园 15- 10-30 基于RTP的H264视频数据打包解包类 - DoubleLi - 博客园 DoubleLi 博客园 :: 首页 :: 博问 ...

  2. 大数据建模、分析、挖掘技术应用研修班的通知

    --- 关于举办 2021年数字信息化培训项目系列 --- 大数据建模.分析.挖掘技术应用研修班的通知 各企事业单位: 随着2015年9月国务院发布了<关于印发促进大数据发展行动纲要的通知> ...

  3. 关于举办大数据建模、分析、挖掘技术应用直播课程研修班

    关于举办大数据建模.分析.挖掘技术应用直播课程研修班 各企事业单位: 随着2015年9月国务院发布了<关于印发促进大数据发展行动纲要的通知>,各类型数据呈现出了指数级增长,数据成了每个组织 ...

  4. 机器学习定义、机器学习与数据建模、分析的区别

    一.什么是机器学习? 先来看一则开场白: 看完这段话,可以发现这里涉及了很多基于"经验"而做出的判断.换句话说就是:通过对经验的利用,就能对新的情况做出有效的决策. ** 机器学习 ...

  5. 巨龙信息大数据建模与分析技术浅析

    巨龙大数据建模与分析系统是厦门市巨龙信息科技有限公司研发的一款跨数据平台的数据挖掘.分析.建模的工具.面向各行各业在大数据建设过程的应用诉求,致力于构建智能数据体系,打造更便捷.更易用的大数据生产力平 ...

  6. 大数据建模、分析、挖掘技术应用

    大数据建模.分析.挖掘技术: 具体安排 时间安排 课程大纲 详细内容 实践训练 第一天 9:00-12:00 14:00-17:00 一.大数据概述 1.大数据及特点分析 2.大数据关健技术 3.大数 ...

  7. 【无标题】大数据建模、分析、挖掘技术应用

                              2022年数字信息化培训项目系列 各企事业单位: 随着2015年9月国务院发布了<关于印发促进大数据发展行动纲要的通知>,各类型数据呈现 ...

  8. EasyGBS中基于 RTP 的音视频数据 PS 封装

    在国标GB28181协议中,视频传输基本都由两个模块构成,EasyGBS包含两个模块:信令服务和流媒体服务.本节主要为大家解释下流媒体服务中关于音视频数据的PS封装. PS封装介绍: PS是Progr ...

  9. 【FFMPEG】基于RTP的H264视频数据打包解包类

    最近考虑使用RTP替换原有的高清视频传输协议,遂上网查找有关H264视频RTP打包.解包的文档和代码.功夫不负有心人,找到不少有价值的文档和代码.参考这些资料,写了H264 RTP打包类.解包类,实现 ...

最新文章

  1. 各种好的开源项目-转载
  2. TypeScript--类
  3. Visual Studio 2017 15.3 预览版发布,接近最终版
  4. ios php 表单提交图片上传,axios发送post请求提交图片表单步骤详解
  5. 量子计算机的核心元件简称,计算机文化基础复习题(含答案).doc
  6. docker save 与 docker export 的区别
  7. glide加载图片闪烁_html5 canvas绘制图片
  8. OpenCV学习笔记:视频处理
  9. CenOS7.4内核升级修复系统漏洞
  10. 一文追溯 ETL 的发展历程
  11. loadrunner遇到错误继续运行
  12. 软工实践第八次作业(软件工程实践总结)
  13. (二)开源IT资产管理系统--OCS(win)客户端代理安装
  14. python解释器安装步骤_怎么安装python解释器
  15. 转android gralloc流程分析for msm8960
  16. virtualbox网络配置
  17. 微信小程序自定义yPicker组件分析及省市区三级联动实现
  18. 关于STL中vector容器的一些总结
  19. linux 路由 pppoe ipv6,ubuntu PPPoE v6 Server配置
  20. Python网络爬虫数据采集实战:Scrapy框架爬取QQ音乐存入MongoDB

热门文章

  1. java宝石迷阵代码_java 创建一个board,然后在上面像宝石迷阵一样随机生成各种宝石...
  2. 有些事现在不做,一辈子都不会做了。
  3. AWS CEO 将掌舵亚马逊,贝索斯于第三季度卸任
  4. PROTEUS电子仿真软件的使用——流水灯
  5. 商派ECmall的支付接口初探(一)
  6. 如何区分数据结构中的线性结构与非线性结构?
  7. FATFS 的几个函数使用方法
  8. github更新,发布地址,燃尽图,总结
  9. android 图片转换成base64
  10. (6)APB总线协议——(官方文档阅读APB3.0)