抖音、快手数据采集,短视频监测大屏

本文介绍在数据采集过程中不可或缺的一枚神器——数据采集监控大屏,如果想了解数据采集过程中的一些技术,欢迎查阅我的另外几篇文章,文末附有两篇数据采集文章的链接。先看下面三张图:

三张图,不同的时间段,对应的日采集数据量分别在10万,30万,110万,不断刷新自己创下的单日采集数据量记录,可能有人会好奇,为什么最后两天采集到的数据量有暴增的趋势,偷偷告诉你们,这两天是新架构设计方案完成之后,开始测试的两天,第一天轻松达到了53W数据,超过之前极大值近两倍,而第二天更是突破了100W,所以,前面的凹槽,就是新架构开发测试的时间了。图片出自数据采集监控大屏,完整图如下:

通过以上截图可以得知,目前数据平台总共采集了近700W数据,而最多一天采集数据达到了110W以上,日处理任务量达到30W以上,还能查看到不同业务通道采集到的不同数据的数据量。这个大屏建设的初衷就是为了监控数据采集平台各方面的性能,在采集平台性能优化的同时,监控大屏也在不断优化自身的性能,占用越来越少的平台资源,其中最大的优化算是每日采集数据量统计图。而随着数据量的不断增加,不仅平台压力越来越大,监控大屏性能也越来越差,统计到的阻塞数量也越来越多,这个阻塞数目,监控的是内存中线程的阻塞数,如果这个数量越来越多,最直接的后果就是死机。而每天的数据量还在增加,业务也在扩大,硬件资源就那么多,急需寻找新的解决办法,在这种场景下,数据采集平台2.0架构设计横空出世,解决所有阻塞问题,而且将日采集数据量从30万提升到110万,理论值从50万提升到160万。数据采集平台2.0架构设计为将来的数据暴增预留了位置,支持分布式的横向扩展,这样,随着以后数据的增长,升级就变得非常简单了,接下来本篇文章主要介绍这款监控大屏。

监控大屏简介

监控大屏主要运用数据可视化技术,对采集平台进行监控,定时刷新平台运行数据,通过这款监控大屏,曾经发现了平台的一个死锁问题,当时问题非常隐蔽,平台没有报错,数据还在增加,通过大屏,意识到数据增长变得有一点慢了,有几张表没入库数据,后来开始排查,发现了平台死锁问题。如果该问题没被发现,后续造成的损失将变得不可控制。监控大屏功能如下:

1.每日采集数据量:统计平台近期,每天采集到的数据量,以此来判断平台在一段时间内的健康状况和负载情况。可根据该指标制定性能测试计划。

2.各主机执行任务统计:统计当前小时,各台机器执行任务的数量,以此来判断各个机器的性能以及资源配置。

3.全网数据量:统计整个平台实时数据量,以此来判断平台压力,确定是否需要升级新架构。

4.当前时间采集数据量:统计当前小时,每张表增加的数据量,对每一类数据是否正确入库做监控。

5.全网数据分布:统计平台所有表的数据量,以此来判断各表压力,为后续分库分表提供依据。

6.阻塞数统计:统计个主机中,各个程序阻塞的线程数,以此来判断各机器的性能,阻塞越多,内存占用越多,最终将导致机器宕机。理想情况是,此处为空白,即程序运行不阻塞。

7.各类任务执行数:统计不同种类任务,不同状态任务的数量,以此来判断平台执行任务的速度以及正确率。

8.采集速度监控,采用仪表盘监控当前实时的数据采集速度,以及监控过程中出现的采集速度峰值,以此来判断平台实时的效率。

通过以上八部分实时数据,即可监控整个数据采集平台运行状况。目前该大屏运行超过两个月,以下列举几个常见问题案例:

案例1

如下图所示,待执行任务有1440个,正在执行任务16个,主机执行任务统计图为空,且数据超过1分钟未刷新。

解析:任务无法执行,当前小时已经没有任务结束

原因及解决方案:

1.任务复杂,短时间内无法执行完成(几乎不可能有这种情况)

2.程序挂起,无法执行任务。需要重启程序

3.内存不足,程序自动结束。需要重启程序

4.机器宕机。需要重启机器。

案例2

如下图,丢弃任务暴增。

解析:大量任务已达到重试最大次数,或者出现大量已重置用户

原因及解决方案:

1.出现大量已重置用户。检查是否真的出现了大量重置用户,如确实如此,可不处理,平台会定时处理该类数据,只需等待20分钟即可。

2.接口被官方反爬,采集不到数据了。需要升级采集代码,优化采集策略。

案例3

如下图,当前时间采集数据量中,只有一两个表采集到数据且长时间没有新表加入。

解析:其他表在当前时间都没有数据入库

原因及解决方案:

1.当前为定向采集时间,只采集指定类型的数据。正常,无需处理。

2.其他类型的数据解析过程出错。检查数据,查看是否会有超长数据,空数据出现,导致解析失败。如:前期采集到重置用户时,导致解析器报错,现已适配。

3.历史数据中已经存在了采集过的数据,数据没有新增。正常,无需处理。

4.个别表锁表。需要排查数据库,杀死死锁进程。

案例4

如下图,各机器整体阻塞较高

解析:该部分统计每个机器上面每一类程序的阻塞情况

原因及解决方案:

1.同一任务阻塞较高。该任务代码性能不足,需要升级代码性能

2.同一机器不同任务阻塞较高。该机器硬件不足,需要减少任务量或者升级机器性能。

案例5

如下图,机器处理任务不平均,有机器“偷懒”。

解析:该机器执行任务相对其他机器明显偏少

原因及解决方案:

1.机器硬件性能较其他机器低。升级机器,使用相同配置机器。

2.该机器处理任务较复杂。优化取任务策略,不同类型任务随机获取

3.该机器的进程假死。需要重启该机器上运行的进程。

案例6

大屏数据更新正常,处理任务正常,但是数据增量较慢。

解析:数据增长较慢,但是处理任务速度正常,应该怀疑是否是由于丢数据引起

原因及解决方案:

1.有数据未解析,直接跳过。需要排查未处理数据的类型。

2.锁表。需要手动释放锁,修改代码,所有的写操作均用主键ID

以上为这两个多月时间中,见过的一些常见案例,此类问题均由该监控大屏抛出,并以解决。更多抖音,快手,小红书数据实时采集接口,请查看文档: TiToData

python快手数据采集_抖音、快手数据采集,短视频监测大屏相关推荐

  1. 使用ffmpeg用图片批量合成抖音卡点短视频

    技术交流 使用ffmpeg用图片批量合成抖音卡点短视频 ffmpeg工具准备 图片和音乐文件准备 ffmpeg命令行合成图片 短视频合成的效果 使用ffmpeg用图片批量合成抖音卡点短视频 近期在研究 ...

  2. 一人一天,如何开发一个抖音级的短视频?

    7 月,抖音全球日活跃用户 1.5 亿,月活跃用户突破 5 亿,其活跃程度及用户粘性概括为「抖音五分钟,人间两小时」.毫无疑问抖音是 2018 年最火应用之一.抖音的火爆,不仅意味着垂直短视频可以获得 ...

  3. ffmpeg 缩放算法_抖音快手短视频分屏怎么做?ffmpeg scale过滤器了解下

    原标题:抖音快手短视频分屏怎么做?ffmpeg scale过滤器了解下 引言 我们每天都在使用的抖音,快手,西瓜视频等APP,里面有为数众多的视频文件.对于这些文件,我们需要考虑各个手机厂商的品牌手机 ...

  4. 抖音这样拍摄短视频,能让你轻松上热门涨粉丨国仁网络资讯

    哪些动辄几十万.上百万点赞的抖音小视频怎么拍的?为什么同样是十几秒小视频,他们拍的又好看又酷炫,而自己拍的--一言难尽? 抖音最开始是以热潮的音乐加上炫酷的特效起家的,发展到现在依旧还是有很多的特效视 ...

  5. “内卷化”的快手与抖音——2020年短视频的“无聊经济”往何处去

    文|编程浪子 来源|螳螂财经(ID:TanglangFin) 2020年新春伊始,快手以10亿红包和30亿左右的合作费在十余家的竞争下艰难拿下春晚,随之而来迅速蔓延的疫情带来的"无聊经济&q ...

  6. 抖音python课程价格_抖音上经常刷到的Python、课程

    查看: 433|回复: 16 [已解决]抖音上经常刷到的Python.课程 电梯直达 发表于 2020-5-6 21:26:02 | 只看该作者 |倒序浏览 |阅读模式 马上注册,结交更多好友,享用更 ...

  7. 抖音python课程价格_抖音

    权限列表[抖音] ● (基于网络的)粗略位置 访问粗略的位置源(例如蜂窝网络数据库)以确定手机的大体位置(如果可以).恶意应用程序可借此确定您所处的大体位置. ● 精准的(GPS)位置 访问精准的位置 ...

  8. python爱意满满_抖音ohbaby你就是我最想要的是什么歌 歌曲分享

    抖音ohbaby你就是我最想要的是什么歌?本篇文章小编给大家分享一下这首歌,对此感兴趣的小伙伴们可以来看看. ohbaby你就是我最想要的是什么歌 据悉这首歌乃是由排骨教主演唱的歌曲<非你不可& ...

  9. 使用python + Fiddler爬取抖音用户下所有视频

    1.下载Fiddler 2.设置fiddler_FiddlerScript 加入以下内容H:/baidu  为json数据保存的文件夹 3.打开你要下载的抖音用户详情页面,右上角三个点,分享主页,复制 ...

最新文章

  1. python数据导入一个列表_Python基础数据类型list 列表
  2. Python入门100题 | 第059题
  3. python教程:关于 [lambda x: x*i for i in range(4)] 理解
  4. 一卡通大冒险(hdu2512)
  5. python列表转换成数字_Python中列表元素转为数字的方法分析
  6. web报表工具FineReport使用中遇到的常见报错及解决办法(三)
  7. 抓包工具 for Mac之paros
  8. 软件测试论坛_进阶测试攻略——价值驱动的软件测试
  9. 如何用猿大师播放器把海康威视硬盘录像机截取MP4视频在web页面上回放?支持本地和远程视频吗?
  10. 羊毛之家,青龙脚本,几乎全部可用
  11. android rom打包解包工具,Android ROM定制:boot.img、recovery解包打包
  12. linux编程 定时器,Linux 定时器编程
  13. 《惢客创业日记》2019.05.18(周六)视频通话后的一个创意
  14. 低多边形,通过PS制作低多边形图形
  15. NVIDIA NCCL 源码学习(八)- 数据通信链路transport的建立
  16. python 中numpy.randon.seed()方法的理解和应用
  17. Vue实现省、市、县三级联动
  18. w ndows7怎么安装,《联想Y460在Wndows7系统下完美安装XP系统的方法.doc
  19. VB生成二维码图形的控件,CSDN利用盗版卖卖会员44积分赚钱
  20. 用bat执行ps1脚本

热门文章

  1. cad计算机忘了保存,win10系统忘记保存cad文件怎么找回
  2. Excel统计关键词在一个句子/单元格的出现次数
  3. 【JavaSE】面向对象(下)(311~365)
  4. html游戏加载不出图片吗,网页图片加载不出来
  5. Android实现类似ios滑动按钮
  6. 再生资源回收市场竞争分析
  7. 7-11 冰岛人 (25分)
  8. jQuery打飞机游戏代码下载
  9. 索引 第1关:用create index创建索引
  10. 2.点阵/晶面/晶向