这个小玩意源于上周在研究Azure的时候,发现云服务厂商都在推荐轻量级的存储队列服务,用来取代原有的比较重的消息队列服务
具体来说,比如阿里云就推荐使用消息服务替代消息队列
在Azure中,就有一个轻量级的存储队列(Storage Queue)可以替代服务总线(Service Bus)

简单试用了一下Azure的Storage Queue后,发现这玩意很好用,于是决定全面的深入研究一下,再将公司电商系统内的相关任务处理均重构成使用存储队列服务,而深入研究得找个案例呀,于是就想到了做个分布式爬虫,此类应用会出现大量的任务场景,而正好前段时间下载B站视频时,找到一个网站,叫唧唧下载(搞二次元的都是色情狂吗?),但又不太好用,于是决定就做个比较全面的B站视频爬虫。一方面可以方便的下载视频,另一方面还可以当做公司开发人员的教学案例

老规矩,还是先看下最终的使用效果,应用入口:https://www.alphams.cn/LT,(为了防止滥用下载以及记录下载,所以还麻烦注册一下啦

输入视频番号,点击下载,就进入任务界面

任务界面可以看到视频信息实时下载信息,和错误信息

任务处理完成后,点击立即下载,从一个CDN加速的地址得到了视频


那么下面就把本次的开发和实施流水账记录一下

1、首先是准备工作和可行性调研

想要对B站进行爬虫,首先要准备好技术手段和相关工具,对B站的网站结构和数据流向进行一些分析,进行可行性的调研

首先打开B站任意一个视频,可以看到地址都是这样的格式

于是我们把AV后面的号码叫做番号(此番号非老司机番号)

而有些视频不止一段,如果是第二段视频,则是这个地址:

而如果把Index后面的2换成1,也可以达到和第一个地址一样的效果

然后用Fidder工具,分析一下网页,可以看到有如下一些资源

剔除基本的JS文件、CSS文件、图像文件后,剩下来的就是一些有用的信息了,而在有用的信息中最终筛选出如下几个信息

1、AID是视频的番号,也就是网址URL后面的那串唯一数字

2、CID是弹幕的番号,每个视频AID会对应一个CID

3、弹幕的信息存储在了这样的URL中:http://comment.bilibili.com/15075110.xml

4、视频的信息存储在了这样的URL中:https://interface.bilibili.com/playurl?cid=15075110&appkey=84956560bc028eb7&otype=json&type=&quality=3&sign=c070bfd93a84cab542e7c874add6839e

因为本次主要是下载视频,所以就着重看一下视频存储的信息,打开上面的URL后发现了最终视频的地址

太好了,一下子就给了视频尺寸视频最终的下载地址,那么我们用浏览器打开一下这个URL看一下,可以成功下载

注:以上相关分析实际上是经过了1-2个小时的反复尝试和模拟得出的,有2个细节补充一下,1、B站的服务器会根据HTTP头信息的不同返回FLV格式或者MP4格式,2、B站的视频可能用了不同厂商的CDN服务,有些视频地址无法直接下载,会判断refer信息和浏览器信息

接下来继续分析,注意看这个URL可以发现,尾部有一个sign,说明做了客户端和服务端的签名验证,并不是很傻瓜的有直接通过AID或者CID关联的下载地址,分析进入到这一步后,我很快的就打了自己的脸,我曾在文章《关于.NET玩爬虫这些事》中说过,一切网站行为都可以分析出HTTP+Javascript来,只要分析得当,根本不需要用浏览器来进行爬虫模拟,但这尼玛B站鬼的Web结构(忍不住想骂人,典型的垃圾Python、PHP向的开发人员做出来的鬼东西,代码逻辑混乱、随便一看就是到处修补修改的痕迹,生成出来的HTML、JS的逻辑和层次毫无美感),看了2个小时,眼睛都看疼了,楞是没分析出签名方法,也许再看看会有结果,但是我等不及了,所以这时候祭出爬虫神器-无头浏览器

这里我选择了PhantomJS这个无头浏览器,具体的使用过程就不详述了,有兴趣可以到官网了解一下

http://www.cnblogs.com/printhelloworld/p/6944343.html

转载于:https://www.cnblogs.com/softidea/p/6958008.html

云服务厂商都在推荐轻量级的存储队列服务,用来取代原有的比较重的消息队列服务...相关推荐

  1. oss客户端工具_云享会 | 沃云公有云重点产品推荐:文件存储NASamp;对象存储OSS...

    云享会沃云·公有云重点产品推荐系列 第二期:文件存储NAS和对象存储OSS 还在傻傻分不清文件存储NAS和对象存储OSS? 同样是存储类产品哪个更适合你? 马上为你解答! 文件存储NAS和对象存储OS ...

  2. 转动“魔方” 探秘融云消息管理服务先进性

    科技正在改变着人们生活工作的通信交流方式和习惯.层出不穷的社交应用和消息新玩法,这背后是像融云这样的互联网通信云服务商在技术和服务领域的不断革新及推动.近期,融云在"ALL IN" ...

  3. posix自己搭建消息队列_蘑菇街消息系统上云实践

    小编又来啦-本周要推荐给大家的是一篇跟中间件上云相关的技术文章,这里面详细的记录了,蘑菇街自研消息系统上云的全过程,也是市面上开放出来为数不多的企业自研组件上云实践.有相关需求的同学可以好好学习下. ...

  4. 消息队列MQ/JMS/Kafka,你都了解吗?

    点击关注公众号,回复"1024"获取2TB学习资源! 是不是平常听到说消息队列啊,JMS啊,MQ啊 .kafka啊巴啦啦的一堆术语,听不懂?关系混乱?今天就让我们来一起来看看他们都 ...

  5. 厚积薄发--一文带您了解阿里云 RocketMQ 轻量版消息队列(MNS)

    作者: 周新宇&陈涛&李凯 阿里云 RocketMQ 轻量版(MNS)消息队列是一个轻量.可靠.可扩展且完全托管的分布式消息队列服务.MNS 能够帮助应用开发者在他们应用的分布式组件上 ...

  6. ACA云原生5消息队列MQ和PTS\ARM等工具

    1 企业级微服务架构分析 1.1 企业应用评判指标 核心指标 1)高可用:内部组件损坏或外部资源不可用时,有充分的应对措施 2)高并发:可承受并发访问量大,能应对瞬间激增的访问量 3)高性能:应用消耗 ...

  7. 消息队列MQ/JMS/Kafka,你都了解多少?

    今日推荐isEmpty 和 isBlank 的用法区别,你都知道吗?SpringBoot项目优化和Jvm调优(楼主亲测,真实有效)国内大神成功给手机装上了 Win11,代码已开源!Fluent Myb ...

  8. 微服务架构 之 互联网项目架构演变过程 (单点架构,模块化架构,分布式架构,soa架构,微服务架构)

    一.什么是单点系统(传统架构)? 1.传统的SSH,SSM 架构,分为三层架构 web控制层.业务逻辑层.数据库访问层. 2. 传统架构也就是单点应用,就是大家在刚开始初学JavaEE技术的时候SSH ...

  9. 消息队列设计的精髓基本都藏在本文里了

    当今市面上有很多主流的消息中间件,如老牌的ActiveMQ.RabbitMQ,炙手可热的Kafka,阿里巴巴自主开发的Notify.MetaQ.RocketMQ等.本文不会一一介绍这些消息队列的所有特 ...

  10. java使用mq教程,Java语言快速实现简单MQ消息队列服务

    使用 JAVA 语言自己动手来写一个MQ (类似ActiveMQ,RabbitMQ) 主要角色 首先我们必须需要搞明白 MQ (消息队列) 中的三个基本角色 Producer Broker Consu ...

最新文章

  1. 【camera】5.相机内嵌图像处理(ISP)介绍
  2. java程序通过命令行运行之Path和ClassPath的注意点
  3. linux计算脚本执行时间,linux – 计算shell脚本每一步的时间并显示总执行时间
  4. Leetcode 147.对链表进行排序
  5. 探索startActivity流程及在Activity间是如何传递Intent的
  6. Unix 多进程编程
  7. 动态获取textarea后面的p标签_HTML简单标签连起实现的小玩意:
  8. JQuery和php方面的填空题,PHP复习题(问答题)
  9. [转]OpenGL超级宝典 5e 环境配置
  10. NumPy学习笔记之zeros_like()函数(包含zeros函数)
  11. python萤火虫算法_一种萤火虫算法优化神经网络的短期负荷预测方法与流程
  12. 计算机专业复试离散数学,考研复试没头绪?计算机考研复试的同学看过来
  13. 介绍一款网页翻译插件
  14. HTML 日期格式转换
  15. Packet Capture手机端app抓包工具
  16. itest(爱测试) 4.3.1 发布,开源BUG 跟踪管理 amp; 敏捷测试管理软件
  17. 信呼协同办公系统-存储型XSS漏洞
  18. MATLAB | 经典力学框架下的三体运动数值模拟软件
  19. WiFi 信号强度和网速有关系吗?
  20. 以太坊solidity智能合约-生成随机数

热门文章

  1. httpd在嵌入式中应用
  2. 把一个SVN项目的目录结构 导入到另外一个空白的SVN项目里
  3. MFC中 使用Tab Control 控件在对话框中添加属性页
  4. jQuery性能优化指南(2)
  5. thinkphp5--多文件入口设置
  6. redis知识点及常见面试题
  7. Ubuntu Server 配置网络
  8. java.lang.NoClassDefFoundError: org/springframework/dao/support/DaoSupport ...
  9. 【原创】在Windows 环境下利用SVN和Apache以及Ankh配置源代码管理服务
  10. HDU-3072-IntelligenceSystem(tarjan,贪心)