声明:本篇仅基于兴趣以及技术研究而对B站曾经发生过的抢楼事件背后相关技术原理进行研究而写。请不要将其作为私利而对B站以及B站用户体验造成影响!谢谢合作!若本文对B站及其用户带来困扰,请联系本人删除本文。

  虽然说是技术研究,但实际上并没有什么太深的东西在里面,你只需要懂一点http协议的请求格式、懂python、会使用python requests package就能完成这个简单的任务了。

  如果你不懂python,还是先简单了解一下配置环境以及语法再来继续下面内容。

  好了,如果你想要简单浏览并了解一点http协议知识,可以试试阅读这两篇:https://blog.csdn.net/a19881029/article/details/14002273、https://blog.csdn.net/Stream__/article/details/78604937。

  关于本文使用的python库:见 http://docs.python-requests.org/zh_CN/latest/

  开始吧。

  首先你肯定得有一个浏览器,我推荐Chrome —— 个人喜好。最好还有一个PyCharm或者其他python编辑器,如果你只喜欢用python自带的命令行工具也行。

  然后说一点,现在B站为了防止抢楼,把番剧下所有视频的评论区都合并了(一些番剧貌似并没有这样做,例如哆啦A梦),以前每一个视频下都会有对应的评论区,现在所有视频的评论全部在一起的。。。所以现在就算要抢也只有对新番第一集抢楼可能才有‘意义’了。

  然后有许多语言工具都可以进行B站的抢楼,比如使用python+phantomjs+selenium、js、Java、C++等,由于我学习能力与水平有限,没用过js、Java进行过爬虫,C++的话自己正在仿照python的requests决定尽力写一个好用的C++ http库。

  嘛,这篇还是相当于用便利的requests来做一个爬虫小教学以及学习如何使用除get外的http动词。

  工具都准备好了,让我们进入主题吧:

    这里随便选了一部老番《D.C.Ⅱ S.S.》又称《初音岛》作为测试。

    来到番剧剧集页面,先F12准备监控一会儿发送请求服务器返回的数据包:

    当我们要进行这个任务的时候,我们必须要先知道:我们该向什么地方发送的请求?难道就直接对番剧页面发送就可以了吗?如果有做过网站的经验就会知道,一个网站的前端展示页面基本上都是通过 js + ajax 等通过后台的业务逻辑调用数据库中的数据加载到对应的jsp文件中的html标签中自动生成的。比如评论区,肯定有一个 post 的API接口来接受用户发送的数据,并将数据存入到数据库中,然后展示页面 + js + 数据库 + 后台业务逻辑等一套服务,最后我们用户才能在前端中看到丰富的内容,才能看到实时更新的数据,说实时更新不太对,但总之你每次刷新页面,网站后台就会做这些事情。

    这些有什么用呢?至少我知道了当我在B站评论区编辑好要发送的消息并点击发送评论的时候,肯定是通过一个特地编写好的接口来post data,而这个post接口的url会在我们点击按钮的动作后显示在浏览器的网络监控中,所以,我们要找到这个接口的url就要先发送一个消息试一试:

    最好就是在浏览器加载完该页面的数据后按F12打开监控台,这样比较干净,点击发表评论后,很快就可以注意到我们的动作的回馈,点一下看看内容:

    显然,它是通过http post动词来提交的,从中我找到了这个add接口的url:

    到这里已经可以宣告结束了。注意到Request Headers中就是我们需要自定义添加的请求头内容,然后,很关键的地方就是发送内容,它一般在Chrome监控台最下面:

    oid对应当前视频的av号,这样才能确定是对哪一个视频进行的评论,可以在视频页面这里获取它:

    这里type的含义不重要,message显然是我们要发送的东西,注意message如何是中文,那么将会进行url编码,可以参考:http://www.w3school.com.cn/tags/html_ref_urlencode.html

    后面几个除csrf外的含义在这里也并不重要。。。

    ps:刚才我对新番Comic Girls用同样的csrf试了一下,成功了:

    B站评论区效果:

    但其实我更觉得比较侥幸的是,B站的发送评论并没有做非常复杂的验证...我们在python中使用它们:

data = {'oid': '2458871','type': '1','message': 'test~','plat': '1','jsonp': 'jsonp','csrf': 'da9c3263c011ee0969ce383e8d799f05'
}

    然后利用浏览器中的Request Headers写好我们的请求头:

headers = {'Accept': 'application/json, text/javascript, */*; q=0.01','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9','Connection': 'keep-alive','Content-Length': 'xxx',    # 这里对应的就是我们的data数据的长度'Cookie': 'xxx','Host': 'api.bilibili.com','Referer': 'https://www.bilibili.com/bangumi/play/ep86125','User-Agent': 'xxx',
}

    这里上面注释中的长度可以这样获取,来到浏览器:

    点击蓝色区域变为:

    当然你可以肉眼一个个字符的数,但我还是选择复制一下这段字符串,然后到粘贴到PyCharm中,选中粘贴上去的那段字符串,然后蓝色框住的部分就是字符串的长度,也就是这里我们的Content-Length的长度:

    但这是测试过后得到了add中的data信息才能知道长度,如果对一部没有add信息的视频,还是自己将data转换为浏览器中的拼接参数格式的字符串,然后用python len算一下字符串长度:

s = str(data).replace(': ', '=').replace(',', '&')\.replace('\'', '').replace(' ', '')\.replace('{', '').replace('}', '')
content_length = len(s)
print(s)
print(content_length)

    或者直接len(str(data)),因为Content-Length对于填写并不严格,但虽然Content-Length对于填写并不严格,但就算随便填写长度也必须要比实际长度大,因为这样从推断上请求内容就应该是损坏的。而且注意一些字符以及中文字符的url编码格式,比如空格的为%20,但基本上都是%xx的格式,看url编码格式中英文字符也是%xx,但实际上也并不需要编码,所以长度需要注意下。。。

    删除这段字符串,开始使用requests post:

r = request.post(url, data=data, headers=headers, timeout=1, )
print(r.status_code)
print(r.json()) # r.text

    值得注意的一点是,有些接口的请求内容是data参数,data参数仅仅就是转换为字符串,而还有一些接口的请求内容格式是json,这时就只需要将参数data改为使用json即可:

r = request.post(url, json=json)

    详细的可以对准post方法 Ctrl + 左键 看看源码可能会更有帮助。

    ps:扩展一下,这里以上面的client发送post请求为例,它的http请求格式是这样的,其中c表示客户端,s表示服务端,(:)表示开始,(:!)表示结束:

c >>                           POST /x/v2/reply/add HTTP1/1\r\n
c >>(Request headers:)        User-agent: xxx\r\n
c >>                          Accept: application/json, text/javascript, */*; q=0.01\r\n
c >>                          Accept-Encoding': 'gzip, deflate, br\r\n
c >>                          Accept-Language': 'zh-CN,zh;q=0.9\r\n
c >>                          Connection: keep-alive\r\n
c >>                          Content-Length: xxx\r\n
c >>                          Cookie: xxx\r\n
c >>                          Host: api.bilibili.com\r\n
c >>                          Referer: https://www.bilibili.com/bangumi/play/ep86125\r\n
c >>(Request headers:!)       \r\n
c >>(body:)                  oid=xxx&type=1&message=xxx&plat=1&jsonp=jsonp&csrf=xxx...\r\n
c >>(body:!)
s >>(:)
...
s >>(:!)
...

    注意请求格式以及整个过程底层做了哪些事:

      1.请求方法与请求资源路径之间有空格,资源路径与协议版本之间有空格每一句后面加上\r\n,一个换行符一个换行表示该行结束;

      2.请求头中key与value之间有冒号,冒号后面一定要加上空格,最后一个换行符一个换行表示该行结束;

      3.请求头的结束输入以一行\r\n表示结束;

      4.请求头结束后的下面才是请求body部分;

      5.请求body结束以后,后面就是服务端返回的响应格式内容;

      6.最后再返回请求的资源。

    到这里,这样就完成了发送评论。

  既然我们可以发送评论,那么我们又如何通过代码来删除呢?

  我们先在页面中删除一条刚才对视频的评论测试一下,找到删除的接口:

  可以看到B站删除的接口为:https://api.bilibili.com/x/v2/reply/del,而且也是通过post的方式进行的。

  再看看发送删除请求需要什么内容:

  注意到 rpid ,这不就是刚才发表评论时返回的json中出现过的吗,于是按照之前的发送方法,再通过删除接口写一个删除的方法:

  由于之前发送的已经被删除了,前面的补充中还测试过《Comic Girls》,所以这里用她来做删除测试:

from requests import Sessionrequest = Session()url = 'https://api.bilibili.com/x/v2/reply/del'data = {'oid': '21683499','type': '1','rpid': '788555414','jsonp': 'jsonp','csrf': 'da9c3263c011ee0969ce383e8d799f05'
}content_length = len(str(data).replace(': ', '=').replace(',', '&').replace('\'', ''))headers = {'Accept': 'application/json, text/javascript, */*; q=0.01','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9','Connection': 'keep-alive','Content-Length': str(content_length),'Cookie': 'xxx','Host': 'api.bilibili.com','Referer': 'https://www.bilibili.com/bangumi/play/ep86125','User-Agent': 'xxx',
}r = request.post(url, data=data, headers=headers, timeout=1, )
print(r.status_code)
print(r.json())  # r.text

  运行结果:

  B站页面上看看,发现没了:

  之前补充中发表的评论是:emmmm...

  对比一下楼层数也是正确的。其实我以为会用到delete动词的,但没想到B站的删除评论方法还是post。

  最后,实际上我写完之后发现我的方法有问题,首先,新番第一集的oid如何获得?或许可以想办法通过新番时间表来获取,我去新番时间表中找了找,但没看到给出oid的文件。。。所以还是需要从其他角度找找解决办法,我觉得可以考虑从主页上获取到新番信息的链接,因为记得新番在开播前会有提醒,可惜我以前貌似从来没有点进去看过会是什么样子的。。。但假如这时就已经有页面了只是没有集数也好办,就不停的检测页面的变化,如何发现有了oid那就同时发送消息,emmm...

  总之csrf目前应该可以固定不变的使用,只要找到oid,对新视频及时进行(qiang)评论(lou)的问题就解决了。

  还有许多细节还得要自己去体会~ 我一直想要下载B站的视频,但一直没能完成。。。

  2018-05-22 02:01:08 ps:关于如何获取csrf,可以参考我这篇中最后提到的方法。

  # 额外花絮。。。

  之前不太懂的时候,我很sb的试过这样写:

from requests import Sessionrequest = Session()url = 'https://api.bilibili.com/x/v2/reply/add'data = {'oid': '2458871','type': '1','message': 'test~','plat': '1','jsonp': 'jsonp','csrf': 'da9c3263c011ee0969ce383e8d799f05'
}r = request.post(url, data=data, auth=('user', 'pw'), timeout=1, )
print(r.status_code)
print(r.json())  # r.text

  显然被残酷的拒绝了:

  因为这个接口并不是用于登录的接口,所以肯定不可能登录上的。。。

转载于:https://www.cnblogs.com/darkchii/p/9055353.html

python学习 —— post请求方法的应用相关推荐

  1. python画春节_过年,大家都在集五福,程序员整理了2018年python学习路线及方法...

    Python是一种解释型.面向对象.动态数据类型的高级程序设计语言.Python由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年.像Perl语言一样, Pytho ...

  2. python中的请求方法_Python爬虫HTPP请求方法有哪些

    HTTP请求方法 GET:请求指定的页面信息,并返回实体主体. HEAD:类似于get请求,只不过返回的响应中没有具体的内容,用于获取报头 POST:向指定资源提交数据进行处理请求(例如提交表单或者上 ...

  3. python中的请求方法_http协议的9种请求方法

    http协议的9种请求方法 在http/1.1协议中,定义了8种访问指定资源的方法,他们分别为 OPTIONS GET HEAD POST PUT PATCH DELETE TRACE CONNECT ...

  4. Python 学习7-魔方方法

    十.魔方方法 魔方方法总是被双下划线包围(如__init__),魔方方法是面向对象的python的一切 魔法方法的第一个参数应为cls(类方法)或者self(实例方法) cls:代表一个类的名称 se ...

  5. Python学习之魔法方法

    什么是魔法方法? 在Python中,有的方法的前后被双下划线所包围,这就是魔法方法,这些方法会在特殊的情况下被调用,而不用显示调用. 其中,Python中最常见的魔法方法便是构造方法_init_,同样 ...

  6. Python学习笔记_4学习Post请求方法/以搜狗翻译接口为例#以及嵌套字典的取值问题

    import requests import json import types def dictget(dict1,obj):#嵌套字典中取目标值for k,v in dict1.items():i ...

  7. Python学习 14 魔法方法

    文章目录 1.基本的魔法方法 2.算术运算符 3.反算术运算符 4. 增量赋值运算符 7.描述符 8.定制序列 9.迭代器 10.生成器 练习题 1.基本的魔法方法 2.算术运算符 3.反算术运算符 ...

  8. 少说话多写代码之Python学习016——get方法练习

    前面看了get的基本使用,我们再使用get进行练习,做一个建议的数据库查询功能. 代码如下, 初始化people对象,我们当作一个简易数据库使用.通过数据的参数打印出指定的值. people ={'刘 ...

  9. Python爬虫-关于HTPP请求方法有哪些

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:砸漏 ( 想要学习Python?Python学习交流群 ...

最新文章

  1. python卸载opencv_怎么为python安装新版的opencv模块-百度经验
  2. swift禁用webView对H5中数字,链接,日期,地址,电话号码做解析
  3. SitemapBaiduspider
  4. java中菜单分几级_JAVA构造多级菜单
  5. 四川对口高职本科学校计算机,2018四川对口高职本科学校有哪些
  6. php 把一个数组分成有n个元素的二维数组的算法
  7. CSS 让数字滑动显示
  8. 一加Nord 2外观渲染图曝光:小号“一加9” 价格有惊喜
  9. 电脑软件怎么卸载干净_软件分享(一)【电脑】软件卸载工具
  10. 单应性变换、仿射变换、透视变换
  11. 数据库系统概论第五版(第 5 章 数据库完整性)笔记
  12. 鸿蒙媒体子系统解读-编码录像流程解读
  13. Https网站中请求Http内容
  14. 电脑读取不U盘,在磁盘管理器中显示“无媒体”解决方法
  15. 找一份好工作只需要这几招
  16. Google Play上架App设置隐私政策声明问题
  17. macOS终端命令行配置网络代理
  18. LightOJ 1395 A Dangerous Maze (II) (概率dp)
  19. QTableView中添加icon
  20. 将文件保存到fpga

热门文章

  1. 卸载Resharper
  2. Excel的使用心得与技巧
  3. Spring-IoC概念
  4. oracle12c cdb修改,Oracle 12C CDB字符集修改
  5. 检测ip是否为中国php,PHP判断IP是中国IP还是外国IP
  6. JAVA简单计算器(简单实现两数加减乘除)
  7. sql盲注 解决_sql盲注-和sql盲注相关的内容-阿里云开发者社区
  8. An error occurred: Cannot write to '/opt/apache-jmeter-5.2.1/bin/jmeterRes/Report1' as folder is not
  9. 修改IE临时文件夹(缓存)路径
  10. DSP28335入门教程:寄存器手册的下载