某抑云评论的获取思路及实现
文章目录
- 前言
- 分析
- 总结
前言
网抑云评论区个个都是人才,这里的人说话又好听,我超喜欢这里的。
把评论抓取下来方便练习网抑,又练习了爬虫,一举两得
好,网抑开始
分析
首先,第一步肯定是打开网抑云网页,找到一首歌
歌曲下面的内容为评论,我们要获取的就是评论。
查看网页源代码,看看评论是否存在于源代码中,经过搜索,发现评论内容并不存在于源代码中,这时就需要使用浏览器的F12开发者工具了。
选项调到network,重新加载网页,寻找和评论相关的数据,发现在get链接中存在评论内容
再观察该链接的Headers
根据信息写出第一版脚本
import requests
import jsonurl = "https://music.163.com/weapi/comment/resource/comments/get?csrf_token="data = {'params': 'HpF+XPoFUsMj/Na79aMOIkUiRv988lVYmEFtskIGIkapDFKGQ1cMZ1thM+z+wOOjD9T7xHEn1RIprG/4Hig1JnjoE9b6ba34O1EQOZdk1/SojzFWmCjyOFF1SQILZC7lDoQiLR8fI76PiH0fzNWUyD7rjZnsgU7zt8GD+EvfLZGjUrjn+VCy8f9htBU3wJKNsFDq8qXe6k/8lTDrwxbQfFustll3Zfd5NpVHO77vTprn3lz5RWVPutlZsvc7NxPeMIyTt5tABjg7FlawpX8j2TiGt0HjukQXagnu8Ev/4J8Ox+2Oar3hnA0W3G0riUJaZQi5xlxhdTxtcPP4wtLzfsJOi8V2B5DhTFjQo53ujC0=',
'encSecKey': '1d1d8553270497244b0952974b1f46de6f5a746c5a931b3be0b565a15bcaccf5d9a03d6a709d925b9812d044ff49137601edf698bb1a89b5eb3fbf22af18fbc3b88b9fb3de52d5ca4dbd7cd384a8d7a403735dc688513d4f05aa4522f8bb63f28055db77d15fbdbec3f3d5f751920b9f0ef91f7cd15c551a52e18c47fcf5a12d'
}headers = {'referer': 'https://music.163.com/song?id=1404722668','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}res = requests.post(url, data = data, headers = headers)
#print(res.json())comments_obj = json.loads(res.text)
for i in range(0,20):nickname = comments_obj['data']['comments'][i]['user']['nickname']content = comments_obj['data']['comments'][i]['content']print(nickname + ':' + content + '\n')
获取到的评论内容
做到这时候突然发现好像有什么不对,回头再看看Preview返回的内容,只有20条评论,对比一下网页中显示的,每页显示的评论数正好是20
那么问题来了,我们要怎么获取所有的评论呢,点下一页看一看。
转到post提交的数据,发现和第一次的有些不同
经过对比,数据果然发生了改变
推测发送的数据params和encSecKey会通过服务器进行校验解密然后返回数据,在这之间一定会有加密过程存在,开始通过Initiator调用栈进行分析
首先跟踪最上层
设置断点
刷新网页,不断运行,直到断到https://music.163.com/weapi/comment/resource/comments/get
链接上
查看data数据,发现是params和encSecKey拼接形成的
进行栈回溯查找,发现u0x.be1x中含有疑似原始数据
经过不断尝试,发现在执行window.asrsea
这个函数前数据属于未加密状态,执行后变为加密数据
原始数据内容
csrf_token: "0fa785ecaed03aee0c1b9d20497d5a92"
cursor: "-1"
offset: "0"
orderType: "1"
pageNo: "1"
pageSize: "20"
rid: "R_SO_4_1404722668"
threadId: "R_SO_4_1404722668"
加密后数据
"params=vSIU7AHhdAImi%2FIDffKGZld9LLIMjY2L5qaO9LhutSLsRUdeXTmVzXzQ0o9rrO8OIpRQ36VDqF2T%2FhjcaL8lJmTX2mNTZ3jwlVfyUlqyUbPJ8eZ6HsBRV%2FhhCL08g2q%2BfnM9B6uXgUu%2F8Jg9Br2aDgxF0j7oQqyObKxSDzzHipCwaUpkHUqgWRfDFD7z2Fm%2FpMENZafgNS3DIEu6yfqb8Z8cJdmGokVX6PbfyfZmmnlk%2FYmLEYZyGHloKJTALpl%2FlhO17KtIOgYI3o6SmPvUFV7sKM9bF%2B6reMWNSRVlfcw69vx94j%2Fjmm74Opomn%2BqXAQaM1sLSfGUCNh5XL6xioG33ew%2FrRgFFwzF%2Fexbe%2BfQ%3D&encSecKey=36c1ac512ec8e631949ebdaec4852dbe0e752d6b4f7f748e7561034e18cf0368fff53ea1e7ace3fc8134521062294cb96f30243bd71c3fe044097a2f4daeff2da95b68d1fe843685a88d7dbb35871f200d70b57ef43cde2d14f72c41ecf703635d806f7cc2d9fc95113fac08f53869183692bc28bc89455eb35d9b31acdcf8d1"
找到了原始数据和被加密的数据,那么就来看一下它的加密函数是怎么实现的
搜索windows.asrsea函数,看看是怎么实现的
windows.asrsea = d
,发现和上面的a,b,c,d函数有关,下面来分析一下
#获取一个随机数
function a(a) {var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = "";for (d = 0; a > d; d += 1)e = Math.random() * b.length,e = Math.floor(e),c += b.charAt(e);return c}#对数据进行AES加密
function b(a, b) {var c = CryptoJS.enc.Utf8.parse(b), d = CryptoJS.enc.Utf8.parse("0102030405060708"), e = CryptoJS.enc.Utf8.parse(a), f = CryptoJS.AES.encrypt(e, c, {iv: d,mode: CryptoJS.mode.CBC});return f.toString()}function c(a, b, c) {var d, e;return setMaxDigits(131),d = new RSAKeyPair(b,"",c),e = encryptedString(d, a)}
function d(d, e, f, g) {var h = {}, i = a(16); #i是一个随机数return h.encText = b(d, g), d = 原始数据,g是定值h.encText = b(h.encText, i),h.encSecKey = c(i, e, f),h}
四个参数
d: "{\"rid\":\"R_SO_4_1404722668\",\"threadId\":\"R_SO_4_1404722668\",\"pageNo\":\"1\",\"pageSize\":\"20\",\"cursor\":\"-1\",\"offset\":\"0\",\"orderType\":\"1\",\"csrf_token\":\"0fa785ecaed03aee0c1b9d20497d5a92\"}"
e: "010001"
f: "00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7"
g: "0CoJUm6Qyw8W8jud"
e,f,g三个参数都是定值,唯一有变动的就是d
function d(d, e, f, g) {var h = {}, i = a(16); #i是一个随机数return h.encText = b(d, g), d = 原始数据,g是定值h.encText = b(h.encText, i),h.encSecKey = c(i, e, f),#i是定值,encSecKey就是定值h}
分析函数d,只要i不变,encText和encSecKey就会是一个确定的值,当i = xhuWOhpLu26crPWm时
encSecKey: "09da75759838ea6296607c642fceaae610a0a54f2c8c6747e7336c1b2e88db8bbccd4a6add24520fd7eaad4d78b2e6261254cabd3ece07132030f2072bdf6a16fae99c387e82e1d18d641f3163bb7026fb58a2d2c531a31940b6fd45fb700ac14871305eeb79131a854a20b692e320c8fc8f6a2f8808291afed5a5cdabfc424f"
encText: "7i800NiAyzVreefGPMN7V+JWPvpswF2/db5DDJ6bDnCYaXRcNgMw2e9F/Ry5KVk/WyfOfK2JfPQvwbvQK1K3LWl2eSzZ09SVR+LAYGIfMnwl5aV6h9QFkX4vYLsSL+Qf4TQ53O971Gu/owtcITkqzn3Sspl1rQlJo1dKpomVMLvInvtCACpK5aYyn8TnVmesBH/2ZtylwdRxMAanTloa24ApRPtObxocitUN9ws4afN8DdnTYI+T4iND/72MfSu4/8+j/ttl7AYW10ZW66UrJzeoidZK570pgOXRGl0CAv4FfX/Gt4MC5NOJTmUV/NnbsE433nxqj20ZC+aw5wGFd2EqiYQN51LtuhZaLRs01SY="
encSecKey = c(i, e, f),i = xhuWOhpLu26crPWm ,encSecKey 就为下面的值
encSecKey = "09da75759838ea6296607c642fceaae610a0a54f2c8c6747e7336c1b2e88db8bbccd4a6add24520fd7eaad4d78b2e6261254cabd3ece07132030f2072bdf6a16fae99c387e82e1d18d641f3163bb7026fb58a2d2c531a31940b6fd45fb700ac14871305eeb79131a854a20b692e320c8fc8f6a2f8808291afed5a5cdabfc424f"
encText是进行了两次AES加密得到的值,我们先用代码实现一下看看是否能根据传入的数据得到上述encText的值
在使用python AES加密的时候踩了坑:
1.不知道AES加密后的数据还需要使用base64进行编码
2.AES要加密的数据不足16位补位方式不同的问题
查找了一些文章帖子问题才得以解决
https://www.52pojie.cn/thread-1166953-1-1.html
https://blog.csdn.net/baidu_36831253/article/details/95630076
https://blog.csdn.net/BigBoy_Coder/article/details/106815637
根据分析逻辑,最后得到了确定的encText
代码如下:
from Crypto.Cipher import AES
from binascii import b2a_hex, a2b_hex
from base64 import b64encode
import jsondef to_16(data):pad = 16 -len(data) % 16data += chr(pad) * padreturn datadata = {'csrf_token': '','cursor': '-1','offset': '0','orderType': '1','pageNo': '1','pageSize': '20','rid': 'R_SO_4_1303289043','threadId': 'R_SO_4_1303289043' }data1 = "{\"rid\":\"R_SO_4_1404722668\",\"threadId\":\"R_SO_4_1404722668\",\"pageNo\":\"1\",\"pageSize\":\"20\",\"cursor\":\"-1\",\"offset\":\"0\",\"orderType\":\"1\",\"csrf_token\":\"0fa785ecaed03aee0c1b9d20497d5a92\"}"
def encrypt(data, key):key = key.encode('utf-8')mode = AES.MODE_CBCiv = b"0102030405060708"#iv = iv.encode('utf-8')data = to_16(data)cryptos = AES.new(key, mode, iv)encrypt_data = cryptos.encrypt(data.encode('utf-8'))b64_data = str(b64encode(encrypt_data), "utf-8")return b64_datadef main():key_g = "0CoJUm6Qyw8W8jud"#jdata = json.dumps(data)ecrypt_tmp_data = encrypt(data1, key_g)#print(ecrypt_tmp_data)key_i = "xhuWOhpLu26crPWm"ecrypt_data =encrypt(ecrypt_tmp_data, key_i)print(ecrypt_data)if __name__ == '__main__':main()
通过上述分析,我们已经可以构建data数据,然后发送加密的data数据到服务器,就会请求下来我们想要的评论内容了。
ps:很多请求的post数据都是通过windows.asrsea加密的
总结
文章主要记录分析思路和还原过程中遇到的问题,代码就不放了(ps:主要是嫌麻烦懒的写了)
某抑云评论的获取思路及实现相关推荐
- “网抑云”,缺的是梗吗?
点击"技术领导力"关注∆ 每天早上8:30推送 来源:燃财经(ID:rancaijing) "到点了,上号." "网抑云时间,兄弟们给我哭.&quo ...
- 爬虫实战系列(六):selenium获取网抑云《无滤镜》评论
声明:本博客只是简单的爬虫示范,并不涉及任何商业用途. 一.前言 网易云可以说是国内一个较流行的音乐平台了,作为一名云村老用户,今天还是忍不住向它下手了.由于QQ音乐评论爬虫的经验,我很快就在开发者工 ...
- 【爬虫+多线程+MySQL】网抑云音乐评论爬取
提示:本文仅作学习交流使用,下面案例可供参考. 文章目录 前言 一.爬取所有华语男歌手姓名及ID 1.网页分析 2.代码实现 3.部分运行结果 附:url详解 二.爬取所有华语男歌手专辑ID 1.网页 ...
- python爬取网抑云音乐评论
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.python爬取网抑云音乐评论 前言 提示:这里可以添加本文要记录的大概内容: python爬取网抑云音乐评论 提 ...
- [爬虫]网抑云音乐评论
[爬虫]网抑云音乐评论 前言 自打开网抑云之后,我久久无法忘记,是它才能带给我内心世界的波涛汹涌.我左手拿起它,右手放下它,一日复一日,我终于完成了<The Spider Of Music-16 ...
- 深夜爬虫, 我很抱歉 , 附爬取“网抑云”最详细的爬虫教程!
最近真的是被 网抑云 这个梗刷爆了,到处都是, 生而为人,我很抱歉,哈哈哈, 碰巧最近学习了一波微信公众号的爬取方式,想试一试, 特地在此献丑了.我是沙漏, 不定期更新爬虫教学, 其余时间学java和 ...
- 深夜爬虫, 我很抱歉 , 附微信 “ 网抑云” 公众号爬虫教程!
最近真的是被 网抑云 这个梗刷爆了,到处都是, 生而为人,我很抱歉,哈哈哈, 碰巧最近学习了一波微信公众号的爬取方式,想试一试, 特地在此献丑了.我是沙漏, 不定期更新爬虫教学, 其余时间学java和 ...
- 生而为人,我很抱歉!深夜爬虫, 我很抱歉 ,附微信 “ 网抑云” 公众号爬虫教程!
最近真的是被 网抑云 这个梗刷爆了,到处都是, 生而为人,我很抱歉,哈哈哈, 碰巧最近学习了一波微信公众号的爬取方式,想试一试, 特地在此献丑了.我是小何, 不定期更新爬虫教学, 其余时间学软件测试和 ...
- Python分析年度爆款“网抑云”热评,看看哪些文案触动了你的内心世界?
点击上方"蓝字",发现更多精彩. 前段时间,"网抑云"这个词很火,尤其是到凌晨十二点,"网抑云"时间到,便有很多网友在网易云音乐上有感而发, ...
最新文章
- 基于相机和低分辨率激光雷达的三维车辆检测
- R语言使用ggplot2包的快速可视化函数qplot绘制基础密度图实战
- 工作汇报ppt案例欣赏_领导最喜欢的工作汇报PPT,原来长这个样子!网友:教科书级案例...
- boost::basic_string_ref相关的测试程序
- PhiloGL学习(5)——神说要有光,便有了光
- linux native分区,怎么将硬盘格式分区为Linux Native格式的
- UITableview高度计算
- 基于51单片机的音乐播放器
- Spring框架参考手册(4.2.6版本)翻译——第三部分 核心技术 6.10.6 给自动检测组件命名...
- 软件测试验收方法_验收测试是美丽的魔术。 这就是它可以改善您的生活的方法。...
- 163个人电子邮箱如何注册申请,解密163个人邮箱如何注册?
- 大型复杂群体项目分解结构(PBS)概念与方法研究
- win10桌面穿越,多桌面切换
- 手机流量怎么修改dns服务器,手机上网速度慢怎么办?手动修改DNS为上网提速
- 分享 | 一份小小的信念
- 解决DELL服务器识别不到硬盘的问题
- 【Linux】文件类型
- JS判断某年某月有多少天
- 基于瞬态自适应的麻雀搜索算法
- 带进度的圆形进度条的实现
热门文章
- 我对计算机专业的看法及对未来的计划
- Python:11设计动物Animal类,该类包括颜色color属性与叫call方法。再设计鱼Fish类,包括.....
- Springcloud HRM微服务项目(二)
- 安卓市场 android2.1.1,iLike安卓数据恢复专业版
- 嵌入式远程机房数采监控报警系统
- mysql之DDL操作
- 梆梆安全卢佐华:用安全拥抱物联网时代
- App用户协议隐私政策
- python爬取微博热搜显示到折线图_微博热搜榜前20信息数据爬取进行数据分析与可视化...
- 网页设计与制作第一课:什么是html,html基础与文本控制标记