文章目录

  • 前言
  • 分析
  • 总结

前言

网抑云评论区个个都是人才,这里的人说话又好听,我超喜欢这里的。

把评论抓取下来方便练习网抑,又练习了爬虫,一举两得

好,网抑开始

分析

首先,第一步肯定是打开网抑云网页,找到一首歌

歌曲下面的内容为评论,我们要获取的就是评论。

查看网页源代码,看看评论是否存在于源代码中,经过搜索,发现评论内容并不存在于源代码中,这时就需要使用浏览器的F12开发者工具了。

选项调到network,重新加载网页,寻找和评论相关的数据,发现在get链接中存在评论内容

再观察该链接的Headers

根据信息写出第一版脚本

import requests
import jsonurl = "https://music.163.com/weapi/comment/resource/comments/get?csrf_token="data = {'params': 'HpF+XPoFUsMj/Na79aMOIkUiRv988lVYmEFtskIGIkapDFKGQ1cMZ1thM+z+wOOjD9T7xHEn1RIprG/4Hig1JnjoE9b6ba34O1EQOZdk1/SojzFWmCjyOFF1SQILZC7lDoQiLR8fI76PiH0fzNWUyD7rjZnsgU7zt8GD+EvfLZGjUrjn+VCy8f9htBU3wJKNsFDq8qXe6k/8lTDrwxbQfFustll3Zfd5NpVHO77vTprn3lz5RWVPutlZsvc7NxPeMIyTt5tABjg7FlawpX8j2TiGt0HjukQXagnu8Ev/4J8Ox+2Oar3hnA0W3G0riUJaZQi5xlxhdTxtcPP4wtLzfsJOi8V2B5DhTFjQo53ujC0=',
'encSecKey': '1d1d8553270497244b0952974b1f46de6f5a746c5a931b3be0b565a15bcaccf5d9a03d6a709d925b9812d044ff49137601edf698bb1a89b5eb3fbf22af18fbc3b88b9fb3de52d5ca4dbd7cd384a8d7a403735dc688513d4f05aa4522f8bb63f28055db77d15fbdbec3f3d5f751920b9f0ef91f7cd15c551a52e18c47fcf5a12d'
}headers = {'referer': 'https://music.163.com/song?id=1404722668','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}res = requests.post(url, data = data, headers = headers)
#print(res.json())comments_obj = json.loads(res.text)
for i in range(0,20):nickname = comments_obj['data']['comments'][i]['user']['nickname']content = comments_obj['data']['comments'][i]['content']print(nickname + ':' + content + '\n')

获取到的评论内容

做到这时候突然发现好像有什么不对,回头再看看Preview返回的内容,只有20条评论,对比一下网页中显示的,每页显示的评论数正好是20

那么问题来了,我们要怎么获取所有的评论呢,点下一页看一看。

转到post提交的数据,发现和第一次的有些不同

经过对比,数据果然发生了改变

推测发送的数据params和encSecKey会通过服务器进行校验解密然后返回数据,在这之间一定会有加密过程存在,开始通过Initiator调用栈进行分析

首先跟踪最上层

设置断点

刷新网页,不断运行,直到断到https://music.163.com/weapi/comment/resource/comments/get链接上

查看data数据,发现是params和encSecKey拼接形成的

进行栈回溯查找,发现u0x.be1x中含有疑似原始数据

经过不断尝试,发现在执行window.asrsea这个函数前数据属于未加密状态,执行后变为加密数据

原始数据内容

csrf_token: "0fa785ecaed03aee0c1b9d20497d5a92"
cursor: "-1"
offset: "0"
orderType: "1"
pageNo: "1"
pageSize: "20"
rid: "R_SO_4_1404722668"
threadId: "R_SO_4_1404722668"

加密后数据

"params=vSIU7AHhdAImi%2FIDffKGZld9LLIMjY2L5qaO9LhutSLsRUdeXTmVzXzQ0o9rrO8OIpRQ36VDqF2T%2FhjcaL8lJmTX2mNTZ3jwlVfyUlqyUbPJ8eZ6HsBRV%2FhhCL08g2q%2BfnM9B6uXgUu%2F8Jg9Br2aDgxF0j7oQqyObKxSDzzHipCwaUpkHUqgWRfDFD7z2Fm%2FpMENZafgNS3DIEu6yfqb8Z8cJdmGokVX6PbfyfZmmnlk%2FYmLEYZyGHloKJTALpl%2FlhO17KtIOgYI3o6SmPvUFV7sKM9bF%2B6reMWNSRVlfcw69vx94j%2Fjmm74Opomn%2BqXAQaM1sLSfGUCNh5XL6xioG33ew%2FrRgFFwzF%2Fexbe%2BfQ%3D&encSecKey=36c1ac512ec8e631949ebdaec4852dbe0e752d6b4f7f748e7561034e18cf0368fff53ea1e7ace3fc8134521062294cb96f30243bd71c3fe044097a2f4daeff2da95b68d1fe843685a88d7dbb35871f200d70b57ef43cde2d14f72c41ecf703635d806f7cc2d9fc95113fac08f53869183692bc28bc89455eb35d9b31acdcf8d1"

找到了原始数据和被加密的数据,那么就来看一下它的加密函数是怎么实现的

搜索windows.asrsea函数,看看是怎么实现的

windows.asrsea = d,发现和上面的a,b,c,d函数有关,下面来分析一下

#获取一个随机数
function a(a) {var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = "";for (d = 0; a > d; d += 1)e = Math.random() * b.length,e = Math.floor(e),c += b.charAt(e);return c}#对数据进行AES加密
function b(a, b) {var c = CryptoJS.enc.Utf8.parse(b), d = CryptoJS.enc.Utf8.parse("0102030405060708"), e = CryptoJS.enc.Utf8.parse(a), f = CryptoJS.AES.encrypt(e, c, {iv: d,mode: CryptoJS.mode.CBC});return f.toString()}function c(a, b, c) {var d, e;return setMaxDigits(131),d = new RSAKeyPair(b,"",c),e = encryptedString(d, a)}
function d(d, e, f, g) {var h = {}, i = a(16); #i是一个随机数return h.encText = b(d, g), d = 原始数据,g是定值h.encText = b(h.encText, i),h.encSecKey = c(i, e, f),h}

四个参数

d: "{\"rid\":\"R_SO_4_1404722668\",\"threadId\":\"R_SO_4_1404722668\",\"pageNo\":\"1\",\"pageSize\":\"20\",\"cursor\":\"-1\",\"offset\":\"0\",\"orderType\":\"1\",\"csrf_token\":\"0fa785ecaed03aee0c1b9d20497d5a92\"}"
e: "010001"
f: "00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7"
g: "0CoJUm6Qyw8W8jud"

e,f,g三个参数都是定值,唯一有变动的就是d

function d(d, e, f, g) {var h = {}, i = a(16); #i是一个随机数return h.encText = b(d, g), d = 原始数据,g是定值h.encText = b(h.encText, i),h.encSecKey = c(i, e, f),#i是定值,encSecKey就是定值h}

分析函数d,只要i不变,encText和encSecKey就会是一个确定的值,当i = xhuWOhpLu26crPWm时

encSecKey: "09da75759838ea6296607c642fceaae610a0a54f2c8c6747e7336c1b2e88db8bbccd4a6add24520fd7eaad4d78b2e6261254cabd3ece07132030f2072bdf6a16fae99c387e82e1d18d641f3163bb7026fb58a2d2c531a31940b6fd45fb700ac14871305eeb79131a854a20b692e320c8fc8f6a2f8808291afed5a5cdabfc424f"
encText: "7i800NiAyzVreefGPMN7V+JWPvpswF2/db5DDJ6bDnCYaXRcNgMw2e9F/Ry5KVk/WyfOfK2JfPQvwbvQK1K3LWl2eSzZ09SVR+LAYGIfMnwl5aV6h9QFkX4vYLsSL+Qf4TQ53O971Gu/owtcITkqzn3Sspl1rQlJo1dKpomVMLvInvtCACpK5aYyn8TnVmesBH/2ZtylwdRxMAanTloa24ApRPtObxocitUN9ws4afN8DdnTYI+T4iND/72MfSu4/8+j/ttl7AYW10ZW66UrJzeoidZK570pgOXRGl0CAv4FfX/Gt4MC5NOJTmUV/NnbsE433nxqj20ZC+aw5wGFd2EqiYQN51LtuhZaLRs01SY="

encSecKey = c(i, e, f),i = xhuWOhpLu26crPWm ,encSecKey 就为下面的值

encSecKey = "09da75759838ea6296607c642fceaae610a0a54f2c8c6747e7336c1b2e88db8bbccd4a6add24520fd7eaad4d78b2e6261254cabd3ece07132030f2072bdf6a16fae99c387e82e1d18d641f3163bb7026fb58a2d2c531a31940b6fd45fb700ac14871305eeb79131a854a20b692e320c8fc8f6a2f8808291afed5a5cdabfc424f"

encText是进行了两次AES加密得到的值,我们先用代码实现一下看看是否能根据传入的数据得到上述encText的值

在使用python AES加密的时候踩了坑:

1.不知道AES加密后的数据还需要使用base64进行编码

2.AES要加密的数据不足16位补位方式不同的问题

查找了一些文章帖子问题才得以解决

https://www.52pojie.cn/thread-1166953-1-1.html
https://blog.csdn.net/baidu_36831253/article/details/95630076
https://blog.csdn.net/BigBoy_Coder/article/details/106815637

根据分析逻辑,最后得到了确定的encText

代码如下:

from Crypto.Cipher import AES
from binascii import b2a_hex, a2b_hex
from base64 import b64encode
import jsondef to_16(data):pad = 16 -len(data) % 16data += chr(pad) * padreturn datadata = {'csrf_token': '','cursor': '-1','offset': '0','orderType': '1','pageNo': '1','pageSize': '20','rid': 'R_SO_4_1303289043','threadId': 'R_SO_4_1303289043' }data1 =  "{\"rid\":\"R_SO_4_1404722668\",\"threadId\":\"R_SO_4_1404722668\",\"pageNo\":\"1\",\"pageSize\":\"20\",\"cursor\":\"-1\",\"offset\":\"0\",\"orderType\":\"1\",\"csrf_token\":\"0fa785ecaed03aee0c1b9d20497d5a92\"}"
def encrypt(data, key):key = key.encode('utf-8')mode = AES.MODE_CBCiv = b"0102030405060708"#iv = iv.encode('utf-8')data = to_16(data)cryptos = AES.new(key, mode, iv)encrypt_data = cryptos.encrypt(data.encode('utf-8'))b64_data = str(b64encode(encrypt_data), "utf-8")return b64_datadef main():key_g = "0CoJUm6Qyw8W8jud"#jdata = json.dumps(data)ecrypt_tmp_data = encrypt(data1, key_g)#print(ecrypt_tmp_data)key_i = "xhuWOhpLu26crPWm"ecrypt_data =encrypt(ecrypt_tmp_data, key_i)print(ecrypt_data)if __name__ == '__main__':main()

通过上述分析,我们已经可以构建data数据,然后发送加密的data数据到服务器,就会请求下来我们想要的评论内容了。

ps:很多请求的post数据都是通过windows.asrsea加密的

总结

文章主要记录分析思路和还原过程中遇到的问题,代码就不放了(ps:主要是嫌麻烦懒的写了)

某抑云评论的获取思路及实现相关推荐

  1. “网抑云”,缺的是梗吗?

    点击"技术领导力"关注∆  每天早上8:30推送 来源:燃财经(ID:rancaijing) "到点了,上号." "网抑云时间,兄弟们给我哭.&quo ...

  2. 爬虫实战系列(六):selenium获取网抑云《无滤镜》评论

    声明:本博客只是简单的爬虫示范,并不涉及任何商业用途. 一.前言 网易云可以说是国内一个较流行的音乐平台了,作为一名云村老用户,今天还是忍不住向它下手了.由于QQ音乐评论爬虫的经验,我很快就在开发者工 ...

  3. 【爬虫+多线程+MySQL】网抑云音乐评论爬取

    提示:本文仅作学习交流使用,下面案例可供参考. 文章目录 前言 一.爬取所有华语男歌手姓名及ID 1.网页分析 2.代码实现 3.部分运行结果 附:url详解 二.爬取所有华语男歌手专辑ID 1.网页 ...

  4. python爬取网抑云音乐评论

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.python爬取网抑云音乐评论 前言 提示:这里可以添加本文要记录的大概内容: python爬取网抑云音乐评论 提 ...

  5. [爬虫]网抑云音乐评论

    [爬虫]网抑云音乐评论 前言 自打开网抑云之后,我久久无法忘记,是它才能带给我内心世界的波涛汹涌.我左手拿起它,右手放下它,一日复一日,我终于完成了<The Spider Of Music-16 ...

  6. 深夜爬虫, 我很抱歉 , 附爬取“网抑云”最详细的爬虫教程!

    最近真的是被 网抑云 这个梗刷爆了,到处都是, 生而为人,我很抱歉,哈哈哈, 碰巧最近学习了一波微信公众号的爬取方式,想试一试, 特地在此献丑了.我是沙漏, 不定期更新爬虫教学, 其余时间学java和 ...

  7. 深夜爬虫, 我很抱歉 , 附微信 “ 网抑云” 公众号爬虫教程!

    最近真的是被 网抑云 这个梗刷爆了,到处都是, 生而为人,我很抱歉,哈哈哈, 碰巧最近学习了一波微信公众号的爬取方式,想试一试, 特地在此献丑了.我是沙漏, 不定期更新爬虫教学, 其余时间学java和 ...

  8. 生而为人,我很抱歉!深夜爬虫, 我很抱歉 ,附微信 “ 网抑云” 公众号爬虫教程!

    最近真的是被 网抑云 这个梗刷爆了,到处都是, 生而为人,我很抱歉,哈哈哈, 碰巧最近学习了一波微信公众号的爬取方式,想试一试, 特地在此献丑了.我是小何, 不定期更新爬虫教学, 其余时间学软件测试和 ...

  9. Python分析年度爆款“网抑云”热评,看看哪些文案触动了你的内心世界?

    点击上方"蓝字",发现更多精彩. 前段时间,"网抑云"这个词很火,尤其是到凌晨十二点,"网抑云"时间到,便有很多网友在网易云音乐上有感而发, ...

最新文章

  1. 基于相机和低分辨率激光雷达的三维车辆检测
  2. R语言使用ggplot2包的快速可视化函数qplot绘制基础密度图实战
  3. 工作汇报ppt案例欣赏_领导最喜欢的工作汇报PPT,原来长这个样子!网友:教科书级案例...
  4. boost::basic_string_ref相关的测试程序
  5. PhiloGL学习(5)——神说要有光,便有了光
  6. linux native分区,怎么将硬盘格式分区为Linux Native格式的
  7. UITableview高度计算
  8. 基于51单片机的音乐播放器
  9. Spring框架参考手册(4.2.6版本)翻译——第三部分 核心技术 6.10.6 给自动检测组件命名...
  10. 软件测试验收方法_验收测试是美丽的魔术。 这就是它可以改善您的生活的方法。...
  11. 163个人电子邮箱如何注册申请,解密163个人邮箱如何注册?
  12. 大型复杂群体项目分解结构(PBS)概念与方法研究
  13. win10桌面穿越,多桌面切换
  14. 手机流量怎么修改dns服务器,手机上网速度慢怎么办?手动修改DNS为上网提速
  15. 分享 | 一份小小的信念
  16. 解决DELL服务器识别不到硬盘的问题
  17. 【Linux】文件类型
  18. JS判断某年某月有多少天
  19. 基于瞬态自适应的麻雀搜索算法
  20. 带进度的圆形进度条的实现

热门文章

  1. 我对计算机专业的看法及对未来的计划
  2. Python:11设计动物Animal类,该类包括颜色color属性与叫call方法。再设计鱼Fish类,包括.....
  3. Springcloud HRM微服务项目(二)
  4. 安卓市场 android2.1.1,iLike安卓数据恢复专业版
  5. 嵌入式远程机房数采监控报警系统
  6. mysql之DDL操作
  7. 梆梆安全卢佐华:用安全拥抱物联网时代
  8. App用户协议隐私政策
  9. python爬取微博热搜显示到折线图_微博热搜榜前20信息数据爬取进行数据分析与可视化...
  10. 网页设计与制作第一课:什么是html,html基础与文本控制标记