为什么80%的码农都做不了架构师?>>>   

本文你会获得什么!

1、charles的使用。例如,charles在线调试别人网站js加载数据。

2、网易云音乐加密算法。

3、一些非常有用的python3爬虫基础。

4、最有价值的是:思路!(画重点)

产生爬虫需求的原因:

1、团队开发了资讯类的APP,产品属于新生儿阶段,无流量、无人气,无推广,要让自然下载的100个用户感觉到存在感。起码浏览量、点赞量、评论数看起来还可以!浏览量、点赞量都是数据库的数据,做一个随时间螺旋刷量的算法即可,可评论数就得自己1条条写了,so…

2、网易云音乐作为音乐类app鄙视链顶端的产品,有很多不错的音源。作为一个视频、图片、音乐素材收藏爱好者,还是有私心想免费收藏一些作品的。

思路

拿来主义横行!百度、CSDN、开源中国、github、segmentfault,翻个遍,爬虫的90%基本能搞定。已有很多巨人分享了足够多的肩膀。一个人的经验不行,多踩几个人,基本就能满意。

是否涉嫌抄袭,我是这么理解的。换变量,换个说法原理基本一样,那就是洗代码,抄袭。在源代码、原理基础上做延伸、扩充,有自己的应用场景,应该不算抄袭吧!

参考博文: https://whttps://www.imooc.com/article/36601ww.imooc.com/article/36601 https://blog.csdn.net/weixin_36605200/article/details/82318308 https://blog.csdn.net/zwt520123/article/details/80374952 https://segmentfault.com/a/1190000014948845

参考意思代码后,用chrome测试,总结思路: 网页版歌曲地址:https://music.163.com/#/song?id=32358712 评论post到服务器的地址:https://music.163.com/weapi/v1/resource/comments/R_SO_4_32358712?csrf_token= post出去的参数有2个:

  1. params: BQ6JTJgI4+UtU3u1YRFu1w2Liq7blmYUAP5juKKuNou6goJKHVGzte/H38TEUpvxQmb9ESKgUKjutZTg/ruX98T8AnyMGNqSp7seTJEb+WQDcgHkK05Yb8lPzKGYeyy+TYejZAcJzyo9r7jOHlnwwSREEmlMMBCrh0KJB8atsl9nwnBIOkTTrRDbrHfhvZbd
  2. encSecKey: 751a8a2d0f052e9da30816f3dfda417c9149d896b59d25bc0d6365c43a587ce55a92b272b89d91f6fe232c3685ebf5813565c862152a82502886301e4dc96830b0d49d772d3962f77c97ac17d874c4afbf0cfc711a9e09330b1bcd20be6cc54284266adde11a46166bf958606e33b41dff4ed81e75de7b18b3e1d45fc100e8f4

post到服务器的params和encSecKey加密算法:params是经过4个变量经过2次AES加密,encSecKey是params的RSA加密。参数中1个是变量,其他3个是常量。别问我为什么,大神们已经给出结果了。我们只要去发现参数中那个变量即可。 在此之前要通过大神的文章,搞清楚加密的过程!

验证的思路:

1、charles在线调试core.js代码。

(1)记得把chrome的Network中设置为Disable cache。

(2)下载core_开头的js文件,下载到本地,并用ide软件打开他。

(3)打开js文件,并格式文件。搜索window.asrsea,找到加密函数。有兴趣可以认真研究研究。在下面打入console.log();这个的作用是查找加密的4个量中唯一的变量。

(4)寄出charles,在tool中使用local map,并设置上参数。

charles的下载,破解,配置,ssl的设置就自行百度了吧!

(5)在chrome中刷新一下,进入Console中查看!

参数有好多,这个页面有音乐的,有评论的,还有一个没有研究。

点击第二页评论,又出来一些信息。 首页:{rid: "R_SO_4_32358712", offset: "0", total: "true", limit: "20", csrf_token: ""} 第二页:{rid: "R_SO_4_32358712", offset: "20", total: "false", limit: "20", csrf_token: ""}

爬虫编写

写爬虫前,先pip一些模块requests、json、pycrypto、pandas。

import requests, hashlib, base64, codecs, json, os, sys
from Crypto.Cipher import AES
import pandas as pd

加密过程,已经在上面写上了注释!

编写爬虫!最核心就是get_params这个变量,首页除外,每页评论数都是20个,总的评论数也在json中能找到,所以,有多少页评论,就得提交多少次请求!

开始爬取,爬取后简单清写!

这里因为每页都post一次,获得1个json数据,多页的话就是多个json,就用enumerate函数。这里我去掉了user的信息,比如user的nikename,头像地址等,实际应用中是需要的,简单修改就可以了!

可以不需要精彩评论的数据(hotComments),其实就是评论中likecount最多的降序排序!

hot_comment = json_df.sort_values(['likedCount'], ascending = False).head(12)hot_comment

其他补充:

1、要抓取歌单中的评论: https://music.163.com/#/playlist?id=2430220144 post出去的需加密的参数为: {rid: "A_PL_0_2430220144", offset: "0", total: "true", limit: "20", csrf_token: ""}

2、抓取歌曲也是类似,只是post出去的需加密的参数为: {ids: "[26465171]", br: 128000, csrf_token: ""} [26465171]表示歌曲id的列表,br是品质:1280000,也可以320000 当然,这样操作也是有局限的。就是会员歌曲是无法下载的!

如果你喜欢,请把我推荐给身边需要的人吧! 商业级的不太方便。只是在这基础上用scrapy+多进程/多线程!

》》微信回复20181017,即可下载源码《《

如果你喜欢,请把我推荐给身边需要的人吧!

转载于:https://my.oschina.net/at5/blog/2248125

爬取网易云音乐评论,延伸就能爬取网易云音乐的绝大多数数据相关推荐

  1. python爬虫网易云音乐评论再分析_Scrapy爬取网易云音乐和评论(一、思路分析)...

    目录: 前提: scrapy这个框架很多人用过,网上教程也很多,但大多就是爬爬小说这种比较简单且有规律的.尤其大多网站它是可以通过点击下一页的方式爬取下一页,我看到的教程也都是这样的.而网易云的按钮光 ...

  2. python爬虫网易云音乐评论再分析_爬取网易云音乐的评论后,竟有这种发现!

    原标题:爬取网易云音乐的评论后,竟有这种发现! 作者 | 志颖 责编 | 胡巍巍 用过网易云音乐听歌的朋友都知道,网易云音乐每首歌曲后面都有很多评论,热门歌曲的评论更是接近百万或者是超过百万条. 现在 ...

  3. python 爬取亚马逊评论_用Python爬取了三大相亲软件评论区,结果...

    小三:怎么了小二?一副愁眉苦脸的样子. 小二:唉!这不是快过年了吗,家里又催相亲了 ... 小三:现在不是流行网恋吗,你可以试试相亲软件呀. 小二:这玩意靠谱吗? 小三:我也没用过,你自己看看软件评论 ...

  4. python爬取抖音用户评论_python实现模拟器爬取抖音评论数据的示例代码

    目标: 由于之前和朋友聊到抖音评论的爬虫,demo做出来之后一直没整理,最近时间充裕后,在这里做个笔记. 提示:大体思路 通过fiddle + app模拟器进行抖音抓包,使用python进行数据整理 ...

  5. python爬取网易云音乐_Python 从零开始爬虫(七)——实战:网易云音乐评论爬取(附加密算法)...

    前言 某宝评论区已经成功爬取了,jd的也是差不多的方法,说实话也没什么好玩的,我是看上它们分析简单,又没加密才拿来试手的.如果真的要看些有趣的评论的话,我会选择网易云音乐,里面汇聚了哲学家,小说家,s ...

  6. python爬取评论_python爬取网易云音乐评论

    本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...

  7. python爬取网易云音乐评论并进行可视化分析

    2019独角兽企业重金招聘Python工程师标准>>> 前言 今天为大家一个爬取网易云音乐评论的Python案例,并用Python的第三方库来进行可视化分析,生成图表样式,可以清晰地 ...

  8. python爬取网易云音乐热评_python爬取网易云音乐评论

    本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...

  9. python爬取网易云评论最多的歌_python爬取网易云音乐评论

    本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...

  10. python爬取网易云音乐评论分析_Python爬取网易云音乐评论(附加密算法)

    网易云音乐,里面汇聚了哲学家,小说家,story-teller,皮皮虾等各种人才,某些评论非常值得收藏(甚至开了一个歌单专门收藏它们).竟然这么好玩,何不尝试把他们爬取下来呢? 前置需求 可选:fid ...

最新文章

  1. ubuntu jdk
  2. Data Mining的十种分析方法
  3. Java 垃圾回收算法之G1
  4. android log 如何获取double类型后小数点的值_【ES6基础】Symbol介绍:独一无二的值...
  5. 关于逻辑回归,面试官都怎么问
  6. 在linux上安装redis
  7. python入门笔记第一天
  8. Spring注解——同一接口有多个实现类,如何注入
  9. 下载UBUNTU的可用链接
  10. html动态图片置于底层,求设置图片为“浮于文字下方,居中,置于底层的代码。...
  11. 经验分享——家校互动系统功能教程资源
  12. .NetCore对接各大财务软件凭证API——金蝶系列(2)
  13. 自动刷新网页代码(可多个网页)
  14. 杭电3233(杂题)
  15. linux at91看门狗驱动设置
  16. git push 报错 error: failed to push some refs to ‘git@xxx/xx.git‘
  17. 使用cublas实现矩阵乘法
  18. 《缠中说禅108课》80:市场没有同情、不信眼泪
  19. 【数据结构与算法基础】AOE网络与关键路径
  20. 三十五年经验分享:程序员进阶八法

热门文章

  1. 华为novia3i鸿蒙,华为nova3i一马当先:值得年轻人购买的智能手机推荐
  2. 如何安装VMware Workstation虚拟机、及注意事项、安装所需的许可证码
  3. 大数据开源框架环境配置(一)——安装VMware
  4. python任务栏都隐藏了_请问如何始终隐藏WINDOWS任务栏?
  5. VC dxgi 截屏保存bmp文件
  6. 计算机技术在材料成型工业中的应用,计算机在材料成型应用摘要.ppt
  7. 推荐系统的因果关系感知邻域方法:Causality-Aware Neighborhood Methods for Recommender Systems(ECIR,2021)
  8. 梦幻模拟战更新服务器正在维护,“梦幻模拟战2.0”更新维护公告
  9. ARM嵌入式最小系统
  10. 在excel中求算风向和风速范围的函数,用origin做风向玫瑰图