本文需要有简单的python爬虫基础,主要用到两个爬虫模块(都是常规的)requests模块selenium模块

建议使用谷歌浏览器,方便进行抓包和数据获取。

Part1 进行网页分析

首先打开网易云的网页版网易云
然后搜索歌曲,这里我就搜索一首锦零的“空山新雨后”

这时我们来观察网页的url,可以发现s=后面就是我们搜索的关键字

当我们换一首歌,会发现也是这样的,正好验证了我们的想法

所以下一步让我们点进去一首歌,然后进行播放,看看能否直接获取音乐文件的url,如果能,那么直接对url进行requests.get访问,我们就能拿到.mp3文件了
点进第一首“空山新雨后”,我们可以看到有一个“生成外链播放器”

看到这个,我心中一阵激动,仿佛就要大功告成;于是我满怀开心的点了一下,结果。。。

好吧,不过我们不能放弃,来我们分析一下网页
但当我们定位到两个最有可能出现外链的地方时,发现什么都没有

不过作为“规格严格,功夫到家”的传承者,我不能放弃啊,于是我又打开了抓包工具
按照常规套路,我们定位到XHR

点击播放后,出现了一大堆东西,我们要做的就是找到其中的content-type为audio一类的包
功夫不负有心人,在寻找了一(亿)会儿后,我找到了

于是我又满怀开心的复制了这个包对应的Request-URL
粘贴后访问这个url,结果非常满意,这就是我一直在找的url

现在我把那个url贴出来

https://m10.music.126.net/20200715163315/a075d787d191f6729a517527d6064f59/ymusic/0552/0f0e/530f/28d03e94478dcc3e0479de4b61d224e9.mp3

Part2 编写爬虫程序

接下来就超级简单了
下面的代码是最常规的操作,应该有爬虫基础的都能看懂;如果有不懂的,注释都在上面

#导入requests包
import requests  #进行UA伪装
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36'
}#指定url
url = 'https://m10.music.126.net/20200715163315/a075d787d191f6729a517527d6064f59/ymusic/0552/0f0e/530f/28d03e94478dcc3e0479de4b61d224e9.mp3'#调用requests.get方法对url进行访问,和持久化存储数据
audio_content = requests.get(url=url,headers=headers).content#存入本地
with open('空山新雨后.mp3','wb') as f :f.write(audio_content)print("空山新雨后爬取成功!!!")

Part3 更高级的

看到这里,你可能会想,为啥根本没用selenium模块呢?能不能直接爬取任何一首我想要的歌,而不用每首都去费心费力的找一个url呢?当然可以哒!
其实网易云在线播放每首歌曲时,都有一个外链地址,这是不会变的,跟每首歌的唯一一个id绑定在一起,每首歌audio文件的url如下:

url = 'http://music.163.com/song/media/outer/url?id=' + 歌曲的id值 + '.mp3'

id值的获取也很简单,当我们点进每首歌时,上方会出现对应的网址,那里有id值,如下图:

所以只需把上面程序中的url改成新的url即可
如果还想要更好的体验效果,实现在程序里直接搜索歌曲,拿到id值,就需要用到selenium模块
为什么用selenium而不用xpath或bs4?
因为搜索页面的数据是动态加载出来的,如果直接对搜索页面的网页进行数据解析,就拿不到任何数据;以我目前的技术,就只能想到使用万能的selenium模块,下面大概说明一下步骤:

  1. 进行selenium无可视化界面设置
from selenium.webdriver.chrome.options import Optionschrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
  1. 导包
import requests
import re
from selenium import webdriver
from time import sleep
  1. 指定歌曲,得到对应搜索页面的url
name = input('请输入歌名:')url_1 = 'https://music.163.com/#/search/m/?s=' + name + '&type=1'
  1. 获取搜索页面的html文件
#初始化browser对象
browser = webdriver.Chrome(executable_path='chromedriver.exe',chrome_options=chrome_options)#访问该url
browser.get(url=url_1)#由于网页中有iframe框架,进行切换
browser.switch_to.frame('g_iframe')#等待0.5秒
sleep(0.5)#抓取到页面信息
page_text = browser.execute_script("return document.documentElement.outerHTML")#退出浏览器
browser.quit()
  1. 用正则模块re匹配html文件中的id值、歌名和歌手
ex1 = '<a.*?id="([0-9]*?)"'
ex2 = '<b.*?title="(.*?)"><span class="s-fc7">'
ex3 = 'class="td w1"><div.*?class="text"><a.*?href=".*?">(.*?)</a></div></div>'id_list = re.findall(ex1,page_text,re.M)[::2]song_list = re.findall(ex2,page_text,re.M)singer_list = re.findall(ex3,page_text,re.M)
  1. 将id值、歌名和歌手封装成一个个元组,写入一个列表中,再进行打印
li = list(zip(song_list,singer_list,id_list))for i in range(len(li)):print(str(i+1) + '.' + str(li[i]),end='\n')
  1. 对满意的id值可得到一个url,再用上面的程序对该url进行requests.get方法访问即可

运用Python轻松爬取网易云的音乐,小白都能懂的爬虫教程相关推荐

  1. python爬取网易云歌单_详解python selenium 爬取网易云音乐歌单名

    目标网站: 首先获取第一页的数据,这里关键要切换到iframe里 打印一下 获取剩下的页数,这里在点击下一页之前需要设置一个延迟,不然会报错. 结果: 一共37页,爬取完毕后关闭浏览器 完整代码: u ...

  2. python 批量爬取网易云音乐,java解密

    每天一点点,记录学习 python 批量爬取网易云音乐 网易云音乐,排行榜,右键,显示网页源代码,并不能找到任何一首歌的id,是因为java加密了 随便找一首id为1374061038的歌,在网页源代 ...

  3. python+execjs爬取网易云评论

    python+execjs爬取网易云评论 分析网站 JS分析 execjs解密js 运行结果 代码 分析网站 首先打开网易云首页,随便点一首歌曲进入到评论区. 接着按F12进入开发者工具,重新刷新页面 ...

  4. java怎么爬网易云_Python爬虫爬取网易云的音乐

    Python爬虫爬取网易云的音乐(学习笔记) 在开始之前,做一点小小的说明哈: 我只是一个python爬虫爱好者,如果本文有侵权,请联系我删除! 本文需要有简单的python爬虫基础,主要用到两个爬虫 ...

  5. 使用Puppeteer轻松爬取网易云音乐、QQ音乐的精品歌单

    背景 最近在学习Puppeteer进行自动化操作,另一方面为了防止上班时间被打扰,是时候爬点歌单在上班的时候,用来抵抗外界的干扰了. 地址 项目完整代码地址:github.com/BingKui/We ...

  6. 毕设总结2:使用python scrapy 爬取 网易云音乐

    网易云音乐爬取教程 爬取网易云热歌榜 分析网页结构 爬取网易云热歌榜 分析网页结构 先还是通过 [scrapy genspider music https://music.163.com/discov ...

  7. 用Python给我写一个爬取网易云的音乐代码

    好的,为了爬取网易云音乐,我们需要使用一些第三方库来帮助我们处理网络请求和解析 HTML/XML 数据.在这里,我建议您使用 requests 库来发送网络请求和 Beautiful Soup 库来解 ...

  8. 爬取网易云的音乐信息

    简单的爬取音乐的名称及链接 简单爬虫 以爬取网易云音乐中的云音乐飙升榜为例 最后提醒大家,合法爬取!!! 简单爬虫 以爬取网易云音乐中的云音乐飙升榜为例 from urllib.request imp ...

  9. python打开文件切片_收藏 | 从Python安装到语法基础,小白都能懂的爬虫教程!(附代码)...

    来源:大数据 作者:罗攀 蒋仟 本文约5000字,建议阅读20分钟. 本文立足基础,讲解Python和PyCharm的安装,及Python最简单的语法基础和爬虫技术中所需的Python语法. 本文涉及 ...

  10. 收藏 | 从Python安装到语法基础,小白都能懂的爬虫教程!(附代码)

    来源:大数据 作者:罗攀 蒋仟 本文约5000字,建议阅读20分钟. 本文立足基础,讲解Python和PyCharm的安装,及Python最简单的语法基础和爬虫技术中所需的Python语法. 本文涉及 ...

最新文章

  1. 从SAE又回到BAE,感觉好轻松
  2. python脚本自动消除安卓版_Android:检测内存泄漏的自动化测试Python脚本
  3. 【响应式Web前端设计】CSS浮动(float,clear)讲解
  4. Notepad++中高亮显示ABAP代码方法
  5. tomcat 6.0 部署报错信息
  6. C# 函数重载 示例 求圆的面积
  7. bootstrap时间控件
  8. 【VSTO】Office开发中遇到的兼容性检查问题
  9. 前端学习(3050):vue+element今日头条管理-表格组件基本使用
  10. Android Studio编译后运行按钮还是灰色的解决方法
  11. ajax顺序请求你,ajax请求之返回数据的顺序问题分析
  12. 玩转iOS开发:iOS 8 新特性《UIVisualEffect》
  13. 在线绘图(PS)(海报)
  14. 【番外篇】ASP.NET MVC快速入门之免费jQuery控件库(MVC5+EF6)
  15. 数据集:两种形式的铁离子在不同剂量下在动物体内的存留量
  16. ModBus RTU和ModBus ASC
  17. 安防监控系统的几个基础小知识
  18. 微软应用商店打不开代码代码: 0x80131500
  19. 蓝桥 盾神与积木游戏(Java)
  20. 项目管理知识体系指南(六)项目成本管理

热门文章

  1. 华为HCNA之OSPF多区域配置实验
  2. 挨踢人生路--记我的10年18家工作经历 续 .转
  3. 屌丝码农该怎么过周末
  4. LINUX邻居子系统(一)
  5. 苹果截屏快捷键_Mac进阶:掌握这 5 个冷门快捷键,让Mac更好用
  6. 19、论文解读:Intensity Scan Context: Coding Intensity and Geometry Relations for Loop Closure Detection
  7. 或且非 java_Java且或非的符号
  8. C语言 与 或 非
  9. php webservice post,我用PHP写了个webservice,请问.net 如何通过POST方法使用wsdl里的方法...
  10. mysql right函数