前几天小编给大家分享了数据可视化分析,在文尾提及了网易云音乐歌词爬取,今天小编给大家分享网易云音乐歌词爬取方法。

本文的总体思路如下:

找到正确的URL,获取源码;

利用bs4解析源码,获取歌曲名和歌曲ID;

调用网易云歌曲API,获取歌词;

将歌词写入文件,并存入本地。

本文的目的是获取网易云音乐的歌词,并将歌词存入到本地文件。整体的效果图如下所示:

基于Python网易云音乐歌词爬取

赵雷的歌曲

本文以民谣歌神赵雷为数据采集对象,专门采集他的歌曲歌词,其他歌手的歌词采集方式可以类推,下图展示的是《成都》歌词。

基于Python网易云音乐歌词爬取

赵雷歌曲---《成都》

一般来说,网页上显示的URL就可以写在程序中,运行程序之后就可以采集到我们想要的网页源码。But在网易云音乐网站中,这条路行不通,因为网页中的URL是个假URL,真实的URL中是没有#号的。废话不多说,直接上代码。


基于Python网易云音乐歌词爬取

获取网页源码

本文利用requests、bs4、json和re模块来采集网易云音乐歌词,记得在程序中添加headers和反盗链referer以模拟浏览器,防止被网站拒绝访问。这里的get_html方法专门用于获取源码,通常我们也要做异常处理,未雨绸缪。

获取到网页源码之后,分析源码,发现歌曲的名字和ID藏的很深,纵里寻她千百度,发现她在源码的294行,藏在<ul class="f-hide">标签下,如下图所示:

基于Python网易云音乐歌词爬取

歌曲名和ID存在的位置

接下来我们利用美丽的汤来获取目标信息,直接上代码,如下图:

基于Python网易云音乐歌词爬取

获取歌曲名和ID

此处要注意获取ID的时候需要对link进行切片处理,得到的数字便是歌曲的ID;另外,歌曲名是通过get_text()方法获取到的,最后利用zip函数将歌曲名和ID一一对应并进行返回。

得到ID之后便可以进入到内页获取歌词了,但是URL还是不给力,如下图:

基于Python网易云音乐歌词爬取

歌词的URL

虽然我们可以明白的看到网页上的白纸黑字呈现的歌词信息,但是我们在该URL下却无法获取到歌词信息。小编通过抓包,找到了歌词的URL,发现其是POST请求还有一大堆看不懂的data,总之这个URL是不能为我们效力。那该点解呢?

莫慌,小编找到了网易云音乐的API,只要把歌曲的ID放在API链接上便可以获取到歌词了,代码如下:

基于Python网易云音乐歌词爬取

调用网易云API并解析歌词

在API中歌词信息是以json格式加载的,所以需要利用json将其进行序列化解析出来,并配合正则表达式进行清洗歌词,如果不用正则表达式进行清洗的话,得到原始的数据如下所示(此处以赵雷的歌曲《成都》为例):

基于Python网易云音乐歌词爬取

原始数据

很明显歌词前面有歌词呈现的时间,对于我们来说其属于杂质信息,因此需要利用正则表达式进行匹配。诚然,正则表达式并不是唯一的方法,小伙伴们也可以采取切片的方式或者其他方法进行数据清洗,在此就不赘述了。

得到歌词之后便将其写入到文件中去,并存入到本地文件中,代码如下:

基于Python网易云音乐歌词爬取

写入文件和程序主体部分

现在只要我们运行程序,输入歌手的ID之后,程序将自动把该歌手的所唱歌曲的歌词抓取下来,并存到本地中。如本例中赵雷的ID是6731,输入数字6731之后,赵雷的歌词将会被抓取到,如下图所示:

基于Python网易云音乐歌词爬取

程序运行结果

之后我们就可以在脚本程序的同一目录下找到生成的歌词文本,歌词就被顺利的爬取下来了。

相信大家对网易云歌词爬取已经有了一定的认识了,不过easier said than down,小编建议大家动手亲自敲一下代码,在实践中你会学的更快,学的更多的。

这篇文章教会大家如何采集网易云歌词,那网易云歌曲如何采集呢?且听小编下回分解~~~

转载于:https://blog.51cto.com/13389043/2108721

如何用Python网络爬虫爬取网易云音乐歌词相关推荐

  1. 如何用Python网络爬虫爬取网易云音乐歌曲

    今天小编带大家一起来利用Python爬取网易云音乐,分分钟将网站上的音乐down到本地. 跟着小编运行过代码的筒子们将网易云歌词抓取下来已经不再话下了,在抓取歌词的时候在函数中传入了歌手ID和歌曲名两 ...

  2. python3爬取网易云歌单数据清洗_如何利用Python网络爬虫爬取网易云音乐歌词

    赵雷的歌曲 本文以民谣歌神赵雷为数据采集对象,专门采集他的歌曲歌词,其他歌手的歌词采集方式可以类推,下图展示的是<成都>歌词. 赵雷歌曲---<成都> 一般来说,网页上显示的U ...

  3. python爬取歌词_利用Python网络爬虫抓取网易云音乐歌词

    今天小编给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌曲ID: 调用网易云歌曲API,获取歌词: 将歌词写入文件,并存入本地 ...

  4. python网络爬虫网易云音乐下载_python网络爬虫爬取网易云音乐

    #爬取网易云音乐 url="https://music.163.com/discover/toplist" #歌单连接地址 url2 = 'http://music.163.com ...

  5. 利用Python网络爬虫实现对网易云音乐歌词爬取

    今天小编给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌曲ID: 调用网易云歌曲API,获取歌词: 将歌词写入文件,并存入本地 ...

  6. python网易云_用python爬虫爬取网易云音乐

    标签: 使用python爬虫爬取网易云音乐 需要使用的模块 只需要requests模块和os模块即可 开始工作 先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...

  7. python爬虫----爬取网易云音乐

    使用python爬虫爬取网易云音乐 目录 使用python爬虫爬取网易云音乐 需要使用的模块 开始工作 运行结果 需要使用的模块 只需要requests模块和os模块即可 开始工作 先去网易云音乐网页 ...

  8. python爬虫爬取网易云音乐歌曲_Python网易云音乐爬虫进阶篇

    image.png 年前写过一篇爬网易云音乐评论的文章,爬不了多久又回被封,所以爬下来那么点根本做不了什么分析,后面就再改了下,加入了多线程,一次性爬一个歌手最热门50首歌曲的评论,算是进阶版了- 思 ...

  9. Python爬虫—爬取网易云音乐【热歌榜】歌曲的精彩评论(写入txt文本文件或者MySQL数据库)

      最近在学Python爬虫,看了Blibili爬取网易云音乐评论的视频,视频中是将一首歌的评论存入json文件,我在此代码的基础上扩展了三点:     1.爬取热歌榜200首歌曲的精彩评论:     ...

最新文章

  1. “云智一体”的全场景智能视频技术是什么?
  2. linux 和windows 下golang安装
  3. 设计模式 — 行为型模式 — 模板方法模式
  4. org.apache.subversion.javahl.ClientException: Previous operation has not finished
  5. aqs java 简书,Java并发之AQS原理
  6. OpenSceneGraph 3.2 版本修改点
  7. 优秀程序员的 18 大法则
  8. 网络学习云平台 计算机基础应用,计算机应用基础网络自主学习平台使用说明.doc...
  9. android html转pdf工具,android – 使用iText库将html转换为pdf时未应用hr的内联CSS
  10. http接口_基于Python的HTTP接口自动化测试框架实现
  11. centos7 mysql读写监控,《Centos7——zabbix监控mysql的常规操作》
  12. 基于xml的c语言项目,Spring基于XML装配Bean
  13. 关于DTC诊断故障码的获取与清除(ISO14229系列之14、19服务)
  14. linux 禁 ip 分片,Linux iptables 设置允许(禁止)IP范围
  15. 火狐浏览器模拟发送post请求
  16. 19年清北学堂冬令营游记
  17. 三分钟告诉你怎么AI生成绘画图片
  18. 吃白菜一样用micropython玩esp32(四)—— siri远程控制点灯
  19. Web 攻防之业务安全:账号安全案例总结.
  20. 计算机打字失灵,window_Win10键盘失灵无法打字提示错误代码19该怎么办?,我电脑的键盘无法打字了,显 - phpStudy...

热门文章

  1. java 时间计算差值
  2. 居家装修这些细节一定得注意到
  3. Fortran NINT函数意思
  4. 自学php多久可以工作_PHP语言自学要多久才能工作
  5. VS2008 LINK : fatal error LNK1104: cannot open file 'atls.lib'错误解决方案
  6. Android PMS的理解
  7. 2021-1-13 印象深刻的Bug记录
  8. wordpress html5视频播放插件,WordPress插件DPlayer支持m3u8视频HTML5播放
  9. 怎样在PDF文档中添加插入图片
  10. vchart 坐标轴标题_ECharts xAxis配置 x坐标轴名称的文本样式