爬取网易云音乐的歌单。

打开歌单的url: http://music.163.com/#/discov...,然后用lxml.html提取播放数3715。结果表明,我们什么也没提取到。难道我们打开了一个假的网页?

动态网页:所谓的动态网页,是指跟静态网页相对的一种网页编程技术。静态网页,随着html代码的生成,页面的内容和显示效果就基本上不会发生变化了——除非你修改页面代码。而动态网页则不然,页面代码虽然没有变,但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。

值得强调的是,不要将动态网页和页面内容是否有动感混为一谈。这里说的动态网页,与网页上的各种动画、滚动字幕等视觉上的动态效果没有直接关系,动态网页也可以是纯文字内容的,也可以是包含各种动画的内容,这些只是网页具体内容的表现形式,无论网页是否具有动态效果,只要是采用了动态网站技术生成的网页都可以称为动态网页。

现在我们明白了,这是一个动态网页,我们得到它的时候,歌单还没请求到呢,当然什么都提取不出来!

我们之前的技术不能执行那些让页面产生各种神奇效果的JavaScript 代码。如果网站的HTML页面没有运行JavaScript,就可能和你在浏览器里看到的样子完全不同,因为浏览器可以正确地执行JavaScript。用Python 解决这个问题只有两种途径:直接从JavaScript 代码里采集内容,或者用Python 的第三方库运行JavaScript,直接采集你在浏览器里看到的页面。我们当然选择后者。今天第一课,不深究原理,先简单粗暴的实现我们的小目标。

Selenium:是一个强大的网络数据采集工具,其最初是为网站自动化测试而开发的。近几年,它还被广泛用于获取精确的网站快照,因为它们可以直接运行在浏览器上。Selenium 库是一个在WebDriver 上调用的API。WebDriver 有点儿像可以加载网站的浏览器,但是它也可以像BeautifulSoup对象一样用来查找页面元素,与页面上的元素进行交互(发送文本、点击等),以及执行其他动作来运行网络爬虫。安装方式与其他Python第三方库一样

安装: pip3 install Selenium

验证一下:

spider02.png

Selenium 自己不带浏览器,它需要与第三方浏览器结合在一起使用。例如,如果你在Firefox 上运行Selenium,可以直接看到一个Firefox 窗口被打开,进入网站,然后执行你在代码中设置的动作。虽然这样可以看得更清楚,但不适用于我们的爬虫程序,爬一页就打开一页效率太低,所以我们用一个叫PhantomJS的工具代替真实的浏览器。

PhantomJS:是一个“无头”(headless)浏览器。它会把网站加载到内存并执行页面上的JavaScript,但是它不会向用户展示网页的图形界面。把Selenium和PhantomJS 结合在一起,就可以运行一个非常强大的网络爬虫了,可以处理cookie、JavaScript、header,以及任何你需要做的事情。

PhantomJS并不是Python的第三方库,不能用pip安装。它是一个完善的浏览器,所以你需要去它的官方网站下载,然后把可执行文件拷贝到Python安装目录的Scripts文件夹, 或者随便一个目录在PATH中的目录

开始干活!

打开歌单的第一页: http://music.163.com/#/discov...

用Chrome的“开发者工具”F12先分析一下,很容易就看穿了一切。

spider03.png

播放数nb (number broadcast):29915

封面 msk (mask):有标题和url

同理,可以找到“下一页”的url,最后一页的url是“javascript:void(0)”。

最后,让我们用代码完成工作。

from selenium import webdriverurl = "https://music.163.com/#/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&offset=0"driver = webdriver.PhantomJS()driver.get(url)  # 加载页面driver.switch_to.frame("contentFrame")  # 切换到歌单所在的iframe# 歌单所有项目的包裹元素
data = driver.find_element_by_id('m-pl-container').find_elements_by_tag_name('li')for d in data:nb = d.find_element_by_class_name('nb').text  # 播放数msk = d.find_element_by_css_selector("a.msk")print(msk.get_attribute('title'), nb, msk.get_attribute('href'))

结果

我不想当锦鲤,我只想我喜欢的人也喜欢我 10万 https://music.163.com/playlis...
威士忌风味·野性浪漫醇香度43% 43918 https://music.163.com/playlis...
柔情/迷离•落日余晖下那抹绚烂的幻影 15547 https://music.163.com/playlis...
单身都市丽人生存手册 20347 https://music.163.com/playlis... avex
动漫歌曲宅急便 Part. 2 7898 https://music.163.com/playlis...
『韩』秋日渐近,唱一曲悲凉 14354 https://music.163.com/playlis...
全球史诗级万评电音!百种风格【主打】 172万 https://music.163.com/playlis...
2018上半年最热新歌TOP50 1143万 https://music.163.com/playlis...
「高质量英文歌」让你单曲循环的英文歌 364万 https://music.163.com/playlis...
「纯音」嘘,我的悲伤才刚刚睡着 138万 https://music.163.com/playlis...
电影中的钢琴曲|最会讲故事³ 481万 https://music.163.com/playlis...
单循辑|我想和你共享耳机 1778万 https://music.163.com/playlis...
『欧美』书店书城常用流行钢琴曲推荐② 197万 https://music.163.com/playlis...
我最大的遗憾,是你的遗憾与我有关 1085万 https://music.163.com/playlis...
予你情诗百首,余生你是我的所有 1726万 https://music.163.com/playlis...
海盐风味|浪漫迷幻°新鲜度100% 545万 https://music.163.com/playlis...
最怕rapper说情话 463万 https://music.163.com/playlis...
这世界上情歌那么多,却没有一首属于我 1709万 https://music.163.com/playlis...
这些歌名连起来,是我暗恋你多年的秘密 1751万 https://music.163.com/playlis...
青柠味复古 ✘ 凌步夏傍西海岸的空幻 335万 https://music.163.com/playlis...
「伪治愈系Rap」你价值连城伤口的良药 125万 https://music.163.com/playlis...
失落少年孤独心俱乐部 674万 https://music.163.com/playlis... 蓝莓味气泡水°
137万 https://music.163.com/playlis... 盘点那些欧美流行歌手的不烂大街好听歌曲
474万 https://music.163.com/playlis... 同桌的你,曾是我期待上课的理由 752万
https://music.163.com/playlis...
正常情况下是这样的,如果你想要爬所有的数据,还需要引入翻页机制(即把url里的页码–offset–替换)

由于selenium在不久的将来会放弃对phantomjs的支持, 所以这里也提供一个替代方案,使用chrome的headless模式。使用这个模式你需要下载chromedriver, 并把这个文件所在目录加到PATH, 也可以拷贝到python路径下面

from selenium import webdriverurl = "https://music.163.com/#/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&offset=0"chromeOptions = webdriver.ChromeOptions()
chromeOptions.add_argument("headless")
driver = webdriver.Chrome(chrome_options=chromeOptions)driver.get(url)  # 加载页面driver.switch_to.frame("contentFrame")  # 切换到歌单所在的iframe# 歌单所有项目的包裹元素
data = driver.find_element_by_id('m-pl-container').find_elements_by_tag_name('li')for d in data:nb = d.find_element_by_class_name('nb').text  # 播放数msk = d.find_element_by_css_selector("a.msk")print(msk.get_attribute('title'), nb, msk.get_attribute('href'))

python教程 django教程 爬虫教程

最后打个广告, 天气变化快, 大家注意加衣
雷公天气

爬虫示例-网易云歌单相关推荐

  1. Python爬虫之网易云歌单音频爬取(解决urlretrieve爬取文件不能播放问题)

    网易云歌单音频爬取 写在前面:最近学习爬虫,对小说和图片都进行过简单爬取,所以打算爬取音频,但是其中遇到点问题也解决了,写下博客记录并希望对大家也有帮助. 爬取对象:对于目前主流的几个音频播放网站,我 ...

  2. 【python爬虫】网易云歌单下载(scrapy+selenium)

    我又滚回来更新了,这一次我们的目标是网易云音乐,想要通过输入歌单的链接,然后把整个歌单的歌曲都下载下来,说做就做,看看这一次有会遇见怎样的问题把. 需要注意的点: 这一次使用的框架仍然是scrapy, ...

  3. Python爬虫-selenium爬取网易云歌单

    文章目录 (一)工欲善其事必先利其器-安装工具 Selenium 浏览器 (二)实战 (一)工欲善其事必先利其器-安装工具 Selenium Selenium是一个强大的网络数据采集工具,其最初是为网 ...

  4. 爬虫python代码网易云_爬虫实战(二) 用Python爬取网易云歌单

    最近,博主喜欢上了听歌,但是又苦于找不到好音乐,于是就打算到网易云的歌单中逛逛 本着 "用技术改变生活" 的想法,于是便想着写一个爬虫爬取网易云的歌单,并按播放量自动进行排序 这篇 ...

  5. python爬虫实例网易云-爬虫实战(二) 用Python爬取网易云歌单

    最近,博主喜欢上了听歌,但是又苦于找不到好音乐,于是就打算到网易云的歌单中逛逛 本着 "用技术改变生活" 的想法,于是便想着写一个爬虫爬取网易云的歌单,并按播放量自动进行排序 这篇 ...

  6. 爬虫实战(二) 用Python爬取网易云歌单

    最近,博主喜欢上了听歌,但是又苦于找不到好音乐,于是就打算到网易云的歌单中逛逛 本着 "用技术改变生活" 的想法,于是便想着写一个爬虫爬取网易云的歌单,并按播放量自动进行排序 这篇 ...

  7. Python爬虫爬取豆瓣TOP250和网易云歌单

    python爬虫(网易云)笔记 @(python学习) 先推荐看一下b站的视频链接如下:https://www.bilibili.com/video/BV12E411A7ZQ?from=search& ...

  8. Python爬虫实战: 爬取网易云歌单

    这篇文章,我们就来讲讲怎样爬取网易云歌单,并将歌单按播放量进行排序,下面先上效果图 1.用 requests 爬取网易云歌单 打开 网易云音乐 歌单首页,不难发现这是一个静态网页,而且格式很有规律,爬 ...

  9. Python 将网易云歌单迁移到QQ音乐

    最近,网易云音乐越来越多的歌曲变灰了,许多我以前喜欢听的音乐都消失在云端,非常可惜.最近我还是想听回以前的歌曲,于是只能使用有那些歌曲版权的QQ音乐,麻烦的是,QQ音乐没有我在网易云音乐的歌单,两个软 ...

最新文章

  1. 跨域解决方案一:使用CORS实现跨域
  2. 电商系统的积分(即金币)的设计方案
  3. 如何输入一个整数逆序输出_如何匹配DSP输入输出信号
  4. 职称计算机word模拟题,2017年职称计算机考试Word2003模拟题及答案(1)
  5. 美国本科申请Essay的写作注意事项
  6. @Cacheable使用详解
  7. 修改win7电脑主题脚本
  8. 趣味计算机知识问答题,趣味问答题及答案
  9. HUAWEIWATCH GT3有哪些功能?华为新款手表测评
  10. Docker环境下的前后端分离部署与运维 脚本
  11. c语言星座图原理,通信原理中星座图详解
  12. Linux命令06 - - wget 下载网络文件
  13. Vue实现3D全景图,photo-sphere-viewer
  14. 学计算机励志名言,程序员励志格言
  15. 热水器突然不出热水问题排查记录
  16. xilinx fpga学习笔记5:Xst综合属性
  17. 移植OpenCV的AdaBoost人脸检测算法到DM6467
  18. 事件委托是怎么回事?
  19. Python二十行代码实现hexo的md文件格式解析
  20. 妥协型人格分析,妥协型性格的缺点和改善

热门文章

  1. 2021龙岩一中高考成绩查询,龙岩高中学校排名2021最新排名,龙岩高中排名前十
  2. [听侯捷演讲]关于IT人士个人发展的一点思索
  3. 小皮面板数据库服务启动不了,启动后立马停止
  4. iOS文件(沙盒目录,文件创建、移动、复制等)
  5. 语音包软件测试,风某人语音包免费版
  6. python源程序的书写风格_以下关于Python程序的书写风格,正确的描述是:???????????????????????????????????????...
  7. 随机生成区间范围的整数(含负数)
  8. minecraft我的世界服务器开服架设外网教程
  9. 计算机专业转正述职报告,计算机专业述职报告
  10. Unity3D 使用高通AR(一)