简单的爬取音乐的名称及链接

  • 简单爬虫
    • 以爬取网易云音乐中的云音乐飙升榜为例
      • 最后提醒大家,合法爬取!!!

简单爬虫

以爬取网易云音乐中的云音乐飙升榜为例

from urllib.request import Request, urlopen
import random
from bs4 import BeautifulSoup
import xlwtdef main():html = gethtml('https://music.163.com/discover/toplist?id=19723756')music_list = getMusic(html)saveMusic(music_list)def gethtml(url):ua_list = [这里面写你的user-agent的信息,越多越好]ua = random.choice(ua_list)req = Request(url=url)req.add_header('user-agent',ua)with urlopen(req) as response:html = response.read().decode('utf-8')bs = BeautifulSoup(html, "html.parser")item = bs.find_all("ul", class_="f-hide")[0]return itemdef getMusic(html):html = str(html)bs = BeautifulSoup(html, "html.parser")music_list = []for item in bs.select('ul > li >a'):music = []music.append(item.string)music.append('https://music.163.com/#'+item['href'])music_list.append(music)return music_listdef saveMusic(music_list):workbook = xlwt.Workbook(encoding='utf-8')    # 创建wookbook对象worksheet = workbook.add_sheet('sheet1')      # 创建工作表worksheet.write(0, 0, '音乐名')                # 写入数据,第一个参数‘行’;第二个参数‘列’;第三个参数是内容worksheet.write(0, 1, '音乐链接')for i in range(len(music_list)):worksheet.write(i+1, 0, music_list[i][0])worksheet.write(i+1, 1, music_list[i][1])workbook.save('music.xls')if __name__ == '__main__':main()

对于上述的代码,我主要想说的是。
1、我们在爬取的时候尽量创建user-agent池
2、其次在urllib.request中的urlopen,其实也可以像文件操作一样。当时我其实也并不知道,但是看到了read方法后,我才看了库的源码,发现确实如此。所以用来with
3、对于select的用法也是多种多样的

# css选择器
print("css选择器")
for item in bs.select("title"):     # 通过标签寻找print(item)
for item in bs.select(".mnav"):     # 通过类名来查找print(item)
for item in bs.select("#u1"):     # 通过id来查找print(item)
for item in bs.select("a[name='tj_trvideo']"):     # 通过属性来查找print(item)
for item in bs.select("head > title"):     # 通过子标签来查找print(item)
for item in bs.select(".mnav ~ .bri"):     # 通过兄弟标签来查找print(item.get_text())

最后提醒大家,合法爬取!!!

爬取网易云的音乐信息相关推荐

  1. java怎么爬网易云_Python爬虫爬取网易云的音乐

    Python爬虫爬取网易云的音乐(学习笔记) 在开始之前,做一点小小的说明哈: 我只是一个python爬虫爱好者,如果本文有侵权,请联系我删除! 本文需要有简单的python爬虫基础,主要用到两个爬虫 ...

  2. 用Python给我写一个爬取网易云的音乐代码

    好的,为了爬取网易云音乐,我们需要使用一些第三方库来帮助我们处理网络请求和解析 HTML/XML 数据.在这里,我建议您使用 requests 库来发送网络请求和 Beautiful Soup 库来解 ...

  3. Python爬取网易云各类音乐的详细信息

    python爬虫:通过selenium+requests爬取各类音乐的详细信息 完整代码如下: from selenium import webdriver from lxml import etre ...

  4. webdriver爬取网易云歌单信息

    import time from selenium import webdriverdriver = webdriver.Chrome()driver.get("https://music. ...

  5. Python爬虫——教你js逆向爬取网易云评论

    大家好!我是霖hero 正所谓条条道路通罗马,上次我们使用了Selenium自动化工具来爬取网易云的音乐评论,Selenium自动化工具可以驱动浏览器执行特定的动作,获得浏览器当前呈现的页面的源代码, ...

  6. Python Scrapy 多线程爬取网易云音乐热门歌单信息(手把手教学)

    下面我将向大家介绍使用 Scrapy 爬虫获取 网易云音乐 的热门歌单信息. 这里是网易云音乐的歌单页面,可以看到歌单信息非常得结构化,是非常适合爬虫来爬取的. URL:全部歌单 - 歌单 - 网易云 ...

  7. python爬取网易云音乐评论并进行可视化分析

    2019独角兽企业重金招聘Python工程师标准>>> 前言 今天为大家一个爬取网易云音乐评论的Python案例,并用Python的第三方库来进行可视化分析,生成图表样式,可以清晰地 ...

  8. python网易云_用python爬虫爬取网易云音乐

    标签: 使用python爬虫爬取网易云音乐 需要使用的模块 只需要requests模块和os模块即可 开始工作 先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...

  9. Python爬取网易云热歌榜所有音乐及其热评

    获取特定歌曲热评: 首先,我们打开网易云网页版,击排行榜,然后点击左侧云音乐热歌榜,如图: 关于如何抓取指定的歌曲的热评,参考这篇文章,很详细,对小白很友好: 手把手教你用Python爬取网易云40万 ...

最新文章

  1. SVO Without ROS环境搭建
  2. linux]ubuntu挂载U盘
  3. Ansible 基础-介绍
  4. MyBatis-19MyBatis代码生成器-XML配置详解
  5. 1.13 南京站 | 2022 开年 Serverless 沉浸式技术实践营开始报名
  6. 交大世界大学排名 计算机专业,2018考研:计算机专业全球院校排名公布,上海交通大学竟排第一?...
  7. 指定父对象和信号与槽
  8. c语言08,标准C语言08_01.doc
  9. 阿里云获全球第一张云安全国际认证金牌
  10. CVPR 2020 | 基于知识蒸馏的分块监督NAS
  11. Android -- 图片画画板(canvas、paint、bitmap)
  12. Asp.Net WebApi swagger使用教程
  13. 《最新黑客攻防实战从入门到精通(第2版)》.(武新华, 孙振辉 ).[PDF]ckook
  14. 2022年10 款最佳计算机视觉开源数据标注工具
  15. [OpenCV+VS2015]火焰检测算法(HSI判据)
  16. 音乐播放器 歌词同步滚动功能实现
  17. 3dmax2018卸载/安装失败/如何彻底卸载清除干净3dmax2018注册表和文件的方法
  18. 一枚菜鸟前端工程师月度工作总结
  19. iReport简单使用
  20. 力学知识点提要(上)

热门文章

  1. 虚拟环境Vmware下改变Linux(CentOS7)IP地址
  2. 图像修复 python_用python进行图像修复与去除水印
  3. 阿里云SSL域名证书申请和宝塔配置
  4. 1.SPSS概述(安装与界面基本认识)
  5. 2021-03-23 sgn函数
  6. fzu2190---非提的救赎 (单调栈)
  7. 2018年第九届蓝桥杯省赛C/C++ A组(蒻鸡自己写的,看不上勿喷,自己的一点想法)
  8. cf(穿越火线)进游戏乱码问题解决方案
  9. CI24R1/SI24R1 2.4G无线传输技术--无线门铃
  10. c#线程-线程间发消息-线程给窗体传值