今天花了一点时间抓取了网易云音乐的热门民谣歌单,共1500热门民谣歌单,后续有时间会爬取其他分类。文末有源代码下载。

下面记录一下过程。


爬虫过程

1.首先抓取各个歌单的url与标题

public static void DoPachong( String url_str, String charset) throws ClientProtocolException, IOException{HttpClient hc = new DefaultHttpClient();HttpGet hg = new HttpGet(url_str);HttpResponse response = hc.execute(hg);HttpEntity entity = response.getEntity();InputStream htm_in = null;if(entity != null){htm_in = entity.getContent();String htm_str = InputStream2String(htm_in,charset);Document  doc =  Jsoup.parse(htm_str);Elements links= doc.select("div[class=g-bd]").select("div[class=g-wrap p-pl f-pr]").select("ul[class=m-cvrlst f-cb]").select("div[class=u-cover u-cover-1");for (Element link : links) {Elements lin = link.select("a");  String re_url = lin.attr("href");String re_title = lin.attr("title");re_url = "http://music.163.com"+re_url;System.out.print(re_title+"       ");System.out.print(re_url+"       ");SecondPaChong(re_url,charset);}}}

2.根据抓取的url进一步用jsoup解析收听量

    public static void SecondPaChong( String url_str, String charset) throws ClientProtocolException, IOException{HttpClient hc = new DefaultHttpClient();HttpGet hg = new HttpGet(url_str);HttpResponse response = hc.execute(hg);HttpEntity entity = response.getEntity();InputStream htm_in = null;if(entity != null){htm_in = entity.getContent();String htm_str = InputStream2String(htm_in,charset);Document  doc =  Jsoup.parse(htm_str);String links= doc.select("div[class=u-title u-title-1 f-cb]").select("div[class=more s-fc3]").select("strong").text();System.out.println(links);}
}

爬取结果


民谣歌单收听量前10:

  1. 如果你想听民谣,可以从这些歌曲开始。 收听量:11548417

  2. 民谣是最安静的角落 收听量:10727168

  3. 孤独旅人配民谣。 收听量:9946952

  4. 你若听过他的歌,此生便有了挂念 收听量:7551374

  5. ♬女生嘛,污一点才可爱 收听量:6260712

  6. 阅尽沧桑,洗却铅华:聆听那些沧桑之声 收听量:5793889

  7. 民谣,成长中的情绪共谋者 收听量:5368672

  8. 华语女声‖那些入耳入心的代表曲 收听量:4535668

  9. 啤酒邂逅音乐之华语摇滚 收听量:4449337

  10. 中国民谣精选集 收听量:4423420


源码

源代码下载地址:网易云音乐歌单爬虫(给个fork啊2333)

爬虫抓取网易云音乐民谣歌单,收听量排行相关推荐

  1. 抓取网易云音乐网页歌单(url)js

    var importJs=document.createElement('script') //在页面新建一个script标签 importJs.setAttribute("type&quo ...

  2. python爬虫网易云音乐评论最多的歌_Python3实战之爬虫抓取网易云音乐的热门评论...

    前言 之前刚刚入门python爬虫,有大概半个月时间没有写python了,都快遗忘了.于是准备写个简单的爬虫练练手,我觉得网易云音乐最优特色的就是其精准的歌曲推荐和独具特色的用户评论,于是写了这个抓取 ...

  3. python爬虫网易云音乐最热评论并分析_Python3实现爬虫抓取网易云音乐的热门评论分析(图)...

    这篇文章主要给大家介绍了关于Python3实战之爬虫抓取网易云音乐热评的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧. ...

  4. Python3爬虫抓取网易云音乐热评实战

    前一段时间刚刚入门python爬虫,有大概半个月时间没有写python了,都快遗忘了.于是准备写个简单的爬虫练练手,我觉得网易云音乐最优特色的就是其精准的歌曲推荐和独具特色的用户评论,于是写了这个抓取 ...

  5. Python3---站在大佬肩膀写爬虫-爬取网易云音乐热歌榜歌曲热评(精彩评论)

    和我一起加入CSDN----程序猿和攻城狮的社区 网易云音乐是我比较喜欢的一个音乐平台,对于特别热爱听歌的人来说,网易云音乐精准的音乐定位和独特歌曲推荐,让人使用起来很舒服.所谓:自古评论出人才,精彩 ...

  6. Python Scrapy 多线程爬取网易云音乐热门歌单信息(手把手教学)

    下面我将向大家介绍使用 Scrapy 爬虫获取 网易云音乐 的热门歌单信息. 这里是网易云音乐的歌单页面,可以看到歌单信息非常得结构化,是非常适合爬虫来爬取的. URL:全部歌单 - 歌单 - 网易云 ...

  7. python爬取网易云音乐排行榜歌单热评(完整版)

    完整版的爬取网易云音乐的排行榜单,和推荐榜单,热评 直接上代码,代码写的很清楚 为了防止被封我们先做个随机获取User_Agent """随机获取请求头"&qu ...

  8. python爬取歌词_利用Python网络爬虫抓取网易云音乐歌词

    今天小编给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌曲ID: 调用网易云歌曲API,获取歌词: 将歌词写入文件,并存入本地 ...

  9. 使用爬虫抓取网易云音乐热门评论生成好玩的词云

    互联网爬虫是一个很有意思的技术,借由爬虫,我们可以做到很多好玩的事情--这其中就包括爬取评论. 词云就是个更好玩的技术,通过技术方法分析词语出现频率,生成可视化的图形,将文字内容用图形呈现,想想就很意 ...

最新文章

  1. htop 和 bashtop 的一些不足
  2. consul agent的一个故障
  3. 无线节能信标核心板V4-测试-2021-4-3
  4. mysql read timed out_java.sql.SQLException: Socket read timed out
  5. mysql中的G标志实现纵向显示
  6. mysql场景测试_【干货】不同场景下 如何进行MySQL迁移
  7. thymeleaf 异常:SpelEvaluationException: EL1008E: Property or field ‘url‘ cannot be found
  8. 2000/XP自动网络GHOST+全自动改IP
  9. jvm 内存镜像_镜像镜像–使用反射在运行时查看JVM内部
  10. Windows 如何通过命令启动和关闭 Tomcat
  11. 字符串匹配算法(KMP)
  12. DDD专家张逸:复杂与架构演进的关系
  13. 单片机串口控制树莓派3B播放HDMI视频,omxplayer,
  14. Docker详解(五)——Docker基本使用
  15. 一篇文章搞定Python多进程
  16. dubbo面试题-dubbo源码解析
  17. 存储器容量的扩展 —— 位/字扩展
  18. 双参数cfar c语言代码,一种多目标环境下的SAR图像双参数CFAR检测方法与流程
  19. C语言 —— while循环语句用法与例题
  20. 小米手机Android怎么截屏,小米手机怎么截屏 5种截屏方法分享

热门文章

  1. 你觉得法学专业和计算机专业哪个好
  2. 解决django项目中删除数据库表时无法再迁移出来的问题
  3. java crc 校验码_java实现CRC校验码
  4. UBUNTU中可用的不同VIM包之间有什么区别?vim-gtk和vim-gnome,vim-nox,vim-athena
  5. 一个90后关于ZG足球的思考【卡塔尔世界杯】
  6. Git上传代码到GitHub
  7. 关于属性和字段的初步了解
  8. 学神吴佳俊CVPR审稿人
  9. JAMA子刊:孕妈妈每天喝半杯咖啡,可能让胎儿发育迟缓
  10. WebRTC(M66-M88)关键更新说明