python爬取网易云音乐排行榜歌曲及评论

网易云音乐排行榜歌曲及评论爬取

主要注意问题:selenium 模拟登录、iframe标签定位、页面元素提取。
在利用selenium定位元素并取值的过程中遇到问题。比如xpath正确但无法定位,在进行翻页提取评论的过程中,利用selenium似乎不能提取不同页的数据,比如,明明定位的第三页的评论数据,而只能返回第一页的评论数据。

一、模拟登录

selenium 定位元素模拟人的操作进行登录,直接上代码:

//模拟登录
import pandas as pd
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from selenium.webdriver import ActionChains
from lxml import etree
import time
from datetime import datetime,timedelta
wyy_url = 'https://music.163.com/'
driver = webdriver.Chrome()
driver.get(wyy_url)
driver.maximize_window() #全屏
time.sleep(2)
driver.find_element_by_xpath("//a[@class = 'link s-fc3']").click()
time.sleep(2)
driver.find_element_by_xpath("//a[@class='u-btn2 other']").click() #选择其他方式登录
#账号、密码登录
driver.find_element_by_xpath("//input[@type='checkbox']").click() #同意条款
time.sleep(0.5)
driver.find_element_by_xpath("//a[@class='u-btn2 u-btn2-2']").click()
#选择手机号密码登录
driver.find_element_by_xpath("//a[@class='f-fr s-fc3 pwdlogin']").click()
time.sleep(1)
driver.find_element_by_id("p").send_keys('xxx') #这里输入你的id
driver.find_element_by_id("pw").send_keys('xxx') #这里输入密码
time.sleep(1)
#点击登录
driver.find_element_by_xpath("//a[@class='j-primary u-btn2 u-btn2-2']").click()
time.sleep(1)

二、排行榜数据爬取

当时尝试直接用selenium定位标签取值,并没有返回有效结果。在后面爬取评论时,也遇到此问题。于是先获取页面内容在进行分析。

// 排行榜
base_url = "https://music.163.com/#/discover/toplist?id="
bang_typical = {'飙升榜':19723756,'新歌榜':3779629,'原创榜':2884035,'热歌榜':3778678}
#选择榜单
bang = input('请输入榜单:')
#构造榜单对应的链接
url = base_url + str(bang_typical[bang])
print('开始分析:-%s' %(bang))
#进入榜单
driver.get(url)
time.sleep(3)
#iframe标签定位,必要的,否则无法定位其他标签
_iframe = driver.find_element_by_xpath("//iframe[@id='g_iframe']") # 找到iframe标签
driver.switch_to.frame(_iframe)
time.sleep(1)
page_text = driver.execute_script("return document.documentElement.outerHTML")
#获取页面
html = etree.HTML(page_text)
trs = html.xpath('//tbody/tr')
rank_list = []
title_list = []
span_list = []
singer_list = []
for tr in trs:rank = tr.xpath(".//span[@class='num']/text()")[0]    #注意xpath获取到的是列表,需提取其元素title = tr.xpath(".//b/@title")[0]span = tr.xpath(".//td[@class=' s-fc3']/span[@class='u-dur ']/text()")[0]singer = tr.xpath(".//div[@class='text']/span/@title")[0]rank_list.append(rank)title_list.append(title)span_list.append(span)singer_list.append(singer)
#输出榜单结果
df_bang = pd.DataFrame({'排名':rank_list,'歌名':title_list,'时长':span_list,'歌手':singer_list})

三、排行榜评论获取

主要是评论日期的格式转换,评论内容的清洗

// 评论
# 日期清洗函数
def change_time(time):now = datetime.now()day_y = datetime.strftime(now - timedelta(1),'%Y-%m-%d') #计算昨天day = now.strftime('%Y-%m-%d')year = now.strftime('%Y')if '年' in time:                                         #非今年new_time = time.replace('年','-').replace('月','-').replace('日','')elif '昨天' in time:new_time = time.replace('昨天',day_y+' ')  elif '前' in time:                                      #前天minut = int(time[:time.index('分')])new_time = (now + timedelta(minutes=-minut)).strftime('%Y-%m-%d %H:%M')elif len(time) == 5:                                   #今天new_time = day + ' ' + timeelse:                                                  #最近 ********y = '2021-'time = time.replace('月','-').replace('日','')new_time = y + time  return new_time      #评论清洗
def change_review(r):if ':' in r:r_ = r.split(':')[1]else:r_ = rreturn r_#评论点赞
def change_likes(l):if l != []:l_ = int(l.split('(')[1].split(')')[0])else:l_ = 0return l_#拉动滚动条至翻页按钮处
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)") #获取页面信息
num = input('请输入需要爬取的页面总数:')  #想要爬取评论的页数,
#这里的思路是先通过翻页将获取到的所有页面的所有内容存至列表,再对列表遍历。
#因为当时直接用selenium 定位返回结果不对,当然你们也可以用selenium直接试试。
html_list=[]
for i in range(int(num)):page_text = driver.execute_script("return document.documentElement.outerHTML")html = etree.HTML(page_text)#获取页面html_list.append(html)#翻页driver.find_elements_by_xpath("//div[contains(@class,'u-page')]/a")[-1].click()time.sleep(4)WebDriverWait(driver, 300, 0.1).until(EC.presence_of_element_located((By.XPATH, "//div[@class='cmmts j-flag']")))print(f'第{i+1}页爬取成功')rev_list=[] #所有评论的列表
dat_list=[] #对应日期的列表
for review_page in html_list:raw_reviews = review_page.xpath("//div[@class='cmmts j-flag']//div[@class='cnt f-brk']/text()")#提取页面所有评论raw_reviews_ = [i for i in raw_reviews if ":" in i] #保证长度一致rv_date = review_page.xpath("//div[@class='cmmts j-flag']//div[@class='cntwrap']/div[@class='rp']/div[@class='time s-fc4']/text()")review_list = [change_review(r) for r in raw_reviews_]date_list = [change_time(d) for d in rv_date]rev_list.extend(review_list)   dat_list.extend(date_list)
print('分析完成')
driver.quit()

运行结果:
1、排行榜:

2、评论:

总结

哈哈,用了快两年的csdn, 光顾着白嫖文章。这也是我的第一个帖子,也没啥经验,有啥问题的,还请各位指正!

python爬取网易云音乐排行榜数据相关推荐

  1. python爬取网易云音乐排行榜歌单热评(完整版)

    完整版的爬取网易云音乐的排行榜单,和推荐榜单,热评 直接上代码,代码写的很清楚 为了防止被封我们先做个随机获取User_Agent """随机获取请求头"&qu ...

  2. python爬取网易云音乐飙升榜音乐_python爬取网易云音乐热歌榜 python爬取网易云音乐热歌榜实例代码...

    想了解python爬取网易云音乐热歌榜实例代码的相关内容吗,FXL在本文为您仔细讲解python爬取网易云音乐热歌榜的相关知识和一些Code实例,欢迎阅读和指正,我们先划重点:python,网易热歌榜 ...

  3. python爬取网易云音乐飙升榜音乐_python爬取网易云音乐热歌榜实例代码

    首先找到要下载的歌曲排行榜的链接,这里用的是: https://music.163.com/discover/toplist?id=3778678 然后更改你要保存的目录,目录要先建立好文件夹,例如我 ...

  4. Python爬取网易云音乐热歌榜(爬虫)

    Python爬取网易云音乐热歌榜歌曲,并下载到本地 找到要下载歌曲排行榜的链接,这里用的是: https://music.163.com/discover/toplist?id=3778678 然后更 ...

  5. Python爬取网易云音乐歌手歌曲和歌单(爬虫)

    Python爬取网易云音乐歌手歌曲和歌单 是 仅供学习参考 Python爬取网易云音乐网易云音乐歌手歌曲和歌单,并下载到本地 ①找到要下载歌手歌曲的链接,这里用的是: https://music.16 ...

  6. python爬音乐-用python爬取网易云音乐歌曲的歌词

    今天我来分享一下如何用python爬取网易云音乐歌曲的歌词,网易云音乐的歌词的爬取思路同前面介绍过的爬取网易云音乐的歌曲评论的爬取思路一致.由于两者的加密思路都是一致的,因此我们只需分析出被加密了的参 ...

  7. python爬取网易云音乐热评_python爬取网易云音乐评论

    本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...

  8. python爬取网易云音乐生成王力宏歌曲词云

    python爬取网易云音乐生成王力宏歌曲词云 # -*- coding:utf-8 -*- # 网易云音乐,通过歌手id生成词云 import requests import sys,re,os fr ...

  9. [爬虫]Python爬取网易云音乐搜索并下载歌曲!

    Python爬取网易云音乐搜索并下载歌曲! 文章目录 Python爬取网易云音乐搜索并下载歌曲! 1.准备工作 2."实地"观察 3.开始码代码! 4.搜索并下载 结束语 1.准备 ...

最新文章

  1. iis7.5 php7.0,(原创)win7自带IIS7.5+php7.0.10安装教程(图)
  2. node重命名文件名_利用Node.js对文件进行重命名
  3. android自定义组合view,自定义View之组合View
  4. Document,Node,Element,HTMLDocument ,HTMLCollection,HTMLElement,NodeList
  5. 快速了解上市公司年报
  6. VTK:网格之ElevationFilter
  7. apue对java_[apue] 一个快速确定新系统上各类限制值的工具
  8. 重学《JavaScript 高级程序设计》笔记 第6章对象
  9. SwitchHosts提示切换hosts失败!没有修改'C:\WINDOWS\system32\drivers\etc\hosts'的权限问题
  10. [poj2752]Seek the Name, Seek the Fame_KMP
  11. Netty : netty 3如何解决空轮询bug
  12. 一张思维导图,让正则表达式不再难懂
  13. 商务利器 HAWK浩客G580无线演示器试用
  14. php Hash Table(二) Hash函数
  15. 御剑情缘服务器维护吗,御剑情缘常见问题 解决方法分享
  16. Matlab:实现菲涅尔矩形孔衍射仿真
  17. 【新星计划】Matlab pid参数调节工具箱
  18. (C语言版)百钱买百鸡问题:公鸡五文钱一只,母鸡三文钱一只,小鸡三只一文钱, 用100文钱买100只鸡,公鸡、母鸡、小鸡各买多少只?
  19. 平均 15144 元、软件工程师占比最高,2021 年 2 月程序员工资最新出炉!
  20. Java使用freemarker生成word文档并转pdf文档

热门文章

  1. 前端CSS3--字体样式
  2. 145.如何评价个性化推荐系统的效果-2
  3. NetworkX学习及使用
  4. 计算机鼠标游戏教学法,小学信息技术游戏型教学法初探
  5. 心田花开教学让你快速掌握心田上的百合花写法与修辞手法运用
  6. ParaView-2
  7. Linux 防火墙策略——APF
  8. Linux搭建MQTT服务器(Mosquitto)
  9. lambada表达式介绍
  10. div+css普通表格样式