爬虫训练（三）：爬取酷狗音乐

今天趁机一鼓作气，把简单爬虫内容一次学习完毕，最后以爬取酷狗音乐排行榜歌曲作为结束，然后对此次学习做一个整理和总结。而且前两篇有些混乱，这里把内容做一次阶段性总结。

一、安装包

爬虫三大包：requests、lxml、BeautifulSoup，根据自己的python配置情况进行安装，这里不再赘述。

二、爬虫简单尝试——爬取整个网页内容

1.请求头的查找
具体参考文章：爬虫训练：第一次真好~

2.简单爬虫代码
代码如下：

import requests
from bs4 import BeautifulSoup
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}#请求头
res=requests.get('https://zhidao.baidu.com/',headers=headers)#请求网址
res.encoding='GBK'#解决爬取内容乱码
print(res.text)

这种爬虫方式容易出现乱码，可以添加一段代码解决，具体原因和解决方案参考：爬虫训练（二）：乱码问题

三、爬取具体元素

1.select函数定义元素位置
具体参考文章：爬虫训练：第一次真好~

2.爬取具体元素代码
代码如下：

import requests
from bs4 import BeautifulSoup
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}#请求头
res=requests.get('https://zhidao.baidu.com/',headers=headers)#请求网址
soup=BeautifulSoup(res.text,'lxml') #解析数据
authors=soup.select('#body > div.wgt-two-layout > div > div.wgt-two-layout-left > div > div.rank-list > div:nth-child(2)') #定位元素
#res.encoding = res.apparent_encoding#解决爬出内容乱码
res.encoding='GBK'#解决爬取内容乱码
#print(type(authors))
#print(authors)
for author in authors:print(author.get_text()) #这里对该段命令进行重复，保证所有符合的元素都被爬取

这部分在操作时，结果再次出现乱码，即使加入代码也无法解决，后来根据搜索的内容和请教，似乎和jupyter编辑器有关，于是这里管段换成pycharm，在之后爬取酷狗音乐的时候，问题迎刃而解决，所以如果碰到同样的问题时，建议换成pycharm。

四、爬取酷狗音乐

代码如下：

#导入包
import requests
from bs4 import BeautifulSoup
import time#请求头
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}#定义获取信息的函数
def get_info(url):wb_data = requests.get(url, headers=headers)soup = BeautifulSoup(wb_data.text, 'lxml')ranks = soup.select('span.pc_temp_num')# rankWrap > div.pc_temp_songlist > ul > li:nth-child(1) > span.pc_temp_num > strong# rankWrap > div.pc_temp_songlist > ul > li:nth-child(2) > span.pc_temp_num > strongtitles = soup.select('#rankWrap > div.pc_temp_songlist > ul > li > a')# rankWrap > div.pc_temp_songlist > ul > li:nth-child(1) > a# rankWrap > div.pc_temp_songlist > ul > li:nth-child(2) > afor rank, title in zip(ranks, titles):data = {"rank": rank.get_text().strip(),"singer": title.get_text().split('-')[0],'song': title.get_text().split('-')[0]}#通过split获取歌手和歌曲信息print(data)#获取爬虫信息并按字典格式打印#主程序入口
if __name__=='__main__':urls = ['https://www.kugou.com/yy/rank/home/1-8888.html'.format(str(i)) for i in range(1, 2)]#构造多页urlfor url in urls:get_info(url)#循环调用get_info()函数time.sleep(1)#爬虫完成后休息1秒，避免请求网页过频导致爬虫失败

结果如下：

这里有几个容易出错的点：
1.主程序入口name和main两侧的“_”是两个，这里注意格式正确。
2.定位元素位置加入了完整内容的注释，用于和最后成功代码做对比，可以看出想要爬出合适的数据，定位元素不能照抄，需要作出适当的调整，而且适当调整后出来的结果会更加整洁漂亮。同时，如果可以直接找对应位置那段，可以直接拿来用。

五、总结（个人问题总结，可以略过）

1.酷狗音乐部分还有许多代码含义不够清晰，只是会用。
2.操作过程中的错误并没有搞清楚原因，比如乱码、pycharm使用熟练度。
3.参考书还有另外一个例子，里面有段和图片人的性别辨别有关的代码，这里单纯总结出来。

sexs=soup.select('')
for sex:data={'sex':judgment_sex(sex.get('class'))}def judgment_sex(class_name):if class_name == ['member_icol']:return '女'elif:return '男'