python爬虫（爬取酷狗排行榜并保存到本地）

了解什么是爬虫

安装相关的库

分析爬取的网页

写出代码

一：了解什么是爬虫

爬虫专业来讲就是一个探测机器，又被称为网络蜘蛛或网络机器人，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

但通俗来讲，爬虫就是模仿个人浏览网站，即爬取过程就是在模仿人的动作。

二：安装相关的库

requests-------------使用该库来进行对url的请求

bs4--------------------bs4即Beautiful Soup,bs4库是解析、遍历、维护、“标签树“的功能库

pandas---------------用于快速分析数据，以及数据清洗和准备等工作

time-------------------python时间库，用于爬取时设置时间，防止IP被封

三：分析爬取的网页

今天爬取的网页为酷狗排行榜

URL="酷狗飙升榜_排行榜_乐库频道_酷狗网"

点击F12，找到请求头，即：Request Headers

在找到我们所要爬取的信息所在的标签

如图，便可找到歌曲名即歌手名字

四：写代码

#导入相关的库
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
#发送给服务器的头部信息，即本机信息
headers = {'User.Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}
#建立一个空列表
a=[]
#设置爬取函数
def get_info(url):#通过requests向服务器发送get请求wb_data = requests.get(url, headers=headers)#通过lxml解析该网站soup = BeautifulSoup(wb_data.text, 'lxml')#以下两步为提取相应标签下的信息ranks = soup.select('span.pc_temp_num')#提取排名信息#提取歌曲名，歌手名titles = soup.select('div.pc_temp_songlist > ul > li > a')#提取歌曲时间times = soup.select('span.pc_temp_tips_r > span')for rank, title, time in zip(ranks, titles, times):str1 = title.get_text().split('.')#使用split进行分割data = {'rank': rank.get_text().strip(),'singer': str1[0],'song': str1[-1],'time': time.get_text().strip()}a.append(data)#添加到之前的空列表中print(data)#输出data列表
#设置主函数
if __name__ == '__main__':urls = ['http://www.kugou.com/yy/rank/home/{}.8888.html'.format(str(i)) for i in range(1, 2)]for url in urls:get_info(url)time.sleep(2)
#保存爬取的数据        df_out=pd.DataFrame(a,columns=['rank','singer','song','time'])df_out.to_excel('aaa.xlsx')

python爬虫（爬取酷狗排行榜并保存到本地）相关推荐

Python爬虫爬取酷狗音乐TOP500
Python大作业内容简介: 用Python来爬取酷狗音乐TOP500的歌曲信息,统计这500首歌曲中出现的所有歌手,并做可视化处理生成词云实验代码: import time import req ...
Python爬虫爬取酷狗TOP500的数据
根据书籍<从零开始学Python网络爬虫>P41,综合案例2-爬取酷狗TOP500的数据修改而来. 使用模块requests和模块BeautifukSoup进行爬取. 不得不说,酷狗拿来跑 ...
python爬虫爬取酷狗top5001
前言这段时间正在学习python爬虫,今天分享一个关于酷狗音乐top500的爬虫 python库标准库 time 第三方库 requests库 BeautifulSoup库自建库 agent库( ...
python爬虫——爬取酷狗音乐top500(BeautifulSoup使用方法)
酷狗音乐Top500 酷狗top500http://www.kugou.com/yy/rank/home/1-8888.html?from=rank 进入,并按F12打开开发者工具(本文以火狐浏览器为 ...
python爬虫-爬取酷狗音乐top榜
酷狗音乐top500榜单就是我们今天需要爬取的对象,作为新手入门的代码,只需要将信息爬取下来即可,十分简单,不需要保存到数据库或保存到文件,仅当普通练习. https://www.kugou.com/ ...
python爬虫爬取酷狗音乐
老规矩,代码先行 # -*- codeing = utf-8 -*- # @Time : 2021/2/25 13:17 # @Author : 老七疯狂吸氧 # @file 酷狗音乐.py # @S ...
python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
python爬虫爬取豆瓣电影排行榜，并写进csv文件，可视化数据分析
#1.爬取内容,写进csv文件 import requests import re import csv #豆瓣电影排行榜,写进csv文件 url = "https://movie.doub ...
Python爬虫爬取数据以Json格式保存并解决中文乱码问题
爬取网站的前端源码: Python代码: import requests from bs4 import BeautifulSoup import jsontarget = 'http://www.h ...