python爬虫(爬取酷狗排行榜并保存到本地)
目录
了解什么是爬虫
安装相关的库
分析爬取的网页
写出代码
一:了解什么是爬虫
爬虫专业来讲就是一个探测机器,又被称为网络蜘蛛或网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
但通俗来讲,爬虫就是模仿个人浏览网站,即爬取过程就是在模仿人的动作。
二:安装相关的库
requests-------------使用该库来进行对url的请求
bs4--------------------bs4即Beautiful Soup,bs4库是解析、遍历、维护、“标签树“的功能库
pandas---------------用于快速分析数据,以及数据清洗和准备等工作
time-------------------python时间库,用于爬取时设置时间,防止IP被封
三:分析爬取的网页
今天爬取的网页为酷狗排行榜
URL="酷狗飙升榜_排行榜_乐库频道_酷狗网"
点击F12,找到请求头,即:Request Headers
在找到我们所要爬取的信息所在的标签
如图,便可找到歌曲名即歌手名字
四:写代码
#导入相关的库
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
#发送给服务器的头部信息,即本机信息
headers = {'User.Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}
#建立一个空列表
a=[]
#设置爬取函数
def get_info(url):#通过requests向服务器发送get请求wb_data = requests.get(url, headers=headers)#通过lxml解析该网站soup = BeautifulSoup(wb_data.text, 'lxml')#以下两步为提取相应标签下的信息ranks = soup.select('span.pc_temp_num')#提取排名信息#提取歌曲名,歌手名titles = soup.select('div.pc_temp_songlist > ul > li > a')#提取歌曲时间times = soup.select('span.pc_temp_tips_r > span')for rank, title, time in zip(ranks, titles, times):str1 = title.get_text().split('.')#使用split进行分割data = {'rank': rank.get_text().strip(),'singer': str1[0],'song': str1[-1],'time': time.get_text().strip()}a.append(data)#添加到之前的空列表中print(data)#输出data列表
#设置主函数
if __name__ == '__main__':urls = ['http://www.kugou.com/yy/rank/home/{}.8888.html'.format(str(i)) for i in range(1, 2)]for url in urls:get_info(url)time.sleep(2)
#保存爬取的数据 df_out=pd.DataFrame(a,columns=['rank','singer','song','time'])df_out.to_excel('aaa.xlsx')
python爬虫(爬取酷狗排行榜并保存到本地)相关推荐
- Python爬虫爬取酷狗音乐TOP500
Python大作业 内容简介: 用Python来爬取酷狗音乐TOP500的歌曲信息,统计这500首歌曲中出现的所有歌手,并做可视化处理生成词云 实验代码: import time import req ...
- Python爬虫 爬取酷狗TOP500的数据
根据书籍<从零开始学Python网络爬虫>P41,综合案例2-爬取酷狗TOP500的数据修改而来. 使用模块requests和模块BeautifukSoup进行爬取. 不得不说,酷狗拿来跑 ...
- python爬虫爬取酷狗top5001
前言 这段时间正在学习python爬虫,今天分享一个关于酷狗音乐top500的爬虫 python库 标准库 time 第三方库 requests库 BeautifulSoup库 自建库 agent库( ...
- python爬虫——爬取酷狗音乐top500(BeautifulSoup使用方法)
酷狗音乐Top500 酷狗top500http://www.kugou.com/yy/rank/home/1-8888.html?from=rank 进入,并按F12打开开发者工具(本文以火狐浏览器为 ...
- python爬虫-爬取酷狗音乐top榜
酷狗音乐top500榜单就是我们今天需要爬取的对象,作为新手入门的代码,只需要将信息爬取下来即可,十分简单,不需要保存到数据库或保存到文件,仅当普通练习. https://www.kugou.com/ ...
- python爬虫爬取酷狗音乐
老规矩,代码先行 # -*- codeing = utf-8 -*- # @Time : 2021/2/25 13:17 # @Author : 老七疯狂吸氧 # @file 酷狗音乐.py # @S ...
- python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
- python爬虫爬取豆瓣电影排行榜,并写进csv文件,可视化数据分析
#1.爬取内容,写进csv文件 import requests import re import csv #豆瓣电影排行榜,写进csv文件 url = "https://movie.doub ...
- Python爬虫爬取数据以Json格式保存并解决中文乱码问题
爬取网站的前端源码: Python代码: import requests from bs4 import BeautifulSoup import jsontarget = 'http://www.h ...
最新文章
- Go 学习笔记(9)— 循环(for、for range访问数组、切片、字符串和通道、goto、continue、break)
- 场景解析--Pyramid Scene Parsing Network
- 区块链开发公司能做什么?对企业未来市场有何帮助?
- 小学生300道练习题程序及问题
- Linux脚本编写基础
- Ubuntu下GTK的安装、编译和测试
- JetBrains系列WebStorm等中文输入法无法跟随光标的问题的解决办法
- 基金回撤越大收益越高吗?
- 1 个 AI 模型 = 5 辆汽车终身碳排量,AI 为何如此耗能?
- Android Studio builde.gradle 配置说明
- mysql编译安装原理_Mysql源码编译安装主从复制
- 计算机教室的网络拓扑结构,基于网络拓扑结构的校园计算机网络系统集成设计...
- ZEMAX | 在OpticStudio中建立扩增实境(VR)头戴式显示器
- pdffactory字体打印不对_【原创】pdfFactory Pro有关转换PDG图像质量下降解决途径
- H5 简单实现微信公众号摇一摇功能
- C#实现简单气泡屏保(一)
- Word使用技巧-分页符-分节符
- 在HTTPS网站安装百度分享按钮代码及其SEO外链作用
- java类的继承,接口,抽象类总结
- ROS2:Humble 教程