目录

了解什么是爬虫

安装相关的库

分析爬取的网页

写出代码


一:了解什么是爬虫

爬虫专业来讲就是一个探测机器,又被称为网络蜘蛛或网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

但通俗来讲,爬虫就是模仿个人浏览网站,即爬取过程就是在模仿人的动作。

二:安装相关的库

requests-------------使用该库来进行对url的请求

bs4--------------------bs4即Beautiful Soup,bs4库是解析、遍历、维护、“标签树“的功能库

pandas---------------用于快速分析数据,以及数据清洗和准备等工作

time-------------------python时间库,用于爬取时设置时间,防止IP被封

三:分析爬取的网页

今天爬取的网页为酷狗排行榜

URL="酷狗飙升榜_排行榜_乐库频道_酷狗网"

点击F12,找到请求头,即:Request Headers

在找到我们所要爬取的信息所在的标签

如图,便可找到歌曲名即歌手名字

四:写代码

#导入相关的库
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
#发送给服务器的头部信息,即本机信息
headers = {'User.Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}
#建立一个空列表
a=[]
#设置爬取函数
def get_info(url):#通过requests向服务器发送get请求wb_data = requests.get(url, headers=headers)#通过lxml解析该网站soup = BeautifulSoup(wb_data.text, 'lxml')#以下两步为提取相应标签下的信息ranks = soup.select('span.pc_temp_num')#提取排名信息#提取歌曲名,歌手名titles = soup.select('div.pc_temp_songlist > ul > li > a')#提取歌曲时间times = soup.select('span.pc_temp_tips_r > span')for rank, title, time in zip(ranks, titles, times):str1 = title.get_text().split('.')#使用split进行分割data = {'rank': rank.get_text().strip(),'singer': str1[0],'song': str1[-1],'time': time.get_text().strip()}a.append(data)#添加到之前的空列表中print(data)#输出data列表
#设置主函数
if __name__ == '__main__':urls = ['http://www.kugou.com/yy/rank/home/{}.8888.html'.format(str(i)) for i in range(1, 2)]for url in urls:get_info(url)time.sleep(2)
#保存爬取的数据        df_out=pd.DataFrame(a,columns=['rank','singer','song','time'])df_out.to_excel('aaa.xlsx')

python爬虫(爬取酷狗排行榜并保存到本地)相关推荐

  1. Python爬虫爬取酷狗音乐TOP500

    Python大作业 内容简介: 用Python来爬取酷狗音乐TOP500的歌曲信息,统计这500首歌曲中出现的所有歌手,并做可视化处理生成词云 实验代码: import time import req ...

  2. Python爬虫 爬取酷狗TOP500的数据

    根据书籍<从零开始学Python网络爬虫>P41,综合案例2-爬取酷狗TOP500的数据修改而来. 使用模块requests和模块BeautifukSoup进行爬取. 不得不说,酷狗拿来跑 ...

  3. python爬虫爬取酷狗top5001

    前言 这段时间正在学习python爬虫,今天分享一个关于酷狗音乐top500的爬虫 python库 标准库 time 第三方库 requests库 BeautifulSoup库 自建库 agent库( ...

  4. python爬虫——爬取酷狗音乐top500(BeautifulSoup使用方法)

    酷狗音乐Top500 酷狗top500http://www.kugou.com/yy/rank/home/1-8888.html?from=rank 进入,并按F12打开开发者工具(本文以火狐浏览器为 ...

  5. python爬虫-爬取酷狗音乐top榜

    酷狗音乐top500榜单就是我们今天需要爬取的对象,作为新手入门的代码,只需要将信息爬取下来即可,十分简单,不需要保存到数据库或保存到文件,仅当普通练习. https://www.kugou.com/ ...

  6. python爬虫爬取酷狗音乐

    老规矩,代码先行 # -*- codeing = utf-8 -*- # @Time : 2021/2/25 13:17 # @Author : 老七疯狂吸氧 # @file 酷狗音乐.py # @S ...

  7. python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中

    我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...

  8. python爬虫爬取豆瓣电影排行榜,并写进csv文件,可视化数据分析

    #1.爬取内容,写进csv文件 import requests import re import csv #豆瓣电影排行榜,写进csv文件 url = "https://movie.doub ...

  9. Python爬虫爬取数据以Json格式保存并解决中文乱码问题

    爬取网站的前端源码: Python代码: import requests from bs4 import BeautifulSoup import jsontarget = 'http://www.h ...

最新文章

  1. Go 学习笔记(9)— 循环(for、for range访问数组、切片、字符串和通道、goto、continue、break)
  2. 场景解析--Pyramid Scene Parsing Network
  3. 区块链开发公司能做什么?对企业未来市场有何帮助?
  4. 小学生300道练习题程序及问题
  5. Linux脚本编写基础
  6. Ubuntu下GTK的安装、编译和测试
  7. JetBrains系列WebStorm等中文输入法无法跟随光标的问题的解决办法
  8. 基金回撤越大收益越高吗?
  9. 1 个 AI 模型 = 5 辆汽车终身碳排量,AI 为何如此耗能?
  10. Android Studio builde.gradle 配置说明
  11. mysql编译安装原理_Mysql源码编译安装主从复制
  12. 计算机教室的网络拓扑结构,基于网络拓扑结构的校园计算机网络系统集成设计...
  13. ZEMAX | 在OpticStudio中建立扩增实境(VR)头戴式显示器
  14. pdffactory字体打印不对_【原创】pdfFactory Pro有关转换PDG图像质量下降解决途径
  15. H5 简单实现微信公众号摇一摇功能
  16. C#实现简单气泡屏保(一)
  17. Word使用技巧-分页符-分节符
  18. 在HTTPS网站安装百度分享按钮代码及其SEO外链作用
  19. java类的继承,接口,抽象类总结
  20. ROS2:Humble 教程

热门文章

  1. python打造拳皇97电玩游戏,不信有开源API?先看我玩把八神庵
  2. java中example函数作用_mybatis mapper学习4-MyBatis的Mapper接口以及Example的实例函数及详解...
  3. C语言数组越界和内存分布
  4. 做好投机需要一个方法两种能力
  5. 从硬件到纯软件,回顾一个老工程师的经历之路!
  6. 键盘上26个字母的含义之快捷键
  7. 新手必看!51单片机指令快速记忆法
  8. 网上卖产品都是怎么引流的?微商卖产品如何引流?
  9. Java基础01:注释
  10. 2019 CSP-S 被虐记