python爬虫实战

好久没给大家跟新爬虫文章了,抱歉抱歉,这期给大家带来一篇小爬虫,希望大家喜欢,喜欢的来个关注,支持一下博主,谢谢各位了。

写代码了各位宝宝们
这里要注意一点就是要记得提前登录,cookie要用登录后的

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/''87.0.4280.88 Safari/537.36','Referer': 请用自己的,'Cookie': 请用自己的,'csrf': 请用自己的,'Host': 'www.kuwo.cn'}

在翻页的时候可以利用for循环进行遍历

        for i in range(page):start_url = f'http://www.kuwo.cn/api/www/search/searchMusicBykeyWord?key={singer_name}&pn=' \f'{i + 1}&rn=30&httpsStatus=1&reqId=d301af60-6e1e-11ec-840f-dfca3a2ceb68'

解析数据

response = requests.get(start_url, headers=headers).json()# 解析得到song_names, song_ridssong_names = jsonpath.jsonpath(response, '$..name')song_rids = jsonpath.jsonpath(response, '$..rid')

遍历得到song_name, song_rid 构造song_info_url

# 遍历得到song_name, song_rid 构造song_info_urlfor song_name, song_rid in zip(song_names, song_rids):song_info_url = 'http://www.kuwo.cn/api/v1/www/music/playUrl?mid={}' \'&type=music&httpsStatus=1&reqId=c0ac92a0-6e35-11ec-b428-05be0a87bc11'.format(song_rid)

源码展示:

# !/usr/bin/nev python
# -*-coding:utf8-*-from threading import Thread
import tkinter as tk
import os, requests, jsonpath
from requests_html import HTMLSession
session = HTMLSession()class kuwoSpider(object):def __init__(self):"""定义可视化窗口,并设置窗口和主题大小布局"""self.window = tk.Tk()self.window.title('音乐下载器')self.window.geometry('800x600')"""创建label_user按钮,与说明书"""self.label_user = tk.Label(self.window, text='请输入要下载的歌手名字:',font=('Arial', 12), width=130, height=2)self.label_user.pack()"""创建label_user关联输入"""self.entry_user = tk.Entry(self.window, show=None, font=('Arial', 14))self.entry_user.pack(after=self.label_user)"""创建label_passwd按钮,与说明书"""self.label_passwd = tk.Label(self.window, text="请输入爬取页数: ", font=('Arial', 12), width=30, height=2)self.label_passwd.pack()"""创建label_passwd关联输入"""self.entry_passwd = tk.Entry(self.window, show=None, font=('Arial', 14))self.entry_passwd.pack(after=self.label_passwd)"""创建Text富文本框,用于按钮操作结果的展示"""self.text1 = tk.Text(self.window, font=('Arial', 12), width=85, height=22)self.text1.pack()"""定义按钮1,绑定触发事件方法"""self.button_1 = tk.Button(self.window, text='爬取', font=('Arial', 12), width=10, height=1,command=self.run)self.button_1.pack(before=self.text1)"""定义按钮2,绑定触发事件方法"""self.button_2 = tk.Button(self.window, text='清除', font=('Arial', 12), width=10, height=1,command=self.parse_hit_click_2)self.button_2.pack(anchor="e")def run(self):Thread(target=self.parse_hit_click_1).start()def parse_hit_click_1(self):"""定义触发事件1,调用main函数"""singer_name = self.entry_user.get()page = int(self.entry_passwd.get())self.main(singer_name, page)def main(self, singer_name, page):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/''87.0.4280.88 Safari/537.36','Referer': 请用自己的,'Cookie': 请用自己的,'csrf': 请用自己的,'Host': 'www.kuwo.cn'}for i in range(page):start_url = f'http://www.kuwo.cn/api/www/search/searchMusicBykeyWord?key={singer_name}&pn=' \f'{i + 1}&rn=30&httpsStatus=1&reqId=d301af60-6e1e-11ec-840f-dfca3a2ceb68'response = requests.get(start_url, headers=headers).json()# 解析得到song_names, song_ridssong_names = jsonpath.jsonpath(response, '$..name')song_rids = jsonpath.jsonpath(response, '$..rid')# 遍历得到song_name, song_rid 构造song_info_urlfor song_name, song_rid in zip(song_names, song_rids):song_info_url = 'http://www.kuwo.cn/api/v1/www/music/playUrl?mid={}' \'&type=music&httpsStatus=1&reqId=c0ac92a0-6e35-11ec-b428-05be0a87bc11'.format(song_rid)# 请求得到 song_infotry:song_info = requests.get(song_info_url, headers=headers).json()# 解析得到song_urlsong_url = jsonpath.jsonpath(song_info, '$..url')[0]# 请求得到song_contenttry:song_content = requests.get(song_url).contentexcept Exception as e:continue# 创建文件夹if not os.path.exists('./{}'.format(singer_name)):os.mkdir('./{}'.format(singer_name))# 保存数据try:with open('./{}/{}.mp3'.format(singer_name, song_name), 'wb')as f:f.write(song_content)self.text1.insert("insert", '****{}****下载成功'.format(song_name))self.text1.insert("insert", '\n ')self.text1.insert("insert", '\n ')except Exception as e:continueexcept Exception as e:continuedef parse_hit_click_2(self):"""定义触发事件2,删除文本框中内容"""self.entry_user.delete(0, "end")self.entry_passwd.delete(0, "end")self.text1.delete("1.0", "end")def center(self):"""创建窗口居中函数方法"""ws = self.window.winfo_screenwidth()hs = self.window.winfo_screenheight()x = int((ws / 2) - (800 / 2))y = int((hs / 2) - (600 / 2))self.window.geometry('{}x{}+{}+{}'.format(800, 600, x, y))def run_loop(self):"""禁止修改窗体大小规格"""self.window.resizable(False, False)"""窗口居中"""self.center()"""窗口维持--持久化"""self.window.mainloop()if __name__ == '__main__':b = kuwoSpider()b.run_loop()

代码仅供学习使用

祝大家学习python顺利

代码仅供学习使用

python爬虫实战,爬虫之路,永无止境相关推荐

  1. Python应用实战- 爬虫基础入门知识必会

    0.爬虫基础流程 把爬虫的过程模块化,基本上可以归纳为以下几个步骤: [√] 分析网页URL:打开你想要爬取数据的网站,然后寻找真实的页面数据URL地址: [√] 请求网页数据:模拟请求网页数据,这里 ...

  2. python正则实战爬虫demo+数据清洗+存储到mysql数据库=你还在等什么?

    文章目录 项目目标 项目流程 任务步骤 步骤一:爬取四张数据表,并做适当的数据清洗 将网页源码保存到文件中 爬取第一张表 爬取第二张表 爬取第三张表 爬取第四张表 步骤二:通过继承优化代码+通过mys ...

  3. python3[爬虫实战] 爬虫之requests爬取新浪微博京东客服

    爬取的内容为京东客服的微博及评论 思路:主要是通过手机端访问新浪微博的api接口,然后进行数据的筛选, 类似于这样的:https://m.weibo.cn/u/5650743478?uid=56507 ...

  4. python爬虫实战小项目

    本文所讲的爬虫实战属于基础.入门级别,使用的是python2.7实现的. 爬虫原理和思想 本项目实现的基本目标:在捧腹网中,把搞笑的图片都爬下来,注意不需要爬取头像的图片,同时,将图片命好名放在当前的 ...

  5. Python爬虫实战(1):爬取糗事百科段子

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

  6. Python爬虫实战(3)古诗文网

    Python爬虫实战(3)古诗文网 网页分析 代码 注意事项 输出结果 利用BeautifulSoup和和requests库实现古诗文网的古诗抓取 运行平台: Windows Python版本: Py ...

  7. Python开发实战案例之网络爬虫(附源码)-张子良-专题视频课程

    Python开发实战案例之网络爬虫(附源码)-35人已学习 课程介绍         课程特色: 特色1:案例驱动-围绕两大完整的Python网络爬虫实战开发案例:IT电子书下载网络爬虫和股票交易数据 ...

  8. 线程,协程对比和Python爬虫实战说明

    此文首发于我的个人博客:线程,协程对比和Python爬虫实战说明 - zhang0peter的个人博客 这篇文章写的是我对线程和协程的理解,有错误之处欢迎指出. 举一个餐馆的例子.我们把一个餐厅当做一 ...

  9. python商业爬虫教程_廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程...

    廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程 1.JPG (53.51 KB, 下载次数: 1) 2019-8-9 08:15 上传 2.JPG ...

最新文章

  1. 字符编码 ansi unicode utf-8 区别
  2. 2016年全球芯片市场或衰退2.13%
  3. int转string的3种方法
  4. 版本1.8.1Go安装以及语法高亮配置
  5. 一起开心寒假训练总复习
  6. 【实数二分/前缀和维护】Best Cow Fences
  7. wordcount java分析_JavaWordCount
  8. postman插件下载、安装教程
  9. ARMv8体系结构基础02:搭建实验环境
  10. ES6学习(十一)—Class 的基本语法和继承
  11. Java实现第九届蓝桥杯分数
  12. in作为介词的用法_介词in,on,at的具体用法与区分
  13. 为什么不是每个人都过着他梦想中的生活呢?
  14. python官方文档学习_Python3.5.2官方文档学习备忘录
  15. “蚂蚁呀嘿” 刷屏的背后:算法工程师带你理性解构神曲
  16. 小米会升级鸿蒙系统吗,小米要自研系统对鸿蒙有何影响
  17. Fzu 2198 快来快来数一数【矩阵快速幂】
  18. AUTOSAR开发工具DaVinci Configurator里的Modules
  19. 感性负载产生负压的影响分析
  20. SFI立昌ESD/TVS/EMI选型资料

热门文章

  1. 《Java从入门到项目实战(全程视频版)》(李兴华 著)【配套资源及赠送资源】
  2. 95后女孩从月入3000到月入10万
  3. 基于DRV8833的步进电机
  4. ​内嵌物理知识神经网络(PINN)是个坑吗?
  5. python 闭包及个人理解
  6. 问下这个审核被拒怎么解决呢?——酷课堂iOS交流群问答整理(201806期)
  7. 网易免费企业邮支持POP3/SMTP服务器
  8. 安装了迅雷却无法下载的解决方法
  9. 怎么修改iis服务器的密码,服务器的iis在哪里设置密码
  10. 苹果笔记本电脑运行win系统时温度过高解决办法