先上图,只爬了20分钟左右。保存了2000个音频


完整代码如下,,,直接拿去就可以用,
报错的话更改一下Cookie

import requests
from bs4 import BeautifulSoup
import re
import time# 定义一个保存文件的函数
def xiazhai(url, name):try:req = requests.get(url)with open(r'C:\Users\MI\Desktop\python\爬虫测试文件\喜马拉雅\{}.mp3'.format(name), 'wb') as f:f.write(req.content)except:print('-----------保存出现未知错误,已跳过---------')# 定义一个获取下载链接的函数
def huoqu_url(mulu):for pn in range(1, 31):  # 每个书有30页数据headers = {'Cookie': 'Hm_lvt_4a7d8ec50cfd6af753c4f8aee3425070=1538547574; Hm_lpvt_4a7d8ec50cfd6af753c4f8aee3425070=1538547574','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0','Host': 'www.ximalaya.com','Referer': 'https: // www.ximalaya.com / xiangsheng / {} /'.format(mulu)}data = {'albumId': mulu,'pageNum': pn,'sort': ' -1','pageSize': ' 30'}url1 = 'https://www.ximalaya.com/revision/play/album?albumId={}&pageNum={}&sort=-1&pageSize=30'.format(mulu, pn)try:r = requests.get(url1, headers=headers, data=data)r = r.json()for i in range(30):r1 = r['data']['tracksAudioPlay'][i]['src']  # 获取到的urlr2 = r['data']['tracksAudioPlay'][i]['trackName']r2 = re.sub(r'《|》|?|!|。|,|:|;|:|;| ', '', r2)  # 正则后的名称xiazhai(r1, r2)print(r1, r2)time.sleep(1)except:print('----------获取下载链接出现未知错误,已跳过---------')#定义一个获取排行榜音频ID
def mulu_ID():headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0'}url1 = 'https://www.ximalaya.com/lishi/top/'try:r = requests.get(url1, headers=headers)soup = BeautifulSoup(r.text, 'lxml')r = soup.find_all('div', attrs={'class': 'rankpage-content clearfix', 'class': 'RZ7r right-rank-content','class': 'RZ7r rrc-list'})soup = BeautifulSoup(str(r), 'lxml')r_1 = soup.find_all('a')for i in range(50):  # 排行榜第一页有50个数据r1 = str(r_1[i])r = r1[16:24]id = re.sub(r'/|<|>\"|"|>','',r)print('-----------------------这是第{}本书--------------------'.format(i+1),'图书ID:',id)huoqu_url(id)#调用获取下载链接的函数except:print('-----------获取书本目录出现出现未知错误,已跳过---------')mulu_ID()

爬取《喜马拉雅》音频排行榜相关推荐

  1. python爬取喜马拉雅音频

    python爬取喜马拉雅音频 爬虫框架的三个基本组成:获取网页,寻找信息,收集信息. ## 分析网页获取音频资源的url打开网页https://www.ximalaya.com/youshengshu ...

  2. Python爬虫:爬取喜马拉雅音频数据详解

    前言 喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...

  3. python爬取app中的音频_Python爬取喜马拉雅音频数据详解

    码农公社  210.net.cn  210是何含义?10月24日是程序员节,1024 =210.210既 210 之意. Python爬取喜马拉雅音频数据详解 一.项目目标 爬取喜马拉雅音频数据 受害 ...

  4. Python爬虫|爬取喜马拉雅音频

    "GOOD Python爬虫|爬取喜马拉雅音频 喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...

  5. 使用python爬取喜马拉雅音频数据并保存

    ** 使用python爬取喜马拉雅音频数据并保存 ** 1.进入喜马拉雅官网,打开要爬取的项目网页,按F12=>F5后进行清空,点击项目网页中播放按钮,出现如下图点击,查找网页的url,获取到网 ...

  6. python爬取喜马拉雅_Python爬虫实战案例之爬取喜马拉雅音频数据详解

    这篇文章我们来讲一下在网站建设中,Python爬虫实战案例之爬取喜马拉雅音频数据详解.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 前言 喜马拉雅是专业的音频分享平台,汇集 ...

  7. 每日一个爬虫练习:爬取喜马拉雅音频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 本次目标 爬取喜马拉雅音频 https://www.ximalaya.co ...

  8. Python——爬取喜马拉雅音频(抖音最火翻唱)

    目标网站:https://www.ximalaya.com/yinyue/20248318/ 分析每一页网页url有什么不同: 第一页url:'https://www.ximalaya.com/rev ...

  9. python爬取喜马拉雅音频数据

    ''' 思路: 请求和响应的过程 多层数据解析 海量音频数据保存 https://aod.cos.tx.xmcdn.com/storages/1c5f-audiofreehighqps/DB/A3/C ...

  10. Java爬取喜马拉雅非付费音频

    Java爬取喜马拉雅非付费音频 目录 Java爬取喜马拉雅非付费音频 前言 1 打开喜马拉雅网站并搜索一个节目 2 研究其数据来源,获取分页数据 3 获取列表信息 4 获取音频下载地址 5 核心代码 ...

最新文章

  1. linux openssh打补丁,openssh升级,打补丁
  2. Windows 窗体设计器中的设计时错误
  3. 下载服务器文件到本地
  4. 如何系统性掌握深度学习中的数据使用
  5. 寄售业务的SAP标准流程
  6. SpringBoot Test及注解详解(含Mockito)
  7. dorado 刷新_5.dorado查询开发:使用flushData方法 (T1)
  8. jeesite3环境部署时初始化数据库注意问题
  9. 超干货!为了让你彻底弄懂MySQL事务日志,我通宵肝出了这份图解!
  10. CentOS 7 最小化安装后的注意事项(一)
  11. 学习Java编程语言难不难
  12. 下三角99乘法表 C语言
  13. 项目管理过程组-十五至尊图
  14. this指向问题(箭头函数)
  15. 红帽子linux9百度云,红帽 Red Hat Linux相关产品iso镜像下载【百度云】
  16. 5G技术—5G网络架构及关键技术详述测试题目
  17. 涂鸦 opengl简单应用1
  18. MATLAB解方程组
  19. NAPI(New API)的一些浅见
  20. 瓦伦达效应:在大是大非面前不要在乎结果所带来的后果,你就会成功!

热门文章

  1. js实现字符串数组转换成数字数组
  2. python(re 模块-正则表达式)
  3. 洛谷 P1646 [国家集训队]happiness 网络流 最小割 Dinic+当前弧优化
  4. 结合使用katex html2canvas 将LaTeX公式保存为图片
  5. 2021icpc亚洲赛区沈阳站总结
  6. 单片机驱动android屏幕,STM32单片机对智能手机触摸屏的驱动
  7. 技术Leader的30条军规
  8. 用最少的代码渲染3D模型
  9. 规则引擎 Drools--决策表(Decision Table)使用简介
  10. [Unity3D]Unity3D游戏开发之继续探索NGUI