爬取喜马拉雅三国中的前十章音频:

#导入requests模块
import requests
#导入正则表达式
import re
#解决反爬问题,导入UA
header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:57.0) Gecko/20100101 Firefox/57.0'}
#网页源代码中获取的前十章ID
sound_ids = ( 64686514, 64689648, 64695831, 64695832, 3218935, 3822581, 3419626, 3513844, 3593277, 3773655)
for s in range( 0, 10):
for i in sound_ids:
# 每个音频的URL
url = 'http://www.ximalaya.com/tracks/'+ str(sound_ids[s])+ '.json'
#网页源代码
html = requests.get(url, headers=header)
#打印网页源代码
# print(html.text)
def get_find_url():
#正则匹配ID和对应的URL
reg = '"id":(.*?),"play_path_64":"(.*?)"'
#最终的音频URL数列
sound_url = re.findall(reg,html.text)
#打印音频URL数列
# print(sound_url)
return sound_url
#ID和音频URL单独取出来
for id,url_finall in get_find_url():
#打印最终音频URL
#print('第',s+1,'节:',url1)
#获取音频详细内容
m4a = requests.get(url_finall)
#取音频最后4位数,即就是.m4a作为后缀名
m4a_name = url_finall[- 4:]
print( '<正在下载第',s+ 1, '节> ',url_finall)
#音频内容存储到本地
with open( '第'+ str(s+ 1)+ '节'+m4a_name, 'wb') as f:
f.write(m4a.content)

Python爬虫--喜马拉雅音频爬取相关推荐

  1. python 爬虫实例 电影-Python爬虫教程-17-ajax爬取实例(豆瓣电影)

    Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...

  2. Python爬虫系列之爬取微信公众号新闻数据

    Python爬虫系列之爬取微信公众号新闻数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流 ...

  3. 携程ajax,Python爬虫实战之爬取携程评论

    一.分析数据源 这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...

  4. Python爬虫学习笔记 -- 爬取糗事百科

    Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...

  5. Python爬虫系列之爬取某奢侈品小程序店铺商品数据

    Python爬虫系列之爬取某奢侈品小程序店铺商品数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学 ...

  6. Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

    这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...

  7. Python爬虫入门(爬取豆瓣电影信息小结)

    Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...

  8. Python爬虫---影评的爬取

    Python爬虫-影评的爬取 介绍:爬虫练手,使用Requests库进行豆瓣影评的爬虫,做成词云图,写文章主要做一些问题解决的记录. 运行环境:python 3.8, Pycharm 关于在豆瓣爬取影 ...

  9. 【Python爬虫】从零开始爬取Sci-Hub上的论文(串行爬取)

    [Python爬虫]从零开始爬取Sci-Hub上的论文(串行爬取) 维护日志 项目简介 步骤与实践 STEP1 获取目标内容的列表 STEP2 利用开发者工具进行网页调研 2.1 提取文章链接和分页链 ...

最新文章

  1. 机器学习你必须知道的几点知识
  2. tf initializer
  3. Windows基础评测
  4. RocketMQ避坑指南:springcloud教程权威指南
  5. 我的世界JAVA刷怪范围_《我的世界》只有刷怪蛋能够刷新生物吗?并不是,还有一种物品!...
  6. 大数据之MapReduce详解(MR的运行机制及配合WordCount实例来说明运行机制)
  7. jquery框架分析-构造jquery对象初步
  8. 黑客高手是这样上网的!Vimer是如何用快捷键浏览网页的?
  9. 大数据学习——yarn集群启动
  10. java如何输出完整的图_java实现输入输出图片
  11. MySQL电影院管理系统_电影院售票管理系统
  12. java 学习资料 分享
  13. 开源单点登录系统CAS
  14. 苹果手机访问html文件夹,iPhone如何访问Windows的共享文件夹
  15. 微软云服务器AZ如何扩大磁盘
  16. 因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID=135170 中的 about_Execution_Policies
  17. ESP8266教程5 — MCU和机智云APP之间互相通信
  18. C语言—飞机大战小游戏
  19. zzuli303(奇葩26进制转换)
  20. 音响为什么要做CCC认证以及流程有哪些

热门文章

  1. Android字体加粗的几种样式
  2. 听Polychain Capital创始人Olaf Carlson- Wee讲述他为何愿意为Celo背书
  3. 算符优先算法java实现,算符优先算法
  4. Mac无法写入移动硬盘 这些软件帮你解决
  5. data单复数一样吗_data和datum谁是单数形式,谁是复数形式?
  6. cell数据如何删除重复项
  7. 银河护卫队漫威大法好之漫威系列
  8. 如何修改SVN的地址
  9. 申请专利时要不要向专利局出示实物?
  10. ubuntu18.04安装搜狗拼音