Python爬虫--喜马拉雅音频爬取

爬取喜马拉雅三国中的前十章音频：

#导入requests模块

import requests

#导入正则表达式

import re

#解决反爬问题，导入UA

header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:57.0) Gecko/20100101 Firefox/57.0'}

#网页源代码中获取的前十章ID

sound_ids = ( 64686514, 64689648, 64695831, 64695832, 3218935, 3822581, 3419626, 3513844, 3593277, 3773655)

for s in range( 0, 10):

for i in sound_ids:

# 每个音频的URL

url = 'http://www.ximalaya.com/tracks/'+ str(sound_ids[s])+ '.json'

#网页源代码

html = requests.get(url, headers=header)

#打印网页源代码

# print(html.text)

def get_find_url():

#正则匹配ID和对应的URL

reg = '"id":(.*?),"play_path_64":"(.*?)"'

#最终的音频URL数列

sound_url = re.findall(reg,html.text)

#打印音频URL数列

# print(sound_url)

return sound_url

#ID和音频URL单独取出来

for id,url_finall in get_find_url():

#打印最终音频URL

#print('第',s+1,'节:',url1)

#获取音频详细内容

m4a = requests.get(url_finall)

#取音频最后4位数，即就是.m4a作为后缀名

m4a_name = url_finall[- 4:]

print( '<正在下载第',s+ 1, '节> ',url_finall)

#音频内容存储到本地

with open( '第'+ str(s+ 1)+ '节'+m4a_name, 'wb') as f:

f.write(m4a.content)

Python爬虫--喜马拉雅音频爬取相关推荐

python 爬虫实例电影-Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
Python爬虫系列之爬取微信公众号新闻数据
Python爬虫系列之爬取微信公众号新闻数据小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码代码仅供学习交流 ...
携程ajax,Python爬虫实战之爬取携程评论
一.分析数据源这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...
Python爬虫学习笔记 -- 爬取糗事百科
Python爬虫学习笔记 -- 爬取糗事百科代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...
Python爬虫系列之爬取某奢侈品小程序店铺商品数据
Python爬虫系列之爬取某奢侈品小程序店铺商品数据小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码代码仅供学 ...
Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下创建项目 sc ...
Python爬虫入门（爬取豆瓣电影信息小结）
Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...
Python爬虫---影评的爬取
Python爬虫-影评的爬取介绍:爬虫练手,使用Requests库进行豆瓣影评的爬虫,做成词云图,写文章主要做一些问题解决的记录. 运行环境:python 3.8, Pycharm 关于在豆瓣爬取影 ...
【Python爬虫】从零开始爬取Sci-Hub上的论文(串行爬取)
[Python爬虫]从零开始爬取Sci-Hub上的论文(串行爬取) 维护日志项目简介步骤与实践 STEP1 获取目标内容的列表 STEP2 利用开发者工具进行网页调研 2.1 提取文章链接和分页链 ...

Python爬虫--喜马拉雅音频爬取

Python爬虫--喜马拉雅音频爬取相关推荐

最新文章

热门文章