爬虫的网页:http://www.listeningexpress.com/studioclassroom/ad/

需求:在指定网页上爬虫下载MP3文件

思路:
1、使用request库爬取网页的源码
1.1使用request.get(scr)获取网页的html源码
1.2 request.get(scr).text 转化成字符串
2、使用正则表达式分析MP3文本的地址
3、拼接字符串地址
4、调用第三方wget下载文件:os.system(f’{wget_scr} {fullAddr}’)

import requests,re,os
from urllib.parse import quotewget_scr = r'D:\tools\wget'
target_scr = r'http://www.listeningexpress.com/studioclassroom/ad/'# 1、使用request库获取 html网页
ret = requests.get(target_scr)
# 将request.get类转换成 字符串
content = ret.text# 正则表达式获取MP3文件地址
p = re.compile(r"javascript:p\('(.*?)'")
# 返回的是一个列表
MP3_list = p.findall(content)for scr in MP3_list:# 字符串拼接fullAddr = target_scr + quote(scr)# 执行下载文件os.system(f'{wget_scr} {fullAddr}')

MP3文件中有空格字符,组成下载网址时,需要进行url编码,否则空格会被当成命令行分隔符。参考代码如下所示

>>> from urllib.parse import quote
>>> quote('2019-04-13 NEWSworthy Clips.mp3')
'2019-04-13%20NEWSworthy%20Clips.mp3'

python——爬虫网页MP3文件相关推荐

  1. python爬虫下载-python爬虫之下载文件的方式总结以及程序实例

    python爬虫之下载文件的方式以及下载实例 目录 第一种方法:urlretrieve方法下载 第二种方法:request download 第三种方法:视频文件.大型文件下载 实战演示 第一种方法: ...

  2. python 下载文件-python爬虫之下载文件的方式总结以及程序实例

    python爬虫之下载文件的方式以及下载实例 目录 第一种方法:urlretrieve方法下载 第二种方法:request download 第三种方法:视频文件.大型文件下载 实战演示 第一种方法: ...

  3. 硬核来袭!!!一篇文章教你入门Python爬虫网页解析神器——BeautifulSoup详细讲解

    文章目录 一.BeautifulSoup介绍 二.安装 三.bs4数据解析的原理 四.bs4 常用的方法和属性 1.BeautifulSoup构建 1.1 通过字符串构建 1.2 从文件加载 2.Be ...

  4. python获取mp3音频数据_详解python进行mp3格式判断 python怎么读取mp3文件

    python中哪个库有em算法 EM算法初稿2016-4-28 初始化三个一维的高斯分布 from numpy import * import numpy as np import matplotli ...

  5. HTML的学习---为了python爬虫网页

    之前学习了xml知识,使用python解析.创建和更改xml文件,现在需要用python爬虫新浪博客的文章,所以进一步学习下HTML. XML 指可扩展标记语言(EXtensible Markup L ...

  6. python爬虫网页表格_python网页表格

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 以网页表格为例:https:www.kuaidaili.comfree该网站数据 ...

  7. python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码

    本文实例主要是实现爬取一个网页上的图片地址,具体如下. 读取一个网页的源代码: import urllib.request def getHtml(url): html=urllib.request. ...

  8. python显示图片 播放mp3_如何在python中从Mp3文件中提取和显示唱片集图片

    我正在用pychar上的tkinter用GUI制作一个音乐播放器.我想在mp3文件中显示嵌入的相册艺术,但我找不到任何方法来做到这一点 我尝试过使用诱变剂,但失败了,因为它只打印mp3文件的标签,而不 ...

  9. python 爬虫网页登陆

    相信各位在写python爬虫的时候会在爬取网站时遇到一些登陆的问题,比如说登陆时遇到输入验证码比如说登录时遇到图片拖拽等验证,如何解决这类问题呢?一般有两种方案. 使用cookie登陆 我们可以通过使 ...

最新文章

  1. 专访 | 英特尔收购Nervana后的第一张王牌Lake Crest,号称比GPU速度快10倍,年底测试
  2. helper.js(20170612)
  3. 【多线程】ThreadPoolExecutor 类的使用详解
  4. 某电商平台开发记要——客服系统
  5. HTML+CSS+JavaScript复习笔记持更(一)——标签篇
  6. linux 挂在iso文件,linux 挂载iso文件安装文件 与 网络yum的搭建
  7. Factorials 阶乘
  8. 简述ipython的特点 app_介绍、基本语法、流程控制
  9. Java cache类型_为什么有些Java 类方法中要cache类变量
  10. 1月19日学习内容整理:Scrapy框架补充之scrapy-redis组件
  11. CentOS7安装GNOME可视化界面 和 远程访问
  12. Java通过BCrypt加密
  13. 【Matlab免费安装】
  14. 奥鹏教育计算机应用基础试题及答案,奥鹏计算机应用基础试题及答案.pdf
  15. 洛谷P3376-网络流
  16. 微信小程序——发送模板消息
  17. Windows下LATEX排版论文攻略—CTeX、JabRef使用心得, 包括 IEEEtran.bst
  18. windows系统运维基础
  19. 配置 Windows Server 2008 R2 DNS 服务器
  20. 计算机学院研究生论文课题,计算机专业研究生论文开题报告范文(最新)

热门文章

  1. 符文冲突—塔防游戏总结
  2. 程序员(女)送上BAT+华为SP面经,聊一些细节加分项
  3. 对抗样本(四)BIMILLC
  4. 我的微语录周记2014-12-01---2014-12-07_轩逸云_新浪博客
  5. Bluehost主机同一站点绑定多个顶级域名的方法
  6. 防火墙技术之安全策略
  7. 东北大学计算机宿舍怎么样,给想报东大计算机专业的同学的几点建议
  8. 【深度首发】小视科技杨帆:瞄准金融+AI,将商业触角不断延伸丨Xtecher 封面
  9. 百度UE富文本编辑器设置自适应大小和滚动条等
  10. 超全C1认证学习笔记,内容详细,赶快收藏