将metalink中的网页链接用python 提取

想下TED，下载的到metalink格式的文件，现在都没有工具支持下载，自己动手用python提取吧

（1）问题

原始文件有几千个类似的结构：要把从Https 到MP4的字符串找出来，变成一个list 文件，

<files>
<file name="Bren Brown - The power of vulnerability.mp4">
<resources>
<url type="http">https://download.ted.com/talks/BreneBrown_2010X-low-en.mp4</url>
</resources>
</file>
<file name="Isabel Behncke - Evolutions gift of play from bonobo apes to humans.mp4">
<resources>
<url type="http">https://download.ted.com/talks/IsabelBehnckeIzquierdo_2011U-low-en.mp4</url>
</resources>

</file>

（2）网上找的原始解决方案

https://zhidao.baidu.com/question/560038575.html

results=re.findall("(?isu)(http\://[a-zA-Z0-9\.\?/&\=\:]+)")open("urls.txt","wb").write("\r\n".joint(results))

（3）调试后的结果：

import re
s=open("TEDEN.TXT","rb").read()
#results=re.findall("(?isu)(https\\://[a-zA-Z0-9\.\?/&\=\:]+)",s)
results=re.findall("(?isu)(https\\://[a-zA-Z0-9 _\-\.\?/&\=\:]+)",s)
with open("OUTPUT.txt","wb") as handle:

handle.write("\r\n".join(results))

（4）输出的文件内容：

https://download.ted.com/talks/BreneBrown_2010X-low-en.mp4
https://download.ted.com/talks/IsabelBehnckeIzquierdo_2011U-low-en.mp4

。。。。。。。

调试成功

（5）回顾

学到了re的符号含义，如何用正则式匹配你要的格式。

.join 和 .joint 的用法

将metalink中的网页链接用python 提取相关推荐

python 替换array中的值_利用Python提取视频中的字幕（文字识别）
我的CSDN博客id:qq_39783601,昵称是糖潮丽子~辣丽从今天开始我会陆续将数据分析师相关的知识点分享在这里,包括Python.机器学习.数据库等等. 今天来分享一个Python小项目! ...
python提取两个引号中的内容,怎样用 Python 提取不在双引号的内容？
三叔2016-11-11 13:30:281楼 import re a ='Peter d,, 13tsddgjlsv >>bgeghg \n"desfegeivm,x,wb.r ...
python 抓取网页链接_从Python中的网页抓取链接
python 抓取网页链接 Prerequisite: 先决条件: Urllib3: It is a powerful, sanity-friendly HTTP client for Python ...
beautifulsoup爬取网页中的表格_用 Python 爬取网页
来自公众号:优达学城Udacity 作者:Kerry Parker 编译:欧剃作为数据科学家的第一个任务,就是做网页爬取.那时候,我对使用代码从网站上获取数据这项技术完全一无所知,它偏偏又是最有逻辑 ...
python 检测文件编码_[常用] 在Python中检测网页编码
[常用] 在Python中检测网页编码在使用Python抓取网页并进行分析时出现这个错误: UnicodeDecodeError: 'utf8' codec can't decode byte 0x ...
python抓取内存中的网页_『爬虫四步走』手把手教你使用Python抓取并存储网页数据！...
爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...
聊天没有表情包被嘲讽，程序员直接用python爬取了十万张表情包
聊天没有表情包被嘲讽,程序员直接用python爬取了十万张表情包前言分析页面具体实现解析页面获取网页内容解析网页内容文件下载多线程下载成果总结前言事情要从几天前说起,我有一个朋 ...
在html语言中建立网页链接,HTML代码实例：详细讲解超级链接
HTML代码实例:详细讲解超级链接互联网发布时间:2009-04-02 20:55:27 作者:佚名我要评论超级链接是网站中使用比较频繁的HTML元素,因为网站的各种页面都是由超级 ...
python网页版本_利用jupyter网页版本进行python函数查询方式
我就废话不多说了,还是直接看代码吧! import numpy world_alchol=numpy.genfromtxt("world_alcohol.txt",delimter ...

将metalink中的网页链接用python 提取

将metalink中的网页链接用python 提取相关推荐

最新文章

热门文章