想下TED,下载的到metalink格式的文件,现在都没有工具支持下载,自己动手用python提取吧

(1)问题

原始文件有几千个类似的结构: 要把从Https 到MP4的字符串找出来,变成一个list 文件,

<files>
        <file name="Bren Brown - The power of vulnerability.mp4">
            <resources>
                <url type="http">https://download.ted.com/talks/BreneBrown_2010X-low-en.mp4</url>
            </resources>
        </file>
        <file name="Isabel Behncke - Evolutions gift of play from bonobo apes to humans.mp4">
            <resources>
                <url type="http">https://download.ted.com/talks/IsabelBehnckeIzquierdo_2011U-low-en.mp4</url>
            </resources>

</file>

(2)网上找的原始解决方案

https://zhidao.baidu.com/question/560038575.html

results=re.findall("(?isu)(http\://[a-zA-Z0-9\.\?/&\=\:]+)")open("urls.txt","wb").write("\r\n".joint(results))
(3)调试后的结果:

import re
s=open("TEDEN.TXT","rb").read()
#results=re.findall("(?isu)(https\\://[a-zA-Z0-9\.\?/&\=\:]+)",s)
results=re.findall("(?isu)(https\\://[a-zA-Z0-9 _\-\.\?/&\=\:]+)",s)
with open("OUTPUT.txt","wb") as handle:

handle.write("\r\n".join(results))

(4)输出的文件内容:

https://download.ted.com/talks/BreneBrown_2010X-low-en.mp4
https://download.ted.com/talks/IsabelBehnckeIzquierdo_2011U-low-en.mp4

。。。。。。。

调试成功

(5)回顾

学到了re的符号含义,如何用正则式匹配你要的格式。

.join 和 .joint 的用法

将metalink中的网页链接用python 提取相关推荐

  1. python 替换array中的值_利用Python提取视频中的字幕(文字识别)

    我的CSDN博客id:qq_39783601,昵称是糖潮丽子~辣丽 从今天开始我会陆续将数据分析师相关的知识点分享在这里,包括Python.机器学习.数据库等等. 今天来分享一个Python小项目! ...

  2. python提取两个引号中的内容,怎样用 Python 提取不在双引号的内容?

    三叔2016-11-11 13:30:281楼 import re a ='Peter d,, 13tsddgjlsv >>bgeghg \n"desfegeivm,x,wb.r ...

  3. python 抓取网页链接_从Python中的网页抓取链接

    python 抓取网页链接 Prerequisite: 先决条件: Urllib3: It is a powerful, sanity-friendly HTTP client for Python ...

  4. beautifulsoup爬取网页中的表格_用 Python 爬取网页

    来自公众号:优达学城Udacity 作者:Kerry Parker 编译:欧剃 作为数据科学家的第一个任务,就是做网页爬取.那时候,我对使用代码从网站上获取数据这项技术完全一无所知,它偏偏又是最有逻辑 ...

  5. python 检测文件编码_[常用] 在Python中检测网页编码

    [常用] 在Python中检测网页编码 在使用Python抓取网页并进行分析时出现这个错误: UnicodeDecodeError: 'utf8' codec can't decode byte 0x ...

  6. python抓取内存中的网页_『爬虫四步走』手把手教你使用Python抓取并存储网页数据!...

    爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...

  7. 聊天没有表情包被嘲讽,程序员直接用python爬取了十万张表情包

    聊天没有表情包被嘲讽,程序员直接用python爬取了十万张表情包 前言 分析页面 具体实现 解析页面 获取网页内容 解析网页内容 文件下载 多线程下载 成果 总结 前言 事情要从几天前说起,我有一个朋 ...

  8. 在html语言中建立网页链接,HTML代码实例:详细讲解超级链接

    HTML代码实例:详细讲解超级链接 互联网   发布时间:2009-04-02 20:55:27   作者:佚名   我要评论 超级链接是网站中使用比较频繁的HTML元素,因为网站的各种页面都是由超级 ...

  9. python网页版本_利用jupyter网页版本进行python函数查询方式

    我就废话不多说了,还是直接看代码吧! import numpy world_alchol=numpy.genfromtxt("world_alcohol.txt",delimter ...

最新文章

  1. matplotlib练习
  2. SAP gateway 里对 OData eq ne lt gt 操作的实现源代码
  3. android 布局: LinearLayout如何使TextView中的内容居中显示
  4. checked jq 添加_jquery动态添加复选框.attr(“checked”,true)不起作用
  5. 面试官:Netty的线程模型可不是Reactor这么简单
  6. IntelliJ Idea学习笔记008---Idea左侧栏不显示目录结构_或者只显示一个Project不显示其他东西
  7. 今日恐慌与贪婪指数为61 贪婪程度有所缓解
  8. opencv 画出各种滤波器二维图像 证明拉普拉斯滤波器是一个高通滤波器
  9. 实验二+065+方绎杰
  10. java-判断集合中的某个元素的属性是否全部相同
  11. FileSplit:文件的子集--文件分割体
  12. 计算机管理器用户怎么打开文件,电脑文件管理器怎么打开文件夹 文件管理器打开想要的文件夹方法-电脑教程...
  13. 【区块链实战】区块链在哪些行业得到了应用
  14. 科普一下,什么是网站系统的性能,可用性,可伸缩性,可扩展性?
  15. “懂行”的价值循环与蝴蝶风暴
  16. 个人对应用上云的理解
  17. python实现朗读内容
  18. fmri的图像数据在matlab中显示,利用imagesc工具进行显示,自带数据集-by 西南大学xulei教授...
  19. Day4:蓝牙4.0与5.0模块的使用
  20. ESFP型人格的特征,ESFP型人格的优势和劣势分析

热门文章

  1. 计算机维修店起名字,手机电脑维修店取名的方法
  2. 打游戏最好的蓝牙耳机是什么?LOL手游比赛推荐蓝牙耳机
  3. C#开发WPF/Silverlight动画及游戏系列教程(Game Tutorial):(十四) 精灵控件横空出世!①
  4. 我没有想赢,我只是不想输
  5. 夸父、喜姐相继融资,资本热捧的小吃能否打破“网红魔咒”?
  6. socket详解(附加C++编程实例讲解)
  7. 作为求职者,为什么你应该争取内推?
  8. bat脚本运行 NetCore
  9. Android要ios王者,王者荣耀苹果账号怎么转安卓要多久 王者营地教程
  10. 【练习题】定义一个字典类:dictclass。完成下面的功能: