python+正则表达式获取ed2k url

2014-07-03 19:45  283人阅读  评论(0)  收藏  举报
  分类:
python 学习(1) 

版权声明:本文为博主原创文章,未经博主允许不得转载。

近来找到了一套 MIT的 introduction to algorithms 课程,无奈网速太慢,在线根本看不了,于是乎决定搜搜国内有没有网站提供该套课程的下载,找了半天结果在 verycd.com中找到一套,可惜的是verycd.com不提供下载链接,所以只能想另外的方法看有没有网友提供它的下载链接,在网络搜索过程中发现

http://www.blogjava.net/lusm/archive/2007/07/26/132556.html

里面有提供下载,但是它的复制链接地址点不开,经过仔细观察,它的每一条下载链接都是一个ed2k url, 我思考了一把,如果一个一个链接处理很是恼人,于是决定写一个脚本来替我提取ed2k url, 代码如下:

[python]  view plain copy
  1. #!/usr/bin/python3.2
  2. import urllib.request
  3. import re
  4. def get_all_picaddr(startaddr = ''):
  5. response = urllib.request.urlopen(startaddr)
  6. htmlbytes = response.read()
  7. htmlstr = htmlbytes.decode(encoding='utf-8')
  8. alladdrs=re.findall(r'ed2k://.*\|/\s',htmlstr);
  9. for addr in alladdrs:
  10. print(addr)
  11. if __name__ == "__main__":
  12. get_all_picaddr("http://www.blogjava.net/lusm/archive/2007/07/26/132556.html")

在写这个代码的时候还要感谢这篇文章,一目了然地介绍了python中正则表达式的用法:

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

正是因为参考了这篇文章,我才能够顺利地写了一个粗略的ed2k URL 的正则表达式:

[python]  view plain copy
  1. 'ed2k://.*\|/\s'

简单,粗略,但是实实在在能解决问题。
其实我对python不熟,只用过一两次,每次都是用它来处理一些简单的字符串分析问题,它用起来确实很方便,我相信同样的功能如果用C/C++来实现的话估计是以代码的N倍工作量吧^_^.

  • 上一篇那些年我们面试过的单链表算法总结(一)
  • 下一篇那些年我们面试过的单链表算法总结(二)

python+正则表达式获取ed2k url相关推荐

  1. 前端使用正则表达式获取地址栏URL参数的值并将需要的参数值展示在页面

    业务场景:APP中有个H5页面需要分享到微信,用户点击这个消息会跳转到这个网页进行信息确认,然后引导用户下载另一个应用.我们前端工程师需要做的就是将分享的参数在这个网页的地址栏进行获取并展示在信息确认 ...

  2. python如何获取百度搜索结果的真实URL

    在公司中需要去抓取一些数据,就遇到了以下这些问题: 想通过爬虫获取百度搜索结果的原始链接.通过Firefox的HttpFox插件,发现在搜索结果的URL是加密过的,例如: http://www.bai ...

  3. python正则取字符串日期_python 正则表达式获取字符串中所有的日期和时间

    提取日期前的处理 1.处理文本数据的日期格式统一化 text = "2015年8月31日,衢州元立金属制品有限公司仓储公司(以下简称元立仓储公司)成品仓库发生一起物体打击事故,造成直接经济损 ...

  4. python获取月份字符串_python 正则表达式获取字符串中所有的日期和时间

    提取日期前的处理 1.处理文本数据的日期格式统一化 text = "2015年8月31日,衢州元立金属制品有限公司仓储公司(以下简称元立仓储公司)成品仓库发生一起物体打击事故,造成直接经济损 ...

  5. c#使用正则表达式获取TR中的多个TD_[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例...

    首先祝大家中秋节和国庆节快乐,欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都 ...

  6. 利用python获取指定url在ATS中缓存对象的信息

    业务需求 给定url,如何查询指定的ATS中是否有该url的缓存对象信息?如果缓存了的话,希望提供该缓存对象的大小,缓存时间,缓存文件名,缓存份数(document alternative)等等信息 ...

  7. php 获取当前url hash,http - 我可以在服务器端应用程序(PHP,Ruby,Python等)上读取URL的哈希部分吗?...

    http - 我可以在服务器端应用程序(PHP,Ruby,Python等)上读取URL的哈希部分吗? 假设URL为: www.example.com/?val=1#part2 PHP可以使用GET数组 ...

  8. 截取url的host_java正则表达式获取url的host示例

    java正则表达式获取url的host示例 复制代码 代码如下: public static String getHost(String url){ if(url==null||url.trim(). ...

  9. php 获取字符串中的url,php使用正则表达式获取字符串中的URL

    今天写一个问答系统上线之后发现有很多人发链接了,由于业务部门要我们过滤掉网站地址了,下面我给大家分享一个提取字符串url地址函数,代码如下:$str ='本文实例讲述了php匹配字符串里所有URL地址 ...

最新文章

  1. Dijkstra算法的粗略学习
  2. 按下enter键禁止页面刷新
  3. java 线程同步condtion_Java:多线程,使用同步锁(Lock)时利用Condition类实现线程间通信...
  4. 类中构造函数、析构函数与赋值函数的重写
  5. MATLAB 读取 各类文件
  6. 联合主键违反唯一性约束_(变强、变秃)Java从零学习024/252数据库之定义约束。...
  7. 读取tomcat下的文件夹路径
  8. shell按照时间排序_初识Shell(3)
  9. arch linux 网卡配置,请问新的arch网络配置文件在哪?或者如何手配ip 子网掩码等...
  10. 大数据技术笔记之数据采集和预处理
  11. 爱立信实习总结之面试心得
  12. 网件刷breed_小白爱折腾 篇二:矿渣小娱C1刷breed以安装固件(适用其他路由器)...
  13. Java8 日期时间类
  14. iphone分辨率中的scale参数
  15. 如何用手机压缩JPG格式图片?一步轻松搞定
  16. 计算机系统缺什么安装CAD闪退咋办,怎么处理CAD启动后闪退,求大神级人物解决...
  17. 汉庭季琦:我用IT精神打造传统产业
  18. 基于网页版微信实现的微信SDK(Kotlin版,兼容Java)
  19. 脑膜瘤论文阅读(一)
  20. nginx 模糊匹配location写法

热门文章

  1. 图神经网络解偏微分方程系列(一)
  2. Scrapy教程demo
  3. 百度搜索结果中屏蔽百家号
  4. 工程打包是什么意思_我想知道工程包干合同合法是什么意思,跟单价包干有什么不同...
  5. openlayes + vue 最新版本 实现 轨迹移动动画
  6. 永善县有缘布艺店的窗帘很便宜,推荐购买
  7. ajax导致csrf验证失败的解决方法
  8. sort排序方法的实现原理
  9. 技术与经济之八:关于优惠与红包
  10. 2022-2028年中国养老护理行业市场全景调查及投资前景预测报告