import requests
import re
import os.path#取得文件名和内容对应字典
def getCode(url):pattern=re.compile(r'<h\d>([^<]+)?</h\d>\n*<pre><code>[^<]*</code>{1}?',re.S)dic={}r=requests.get(url)if r.status_code==200:for g in re.finditer(pattern,r.text):dic[g.group(1)]=g.group(0)return dic#输出到文件中
def saveFile(saveDir,dic):if not os.path.isdir(saveDir):os.makedirs(saveDir)for key in dic:print key,dic[key]#
        outPath=saveDirfileName=keyrIndex=key.rfind("/")if rIndex!=-1:outPath=outPath+"\\"+key[:rIndex]fileName=key[rIndex+1:]if not os.path.isdir(outPath):os.makedirs(outPath)outFile=open(outPath+"\\"+fileName,'w')beginIndex=dic[key].find("<code>")endIndex=dic[key].find("</code>")if beginIndex==-1 or endIndex==-1:print "<code> have not"returnsubs=dic[key][beginIndex+6:endIndex]outFile.write(subs)outFile.close()url1='http://webpy.org/skeleton/0.3'
url2='http://webpy.org/src/blog/0.3'
url3='http://webpy.org/src/todo-list/0.3'
url4='http://webpy.org/src/wiki/0.3'urls=(url1,url2,url3,url4)for url in urls:#取得文件名和内容对应字典dic=getCode(url)#相对目录不变proPath=url.replace("http://","\\").replace("/","\\")#保存根目录设定在【f:\pyworkspace】下saveFile(r'f:\pyworkspace'+proPath,dic)

转载于:https://www.cnblogs.com/zwm512327/p/3499841.html

获取web.py上面的示例code相关推荐

  1. Eclipse里面web项目上面的小地球消失的原因

    一般java的web目录在eclipse里面的显示主要的目录.settings,src和WebContent , .classpath ,  .project 如果项目上面小地球消失,先查看目录格式是 ...

  2. Forms表单登陆,动态获取web.config里面的cookies配置

    以前写死的写法是 1: //设置登录权限 2: HttpCookie cook; 3: 4: string roles = "admin";//用户角色 5: 6: FormsAu ...

  3. Python+selenium 自动化-chrome页面静止、冻结技术,获取web动态页面的Xpath方法,查看浏览器动态dom节点

    很多时候根据需要,我们要取动态界面某些元素的 Xpath. 如图所示,动态的界面静止了,此时用左上角的小工具就能取到元素,这时只要你没解冻,界面就不会动了. 哈哈,怎么样? 下面有具体操作方法. 界面 ...

  4. web.py+xheditor+ ajaxfileupload+新浪sae图片上传

    新浪sae是不能像本地一样,直接把上传图片写入硬盘的,只能用新浪自己的云储存. 这里分享一下,我写的基于web.py上传代码,编辑器使用的是xheditor, 缩略图上传使用的是ajaxfileupl ...

  5. linux下nginx+python+fastcgi部署总结(web.py版)

    2019独角兽企业重金招聘Python工程师标准>>> 在上一篇文章linux下nginx+python+fastcgi部署总结(django版)中,我们部署了nginx+djang ...

  6. python web py入门-4-请求处理(上)

    这篇我们来介绍一下请求处理过程.其实,在前面python中requests做接口自动化的系列讲过请求和响应.服务器需要对客户端发送的请求,进行解析和处理.我们在前面文章介绍的URL映射,每次输入新的U ...

  7. web.py——简单而且功能强大的Python web 框架(4):生成表单、获取输入和内容的验证

    web.py的form模块能够帮助你生成HTML表单:获取用户的输入,并在处理或添加到数据库之前对其进行内容的验证. 表单简介 web.py的表单模块允许生成html表单,获取用户输入,并在处理或将其 ...

  8. Activiti6:模拟钉钉上面的请假流程(使用web画图并导出xml然后使用java执行流程)

    1.声明 当前内容主要为本人学习和测试Activiti6这个工作流的基本操作,模拟钉钉上面的请假流程(简单版) 当前内容主要有: 使用官方的web-app方式画图 将当前流程图导出为xml配置 将xm ...

  9. web.py做图片上传网页

    简单而直接的Python web 框架:web.py 网页界面属于前端,可以用html HTML5 上传图片文件(含拖拽.预览.上传.美化) HTML 入门笔记 - 初识HTML 如何实现一个简易的图 ...

最新文章

  1. 机器学习知识点(三十四)机器学习类学习资源
  2. fixture.detectChange开始单步调试,如何执行到Directive的ngAfterViewInit钩子
  3. oracle tovarchar2_Oracle 数据类型转换之 varchar2,number,date
  4. 联想a850 android 5.0 lollipop,手机资讯导报:全新纯净款MotoX运行Android5.0Lollipop视频曝光...
  5. python抽取数据库元数据_0797-使用HDP或CDP的Atlas采集CDH6的元数据和血缘
  6. CCF CSP201903-2二十四点
  7. MQTT 控制报文 - SUBSCRIBE订阅报文,SUBACK,UNSUBSCRIBE,UNSUBACK - 第5章
  8. 又一国产数据库诞生!腾讯发布 TGDB,实时查询比 Neo4j 快 20-150 倍!
  9. alarm/pause
  10. 电子电路仿真软件中文版_软件分享|几款你从未见过的电子电路仿真软件
  11. 苹果电脑安装windows系统 失败后 磁盘空间丢失
  12. Word 特殊符号的插入
  13. 【VirtualBox虚拟机总是提示“0x00000000指令引用的0x00000000内存,该内存不能为written“错误的解决方法】
  14. 转型太慢药丸?西数欲举债180亿美元竞购闪迪!
  15. 宾州州立大学帕克分校计算机科学,宾夕法尼亚州立大学帕克分校计算机专业好吗?...
  16. C语言项目-后宫选妃系统-第一天
  17. 20135323符运锦---信息安全系统设计基础第一周学习总结
  18. Oracle 10.2 流复制问题(二)—— C001: large txn detected
  19. 量子计算机关键技术有哪些,实现量子通信的关键技术有哪些?
  20. 工具使用 - IDA使用

热门文章

  1. ETL AUTOMATION介绍
  2. [Qt-creator]实用技巧----基于ubuntu
  3. IOS_CGRect
  4. [代码]HDU 4335 What is N?
  5. 网站如何让用户主动为你增加流量
  6. 修改Bugzilla的主页图片
  7. 75的写的自己情感经历(转贴自天涯社区)
  8. apk的签名文件(两次Hash+加密)
  9. Chrome MessageLoop类分析
  10. Vue防止白屏添加首屏动画