本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib

doc = urllib.urlopen("http://www.python.org").read()

print doc#直接打印出网页

def reporthook(*a):

print a

#将http://www.renren.com网页保存到renre.html中,

#每读取一个块调用一字reporthook函数

urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook)

#将http://www.renren.com网页保存到renre.html中

urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

..........................网页内容

python的web抓取_python实现从web抓取文档的方法相关推荐

  1. python根据模板生成pdf文件_程序生成word与PDF文档的方法(python)

    程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用free ...

  2. python怎么获取word文档的章节_python读取word文档的方法

    本文实例讲述了python读取word文档的方法.分享给大家供大家参考.具体如下: 首先下载安装win32com from win32com import client as wc word = wc ...

  3. python处理word或者pdf文件_利用python程序生成word和PDF文档的方法

    一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...

  4. python生成word 带目录_利用python程序生成word和PDF文档的方法

    一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...

  5. JAVA毕业设计Web网上购书后台管理系统计算机源码+lw文档+系统+调试部署+数据库

    JAVA毕业设计Web网上购书后台管理系统计算机源码+lw文档+系统+调试部署+数据库 JAVA毕业设计Web网上购书后台管理系统计算机源码+lw文档+系统+调试部署+数据库 本源码技术栈: 项目架构 ...

  6. java计算机毕业设计WEB儿童运动馆业务信息系统MyBatis+系统+LW文档+源码+调试部署

    java计算机毕业设计WEB儿童运动馆业务信息系统MyBatis+系统+LW文档+源码+调试部署 java计算机毕业设计WEB儿童运动馆业务信息系统MyBatis+系统+LW文档+源码+调试部署 本源 ...

  7. 计算机毕业设计Java快递代取(源码+mysql数据库+系统+lw文档)

    计算机毕业设计Java快递代取(源码+mysql数据库+系统+lw文档) 计算机毕业设计Java快递代取(源码+mysql数据库+系统+lw文档) 本源码技术栈: 项目架构:B/S架构 开发语言:Ja ...

  8. 基于MVC4+EasyUI的Web开发框架经验总结(8)--实现Office文档的预览

    在博客园很多文章里面,曾经有一些介绍Office文档预览查看操作的,有些通过转为PDF进行查看,有些通过把它转换为Flash进行查看,但是过程都是曲线救国,真正能够简洁方便的实现Office文档的预览 ...

  9. (转)基于MVC4+EasyUI的Web开发框架经验总结(8)--实现Office文档的预览

    http://www.cnblogs.com/wuhuacong/p/3871991.html 基于MVC4+EasyUI的Web开发框架经验总结(8)--实现Office文档的预览 在博客园很多文章 ...

最新文章

  1. Notepad++ 列操作
  2. raid模式_基于网络的磁盘热备技术|网络RAID-1
  3. 《软件需求》读后感03
  4. Reuse library debug in Chrome - phase3 exchange drop down list
  5. Sharepoint 2013设置customErrors
  6. .net应用程序中添加chm帮助文档打开显示此程序无法显示网页问题
  7. vue @click 如何绑定多个方法
  8. Linux Vim基本操作(文件的打开和编辑)完全攻略(有图有真相)
  9. jQuery进阶部分笔记
  10. 百万奖金!天池发起广东工业制造创新大赛
  11. 关于linux系统端口查看和占用的解决方案
  12. 0分配不到地址_图解 Go 内存分配器
  13. 电脑重启后不必输入用户名密码,直接自己登入的方法
  14. ModuleNotFoundError: No module named 'sklearn.grid_search'报错
  15. 为什么世界上没有安全的工作?
  16. Java后端使用Freemarker导出word文档的各种细节
  17. 解决DeepLinux 15.8在I3 6100的核心显卡hd530播放视频隔1分钟卡顿几秒的问题
  18. 公众号知识付费怎么代开通
  19. 如何查看越狱机的完整文件系统?
  20. 基于MATLAB的道路缺陷自动识别

热门文章

  1. jmeter中没有sampler_jmeter(七)-BeanShell常用内置变量和场景
  2. 3.11 程序示例--逻辑运算-机器学习笔记-斯坦福吴恩达教授
  3. 一篇文章搞定GVIM(根据工作经验持续更新)
  4. xilinx IP核之ROM
  5. ubuntu 11.04下Android开发环境的搭建!
  6. 0.项目运行环境和项目经理
  7. 【EXCEL】VLOOKUP函数反向应用
  8. C语言基础:时间转换成字符串 strftime的代码
  9. PHP-sftp文件上传
  10. Redis 服务器管理相关命令