当我尝试从Python打开http://www.comicbookdb.com/browse.php(在我的浏览器中工作正常)时,我得到一个空响应:

>>> import urllib.request

>>> content = urllib.request.urlopen('http://www.comicbookdb.com/browse.php')

>>> print(content.read())

b''

设置User-agent时也会发生同样的情况:

>>> opener = urllib.request.build_opener()

>>> opener.addheaders = [('User-agent', 'Mozilla/5.0')]

>>> content = opener.open('http://www.comicbookdb.com/browse.php')

>>> print(content.read())

b''

或者当我使用httplib2时:

>>> import httplib2

>>> h = httplib2.Http('.cache')

>>> response, content = h.request('http://www.comicbookdb.com/browse.php')

>>> print(content)

b''

>>> print(response)

{'cache-control': 'no-store, no-cache, must-revalidate, post-check=0, pre-check=0', 'content-location': 'http://www.comicbookdb.com/browse.php', 'expires': 'Thu, 19 Nov 1981 08:52:00 GMT', 'content-length': '0', 'set-cookie': 'PHPSESSID=590f5997a91712b7134c2cb3291304a8; path=/', 'date': 'Wed, 25 Dec 2013 15:12:30 GMT', 'server': 'Apache', 'pragma': 'no-cache', 'content-type': 'text/html', 'status': '200'}

或者当我尝试使用cURL下载它时:

C:\>curl -v http://www.comicbookdb.com/browse.php

* About to connect() to www.comicbookdb.com port 80

* Trying 208.76.81.137... * connected

* Connected to www.comicbookdb.com (208.76.81.137) port 80

> GET /browse.php HTTP/1.1

User-Agent: curl/7.13.1 (i586-pc-mingw32msvc) libcurl/7.13.1 zlib/1.2.2

Host: www.comicbookdb.com

Pragma: no-cache

Accept: */*

< HTTP/1.1 200 OK

< Date: Wed, 25 Dec 2013 15:20:06 GMT

< Server: Apache

< Expires: Thu, 19 Nov 1981 08:52:00 GMT

< Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0

< Pragma: no-cache

< Set-Cookie: PHPSESSID=0a46f2d390639da7eb223ad47380b394; path=/

< Content-Length: 0

< Content-Type: text/html

* Connection #0 to host www.comicbookdb.com left intact

* Closing connection #0

在浏览器中打开URL或使用Wget下载它似乎工作正常,但是:

C:\>wget http://www.comicbookdb.com/browse.php

--16:16:26-- http://www.comicbookdb.com/browse.php

=> `browse.php'

Resolving www.comicbookdb.com... 208.76.81.137

Connecting to www.comicbookdb.com[208.76.81.137]:80... connected.

HTTP request sent, awaiting response... 200 OK

Length: unspecified [text/html]

[ <=> ] 40,687 48.75K/s

16:16:27 (48.75 KB/s) - `browse.php' saved [40687]

与从同一服务器下载不同的文件一样:

>>> content = urllib.request.urlopen('http://www.comicbookdb.com/index.php')

>>> print(content.read(100))

b'n\t\t"http://www.w3.org/TR/1999/REC-html'

那么为什么其他URL不起作用呢?

python清理浏览器文件_URL可以在浏览器或wget中正常工作,但是从Python或cURL中清空...相关推荐

  1. 用Python读取整个文件

    本文翻译自:Reading entire file in Python If you read an entire file with content = open('Path/to/file', ' ...

  2. python读取中文文件乱码-详解Python的json文件读取及中文乱码显示问题解决方法...

    Python的json文件读取及解决中文乱码显示问题 本文实例讲述了Python实现的json文件读取及中文乱码显示问题解决方法.分享给大家供大家参考,具体如下: city.json文件的内容如下: ...

  3. python下载的文件放在哪里的-python实现下载文件的三种方法

    Python开发中时长遇到要下载文件的情况,最常用的方法就是通过Http利用urllib或者urllib2模块. 当然你也可以利用ftplib从ftp站点下载文件.此外Python还提供了另外一种方法 ...

  4. python关闭csv文件_使用Python编辑csv文件时跳过标题

    使用Python编辑csv文件时跳过标题 我使用下面引用的代码使用Python编辑csv.代码中调用的函数形式代码的上半部分. 问题:我希望下面引用的代码从第2行开始编辑csv,我希望它排除包含标题的 ...

  5. php 读csv跳过标题,请问怎么使用Python编辑csv文件时跳过标题

    使用Python编辑csv文件时跳过标题 我使用下面引用的代码使用Python编辑csv.代码中调用的函数形式代码的上半部分. 问题:我希望下面引用的代码从第2行开始编辑csv,我希望它排除包含标题的 ...

  6. python批量移动文件_用python批量移动文件

    我是用来移动图片的,其他格式的文档也是可以的,改下后缀列表就可以了 import os,shutil import datetime #将文件夹里的图片全部移动到新文件夹中 #revised by S ...

  7. 小白用python处理excel文件-python高手之路python处理excel文件(方法汇总)

    python3处理Excel文件的实际应用谢谢时光大盗把小编的时间偷走让小编没有时间去想你. 最近遇到个问题,使用python处理Excel文件.如何将表格中数据读取以后以而小编使用的是python3 ...

  8. 如何在 Python 中将 Excel 文件转换为图像?Aspose快速搞定

    在各种情况下,需要将 Excel 电子表格嵌入到 Web 或桌面应用程序中.在这种情况下的解决方案之一是将 Excel 工作表转换为图像格式.在本文中,将学习如何在 Python中将Excel XLS ...

  9. 服务器bat脚本删除空文件夹,windows批处理命令(1)——右键清理空文件夹

    日常学习工作免不了使用电脑,而作为一个强迫症,看到电脑中有空文件及其不爽: 再加上使用一些Git工具时含空文件不允许提交,因此就寻思着可不可以写一个脚本直接一键清理空文件夹. 最终实现的效果如下: 最 ...

  10. python实现Excel文件读取的程序(附源代码)

    python实现Excel文件读取的程序   前一段时间帮一个朋友用python写了一个读Excel程序操作的程序,具体要求为:读取两个Excel文件,根据其中某个特征的特征值对这两个文件进行取交集操 ...

最新文章

  1. 手把手教你从系统层面优化深度学习计算
  2. Linux防火墙命令
  3. (转)json-lib 的maven dependency
  4. JS判断数字字母中文
  5. DLNA, PulseAudio, diffpatch, bash
  6. java实现报表_用存储过程和 JAVA 写报表数据源有什么弊端?
  7. 15拆分成3个不同的自然数_一个简单的算法 - 将一个正整数拆分成指定几个正整数的组合...
  8. 淘宝Web服务器Tengine正式开源
  9. 利用系统级别的光谱成像技术分析细胞器的互作组学
  10. java robot api_用java Robot API 模拟实现类似按键精灵功能
  11. PYQT5:基于QsciScintilla的代码编辑器分析10--语法高亮颜色选择
  12. 三层交换机LACP协议对 L2/L3端口,报文处理实验
  13. win10 原版无捆绑系统下载
  14. 循环冗余校验码中冗余码的计算
  15. Android Handler机制 - MessageQueue如何处理消息
  16. JavaScript 实现网页截屏五种方法
  17. 综合日语第一册第十三课
  18. 无人机蜂群拦截系统作战构想与关键技术论文解读
  19. 一般各类模具开模周期
  20. 记录-关于网站的欢迎页,初次进入可见欢迎页,再次进入就直接显示主页了

热门文章

  1. uni app项目资讯列表展开与收起
  2. useradd/adduser 添加用户
  3. 如何在mysql查询结果集中得到记录行号_如何在MySQL查询结果集中得到记录行号...
  4. python循环的基本思想是重复_python基础-循环
  5. pythonpid传递函数_python实现PID算法及测试的例子
  6. echarts x轴 名称_图例|西门子S7-1200 PLC的轴组态与点动控制详解
  7. 物联网学什么编程语言_物联网要学什么
  8. CMU 15-213 Introduction to Computer Systems学习笔记(21) Synchronization: Basic
  9. 对口高考计算机类专业试题,河南对口高考计算机专业课试题
  10. php mail带附件,Pear Mail 发送邮件带附件_PHP教程