爬虫 页面不存在_百度搜索

1.学写爬虫,遇到一个问题,加了values={"wd":"test","ie":"utf-8"}就报错了,也就是我向百度页面搜索里面输入test就报错,百度了一圈没找到答案,请教一下各位大神如何处理,如果可以的话能否说明这是为什么,以及怎么处理类似的情况,谢谢!

2.代码如下(版本2.7):

(randHeader用来生成随机的Header,savef保存输出结果,logging.info用来调试,try处理可能的错误,其他部分就是爬虫的主体)

#coding:utf-8

import random

import urllib2

import urllib

import os

import logging

logging.basicConfig(level=logging.INFO)

def savef(html,tpath):

#12输入输出目录不存在,就创建

if not os.path.exists(tpath):

os.makedirs(tpath)

#12打开需要保存的文件(该命令下,如果文件不存在就创建新文件)

with open(os.path.join(tpath,'2.html'),'w') as f:

f.write(html)

with open(os.path.join(tpath,'2.xml'),'w') as f:

f.write(html)

with open(os.path.join(tpath,'2.txt'),'w') as f:

f.write(html)

def randHeader():

head_connection = ['Keep-Alive','close']

head_accept = ['text/html, application/xhtml+xml, */*']

head_accept_language = ['zh-CN,fr-FR;q=0.5','en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3']

head_user_agent = ['Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',

'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',

'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1',

'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3',

'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12',

'Opera/9.27 (Windows NT 5.2; U; zh-cn)',

'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',

'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)',

'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6',

'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)',

'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)',

'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ',

'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)',

'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER',

'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11']

header = {

'Connection': head_connection[0],

'Accept': head_accept[0],

'Accept-Language': head_accept_language[1],

'User-Agent': head_user_agent[random.randrange(0,len(head_user_agent))]

}

return header

"""

#输出随机Header

for i in range(10):

print(randHeader())

"""

url1="http://www.baidu.com/"

kkk=url1.split("/")[2]

headers=randHeader()

logging.info("headers=%s" % headers)

values={"wd":"test","ie":"utf-8"}

data=urllib.urlencode(values)

request=urllib2.Request(url1,data,headers)

#HTTP错误处理

try:

urllib2.urlopen(request)

except URLError,e:

logging.info("e.code=%s" % e.code)

logging.info("e.read()=" % e.read())

response=urllib2.urlopen(request)

html=response.read()

#根目录

cpath="I:\\"

#拼输出目录

tpath=os.path.join(cpath,kkk)

savef(html,tpath)

3.输出结果如下:

页面不存在_百度搜索

...由于太多,后面就省略了

相关阅读:

对于代码中tab和空格混合缩进的py文件,怎么将他们统一?

git completion error in bash

debug时,源码部分行数不正确如何解决?

thinkphp怎么推送系统消息

Nodejs 模块学习问题

苹果系统休眠后,websocket自动断开

如何在正则替换时,对匹配部分进行算术运算?

MySQL多表查询的一个问题

how to parsing mutil host:port by python 3

VS2013安装了resharper就悲剧了,卸载resharper后就更悲剧了...

安卓代码混淆后还能用bug收集的那些工具吗

十万火急啊,git撤销了所有修改。

Swift中数组如何像OC中一样取subarrayWithRange

Redis 分布式缓存,是如何实现多台服务器SESSION 实时共享的

webpack打包出来的项目兼容ie6吗

jsp中注释掉的代码为什么还会起作用

关于el表达式

微信浏览器如何禁止iPhone手机上下滑动网页

分苹果问题,求助~~

mysql [ERROR] Function 'innodb' already exists

python网页版百度_python,_爬虫 页面不存在_百度搜索,python - phpStudy相关推荐

  1. python登录网页账号密码_Python 通过爬虫实现GitHub网页的模拟登录的示例代码

    1. 实例描述 通过爬虫获取网页的信息时,有时需要登录网页后才可以获取网页中的可用数据,例如获取 GitHub 网页中的注册号码时,就需要先登录账号才能在登录后的页面中看到该信息,如下图所示.那么该如 ...

  2. python网页版_经典python学习教程:20行代码打造一个微信群聊助手,解放双手

    今天的Python学习教程教大家如何用20行Python代码实现微信群聊助手,可以用来活跃群气氛,好多群主创建完群后,拉完一群人,之后就一片寂静,有个群聊助手,就可以帮忙活跃群里气氛,通过今天在自己的 ...

  3. python 网页版笔记_【Python笔记】Python网页正文抽取工具

    本文信息本文由方法SEO顾问发表于2016-05-2018:48:27,共 1153 字,转载请注明:[Python笔记]Python网页正文抽取工具_[方法SEO顾问],如果我网站的文章对你有所帮助 ...

  4. 爬虫python对电脑要求_python人工智能爬虫系列:怎么查看python版本_电脑计算机编程入门教程自学...

    本文由简码编程原创,保留所有版权,转载请注明出处. 本python人工智能爬虫系列教程基于Python3.0版本, 将python结合windows桌面开发工具aardio一起做可视化的开发, 用py ...

  5. python sub 不区分大小写_Python网络爬虫入门篇

    1. 预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. Python入门篇:https://www.cnblo ...

  6. python多进程爬虫保存数据_Python多进程爬虫东方财富盘口异动数据+Python读写Mysql与Pandas读写Mysql效率对比...

    先上个图看下网页版数据.mysql结构化数据 通过Python读写mysql执行时间为:1477s,而通过Pandas读写mysql执行时间为:47s,方法2速度几乎是方法1的30倍.在于IO读写上, ...

  7. python 二进制流转图片_Python零基础入门到精通-5.1节:Python程序的执行过程

    教程引言: 系统地讲解计算机基础知识,Python的基础知识, 高级知识,web开发框架,爬虫开发,数据结构与算法,nginx, 系统架构.一步步地帮助你从入门到就业. 5.1.1 在命令行中执行Py ...

  8. python编辑器安装视频教程_Python安装教程(推荐一款不错的Python编辑器)

    网工2.0已来,网络工程师单单会路由交换已经不吃香了, 所以,这里提倡广大网络工程师抽空学习编程,至少掌握一门编程语言, 后续可以用于自动化运维. 因此,本期为大家分享了python安装教程,供大 家 ...

  9. python圆面积的计算_Python编程题:输入圆半径,输出圆面积?python计算圆面积教程...

    python计算圆的面积,读程序,要求格式化输出浮点数s,并保留6位小数,请填写--缺少的语句? 你好,保留6位小数的代码是s="%.6f"%s. 第一个空是return s 第二 ...

最新文章

  1. displaynone符合html5标准,javascript – JS HTML5验证“display:none”必需的输入元素
  2. Django 和 html
  3. 小程序 获取当前用户城市信息(省市区)
  4. ztree 点击重载 layui table
  5. 就业信息网进行服务器维护,服务器安全武汉大学黄石理工学院就业信息网.pptx...
  6. redis 分布式锁 看门狗_分布式锁Redisson的使用,看门狗机制
  7. 去掉input、textarea 的边框
  8. 平方差和交叉熵损失函数分别用在哪些场景?
  9. django的render的特殊用法
  10. 程序员放弃高薪选择转行,半年过去,现状如何?
  11. win10底部任务栏不见了怎么办
  12. 国开网电大 动物常见病防治 形考任务1-5
  13. An error occurred.Faithfully yours, nginx
  14. 黄小宁罪大恶极!!!!!!!!!!黄小宁罪大恶极!!!!!!!!!!
  15. (瑞萨,norti系统,partner-jet2) 实时系统下DMAC使用的注意事项
  16. nginx image_filter模块415问题
  17. 神秘的程序员头像包(附口罩版)第一发
  18. Mirror 镜像站点的使用
  19. 路由交换技术与路由交换技术基础知识
  20. python读取电脑识别码

热门文章

  1. 大学计算机教案封面模板,大学教案模板可打印.doc
  2. 4455: [Zjoi2016]小星星
  3. 华为服务器培训文档,服务器云培训
  4. 基于Python的Opencv图像梯度处理
  5. SAP案例教程STO公司间采购前台操作
  6. 算法描述怎么写伪代码java_伪代码描述算法
  7. Autodesk Maya 2013 中文版安装教程
  8. 分形几何算法和实现(C语言)
  9. C8051F340的USBXpress开发包USB通信设计
  10. 「角」毫米波雷达前装增速放缓?哪些供应商位居TOP10