python网页版百度_python,_爬虫页面不存在_百度搜索，python

爬虫页面不存在_百度搜索

1.学写爬虫，遇到一个问题，加了values={"wd":"test","ie":"utf-8"}就报错了，也就是我向百度页面搜索里面输入test就报错，百度了一圈没找到答案，请教一下各位大神如何处理，如果可以的话能否说明这是为什么，以及怎么处理类似的情况，谢谢！

2.代码如下(版本2.7)：

(randHeader用来生成随机的Header，savef保存输出结果，logging.info用来调试，try处理可能的错误，其他部分就是爬虫的主体)

#coding:utf-8

import random

import urllib2

import urllib

import os

import logging

logging.basicConfig(level=logging.INFO)

def savef(html,tpath):

#12输入输出目录不存在，就创建

if not os.path.exists(tpath):

os.makedirs(tpath)

#12打开需要保存的文件(该命令下，如果文件不存在就创建新文件)

with open(os.path.join(tpath,'2.html'),'w') as f:

f.write(html)

with open(os.path.join(tpath,'2.xml'),'w') as f:

f.write(html)

with open(os.path.join(tpath,'2.txt'),'w') as f:

f.write(html)

def randHeader():

head_connection = ['Keep-Alive','close']

head_accept = ['text/html, application/xhtml+xml, */*']

head_accept_language = ['zh-CN,fr-FR;q=0.5','en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3']

head_user_agent = ['Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',

'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',

'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1',

'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3',

'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12',

'Opera/9.27 (Windows NT 5.2; U; zh-cn)',

'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',

'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)',

'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6',

'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)',

'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)',

'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ',

'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)',

'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER',

'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11']

header = {

'Connection': head_connection[0],

'Accept': head_accept[0],

'Accept-Language': head_accept_language[1],

'User-Agent': head_user_agent[random.randrange(0,len(head_user_agent))]

}

return header

"""

#输出随机Header

for i in range(10):

print(randHeader())

"""

url1="http://www.baidu.com/"

kkk=url1.split("/")[2]

headers=randHeader()

logging.info("headers=%s" % headers)

values={"wd":"test","ie":"utf-8"}

data=urllib.urlencode(values)

request=urllib2.Request(url1,data,headers)

#HTTP错误处理

try:

urllib2.urlopen(request)

except URLError,e:

logging.info("e.code=%s" % e.code)

logging.info("e.read()=" % e.read())

response=urllib2.urlopen(request)

html=response.read()

#根目录

cpath="I:\\"

#拼输出目录

tpath=os.path.join(cpath,kkk)

savef(html,tpath)

3.输出结果如下：

页面不存在_百度搜索

...由于太多，后面就省略了

python网页版百度_python,_爬虫页面不存在_百度搜索，python - phpStudy相关推荐

python登录网页账号密码_Python 通过爬虫实现GitHub网页的模拟登录的示例代码
1. 实例描述通过爬虫获取网页的信息时,有时需要登录网页后才可以获取网页中的可用数据,例如获取 GitHub 网页中的注册号码时,就需要先登录账号才能在登录后的页面中看到该信息,如下图所示.那么该如 ...
python网页版_经典python学习教程：20行代码打造一个微信群聊助手，解放双手
今天的Python学习教程教大家如何用20行Python代码实现微信群聊助手,可以用来活跃群气氛,好多群主创建完群后,拉完一群人,之后就一片寂静,有个群聊助手,就可以帮忙活跃群里气氛,通过今天在自己的 ...
python 网页版笔记_【Python笔记】Python网页正文抽取工具
本文信息本文由方法SEO顾问发表于2016-05-2018:48:27,共 1153 字,转载请注明:[Python笔记]Python网页正文抽取工具_[方法SEO顾问],如果我网站的文章对你有所帮助 ...
爬虫python对电脑要求_python人工智能爬虫系列:怎么查看python版本_电脑计算机编程入门教程自学...
本文由简码编程原创,保留所有版权,转载请注明出处. 本python人工智能爬虫系列教程基于Python3.0版本, 将python结合windows桌面开发工具aardio一起做可视化的开发, 用py ...
python sub 不区分大小写_Python网络爬虫入门篇
1. 预备知识学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. Python入门篇:https://www.cnblo ...
python多进程爬虫保存数据_Python多进程爬虫东方财富盘口异动数据+Python读写Mysql与Pandas读写Mysql效率对比...
先上个图看下网页版数据.mysql结构化数据通过Python读写mysql执行时间为:1477s,而通过Pandas读写mysql执行时间为:47s,方法2速度几乎是方法1的30倍.在于IO读写上, ...
python 二进制流转图片_Python零基础入门到精通-5.1节:Python程序的执行过程
教程引言: 系统地讲解计算机基础知识,Python的基础知识, 高级知识,web开发框架,爬虫开发,数据结构与算法,nginx, 系统架构.一步步地帮助你从入门到就业. 5.1.1 在命令行中执行Py ...
python编辑器安装视频教程_Python安装教程（推荐一款不错的Python编辑器）
网工2.0已来,网络工程师单单会路由交换已经不吃香了, 所以,这里提倡广大网络工程师抽空学习编程,至少掌握一门编程语言, 后续可以用于自动化运维. 因此,本期为大家分享了python安装教程,供大家 ...
python圆面积的计算_Python编程题:输入圆半径，输出圆面积?python计算圆面积教程...
python计算圆的面积,读程序,要求格式化输出浮点数s,并保留6位小数,请填写--缺少的语句? 你好,保留6位小数的代码是s="%.6f"%s. 第一个空是return s 第二 ...

python网页版百度_python,_爬虫页面不存在_百度搜索，python - phpStudy

python网页版百度_python,_爬虫页面不存在_百度搜索，python - phpStudy相关推荐

最新文章

热门文章

python网页版百度_python,_爬虫 页面不存在_百度搜索，python - phpStudy

python网页版百度_python,_爬虫 页面不存在_百度搜索，python - phpStudy相关推荐

最新文章

热门文章

python网页版百度_python,_爬虫页面不存在_百度搜索，python - phpStudy

python网页版百度_python,_爬虫页面不存在_百度搜索，python - phpStudy相关推荐