python网页版百度_python,_爬虫 页面不存在_百度搜索,python - phpStudy
爬虫 页面不存在_百度搜索
1.学写爬虫,遇到一个问题,加了values={"wd":"test","ie":"utf-8"}就报错了,也就是我向百度页面搜索里面输入test就报错,百度了一圈没找到答案,请教一下各位大神如何处理,如果可以的话能否说明这是为什么,以及怎么处理类似的情况,谢谢!
2.代码如下(版本2.7):
(randHeader用来生成随机的Header,savef保存输出结果,logging.info用来调试,try处理可能的错误,其他部分就是爬虫的主体)
#coding:utf-8
import random
import urllib2
import urllib
import os
import logging
logging.basicConfig(level=logging.INFO)
def savef(html,tpath):
#12输入输出目录不存在,就创建
if not os.path.exists(tpath):
os.makedirs(tpath)
#12打开需要保存的文件(该命令下,如果文件不存在就创建新文件)
with open(os.path.join(tpath,'2.html'),'w') as f:
f.write(html)
with open(os.path.join(tpath,'2.xml'),'w') as f:
f.write(html)
with open(os.path.join(tpath,'2.txt'),'w') as f:
f.write(html)
def randHeader():
head_connection = ['Keep-Alive','close']
head_accept = ['text/html, application/xhtml+xml, */*']
head_accept_language = ['zh-CN,fr-FR;q=0.5','en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3']
head_user_agent = ['Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',
'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',
'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',
'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1',
'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3',
'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12',
'Opera/9.27 (Windows NT 5.2; U; zh-cn)',
'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',
'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)',
'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6',
'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)',
'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)',
'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)',
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ',
'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)',
'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ',
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER',
'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)',
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11']
header = {
'Connection': head_connection[0],
'Accept': head_accept[0],
'Accept-Language': head_accept_language[1],
'User-Agent': head_user_agent[random.randrange(0,len(head_user_agent))]
}
return header
"""
#输出随机Header
for i in range(10):
print(randHeader())
"""
url1="http://www.baidu.com/"
kkk=url1.split("/")[2]
headers=randHeader()
logging.info("headers=%s" % headers)
values={"wd":"test","ie":"utf-8"}
data=urllib.urlencode(values)
request=urllib2.Request(url1,data,headers)
#HTTP错误处理
try:
urllib2.urlopen(request)
except URLError,e:
logging.info("e.code=%s" % e.code)
logging.info("e.read()=" % e.read())
response=urllib2.urlopen(request)
html=response.read()
#根目录
cpath="I:\\"
#拼输出目录
tpath=os.path.join(cpath,kkk)
savef(html,tpath)
3.输出结果如下:
页面不存在_百度搜索
...由于太多,后面就省略了
相关阅读:
对于代码中tab和空格混合缩进的py文件,怎么将他们统一?
git completion error in bash
debug时,源码部分行数不正确如何解决?
thinkphp怎么推送系统消息
Nodejs 模块学习问题
苹果系统休眠后,websocket自动断开
如何在正则替换时,对匹配部分进行算术运算?
MySQL多表查询的一个问题
how to parsing mutil host:port by python 3
VS2013安装了resharper就悲剧了,卸载resharper后就更悲剧了...
安卓代码混淆后还能用bug收集的那些工具吗
十万火急啊,git撤销了所有修改。
Swift中数组如何像OC中一样取subarrayWithRange
Redis 分布式缓存,是如何实现多台服务器SESSION 实时共享的
webpack打包出来的项目兼容ie6吗
jsp中注释掉的代码为什么还会起作用
关于el表达式
微信浏览器如何禁止iPhone手机上下滑动网页
分苹果问题,求助~~
mysql [ERROR] Function 'innodb' already exists
python网页版百度_python,_爬虫 页面不存在_百度搜索,python - phpStudy相关推荐
- python登录网页账号密码_Python 通过爬虫实现GitHub网页的模拟登录的示例代码
1. 实例描述 通过爬虫获取网页的信息时,有时需要登录网页后才可以获取网页中的可用数据,例如获取 GitHub 网页中的注册号码时,就需要先登录账号才能在登录后的页面中看到该信息,如下图所示.那么该如 ...
- python网页版_经典python学习教程:20行代码打造一个微信群聊助手,解放双手
今天的Python学习教程教大家如何用20行Python代码实现微信群聊助手,可以用来活跃群气氛,好多群主创建完群后,拉完一群人,之后就一片寂静,有个群聊助手,就可以帮忙活跃群里气氛,通过今天在自己的 ...
- python 网页版笔记_【Python笔记】Python网页正文抽取工具
本文信息本文由方法SEO顾问发表于2016-05-2018:48:27,共 1153 字,转载请注明:[Python笔记]Python网页正文抽取工具_[方法SEO顾问],如果我网站的文章对你有所帮助 ...
- 爬虫python对电脑要求_python人工智能爬虫系列:怎么查看python版本_电脑计算机编程入门教程自学...
本文由简码编程原创,保留所有版权,转载请注明出处. 本python人工智能爬虫系列教程基于Python3.0版本, 将python结合windows桌面开发工具aardio一起做可视化的开发, 用py ...
- python sub 不区分大小写_Python网络爬虫入门篇
1. 预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. Python入门篇:https://www.cnblo ...
- python多进程爬虫保存数据_Python多进程爬虫东方财富盘口异动数据+Python读写Mysql与Pandas读写Mysql效率对比...
先上个图看下网页版数据.mysql结构化数据 通过Python读写mysql执行时间为:1477s,而通过Pandas读写mysql执行时间为:47s,方法2速度几乎是方法1的30倍.在于IO读写上, ...
- python 二进制流转图片_Python零基础入门到精通-5.1节:Python程序的执行过程
教程引言: 系统地讲解计算机基础知识,Python的基础知识, 高级知识,web开发框架,爬虫开发,数据结构与算法,nginx, 系统架构.一步步地帮助你从入门到就业. 5.1.1 在命令行中执行Py ...
- python编辑器安装视频教程_Python安装教程(推荐一款不错的Python编辑器)
网工2.0已来,网络工程师单单会路由交换已经不吃香了, 所以,这里提倡广大网络工程师抽空学习编程,至少掌握一门编程语言, 后续可以用于自动化运维. 因此,本期为大家分享了python安装教程,供大 家 ...
- python圆面积的计算_Python编程题:输入圆半径,输出圆面积?python计算圆面积教程...
python计算圆的面积,读程序,要求格式化输出浮点数s,并保留6位小数,请填写--缺少的语句? 你好,保留6位小数的代码是s="%.6f"%s. 第一个空是return s 第二 ...
最新文章
- displaynone符合html5标准,javascript – JS HTML5验证“display:none”必需的输入元素
- Django 和 html
- 小程序 获取当前用户城市信息(省市区)
- ztree 点击重载 layui table
- 就业信息网进行服务器维护,服务器安全武汉大学黄石理工学院就业信息网.pptx...
- redis 分布式锁 看门狗_分布式锁Redisson的使用,看门狗机制
- 去掉input、textarea 的边框
- 平方差和交叉熵损失函数分别用在哪些场景?
- django的render的特殊用法
- 程序员放弃高薪选择转行,半年过去,现状如何?
- win10底部任务栏不见了怎么办
- 国开网电大 动物常见病防治 形考任务1-5
- An error occurred.Faithfully yours, nginx
- 黄小宁罪大恶极!!!!!!!!!!黄小宁罪大恶极!!!!!!!!!!
- (瑞萨,norti系统,partner-jet2) 实时系统下DMAC使用的注意事项
- nginx image_filter模块415问题
- 神秘的程序员头像包(附口罩版)第一发
- Mirror 镜像站点的使用
- 路由交换技术与路由交换技术基础知识
- python读取电脑识别码