urllib的使用1

1获取整页页面

#python3
import urllib.requestresponse=urllib.request.urlopen('http://www.baidu.com')
data=response.read()
html=data.decode("utf8")
print(type(html))
with open("d:/python/pachong/pc2.html",'w',encoding='utf8') as f:f.write(html)
#python2版
import io
import urllib
import urllib2
response=urllib2.urlopen('http://www.baidu.com')
data=response.read()
html=data.decode('utf8')
with io.open('d:/python/pachong/ub1.html','w',encoding='utf8') as f:f.write(html)

由上可见，python3里的urllib.request即为python2里的urllib2

2 获取某个图片

#python3版
import urllib.request
url="https://ss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/img/logo/bd_logo1_31bdc765.png"
response=urllib.request.urlopen(url)
#创建请求对象
#request=urllib.request.Request(url)
#response=urllib.request.urlopen(request)
data=response.read()
#将数据存入到图片文件中
with open("d:/python/pachong/baidu.png','wb') as f:f.write(data)
#python2版
import urllib
import urllib2
import io
url="https://ss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/img/logo/bd_logo1_31bdc765.png"
#response=urllib.urlopen(url)request=urllib2.Request(url)
response=urllib2.urlopen(request)
data=response.read()
with io.open('d:/python/pachong/ub2_1.png','wb') as f:f.write(data)

geturl()返回的是一个url的字符串；

info()返回的是一些meta标记的元信息，包括一些服务器的信息；

getcode()返回的是HTTP的状态码，如果返回200表示请求成功
查看返回相关信息

import urllib.request
#获取请求地址
url="http://www.sohu.com"
#发送请求，获取相应
response = urllib.request.urlopen(url)
#获取相应的数据
#获取请求的数据url
print(response.geturl())
#服务器相应的数据信息
print(response.info())
#获取相应的返回码
print(response.getcode())

3 获取post请求数据

使用baidu的api完成汉译英功能

import urllib.request
#baidu翻译的地址
url='http://fanyi.baidu.com/v2transapi'
param={
"from":"zh",
"to":"en",
"query":"中国",
"transtype":"translang",
"simple_means_flag":"3"
}
#将参数转码
param=urllib.parse.urlencode(param)
#将参数转换为bytes类型
param=bytes(param,encoding='utf8')
#发送请求
response=urllib.request.urlopen(url,data=param)
#读取返回的数据
data=response.read()
#将bytes类型转换为str类型
data=str(data,encoding='utf8')
print(data)

2. 使用json完成校验

#使用baidu的api完成汉译英功能
import urllib.request
import urllib.parse
import jsontransData=input("请您输入要翻译的内容（中文)")
#baidu翻译的地址
url='http://fanyi.baidu.com/v2transapi'
param={
"from":"zh",
"to":"en",
"query":transData,
"transtype":"translang",
"simple_means_flag":"3"
}
#将参数转码
param=urllib.parse.urlencode(param)
#将参数转换为bytes类型
param=bytes(param,encoding='utf8')
#发送请求
response=urllib.request.urlopen(url,data=param)
#读取返回的数据
data=response.read()
#将bytes类型转换为str类型
data=str(data,encoding='utf8')
#print(data)#将json的字符串转为字典
result=json.loads(data)#获取需求的数据
dst=result["trans_result"]["data"][0]["dst"]
print("翻译后的结果:"+dst)

4 伪装身份

方法一

import urllib.request#请求的url
url="http://www.csdn.net"#请求头数据
headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0"
}#创建请求对象
request=urllib.request.Request(url)
#发送请求
response=urllib.request.urlopen(request)
#读取数据
data=response.read().decode('utf8')
#print(data)
with open('d:/python/pachong/weizhuang1.html','w',encoding='utf8') as f:f.write(data)

从结果可以看出,Provisional headers are shown，伪装仍然可以被发现

方法二

import urllib.request#获取请求url
url="http://www.csdn.net"
#创建请求对象
request=urllib.request.Request(url)
#请求对象添加请求头文件
request.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")#发送请求
response=urllib.request.urlopen(request)
#读取数据
data=response.read().decode('utf8')
with open('d:/python/pachong/weizhuang2.html','w',encoding='utf8') as f:f.write(data)

IP代理的使用

import urllib.request# 获取网络请求地址
url="http://ip.chinaz.com"
#创建handler
proxyHandler=urllib.request.ProxyHandler({"https":"60.205.227.57:63336"})
#创建opener
opener=urllib.request.build_opener(proxyHandler)#install opener
urllib.request.install_opener(url)
#发起网络请求
response=opener.open(url)
#读取数据
data=response.read().decode("utf8")
print(data)

urllib的使用1相关推荐

Urllib库函数、代理、爬取案例
Urllib库函数.代理.爬取案例 urllib库-urlopen函数用法 from urllib import request resp=request.urlopen('http://www.ba ...
python基础--urllib
文章目录 urllib包介绍 urllib.request模块 urllib.error 模块 urllib.parse模块构建流程 urllib包介绍 request:主要负责构造和发起网络请 ...
【网络爬虫】(1) 网络请求，urllib库介绍
各位同学好,今天开始和各位分享一下python网络爬虫技巧,从基本的函数开始,到项目实战.那我们开始吧. 1. 基本概念这里简单介绍一下后续学习中需要掌握的概念. (1)http 和 https 协 ...
Python中的urllib.quote和Go中的url.QueryEscape关系探讨
工作中多次遇到Python版本的签名算法,需要用Go版本再实现一遍,这就需要牵扯到Python 2.7中的urllib中的quote,quote_plus和Go中net/url包中的url.Query ...
Python网络爬虫--urllib
本篇随便记录学习崔庆才老师编著的<Python3 网络爬虫开发实战>以及urllib标准库使用 urllib库是Python内置的HTTP请求库,包含四个模块: request:最基本的H ...
python爬虫网络请求超时_6、web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求...
利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码 read()读出html源码内容 decode("utf-8")将字节转化成字符 ...
python3 urllib 类
urllib模块中的方法 1.urllib.urlopen(url[,data[,proxies]]) 打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作.本例试着打开google ...
Python3 的urllib实例
在Python3中合并了 urllib 和 urllib2, 统一命名为 urllib 了,我觉得这样更加合理了.让我们可以像读取本地文件一样读取WEB上的数据.封装了一个类,供以后方便使用吧!并附带 ...
python爬虫入门urllib库的使用
urllib库的使用,非常简单. import urllib2response = urllib2.urlopen("http://www.baidu.com") print re ...
[Python]urllib库的简单应用-实现北航宿舍自动上网
在北航,上网前必须通过一个认证系统.次次开电脑都要打开这个认证网页连接一下网络还是挺烦人的.刚好最近看了看了Python的urllib库,那么就写一个最简易的自动登录器吧....(这也算是我的Pyth ...

urllib的使用1

1获取整页页面

2 获取某个图片

3 获取post请求数据

4 伪装身份

urllib的使用1相关推荐

最新文章

热门文章