pythonurllib模块-python爬虫之urllib模块和requests模块学习
今天学习了request模块和urllib模块,了解到这两个模块最大的区别就是在爬取数据的时候连接方式的不同。urllb爬取完数据是直接断开连接的,而requests爬取数据之后可以继续复用socket,并没有断开连接。
两种用法的区别,上源码:
requests:
#coding:utf-8
import requests
def eazy_url_demo(url):
res=requests.get(url)
print '>>>>>>>Res info>>'
print res.headers
print 'read>>>>>>'
print res.text
def url_get(url):
data={'param1':'hello','param2':'wrold'}
res=requests.get(url,params=data)
print '>>>>>>>code'
print res.status_code
print res.reason
print '>>>>>>>Res info>>'
print res.headers
print 'read>>>>>>'
print res.text
if __name__=='__main__':
# url_exp='http://httpbin.org/ip'
# eazy_url_demo(url_exp)
url_get1='http://httpbin.org/get'
url_get(url_get1)
urllib和urllib2:
#coding:utf-8
import urllib2,urllib
def eazy_url_demo(url):
res=urllib2.urlopen(url)
print '>>>>>>>Res info>>'
print res.info()
print 'read>>>>>>'
print res.read()
def url_get(url):
data=urllib.urlencode({'param1':'hello','param2':'wrold'})
print type(url)
print type(data)
new_url='?'.join([url,'%s']) % data
res=urllib2.urlopen(new_url)
print '>>>>>>>Res info>>'
print res.info()
print 'read>>>>>>'
print res.read()
if __name__=='__main__':
# url_exp='http://httpbin.org/ip'
# eazy_url_demo(url_exp)
url_get1='http://httpbin.org/get'
url_get(url_get1)
总结:requests还是比urllib更简单明了的,目前还没有发现节约资源方面的具体使用,继续跟进中。
pythonurllib模块-python爬虫之urllib模块和requests模块学习相关推荐
- python爬虫用urllib还是reques,python爬虫中urllib.request和requests有什么区别?
在学习python爬虫,想要检索request相关内容时,往往会出现urllib.request和requests这两个词,urllib.request和requests都是python爬虫的模块,其 ...
- Python爬虫之urllib模块2
Python爬虫之urllib模块2 本文来自网友投稿 作者:PG-55,一个待毕业待就业的二流大学生. 看了一下上一节的反馈,有些同学认为这个没什么意义,也有的同学觉得太简单,关于Beautiful ...
- Python爬虫进阶——urllib模块使用案例【淘宝】
Python爬虫基础--HTML.CSS.JavaScript.JQuery网页前端技术 Python爬虫基础--正则表达式 Python爬虫基础--re模块的提取.匹配和替换 Python爬虫基础- ...
- Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片
Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...
- python爬虫之urllib库详解
python爬虫之urllib库详解 前言 一.urllib库是什么? 二.urllib库的使用 urllib.request模块 urllib.parse模块 利用try-except,进行超时处理 ...
- Python爬虫【urllib模块】
通用爬虫 爬虫的一般流程 1 初始化一批URL,将这些URL放入队列 2 从队列中取出这些URL,通过DNS解析IP,对IP对应的网站下载HTML页面,保存到本地服务器中,爬取完的URL放到已爬取队列 ...
- python网络爬虫系列(四)——requests模块
requests模块 知识点: 掌握 headers参数的使用 掌握 发送带参数的请求 掌握 headers中携带cookie 掌握 cookies参数的使用 掌握 cookieJar的转换方法 掌握 ...
- python urllib.request 爬虫 数据处理-python 爬虫之 urllib库
文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库 在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...
- python补充urllib教程,Python爬虫之urllib基础用法教程
综述 本系列文档用于对Python爬虫技术进行简单的教程讲解,巩固自己技术知识的同时,万一一不小心又正好对你有用那就更好了. Python 版本是3.7.4 urllib库介绍 它是 Python 内 ...
最新文章
- 百度大脑发挥AI“头雁效应” 王海峰:在AI时代共同推动社会智能化升级
- 项目启动 ora-00942:_如何解决大型软件项目开发难题?唯快不破!
- hdu-1728(贪心bfs的灵活运用吧)
- java script 技巧_java script 技巧
- 模块公有包中不能导入私有包的内容
- Java 7中的TransferQueue
- EndNoteX7中conference proceeding和conference paper的区别
- 网站实现支付宝第三方登陆详解
- 布控球可接入电网安全接入平台及电网统一视频
- 北京航空航天大学计算机学院保研率,北京航空航天大学计算机学院(专业学位)计算机技术保研夏令营...
- 为新版本火狐安装去广告插件
- Jenkins Pipeline声明式流水线
- 【498. 对角线遍历】
- 滴滴拼车变绿:下沉、烧钱、焦虑
- 微型计算机闭环控制系统的工作原理,闭环控制系统的特点_闭环控制系统工作原理...
- 关于市盈率市净率的探讨
- VHDL语言基础-数据类型及运算符
- fragment使用ListView及自定义Listview等初始化操作
- 程序猿转行,干了2个月销售,经验总结分享
- 【数字电路】Y图 | 逻辑操作符 | 布尔函数 | Combinational systems
热门文章
- 数据访问层设计(持久层架构设计)
- WPF Geometry 添加Path数据
- nginx强制使用https访问(多站点多域名配置)
- C++11 正则表达式——实例1
- asp.net mvc 身份验证中返回绝对路径的ReturnUrl
- 上海交通大学c语言章节作业,上海交通大学级C语言测试题.doc
- 便携式不锈钢管道焊接机器人_不锈钢管道焊接工艺
- jmeter中文_JMeter安装配置
- python代码写完怎么运行-Python 项目代码写完了,然后怎么打包和发布?
- python培训班课程-python培训班_人工智能培训班课程_学而思教育