爬虫学习第三天,urllib中的handler
Handler
代理
import urllib.requestproxy_handler = urllib.request.ProxyHandler({'http': 'http://163.125.255.169:9000','https': 'https://163.125.255.169:9000'
})
opener = urllib.request.build_opener(proxy_handler)
response = opener.open('http://www.baidu.com')
print(response.read())
import urllib.requestproxy_handler = urllib.request.ProxyHandler({'http': 'http://58.220.95.35:10174','https': 'https://58.220.95.35:10174'
})
opener = urllib.request.build_opener(proxy_handler)
response = opener.open('http://httpbin.org/get')
print(response.read())
Cookie
import http.cookiejar,urllib.requestcookie = http.cookiejar.CookieJar()
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
resopnse = opener.open('http://www.baidu.com')
for item in cookie:print(item.name+"="+item.value)
import http.cookiejar,urllib.request
filename = "cookie.txt"
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True,ignore_expires=True)
import http.cookiejar,urllib.request
filename = "cookie.txt"
cookie = http.cookiejar.LWPCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True,ignore_expires=True)
import http.cookiejar,urllib.request
cookie = http.cookiejar.LWPCookieJar()
cookie.load('cookie.txt',ignore_discard=True,ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
print(response.read().decode('utf-8'))
爬虫学习第三天,urllib中的handler相关推荐
- Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称
Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称 这一节主要是使用xpath解析爬取全国城市名称 这里使用的网址是:空气质量历史数据查询 这一个案例体现的点主要是xpat ...
- 网络爬虫学习第一弹:urllib库使用
小道之前有学过一点爬虫,但是面对越来越严峻的就业形势,为了提高自身竞争力,决定系统的学习一下爬虫.用的是崔庆才大大的书.写博作为自己的学习笔记,方便以后复习.欢迎高人补充赐教!小道感激不尽! 网络爬虫 ...
- 爬虫学习笔记-python基础+urllib
目录 一.Python基础知识回顾 1.pip下载源 2.pycharm设置作者信息 3.python注释 4.变量 4.1 类型转换 4.2 字符串函数 find函数 startswith和ends ...
- Web学习第三天——HTML中input标签常用属性、框架集、内嵌框架
第三天HTML中input标签常用属性.框架集.内嵌框架 一.input标签常用属性 表单数据提交特点: (一).文本框(text) (二).密码框(password) (三).单选按钮(radio) ...
- python爬虫urllib 数据处理_python爬虫学习笔记(三)-爬取数据之urllib库
1. 小试牛刀 怎样扒网页呢? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS,如果把 ...
- Python爬虫之(三)urllib库
第一个爬虫程序 怎样扒网页呢? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS,如果把 ...
- Python爬虫学习日志——day1(urllib)
urllib是python的一个库,包含四个模块: 注意,别把你的python文件名命名为urllib,不然会报错!!! 一:request模块 这是基本的http请求模块,相当在浏览器输入网址然后回 ...
- 网络爬虫学习(三)-scrapy框架
目录 一 Scrapy框架简介 二 scrapy框架的基本使用 1) 环境的安装 2)基础命令 3)项目组成: 4)创建爬虫文件: 5)scrapy架构组成 6) 五大核心组件 7)srapy工作 ...
- python用法查询笔记_Python爬虫学习笔记(三)
handler处理器自定义 - Cookies && URLError && json简单使用 Cookies: 以抓取https://www.yaozh.com/为例 ...
最新文章
- 从化工行业转到IT行业
- 对 COM 组件的调用返回了错误 HRESULT E_FAIL
- MySQL 全文索引实现简单版搜索引擎
- Java 8最新消息
- java封装概念_Java面向对象----封装概念
- Kubernetes-Pod(三)
- java全文检索功能_基于Java的全文检索引擎简介
- 基本排序看这篇就够了
- python如何提高程序可读性_Python规范:提高可读性
- 使用matlab对路径的字符串进行分割和合成
- 关于CSDN登录没有微信二维码的问题
- NB-IOT平台之电信平台FOTA 升级记录
- 国军标--Gjb软件需求规格说明书模板
- LayUI树形表格treetable使用详解
- PPT幻灯片放映不显示备注,只让备注显示在自己屏幕上!
- python网络爬虫之如何伪装逃过反爬虫程序的方法
- IoT中的高音质音频设计
- 基于OpenCV的图片电影换背景小实验(可用于证件照替换背景)_计算机视觉
- qt 获取当前程序运行路径_Qt 程序获取程序所在路径、用户目录路径、临时文件夹等特殊路径的方法...
- 【mysql】 踩坑记录之derived(派生表)
热门文章
- 基于JAVA共享单车管理系统计算机毕业设计源码+数据库+lw文档+系统+部署
- 钉钉E应用自动登录获取用户信息总结
- Win10蓝牙开关突然消失不见 已经解决方法2023.2.11
- 南京邮电大学通信与计算机哪个好,南京邮电大学和深圳大学哪一个更好呢?都有哪些好的专业?...
- termius破解使用sftp
- 带你梳理一遍 Android 核心知识
- 艾默生流量计在流量测量上显出巨大的潜力
- 抖客是种什么样的盈利方式
- 江门市主城区停车设施专项规划草案(附下载)
- 报错:使用java api连接redis集群时报错 READONLY You can't write against a read only slave.