简谈-Python一些常用的爬虫技巧
第一种:基本的网页抓取
get方法
import urllib2url = "链接response = urllib2.urlopen(url)print response.read()
post方法
import urllibimport urllib2url = "链接form = {'name':'abc','password':'1234'}form_data = urllib.urlencode(form)request = urllib2.Request(url,form_data)response = urllib2.urlopen(request)print response.read()
第二种:使用代理IP
在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP;
在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段:
import urllib2proxy = urllib2.ProxyHandler({'http': '127.0.0.1:8087'})opener = urllib2.build_opener(proxy)urllib2.install_opener(opener)response = urllib2.urlopen('链接)print response.read()
第三种:Cookies处理
cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密),python提供了cookielib模块用于处理cookies,cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源.
代码片段:
import urllib2, cookielibcookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())opener = urllib2.build_opener(cookie_support)urllib2.install_opener(opener)content = urllib2.urlopen('http://XXXX').read()
关键在于CookieJar(),它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失,所有过程都不需要单独去操作。
第四种:伪装为浏览器
某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error 403: Forbidden的情况
对有些 header 要特别留意,Server 端会针对这些 header 做检查
1、User-Agent 有些 Server 或 Proxy 会检查该值,用来判断是否是浏览器发起的 Request;
2、Content-Type 在使用 REST 接口时,Server 会检查该值,用来确定 HTTP Body 中的内容该怎样解析。
这时可以通过修改http包中的header来实现,代码片段如下:
import urllib2headers = { 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}request = urllib2.Request( url = '链接, headers = headers)print urllib2.urlopen(request).read()
第五种:页面解析
对于页面解析最强大的当然是正则表达式,这个对于不同网站不同的使用者都不一样,就不用过多的说明
其次就是解析库了,常用的有两个lxml和BeautifulSoup,对于这两个的使用介绍两个比较好的网站:
lxml:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
BeautifulSoup:http://cuiqingcai.com/1319.html
对于这两个库,我的评价是,都是HTML/XML的处理库,Beautifulsoup纯python实现,效率低,但是功能实用,比如能用通过结果搜索获得某个HTML节点的源码;lxmlC语言编码,高效,支持Xpath。
第六种:验证码的处理
对于一些简单的验证码,可以进行简单的识别。本人也只进行过一些简单的验证码识别。但是有些反人类的验证码,比如12306,可以通过打码平台进行人工打码,当然这是要付费的。
第七种:gzip压缩
有没有遇到过某些网页,不论怎么转码都是一团乱码。哈哈,那说明你还不知道许多web服务具有发送压缩数据的能力,这可以将网络线路上传输的大量数据消减 60% 以上。这尤其适用于 XML web 服务,因为 XML 数据 的压缩率可以很高。
但是一般服务器不会为你发送压缩数据,除非你告诉服务器你可以处理压缩数据。
于是需要这样修改代码:
import urllib2, httplibrequest = urllib2.Request('链接)request.add_header('Accept-encoding', 'gzip') opener = urllib2.build_opener()f = opener.open(request)
这是关键:创建Request对象,添加一个 Accept-encoding 头信息告诉服务器你能接受 gzip 压缩数据
然后就是解压缩数据:
import StringIOimport gzipcompresseddata = f.read() compressedstream = StringIO.StringIO(compresseddata)gzipper = gzip.GzipFile(fileobj=compressedstream) print gzipper.read()
第八种:多线程并发抓取
单线程太慢的话,就需要多线程了,这里给个简单的线程池模板 这个程序只是简单地打印了1-10,但是可以看出是并发的。
虽然说python的多线程很鸡肋,但是对于爬虫这种网络频繁型,还是能一定程度提高效率的。
from threading import Threadfrom Queue import Queuefrom time import sleep# q是任务队列#NUM是并发线程总数#JOBS是有多少任务q = Queue()NUM = 2JOBS = 10#具体的处理函数,负责处理单个任务def do_somthing_using(arguments): print arguments#这个是工作进程,负责不断从队列取数据并处理def working(): while True: arguments = q.get() do_somthing_using(arguments) sleep(1) q.task_done()#fork NUM个线程等待队列for i in range(NUM): t = Thread(target=working) t.setDaemon(True) t.start()#把JOBS排入队列for i in range(JOBS): q.put(i)#等待所有JOBS完成q.join()
转载于:https://www.cnblogs.com/zccpython/p/6765036.html
简谈-Python一些常用的爬虫技巧相关推荐
- python兼容性怎么样_简谈python的向下兼容性问题
前两天在写python代码的时候,发现了一个问题.因为要使用email模块,使用 了其中一项导入语句:from email.mime.text import MIMEText,在python2.5下 ...
- python变量标识符_简谈-Python的注释、变量类型、标识符及关键字
在Python程序中,要想支持中文输出,则要在代码前面添加 标识符:开发人员在程序中自定义的一些符号和名称 标示符是自己定义的,如变量名 .函数名等 标识符的规则: 标示符由字目.下划线和数字组成,且 ...
- Python爬虫:一些常用的爬虫技巧总结
1.基本抓取网页 get方法 import urllib2 url = "http://www.baidu.com" respons = urllib2.urlopen(url) ...
- 简谈python正则表达式
这篇文章里,我会尽量用比较浅显易懂的语言和给位看官讨论关于python正则表达式的知识,我们首先来看看什么是正则表达式. 正则:使用单个字符串描述.匹配一系列语法规则的字符串.正则表达式就是用于对一个 ...
- python为什么是蛇_【大蟒蛇】简谈Python的闭包【原创】
我们知道在Python中一切皆对象,包括函数也是一样,函数名可以赋值给一个变量,也可以当作一个参数传递给另外一个函数的形参,当然也可以将函数名作为另外一个函数的返回值使用,总之函数的使用可以非常的灵活 ...
- java c app开发 比较_简谈企业最常用的三种安卓app开发语言!
Android是一个基于Linux的免费和开源移动操作系统,用户基数很大,很多企业在进行app开发的时候: 都会选择开发安卓版本的app,下面就给大家简单介绍一下,企业最常用到的安卓app开发语言有哪 ...
- SCI论文绘图—Python绘图常用模板及技巧
关注 M r . m a t e r i a l , \color{Violet} \rm Mr.material\ , Mr.material ,
- Python学习三: 爬虫高级技巧 与 模拟实战练习
三大爬虫技巧 许多网站针对爬虫的访问都设置了一定的障碍,通过这三步技巧,轻松绕过部分的反爬虫限制. (1)设置程序休止时间 import time import random# 休止睡眠 1 秒 这里 ...
- Python爬虫常用的爬虫注意事项及技巧
Python爬虫常用的爬虫技巧 1.基本抓取网页 2.使用代理IP 3.Cookies处理 4.伪装成浏览器 5.页面解析 6.验证码的处理 7.gzip压缩 8.多线程并发抓取 urllib库为例进 ...
最新文章
- asp.net mvc中DropDownList,CheckBox,RadioButton
- 如何优化 .NET Core 中的 lambda 查询表达式 ?
- 循环队列基本操作(解决队列假溢出)
- Spring Boot 集成 GRPC
- 是什么让它3年融资破4亿?神策背后的探索与巨变
- 搭建SpringMVC详解
- Service Manager流程,派BC_REPLY,唤醒FregServer流程,返回BR_TRANSACTION_COMPLETE,睡眠等待proc-gt;wait...
- AIX系统常用命令总结
- Java借助百度云人脸识别实现人脸注册、登录功能的完整示例
- 全球 40 位 40 岁以下的富豪
- [激光原理与应用-59]:激光器 - 光学 - 脉冲激光器的参数解析(能量、脉冲、周期、功率)
- 小米VR一体机、Oculus Go投屏到PC、TV教程
- vue仿美团饿了么--底部导航公共组件
- win10豆沙绿护眼色
- 怎么抠图图片?抠图图片这样做就可以完成
- randint和randrange的区别
- 林登实验室在Second Life中为教育工作者提供的官方资源
- JS如何利用阻塞机制实现停留几秒sleep
- python multiIndex 操作攻略
- 男女比例失调,农村“光棍危机”有多严重?
热门文章
- 编译工具 之 ant
- python如何创建一个类_python (知识点:类)简单的创建一个类
- 重改mysql名字_如何快速重命名MySQL数据库(更改模式名称)...
- linux 挂载分区inode,Linux中分区挂载和LABEL的指定
- 程序员们都必须知道的8种通用数据结构
- Python,Opencv cv2.Canny()边缘检测
- PCL:拟合平面直线和曲线以及空间曲线的原理到算法实现
- 天空之城(君をのせて)主题曲
- 机器学习(实战)泰坦尼克号(游客存活率预估)
- Matlab中的lsqcurvefit函数的使用