第一种:基本的网页抓取

  

  get方法

import urllib2url = "链接response = urllib2.urlopen(url)print response.read()

  post方法

import urllibimport urllib2url = "链接form = {'name':'abc','password':'1234'}form_data = urllib.urlencode(form)request = urllib2.Request(url,form_data)response = urllib2.urlopen(request)print response.read()

第二种:使用代理IP

  在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP;

  在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段:

import urllib2proxy = urllib2.ProxyHandler({'http': '127.0.0.1:8087'})opener = urllib2.build_opener(proxy)urllib2.install_opener(opener)response = urllib2.urlopen('链接)print response.read()

第三种:Cookies处理

  

  cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密),python提供了cookielib模块用于处理cookies,cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源.

代码片段:

import urllib2, cookielibcookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())opener = urllib2.build_opener(cookie_support)urllib2.install_opener(opener)content = urllib2.urlopen('http://XXXX').read()

  关键在于CookieJar(),它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失,所有过程都不需要单独去操作。

第四种:伪装为浏览器

  

  某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error 403: Forbidden的情况

对有些 header 要特别留意,Server 端会针对这些 header 做检查

  1、User-Agent 有些 Server 或 Proxy 会检查该值,用来判断是否是浏览器发起的 Request;

  2、Content-Type 在使用 REST 接口时,Server 会检查该值,用来确定 HTTP Body 中的内容该怎样解析。

  这时可以通过修改http包中的header来实现,代码片段如下:

import urllib2headers = {    'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}request = urllib2.Request(    url = '链接,    headers = headers)print urllib2.urlopen(request).read()

第五种:页面解析

  对于页面解析最强大的当然是正则表达式,这个对于不同网站不同的使用者都不一样,就不用过多的说明

  其次就是解析库了,常用的有两个lxml和BeautifulSoup,对于这两个的使用介绍两个比较好的网站:

  lxml:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

  BeautifulSoup:http://cuiqingcai.com/1319.html

  对于这两个库,我的评价是,都是HTML/XML的处理库,Beautifulsoup纯python实现,效率低,但是功能实用,比如能用通过结果搜索获得某个HTML节点的源码;lxmlC语言编码,高效,支持Xpath。

第六种:验证码的处理

对于一些简单的验证码,可以进行简单的识别。本人也只进行过一些简单的验证码识别。但是有些反人类的验证码,比如12306,可以通过打码平台进行人工打码,当然这是要付费的。

第七种:gzip压缩

有没有遇到过某些网页,不论怎么转码都是一团乱码。哈哈,那说明你还不知道许多web服务具有发送压缩数据的能力,这可以将网络线路上传输的大量数据消减 60% 以上。这尤其适用于 XML web 服务,因为 XML 数据 的压缩率可以很高。

但是一般服务器不会为你发送压缩数据,除非你告诉服务器你可以处理压缩数据。

于是需要这样修改代码:

import urllib2, httplibrequest = urllib2.Request('链接)request.add_header('Accept-encoding', 'gzip')      opener = urllib2.build_opener()f = opener.open(request) 

  这是关键:创建Request对象,添加一个 Accept-encoding 头信息告诉服务器你能接受 gzip 压缩数据

然后就是解压缩数据:

import StringIOimport gzipcompresseddata = f.read() compressedstream = StringIO.StringIO(compresseddata)gzipper = gzip.GzipFile(fileobj=compressedstream) print gzipper.read()

第八种:多线程并发抓取

单线程太慢的话,就需要多线程了,这里给个简单的线程池模板 这个程序只是简单地打印了1-10,但是可以看出是并发的。

虽然说python的多线程很鸡肋,但是对于爬虫这种网络频繁型,还是能一定程度提高效率的。

from threading import Threadfrom Queue import Queuefrom time import sleep# q是任务队列#NUM是并发线程总数#JOBS是有多少任务q = Queue()NUM = 2JOBS = 10#具体的处理函数,负责处理单个任务def do_somthing_using(arguments):    print arguments#这个是工作进程,负责不断从队列取数据并处理def working():    while True:        arguments = q.get()        do_somthing_using(arguments)        sleep(1)        q.task_done()#fork NUM个线程等待队列for i in range(NUM):    t = Thread(target=working)    t.setDaemon(True)    t.start()#把JOBS排入队列for i in range(JOBS):    q.put(i)#等待所有JOBS完成q.join()

转载于:https://www.cnblogs.com/zccpython/p/6765036.html

简谈-Python一些常用的爬虫技巧相关推荐

  1. python兼容性怎么样_简谈python的向下兼容性问题

    前两天在写python代码的时候,发现了一个问题.因为要使用email模块,使用 了其中一项导入语句:from email.mime.text import MIMEText,在python2.5下 ...

  2. python变量标识符_简谈-Python的注释、变量类型、标识符及关键字

    在Python程序中,要想支持中文输出,则要在代码前面添加 标识符:开发人员在程序中自定义的一些符号和名称 标示符是自己定义的,如变量名 .函数名等 标识符的规则: 标示符由字目.下划线和数字组成,且 ...

  3. Python爬虫:一些常用的爬虫技巧总结

    1.基本抓取网页 get方法 import urllib2 url = "http://www.baidu.com" respons = urllib2.urlopen(url) ...

  4. 简谈python正则表达式

    这篇文章里,我会尽量用比较浅显易懂的语言和给位看官讨论关于python正则表达式的知识,我们首先来看看什么是正则表达式. 正则:使用单个字符串描述.匹配一系列语法规则的字符串.正则表达式就是用于对一个 ...

  5. python为什么是蛇_【大蟒蛇】简谈Python的闭包【原创】

    我们知道在Python中一切皆对象,包括函数也是一样,函数名可以赋值给一个变量,也可以当作一个参数传递给另外一个函数的形参,当然也可以将函数名作为另外一个函数的返回值使用,总之函数的使用可以非常的灵活 ...

  6. java c app开发 比较_简谈企业最常用的三种安卓app开发语言!

    Android是一个基于Linux的免费和开源移动操作系统,用户基数很大,很多企业在进行app开发的时候: 都会选择开发安卓版本的app,下面就给大家简单介绍一下,企业最常用到的安卓app开发语言有哪 ...

  7. SCI论文绘图—Python绘图常用模板及技巧

    关注 M r . m a t e r i a l   , \color{Violet} \rm Mr.material\ , Mr.material ,

  8. Python学习三: 爬虫高级技巧 与 模拟实战练习

    三大爬虫技巧 许多网站针对爬虫的访问都设置了一定的障碍,通过这三步技巧,轻松绕过部分的反爬虫限制. (1)设置程序休止时间 import time import random# 休止睡眠 1 秒 这里 ...

  9. Python爬虫常用的爬虫注意事项及技巧

    Python爬虫常用的爬虫技巧 1.基本抓取网页 2.使用代理IP 3.Cookies处理 4.伪装成浏览器 5.页面解析 6.验证码的处理 7.gzip压缩 8.多线程并发抓取 urllib库为例进 ...

最新文章

  1. asp.net mvc中DropDownList,CheckBox,RadioButton
  2. 如何优化 .NET Core 中的 lambda 查询表达式 ?
  3. 循环队列基本操作(解决队列假溢出)
  4. Spring Boot 集成 GRPC
  5. 是什么让它3年融资破4亿?神策背后的探索与巨变
  6. 搭建SpringMVC详解
  7. Service Manager流程,派BC_REPLY,唤醒FregServer流程,返回BR_TRANSACTION_COMPLETE,睡眠等待proc-gt;wait...
  8. AIX系统常用命令总结
  9. Java借助百度云人脸识别实现人脸注册、登录功能的完整示例
  10. 全球 40 位 40 岁以下的富豪
  11. [激光原理与应用-59]:激光器 - 光学 - 脉冲激光器的参数解析(能量、脉冲、周期、功率)
  12. 小米VR一体机、Oculus Go投屏到PC、TV教程
  13. vue仿美团饿了么--底部导航公共组件
  14. win10豆沙绿护眼色
  15. 怎么抠图图片?抠图图片这样做就可以完成
  16. randint和randrange的区别
  17. 林登实验室在Second Life中为教育工作者提供的官方资源
  18. JS如何利用阻塞机制实现停留几秒sleep
  19. python multiIndex 操作攻略
  20. 男女比例失调,农村“光棍危机”有多严重?

热门文章

  1. 编译工具 之 ant
  2. python如何创建一个类_python (知识点:类)简单的创建一个类
  3. 重改mysql名字_如何快速重命名MySQL数据库(更改模式名称)...
  4. linux 挂载分区inode,Linux中分区挂载和LABEL的指定
  5. 程序员们都必须知道的8种通用数据结构
  6. Python,Opencv cv2.Canny()边缘检测
  7. PCL:拟合平面直线和曲线以及空间曲线的原理到算法实现
  8. 天空之城(君をのせて)主题曲
  9. 机器学习(实战)泰坦尼克号(游客存活率预估)
  10. Matlab中的lsqcurvefit函数的使用