python动态获取cookie_scrapy爬虫使用Ghost.py动态获取cookie

前言

前段时间在用scrapy爬取某个网站时一直报521错误，在seeting.py里设置HTTPERROR_ALLOWED_CODES= [521]后会发现返回的response是一段加密的js代码。这段js代码是动态取得cookie信息的(但是只有一个value,故放弃了使用python库去执行js的打算),最后利用浏览器打开网页将其cookie手动添加到爬虫中会正常返回数据，最后找到了Ghost.py这个库去模拟浏览器打开网站行为并动态获取cookie信息的办法。

具体步骤

.安装Ghost.py

sudo pip install Ghost.py==0.1.2

返回最新的cookie

from ghost import Ghost

from scrapy import log

import re

class Cookieutil:

def __init__(self,url):

log.msg('init cookieutil class ,will be get %s cookie information!' %url, log.INFO)

gh = Ghost(download_images=False,display=False)

gh.open(url)

gh.save_cookies("cookie.txt")

gh.exit()

def getCookie(self):

cookie = ''

with open("cookie.txt") as f:

temp = f.readlines()

for index in temp:

cookie += self.parse_oneline(index).replace('\"','')

return cookie[:-1]

def parse_oneline(self,src):

oneline = ''

if re.search("Set-Cookie",src):

oneline = src.split(';')[0].split(':')[-1].strip()+';'

return oneline

scrapy的spider定时生成和调用cookie信息

这里只贴上主要的代码

headers={

'Cookie':'',

'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.121 Safari/535.2',

}

headers['Cookie'] = Cookieutil('http://www.dmoz.org.cn/').getCookie()

def parse_page(self,response):

if int(time.time())-self.begin_time>3600:

print 'get a new cookie arrgment'

print self.headers['Cookie']

self.begin_time = int(time.time())

try:

self.headers['Cookie'] = Cookieutil('http://www.dmoz.org.cn/').getCookie()

except:

time.sleep(120)

self.headers['Cookie'] = Cookieutil('http://www.dmoz.org.cn/').getCookie()

结语

不过有个比较纠结的问题是Ghost.py需要依赖webkit,以致于在本地开发中能够正常运行，但是放到服务器中直接报错(Exception: Ghost.py requires PySide or PyQt4)。

目前为止还没找到好的解决办法

python动态获取cookie_scrapy爬虫使用Ghost.py动态获取cookie相关推荐

python爬虫动态解析js_Python爬虫实战入门五：获取JS动态内容—爬取今日头条
F12打开网页调试工具: 选择"网络"选项卡后,发现有很多响应,我们筛选一下,只看XHR响应.(XHR是Ajax中的概念,表示XMLHTTPrequest)然后我们发现少了很多链接 ...
python模拟登记获取cookie_Python爬虫实战入门四：使用Cookie模拟登录——获取电子书下载链接...
在实际情况中,很多网站的内容都是需要登录之后才能看到,如此我们就需要进行模拟登录,使用登录后的状态进行爬取.这里就需要使用到Cookie. 使用Cookie进行模拟登录现在大多数的网站都是使用Coo ...
爬虫采集-基于webkit核心的客户端Ghost.py [爬虫实例]
对与要时不时要抓取页面的我们来说,是痛苦的~ 由于目前的Web开发中AJAX.Javascript.CSS的大量使用,一些网站上的重要数据是由Ajax或Javascript动态生成的,并不能直接通过解 ...
爬虫python代码广告_零基础掌握百度地图兴趣点获取POI爬虫（python语言爬取）（代码篇）...
我是怎么想的,在新浪博客里写代码教程. 这篇博客的内容同步到了CSND博客中,那里不限制外链,也可以复制代码. http://blog.csdn.net/sinat_41310868/article/ ...
python读取html_从零开始的Python爬虫教程（一）:获取HTML文档
前言:在上一节从零开始的Python爬虫教程(零):粗识HTML结构中,粗略给大家介绍了一下HTML文档,是为了在接下来的教程中让大家更容易理解和掌握.在接下来的教程中,需要大家提前安装python3 ...
[转载] Python新手写出漂亮的爬虫代码1——从html获取信息
参考链接: Python中从用户获取多个输入 Python新手写出漂亮的爬虫代码1 初到大数据学习圈子的同学可能对爬虫都有所耳闻,会觉得是一个高大上的东西,仿佛九阳神功和乾坤大挪移一样,和别人说&qu ...
零基础掌握百度地图兴趣点获取POI爬虫（python语言爬取）（代码篇）
好,现在进入高阶代码篇. 目的: 爬取昆明市中学的兴趣点POI. 关键词:中学已有ak:9s5GSYZsWbMaFU8Ps2V2VWvDlDlqGaaO 昆明市坐标范围: 左下角:24.390894 ...
Python之网络爬虫（selenium爬取动态网页、爬虫案例分析、哈希算法与RSA加密）
文章目录一.selenium爬取动态网页二.爬虫案例分析三.哈希hash算法与RSA加密一.selenium爬取动态网页 1.动态网页认知爬虫其实就是在模仿浏览器的行为应对要多次数据的交互 ...
太大如何翻页固定表头_外行学 Python 爬虫第六篇动态翻页
前面几篇文章,初步完成了从网络请求.数据解析.数据存储的整个过程,完成了一个爬虫所需的全部功能.但是通过对数据库中数据的分析会发现数据库中的元件数量比网站上的元件数量少了很多.前面的实现过程通过解析网 ...
python ghost.py使用笔记
ghost.py目前已更新到0.2版本,变化有点大,使用方法上跟0.1还是有点差别的,本文仅以0.1.1版本为例,因为我安装的是这个版本我用ghost主要用来模拟在网站上的操作,比如登录之类的,当然 ...

python动态获取cookie_scrapy爬虫使用Ghost.py动态获取cookie

python动态获取cookie_scrapy爬虫使用Ghost.py动态获取cookie相关推荐

最新文章

热门文章