Request

Request 部分源码:

# 部分代码
class Request(object_ref):def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None, encoding='utf-8', priority=0,dont_filter=False, errback=None):self._encoding = encoding  # this one has to be set firstself.method = str(method).upper()self._set_url(url)self._set_body(body)assert isinstance(priority, int), "Request priority not an integer: %r" % priorityself.priority = priorityassert callback or not errback, "Cannot use errback without a callback"self.callback = callbackself.errback = errbackself.cookies = cookies or {}self.headers = Headers(headers or {}, encoding=encoding)self.dont_filter = dont_filterself._meta = dict(meta) if meta else None@propertydef meta(self):if self._meta is None:self._meta = {}return self._meta

其中,比较常用的参数:

url: 就是需要请求,并进行下一步处理的urlcallback: 指定该请求返回的Response,由那个函数来处理。method: 请求一般不需要指定,默认GET方法,可设置为"GET", "POST", "PUT"等,且保证字符串大写headers: 请求时,包含的头文件。一般不需要。内容一般如下:# 自己写过爬虫的肯定知道Host: media.readthedocs.orgUser-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0Accept: text/css,*/*;q=0.1Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3Accept-Encoding: gzip, deflateReferer: http://scrapy-chs.readthedocs.org/zh_CN/0.24/Cookie: _ga=GA1.2.1612165614.1415584110;Connection: keep-aliveIf-Modified-Since: Mon, 25 Aug 2014 21:59:35 GMTCache-Control: max-age=0meta: 比较常用,在不同的请求之间传递数据使用的。字典dict型request_with_cookies = Request(url="http://www.example.com",cookies={'currency': 'USD', 'country': 'UY'},meta={'dont_merge_cookies': True})encoding: 使用默认的 'utf-8' 就行。dont_filter: 表明该请求不由调度器过滤。这是当你想使用多次执行相同的请求,忽略重复的过滤器。默认为False。errback: 指定错误处理函数

Response

# 部分代码
class Response(object_ref):def __init__(self, url, status=200, headers=None, body='', flags=None, request=None):self.headers = Headers(headers or {})self.status = int(status)self._set_body(body)self._set_url(url)self.request = requestself.flags = [] if flags is None else list(flags)@propertydef meta(self):try:return self.request.metaexcept AttributeError:raise AttributeError("Response.meta not available, this response " \"is not tied to any request")

大部分参数和上面的差不多:


status: 响应码
_set_body(body): 响应体
_set_url(url):响应url
self.request = request

发送POST请求

  • 可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求。

  • 如果希望程序执行一开始就发送POST请求,可以重写Spider类的start_requests(self) 方法,并且不再调用start_urls里的url。

class mySpider(scrapy.Spider):# start_urls = ["http://www.example.com/"]def start_requests(self):url = 'http://www.renren.com/PLogin.do'# FormRequest 是Scrapy发送POST请求的方法yield scrapy.FormRequest(url = url,formdata = {"email" : "mr_mao_hacker@163.com", "password" : "axxxxxxxe"},callback = self.parse_page)def parse_page(self, response):# do something

模拟登陆

使用FormRequest.from_response()方法模拟用户登录

通常网站通过 实现对某些表单字段(如数据或是登录界面中的认证令牌等)的预填充。

使用Scrapy抓取网页时,如果想要预填充或重写像用户名、用户密码这些表单字段, 可以使用 FormRequest.from_response() 方法实现。

下面是使用这种方法的爬虫例子:

import scrapyclass LoginSpider(scrapy.Spider):name = 'example.com'start_urls = ['http://www.example.com/users/login.php']def parse(self, response):return scrapy.FormRequest.from_response(response,formdata={'username': 'john', 'password': 'secret'},callback=self.after_login)def after_login(self, response):# check login succeed before going onif "authentication failed" in response.body:self.log("Login failed", level=log.ERROR)return# continue scraping with authenticated session...

知乎爬虫案例参考:

zhihuSpider.py爬虫代码

#!/usr/bin/env python
# -*- coding:utf-8 -*-
from scrapy.spiders import CrawlSpider, Rule
from scrapy.selector import Selector
from scrapy.linkextractors import LinkExtractor
from scrapy import Request, FormRequest
from zhihu.items import ZhihuItemclass ZhihuSipder(CrawlSpider) :name = "zhihu"allowed_domains = ["www.zhihu.com"]start_urls = ["http://www.zhihu.com"]rules = (Rule(LinkExtractor(allow = ('/question/\d+#.*?', )), callback = 'parse_page', follow = True),Rule(LinkExtractor(allow = ('/question/\d+', )), callback = 'parse_page', follow = True),)headers = {"Accept": "*/*","Accept-Encoding": "gzip,deflate","Accept-Language": "en-US,en;q=0.8,zh-TW;q=0.6,zh;q=0.4","Connection": "keep-alive","Content-Type":" application/x-www-form-urlencoded; charset=UTF-8","User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.111 Safari/537.36","Referer": "http://www.zhihu.com/"}#重写了爬虫类的方法, 实现了自定义请求, 运行成功后会调用callback回调函数def start_requests(self):return [Request("https://www.zhihu.com/login", meta = {'cookiejar' : 1}, callback = self.post_login)]def post_login(self, response):print 'Preparing login'#下面这句话用于抓取请求网页后返回网页中的_xsrf字段的文字, 用于成功提交表单xsrf = Selector(response).xpath('//input[@name="_xsrf"]/@value').extract()[0]print xsrf#FormRequeset.from_response是Scrapy提供的一个函数, 用于post表单#登陆成功后, 会调用after_login回调函数return [FormRequest.from_response(response,   #"http://www.zhihu.com/login",meta = {'cookiejar' : response.meta['cookiejar']},headers = self.headers,  #注意此处的headersformdata = {'_xsrf': xsrf,'email': '1095511864@qq.com','password': '123456'},callback = self.after_login,dont_filter = True)]def after_login(self, response) :for url in self.start_urls :yield self.make_requests_from_url(url)def parse_page(self, response):problem = Selector(response)item = ZhihuItem()item['url'] = response.urlitem['name'] = problem.xpath('//span[@class="name"]/text()').extract()print item['name']item['title'] = problem.xpath('//h2[@class="zm-item-title zm-editable-content"]/text()').extract()item['description'] = problem.xpath('//div[@class="zm-editable-content"]/text()').extract()item['answer']= problem.xpath('//div[@class=" zm-editable-content clearfix"]/text()').extract()return item

Item类设置

from scrapy.item import Item, Fieldclass ZhihuItem(Item):# define the fields for your item here like:# name = scrapy.Field()url = Field()  #保存抓取问题的urltitle = Field()  #抓取问题的标题description = Field()  #抓取问题的描述answer = Field()  #抓取问题的答案name = Field()  #个人用户的名称

setting.py 设置抓取间隔

BOT_NAME = 'zhihu'SPIDER_MODULES = ['zhihu.spiders']
NEWSPIDER_MODULE = 'zhihu.spiders'
DOWNLOAD_DELAY = 0.25   #设置下载间隔为250ms

Python:Resquest/Response相关推荐

  1. python中response对象的属性_Django 中的响应对象 Response

    视图在接收请求并处理后,必须返回HttpResponse对象或子对象.HttpRequest对象由Django创建,HttpResponse对象由开发人员创建. 一.HttpResponse: 可以使 ...

  2. python中response.text_Sanic response text() 函数用法和示例

    response.text() 功能:Sanic 返回纯文本内容给浏览器.作为一个完整功能的web网站,一般是不会返回纯文本内容的,特殊情况下可选择使用本函数. response.text() 语法 ...

  3. python解析response的json_python:解析requests返回的response(json格式)说明

    我就废话不多说了,大家还是直接看代码吧! import requests, json r = requests.get('http://192.168.207.160:9000/api/quality ...

  4. python中response对象的方法_django HttpResponse对象 - 刘江的django教程

    HttpResponse对象 阅读: 32804 评论:3 HttpResponse类定义在django.http模块中. HttpRequest对象是浏览器发送过来的请求数据的封装,HttpResp ...

  5. python中response对象的属性_关于python:AttributeError:’HTTPResponse’对象没有属性’split’...

    我正在尝试从Google财经获取一些信息,但出现此错误 AttributeError: 'HTTPResponse' object has no attribute 'split' 这是我的pytho ...

  6. python中response对象的方法_Response对象的常用属性

    response.status_code是一个很常用的属性,在我们之后的爬虫代码中也将多次出现. response.content,它能把Response对象的内容以二进制数据的形式返回,适用于图片. ...

  7. python中response对象的属性,python爬虫response对象及通用代码框架

    ** - 1.Response对象的属性 ** 属性 说明 r.status_code HTTp请求的返回状态,200表示连接成功,404表示失败 r.text HTTp响应内容的字符串形式,即url ...

  8. python中response对象的方法_响应对象response

    响应对象response flask提供了Response最为视图最终返回的数据,但在代码编写过程中,我们通常很少直接使用Response对象,下面是几个常见的视图返回数据的方式 from flask ...

  9. python解析response的json_从HTML responseTex解析JSON

    因此,我大体上同意,更好的解决方案是确保服务器只返回JSON,不过这是通过客户端Javascript实现的一种快速方法,如@Barmer所建议的那样,将html解析到DOM,获取body中的文本chi ...

最新文章

  1. BZOJ1922: [Sdoi2010]大陆争霸
  2. 数据库 大数据访问及分区分块优化方案
  3. 用对方法,开发与部署深度学习原来如此简单……
  4. imu与gps之间的时间戳_一个时间戳精度问题,引发了一个MySQL血案
  5. Session 和 Cookie 的区别与联系
  6. python批量删除注释_批量删除C和C++注释
  7. 惊呆了!被公司辞退拿了22万补偿金,原东家称每月涨薪7000,只要退还22万
  8. linux usb重定向window,基于Linux的USB设备重定向研究.pdf
  9. labelImg安装与操作
  10. 微信公众号之微信退款
  11. 人民搜索2013年招聘的三道算法题 西安站
  12. dto转化 vo_微服务篇-DTO、VO快速转换解决方案
  13. Element ui Switch 开关二次确认弹窗后再更改开关状态
  14. 例题5-3 安迪的第一个字典(Andy's First Dictionary,Uva 10815)
  15. 微信IOS访问页面,返回的时候页面空白
  16. 擎天哥as3教程系列第四回——设计模式运用自如
  17. PS如何修改图片日期或者其他文本内容
  18. Rocket核心流程源码分析
  19. 白杨SEO:中小企业发广告去哪个平台?一般选择哪种推广方式方法比较好?
  20. 搞不定Serverless?让你秒懂掌握Profiling让一份程序优雅自适应

热门文章

  1. 2022-2028年中国塑料鞋行业市场发展调研及未来前景规划报告
  2. python学习之pip常用命令
  3. 第五周周记(国庆第五天)
  4. GPUtil是一个Python模块,使用nvidia-smi从NVIDA GPU获取GPU状态
  5. 写算子单元测试Writing Unit Tests
  6. 摄像头模组(CCM)与镀膜
  7. 如何评估两张图片的差异
  8. 2021年大数据Flink(十四):流批一体API Connectors JDBC
  9. python 读取excel 内的中文显示为unicode 编码
  10. Error on line 19, column 16 of pubspec.yaml: Mapping values are not allowed here. Did you miss a co