使用Scrapy模拟登陆人人网
使用Scrapy模拟登陆人人网
文章目录
- 使用Scrapy模拟登陆人人网
- 一. 新建项目(scrapy startproject)
- 二.修改settings.py
- 三.爬虫制作
一. 新建项目(scrapy startproject)
打开命令行,按以下步骤操作
C:\Users\JunSIr>d:D:\mkdir scrapyProjectD:\>cd scrapyProject D:\scrapyProject>scrapy startproject renrenSpider
------------------------------------------------------------
New Scrapy project 'renrenSpider', using template directory 'D:\anaconda\lib\site-packages\scrapy\templates\project', created in:D:\scrapyProject\renrenSpiderYou can start your first spider with:cd renrenSpiderscrapy genspider example example.com
------------------------------------------------------------
D:\scrapyProject>cd renrenSpiderD:\scrapyProject\renrenSpider>
- 打开pycharm --> 文件—>打开—>找到我们之前用命令行创建的爬虫文件夹,看到如下
- scrapy.cfg: 项目的配置文件。
- items.py: 项目的目标文件。
- pipelines.py: 项目的管道文件。
- settings.py: 项目的设置文件。
- /spiders/: 存储爬虫代码目录。
二.修改settings.py
- 取消管道注释
- 取消请求头注释并添加请求头
Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36
三.爬虫制作
命令行输入`scrapy genspider renren “renren.com”``
在pycharm—>/spiders/renren.py下编写
# -*- coding: utf-8 -*-
import scrapyclass RenrenSpider(scrapy.Spider):name = 'renren'allowed_domains = ['renren.com']start_urls = ['http://renren.com/']#爬虫一开始就POST请求必重写start_request方法def start_requests(self):url = "http://www.renren.com/PLogin.do"data = {"email":"xxxx","password":"pythonspider"}request =scrapy.FormRequest(url,formdata=data,callback=self.parse)yield request#理解,yield给调度器-->得到response--->带着response,callback给parsedef parse(self, response):request = scrapy.Request(url = 'http://www.renren.com/880151247/profile',callback=self.parse_profile)yield request# 理解,yield给调度器-->得到response--->带着response,callback给parse_profile#访问只有登陆状态才能访问的大鹏个人主页def parse_profile(self,response):with open('dp.html','w',encoding='utf8') as fp:fp.write(response.text)#代码讲解:# 一、不带括号时,调用的是这个函数本身 ,是整个函数体,是一个函数对象,不须等该函数执行完成# 二、带括号(参数或者无参),调用的是函数的执行结果,须等该函数执行完成的结果#三、scrapy.FormRequest使用于scrapy的Post请求,否则可以直接使用scrapy.Request
使用Scrapy模拟登陆人人网相关推荐
- python之scrapy模拟登陆人人网
1.settings.py主要配置信息,包括USER_AGENT等 # -*- coding: utf-8 -*-# Scrapy settings for renren project # # Fo ...
- scrapy模拟登陆人人网
首先我们简单分析下人人网的登录时的参数 其实最重要的就是form data的那部分,即我们在向人人网发送登录的POST请求时候必传的一些参数,一目了然的展现出来,其中有几个参数是固定的, email, ...
- python3模拟登陆人人网(requests)
前言 之前看别人一直模拟登陆人人网,我就想人人网有头有脸的咋那么好模拟登陆进去呢,,今天看了下发现真的超级容易登陆,可能人人太老了也好久不更新了吧.人人网一点防护措施都没有,没有验证码,没有加密,没有 ...
- 三、scrapy爬虫框架——scrapy模拟登陆
scrapy模拟登陆 学习目标: 应用 请求对象cookies参数的使用 了解 start_requests函数的作用 应用 构造并发送post请求 1. 回顾之前的模拟登陆的方法 1.1 reque ...
- PythonScript_003_通过Cookie模拟登陆人人网
#!/usr/bin/env python # -*- coding:utf-8 -*-import urllib.request import http.cookiejar # 相当于Python2 ...
- Python之 使用session类模拟登陆人人网
使用request模块的session类模拟登陆人人网 因为人人网的登陆不需要验证码,故模拟登陆比较简单. 思路 1. 使用浏览器打开人人网的登陆页面 2. 找出登陆时发送post请求的url地址和请 ...
- python 模拟登陆人人网,并发文字状态
这几天一直在学习用python 爬取网页, 今天试着写了一个小程序, 模拟登陆 人人网,并且提供了发送文字状态的函数.在登录的时候,已经可以处理有验证码的 情况 ,就拿来练手吧. (在处理字符串的部分 ...
- Scrapy 模拟登陆知乎--抓取热点话题
工具准备 在开始之前,请确保 scrpay 正确安装,手头有一款简洁而强大的浏览器, 若是你有使用 postman 那就更好了. Python 1 scrapy genspider zhihu 使用以 ...
- scrapy 模拟登陆
python 模拟登录豆瓣 并 发表动态:https://blog.csdn.net/freeking101/article/details/65445551 python网络爬虫之使用scrapy自 ...
- python模拟登陆遇到重定向_python - scrapy模拟登陆知乎出现重定向无法登陆问题
当我使用scrapy想进行模拟登陆, 然后抓取首页的问题和答案时, 一直显示重定向问题 pythonfrom scrapy.contrib.spiders import CrawlSpider, Ru ...
最新文章
- JAVA图形界面(GUI)之布局管理器
- 前端页面适配的rem换算
- 主码索引、聚集索引、非主码索引(辅助索引)、唯一索引、外键索引、复合索引、非主码索引、聚集主码(聚集索引)、单列索引、多列索引、普通索引等...
- 《Node.js设计模式》高级异步准则
- 杭州成都场「PPT 下载」新鲜出炉 | 神策 2019 数据驱动大会
- The Intelligent Investor Feedback
- sun的没落是悲还是喜?
- 浅谈:国内软件公司为何无法做大做强?
- Python中is与==的使用区别详解
- 倒计时 2 天,2018 中国大数据技术大会(BDTC)报名通道即将关闭(附参会提醒)...
- 如何用word写书_如何用vba在word中添加打勾的方框?
- 将Halcon导出的多个dxf文件合并成一个分图层的dxf文件
- 走进COM组件系列(二)
- ReactNative组件导出
- Centos6.x升级内核方法支持Docker
- Ladon for Kali 2019
- 数据库服务器日常维护完全情况表格,数据库日常维护.doc
- kdj买卖指标公式源码_通达信一品KDJ波段买卖操作源码免费指标公式
- 优酷屏幕录制在哪里_手机优酷怎么录制视频
- 能否用计算机证明数学定理大全,那些教材中未给出证明的定理,到底能否使用?...
热门文章
- Lightroom Classic CC 2019 for Mac永久破解激活方法(含lr cc 2019破解补丁)
- Web前端工程师VS前端工程师,谁的薪资更上一筹?
- html5 最小化,当前界面最小化快捷键 窗口最小化和全屏化的快捷键是什么?
- zkdemo可以直接调用html,中控指纹机ZKBIOOnline BS开发包 含示例DEMO
- hget和get redis_Redis Hash 的 HSET、HGET、HMSET、HMGET 性能测试
- Android 系统字体
- 台式计算机怎么设置自动锁屏,台式机win7怎么设置自动锁屏
- 小程序window对象的探索
- php写超级简单的登陆注册页面(适用期末作业至少要求带有数据库的)
- 2019 Java 全栈工程师进阶路线图,一定要收藏!