网络爬虫--19.【Scrapy-Redis实战】分布式爬虫爬取房天下--环境准备
文章目录
- 0. 思路
- 一. 虚拟机Ubuntu0中安装Redis
- 二. 虚拟机Ubuntu1中安装Redis
- 三. Windows服务器上安装Redis
- 四. 安装cmder
- 五. 安装RedisDesktopManager
- 六. 修改Windows中的配置文件redis.windows.conf
- 七. Ubuntu连接Windows上 的Redis服务器
- -------------------------------------------------------------------------
- 八.Windows上创建虚拟环境并安装Scrapy
- 九.Ubuntu上创建虚拟环境并安装Scrapy
0. 思路
准备三台服务器,分别是Windows、Ubuntu1、Ubuntu2;
其中Windows服务器作为分布式爬虫的Redis服务器;
Ubuntu1和Ubuntu2作为分布式爬虫的爬虫服务器。
一. 虚拟机Ubuntu0中安装Redis
安装:sudo apt-get install redis-server
卸载:sudo apt-get purge --auto-remove redis-server
启动:sudo service redis-server start
查看:ps aux|grep redis
停止:sudo service redis-server stop
二. 虚拟机Ubuntu1中安装Redis
同上。
三. Windows服务器上安装Redis
1.首先安装Redis,安装教程:https://www.runoob.com/redis/redis-install.html
2.启动Redis服务:(切换至Redis安装目录中)
redis-server.exe redis.windows.conf
若报错,按步骤执行以下命令:
redis-cli.exe
shutdown
exit
redis-server.exe redis.windows.conf
3.启动Redis客户端
redis-cli.exe
输入测试数据:
set username fanxindong
get username
四. 安装cmder
安装教程及配置:https://www.jianshu.com/p/5b7c985240a7
五. 安装RedisDesktopManager
安装教程及配置:https://www.jb51.net/softs/669908.html
安装后连接Redis,查看测试数据。
六. 修改Windows中的配置文件redis.windows.conf
打开Windows中Redis的配置文件redis.windows.conf
将bind后的ip地址更改为windows 的ip地址;
这里为了爬虫服务器连接方便,更改为0.0.0.0
七. Ubuntu连接Windows上 的Redis服务器
在Ubuntu服务器输入以下指令:
redis-cli -h 172.20.20.2 -p 6379
其中172.20.20.2为windows的服务器ip地址。
查看测试数据:
-------------------------------------------------------------------------
八.Windows上创建虚拟环境并安装Scrapy
首先安装 virtualenv,打开命令行工具,输入下面的命令即可安装 virtualenv:
pip install virtualenv
安装成功后就可以开始创建虚拟环境,指定一个你喜欢的目录,virtualenv 会把这个新的虚拟环境装到你指定目录下。例如我把它装到 C:\Users\fxd.virtualenvs\ 目录下,并将虚拟环境命名为 sipder_env(也可以取任何你喜欢的名字)。在命令栏运行如下命令:
virtualenv C:\Users\fxd\.virtualenvs\sipder_env
虚拟环境已经创建好了,我们需要激活这个环境,进入到刚才创建的虚拟环境的根目录,运行 Scripts 目录下的 activate 程序激活它:
cd C:\Users\fxd\.virtualenvs\sipder_env
.\Scripts\activate
可以看到命令提示符前面多了 (sipder_env),说明我们已经成功激活了虚拟环境,接下来就可以开始安装 Scrapy了。
使用豆瓣的镜像源安装:
pip install Scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
Scrapy中文文档:https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html
九.Ubuntu上创建虚拟环境并安装Scrapy
安装virtualenv:
pip install virtualenv
创建虚拟环境并自动进进入:
mkvirtualenv -p /usr/bin/python3 spider_env
退出虚拟环境:
deactivate
再次进入虚拟环境的激活指令:
source ./bin/activate
接下来安装Scrapy,首先安装依赖:
sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
安装scrapy:
pip install Scrapy
网络爬虫--19.【Scrapy-Redis实战】分布式爬虫爬取房天下--环境准备相关推荐
- 爬虫实战-爬取房天下网站全国所有城市的新房和二手房信息(最新)
看到https://www.cnblogs.com/derek1184405959/p/9446544.html项目:爬取房天下网站全国所有城市的新房和二手房信息和其他博客的代码,因为网站的更新或者其 ...
- Python爬虫之scrapy框架360全网图片爬取
Python爬虫之scrapy框架360全网图片爬取 在这里先祝贺大家程序员节快乐,在此我也有一个好消息送给大家,本人已开通了微信公众号,我会把资源放在公众号上,还请大家小手动一动,关注过微信公众号, ...
- Python爬虫案例3:爬取房天下房价等各种信息
爬取房天下网站,爬取的内容: 区域.小区名.总价.房型.面积.单价.朝向.楼层位置.装修情况.建筑时间.是否有电梯.产权类型.住宅类型.发布日期 信息保存:保存在csv中 数据结果: 1.先建立爬虫项 ...
- python爬虫——爬取房天下
python爬虫--爬取房天下 话不多说,直接上代码! import requests as req import time import pandas as pd from bs4 import B ...
- 爬取房天下新房、二手房房源数据(scrapy-redis分布式爬虫)
前言 该项目基于Scrapy-Redis框架实现分布式爬虫.其中,我使用了自身电脑(win10)作为redis服务器, WSL虚拟机和一台mac作为爬虫服务器,从而实现分布式爬虫. 环境搭建 开发环境 ...
- Scrapy+redis+mongodb分布式爬虫抓取小说《冰与火之歌1-5》
一年前写了python简单实战项目:<冰与火之歌1-5>角色关系图谱构建的数据库设计和数据可视化共现图谱的构建,中间唯独缺了数据的采集,因为想着只是个小爬虫,应该无关痛痒,后面也觉得这个系 ...
- 2个月精通Python爬虫——3大爬虫框架+6场实战+分布式爬虫,包教包会
2019独角兽企业重金招聘Python工程师标准>>> 阿里云大学在线工作坊上线,原理精讲+实操演练,让你真正掌握云计算.大数据技能. 在第一批上线的课程中,有一个Python爬虫的 ...
- 【通用技术】2个月精通Python爬虫——3大爬虫框架+6场实战+分布式爬虫,包教包会...
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取信息的程序或者脚本. 网络爬虫是互联网上进行信息采集的通用手段,在互联网的各个专业方向上都是不可或缺的底层技术支撑.本课程从爬 ...
- Python爬虫进阶——Scrapy框架原理及分布式爬虫构建
1 Scrapy简介 1.1 概念 Scrapy是由Python语言开发的一个快速.高层次的屏幕抓取和web信息抓取框架,用于抓取web站点并从页面中提取结构化的数据. Scrapy用途广泛,可以用于 ...
最新文章
- 10分钟学会python函数式编程
- 《高翔视觉slam十四讲》学习笔记 第六讲 非线性优化
- wdcp 开启某个Mysql数据库远程访问
- win10默认安装路径修改_问题解答|Win10电脑重启桌面图标就变乱的解决方法!
- 【生信技能树】【miRNA】学习笔记(一)
- Excel常用函数及操作_脑图
- vmware tools的下载
- win的反义词_小学英语常见的英语单词反义词大汇总,一定要让孩子掌握!
- mysql挂马_虚拟主机/数据库中挂马清理方法
- Webbygram:网页版Instagram再生
- 成果分享:边缘智能视频预取和缓存机制
- proftpd的SSH_DISCONNECT (Read TImed out,Key exchange failed.错误解决
- 基于计算机控制的花样流水灯,花样流水灯文献综述
- 最美的七律却不讲规则
- 几个留待认真研究的问题,开源tt
- npm install下载依赖项时报错 fatal: unable to access ‘https://github.com/nhn/raphael.git/‘: Failed to connect
- springcloud项目报错:java.lang.IllegalStateException: No instances available for XXX(服务提供者的实例名)
- 大佬带你看DevOps
- LAMP的小优点还有你想要的Apache的安装
- 使用Python制作一个照片换底色的exe程序文件(详细教程)
热门文章
- pycharm/clion/idea等产品多含代码左移右移操作
- java 遍历100以内的偶数,偶数的和,偶数的个数
- 发动机的工作原理,你知道吗?
- 在移动互联网上赚钱,行不行
- Activiti工作流框架学习(一)环境的搭建和数据表的了解
- 杭电多校 Harvest of Apples 莫队
- 阿里服务器+Centos7.4+Tomcat+JDK部署
- shell编程中date用法(转)
- 使用jQuery queue(队列) 遇到的问题及解决方案
- C语言的“编译时多态”