前期准备

(也可以到腾讯云开发者实验室体验)

1. 购买云服务器

选择一家云服务厂商, 购买云服务器, 目前国内主流服务均有提供学生版

如果第一次购买, 可以戳这个链接

https://cloud.tencent.com/redirect.php?redirect=1010&cps_key=e042d9552c4c0be2cd377436ca42ee62

2. 下载Xshell, 使用ssh连接服务器

Xshell学生和家用是免费的, 下载地址http://www.netsarang.com/download/free_license.html

下载安装完成后,使用系统分配的公网IP, 系统用户名和对应密码连接服务器.

在Github上克隆代码

git clone https://github.com/FesonX/JobCrawler.git

安装相关依赖

1. 安装Python3

项目使用Python3.6, 可以使用以下连接安装, 将文中的3.5改为3.6即可.

ubuntu14.04安装python3.5并且将其设置为python3默认启动

(https://blog.csdn.net/fireflychh/article/details/78195778)

2. 使用virtualenv(也可以使用Anaconda或Pycharm管理)

Virtualenv允许多版本Python同时在电脑上共存, 安装完Python3及pip后  终端键入

# 安装

pip3 install virtualenv

# 创建虚拟环境

virtualenv spider-env

# 激活虚拟环境

source spider-env/bin/activate

# 退出

deactivate

3. 安装库依赖

因为Scrapy依赖Python.h,在安装库依赖前在终端键入

sudo apt-get install libpython3.6-dev

然后安装依赖, 如果失败, 请逐条尝试

# 在JobCrawler/JobCrawler目录下

pip install -r requirements.txt

4. 安装MongoDB

参照以下连接安装 MongoDB Community Edition

(https://docs.mongodb.com/manual/administration/install-community/)

运行爬虫

终端cd到项目根目录, 键入

# -o job.csv为可选参数, 加入则输出到指定文件中

scrapy crawl jobCrawler -o job.csv

扩展: 使爬虫开机运行

使爬虫在系统开机时自动运行, 对于许多系统来说,最简单 (如果不是最好的)的方式是使用rc.local文件  具体实现方式就交由你自己用搜索引擎探索啦

云上部署Python3爬虫-以腾讯云+Ubuntu为例-0525-v1.0张雅慧相关推荐

  1. 将Hexo同时部署在github和腾讯云开发者平台或Coding初级实践教程

    写在前面的话 其实我也是这两天才接触到Hexo,之前是用的wordpress在阿里云上挂着.觉得Hexo好像更符合现在我的审美,so, do it! 嗯前面安装git和node.js我这边就省略掉了. ...

  2. Linux使用node.js部署react.js到腾讯云

    最近在学习react.js的相关内容,为了怕以后忘记,就简单地写一下做个笔记. 准备 1项目打包 2把打包的build文件上传至服务器 3在服务器上安装nodejs 和npm工具 1部署Nodejs ...

  3. 在阿里云上部署生产级别Kubernetes集群

    阿里云是国内非常受欢迎的基础云平台,随着Kubernetes的普及,越来越多的企业开始筹划在阿里云上部署自己的Kubernetes集群. 本文将结合实战中总结的经验,分析和归纳一套在阿里云上部署生产级 ...

  4. 向腾讯云windows服务器传输文件,如何上传本地文件到腾讯云Windows服务器上?

    在做运维的过程中经常遇见客户问,如何上传本地数据到Windows云服务器上. 相对Linux云服务器,针对新人朋友Windows云服务器是可视化的更加容易理解.云服务器就是我们租用了腾讯云机房的一台服 ...

  5. AWS云上部署Hadoop

    目录 一.实验目的 二.实验操作 1.创建EC2实例​编辑 2.使用putty连接实例​编辑 3.新增 Hadoop 用户.安装 Java 环境(master.slave01.slave02都需进行相 ...

  6. 华为云上部署Seafile私人网盘

    华为云上部署Seafile私人网盘 一.环境的准备 1.安装Nginx 2.安装Mariadb(Mysql) 3.安装其他的其他依赖组件 二.安装Seafile服务器端(Linux) 1.下载seaf ...

  7. 如何在金山云上部署高可用Oracle数据库服务

    如何在金山云上部署高可用Oracle数据库服务 根据不同需求,基于金山云云服务器.专属云.物理主机.云硬盘和托管服务自建Oracle数据库,通过Oracle Data Guard实现高可用,实现主备数 ...

  8. 云上武功秘籍(一)华为云上部署金蝶星空ERP

    每天琐事缠身,查错.维护.开接口?--不,你可以更加富有创造力! 假期千里迢迢飞回公司机房处理一个小故障?--不,你可以更加自由高效! 如果这就是你的写照,那为什么不选择上云呢? 如果要上云,那为什么 ...

  9. 混合云存储网关云上部署版本介绍

    摘要: 随着企业信息系统的需求扩展和信息技术的发展进步,很多企业用户的信息系统已经完成了从物理环境到虚拟化环境的转变.云上部署版本的混合云存储网关在目前已实现的虚拟化环境中部署形态的基础上,帮助用户在 ...

最新文章

  1. SD卡的控制方法(指令集和控制时序)
  2. Codeforces Round #653 (Div. 3)部分题解
  3. (原创)cocos2dx-lua TableView官方demo分析
  4. ABAP string函数一览
  5. QT中父子窗口事件传递与事件过滤器
  6. RocketMQ 顺序消费只消费一次 坑
  7. 敏捷20周年:一场失败的起义
  8. Bailian3143 验证“歌德巴赫猜想”【筛选法】
  9. Windows Phone 项目实战之账户助手
  10. 传智播客 回归问题 学习笔记
  11. winform窗体在桌面右下角显示(任务栏上方)
  12. jq ui autocomplete的使用
  13. 计算机仿真软件在医疗应用,医学虚拟仿真应用介绍
  14. 51单片机最小系统及晶振电容的选择
  15. 硬件工程师-电阻知识大全
  16. 宽带服务器维护查询,网络连接状态查询方法
  17. python富翁与穷人_穷人和富人就差1%的运气——python模拟社会财富分配游戏
  18. 半导体激光芯片商长光华芯完成B轮1.5亿融资,推进三类主营业务战略建设
  19. ur5+moveit 3D perception功能应用
  20. 地址搜索栏设置 极速浏览器

热门文章

  1. QQ 访问聊天记录受限
  2. Hexo + Butterfly 从零开始搭建个人博客(五)
  3. Javascript合并表格中具有相同内容的单元格
  4. 小米线刷包需要解压么_小米刷机包后缀名
  5. 如何在试用版Visifire展示的Charts中去掉水印
  6. Emlog博客主题模板 ZanBlog3 优化版 V4
  7. HDU1850 Being a Good Boy in Spring Festivaly
  8. 地图下载器工具-Java
  9. access 2003 取消数据库密码
  10. 2019 大数据必备书籍推荐