用Python开发爬虫很方便。

本质:抓取---分析---存储

要点:

(1)get请求:最基本抓取。用到 urllib  urllib2  requests  httplib2 。

(2)表单登陆:向服务器发送post请求,服务器再将返回的cookie存入本地

(3)使用cookie登陆:

(4)对于反爬虫机制的处理:使用代理:限制IP地址情况,可解决由于频繁点击而需要输入验证码登陆的情况

时间设置:限制频率情况

伪装成浏览器或者反盗链:User-Agent,  Referer

(5)对于断线重连:使用multi_session和multi_open对爬虫抓取的session或opener进行保持

(6)多线程抓取

(7)对于Ajax请求

(8)自动化测试工具Selenium

#mac下Scrapy配置1.安装Python2.安装 pip3.直接安装 Scrapy

由于 Linux下已经预装了 lxml 和 OPENSSL

如果想验证 lxml ,可以分别输入sudo pip install lxml

出现下面的提示这证明已经安装成功Requirementalreadysatisfied(use--upgradetoupgrade):lxmlin/usr/lib/python2.7/dist-packages

如果想验证openssl,则直接输入openssl 即可,如果跳转到 OPENSSL 命令行,则安装成功。

接下来直接安装 Scrapy 即可sudo pip install Scrapy

安装完毕之后,输入 scrapy

注意,这里linux下不要输入Scrapy,linux依然严格区分大小写的,感谢kamen童鞋提醒。

如果出现如下提示,这证明安装成功

4:出错情况:经常是six模块的版本问题scrapy

Traceback(most recent call last):

File"/usr/local/bin/scrapy",line7,infromscrapy.cmdlineimportexecuteFile"/Library/Python/2.7/site-packages/scrapy/__init__.py",line48,infromscrapy.spidersimportSpiderFile"/Library/Python/2.7/site-packages/scrapy/spiders/__init__.py",line10,infromscrapy.httpimportRequestFile"/Library/Python/2.7/site-packages/scrapy/http/__init__.py",line12,infromscrapy.http.request.rpcimportXmlRpcRequestFile"/Library/Python/2.7/site-packages/scrapy/http/request/rpc.py",line7,in

fromsix.movesimportxmlrpc_clientasxmlrpclib

ImportError:cannotimportname xmlrpc_client

下面是stackoverflow上的高票解决办法:

I've just fixed this issue on my OS X.

Please backup your files first.sudo rm-rf/Library/Python/2.7/site-packages/six*sudo rm-rf/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/six*sudo pip install six

Scrapy 1.0.0 is ready to go.

mac python3.8怎样安装scrapy_Python爬虫与mac下Scrapy配置相关推荐

  1. python如何安装scrapy_Python爬虫之Scrapy的安装

    一.Scrapy的介绍 Scrapy是用Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化 ...

  2. pycharm和python在mac里安装_MAC安装python-opencv及在pycharm下的配置

    基础: Mac os 10.13.4:pycharm2018.1:Python3.6.5 小白一个,某日突发奇想,想利用opencv实现面部识别,但在网上查了一圈,在配置时都太麻烦,什么下载源码,用X ...

  3. python创建scrapy_Python爬虫教程-31-创建 Scrapy 爬虫框架项目

    首先说一下,本篇是在 Anaconda 环境下,所以如果没有安装 Anaconda 请先到官网下载安装 Scrapy 爬虫框架项目的创建0.打开[cmd] 1.进入你要使用的 Anaconda 环境1 ...

  4. python3.6.2安装教程-CentOS 7.2下安装Python 3.6.2

    CentOS7.2默认已经安装了Python2.7.5,因此要安装python3.6的话,得从python官网上下载相应版本的安装包 查看python2.7 1.下载:wget https://www ...

  5. 【mac】nvm 的安装和使用,解决mac重启node not found,每次都得source ~/.bash_profile

    https://segmentfault.com/a/1190000017391932 首先打开终端,进入当前用户的 home 目录中. cd ~/ 然后使用 ls -a 显示这个目录下的所有文件(夹 ...

  6. 我的世界mac版java下载安装,我的世界Mac版-我的世界1.9.2免费版下载 V1.9.2免费版-PC6苹果网...

    我的世界Mac版V1.9.2那是风靡全世界的沙盒游戏--Minecraft的 Mac OS 平台版本,这是目前全世界最具有想象力的一款游戏.虽然我的世界Mac版V1.9.2画面不够精致,没有太多打斗场 ...

  7. 在Mac OS X上安装Oracle客户端

    在Mac OS X上安装Oracle客户端 在mac上安装oracle客户端 官网下载页面 http://www.oracle.com/technetwork/topics/intel-macsoft ...

  8. 简洁优雅的Mac OS X软件安装体验 - homebrew-cask

    转自:http://ksmx.me/homebrew-cask-cli-workflow-to-install-mac-applications/ 简洁优雅的Mac OS X软件安装体验 - home ...

  9. 腾讯云主机Python3环境安装PySpider爬虫框架过程

    利用腾讯云服务器我们可以玩好多的技术,前面的我给大家分享的大多与网站和一些服务有关,今天我给大家分享有关腾讯云主机Python3环境安装PySpider爬虫框架过程 大家好,本篇文章为大家讲解腾讯云主 ...

最新文章

  1. iOS私有Api检测
  2. mysql中Table is read only 的解决方法小结
  3. CentOS7下Hadoop集群搭建
  4. 如何跳过或去除“非正版Windows系统“信息
  5. 什么是DevOps?人员,流程和产品的结合,过程、方法与系统的统称
  6. 理论物理极础11:电力和磁力
  7. java ajax分页_使用Jquery+Ajax+Json如何实现分页显示附JAVA+JQuery实现异步分页
  8. 怎么取消微信送票服务器,智行火车票如何关闭微信自动扣费服务 微信怎么关闭智行火车票自动扣费授权...
  9. 你需要的不是中台,而是一名合格的架构师
  10. 网站前台静态页面html模板
  11. 问题解决: ValueError: Can't Handle mix of binary and continuous
  12. 网络变压器、网络通讯用磁性器件的要求和发展趋势
  13. 基于Python使用ffmpeg批量缩放图片
  14. 电信 802.1p 设置_电信VoLTE免费开通
  15. 【Spark NLP】第 12 章:情感分析和情绪检测
  16. 小时候电视剧里常听到的“IT精英”,今天怎么变成了“码农”?
  17. 小程序生成海报并下载
  18. Bladed V4.3安装(PoJie)流程
  19. 电动车禁入电梯系统-楚纳
  20. MTBF的解析,MTBF分为几种测试方法

热门文章

  1. wget java 1.7_linux下安装和配置jdk1.7
  2. 微信内测版抢先体验,可发 4K 无损视频
  3. Java程序员考什么证可以镀金?
  4. 皮一皮:皇上,他在下毒!
  5. 你真的了解 OpenJDK 吗?
  6. 聊一聊Java字符串的不可变
  7. 面试?莫慌--- 教你如何“秀技”摩擦面试官
  8. Edgware.RC1中ZuulFallbackProvider的改进
  9. 服务器操作系统的安全策略,服务器操作系统的安全策略
  10. 用html CSS实现砸金蛋,css3+js 实现砸金蛋效果