PySpider官方文档

项目地址
官方文档

安装

phantomjs
PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持 web 而不需浏览器支持,其快速、原生支持各种 Web 标准:DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。 安装 以上附有官方安装方式,如果你是 Ubuntu 或 Mac OS X 用户,可以直接用命令来安装 Ubuntu:

sudo apt-get install phantomjs

Mac OS X:

brew install phantomjs

pyspider

pip install pyspider

安装pyspider可能有以下错误

 Using cached pycurl-7.43.0.6.tar.gz (222 kB)ERROR: Command errored out with exit status 10:

因为安装pycurl出错,pycurl-7.43.0.6.tar.gz没有安装成功。进入pythonlibs下载lib安装。首先查看平台支持的版本。

python -m pip debug --verbose
...
Compatible tags: 24cp36-cp36m-win_amd64cp36-abi3-win_amd64cp36-none-win_amd64
...

进入pythonlibs,没有pycurl-7.43.0.6.tar.gz,平台支持的有pycurl‑7.43.0.4‑cp36‑cp36m‑win_amd64.whl,那就安装这个。下载这个到本地。

安装pycurl

pip3 install C:\Python36\Scripts\pycurl-7.43.0.4-cp36-cp36m-win_amd64.whl
Processing c:\python36\scripts\pycurl-7.43.0.4-cp36-cp36m-win_amd64.whl
Installing collected packages: pycurl
Successfully installed pycurl-7.43.0.4

然后安装pyspider

pip3 install pyspider

安装成功后,命令行输入

pyspider all

有错误信息

  File "c:\python36\lib\site-packages\wsgidav\wsgidav_app.py", line 118, in _check_configraise ValueError("Invalid configuration:\n  - " + "\n  - ".join(errors))
ValueError: Invalid configuration:- Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.

配置PhantomJS
windows:在官网下载对应版本的程序,然后放到python安装目录的python.exe同级目录下。
依然有错误

  File "c:\python36\lib\site-packages\pyspider\webui\app.py", line 64, in runfrom werkzeug.wsgi import DispatcherMiddleware
ImportError: cannot import name 'DispatcherMiddleware'

发现还是版本的原因,werkzeug的版本为1.0.0,这个版本中没有DispatcherMiddleware方法,所以还是降低版本。
注意降低版本不能低于0.15版本,因为我们的pyspider要求大于0.15版本以上

pip3 uninstall werkzeug
pip3 install werkzeug==0.16.1

参考
启动pyspider

pyspider all

然后浏览器访问 http://localhost:5000 观察一下效果,如果可以正常出现 PySpider 的页面,那证明一切 OK 在此附图一张,如果写了爬虫,之后的界面。

常见错误

我曾遇到过的一个错误: PySpider HTTP 599: SSL certificate problem 错误的解决方法 ,后来在作者那发了 issue 得到了答案,其他的暂时没什么问题。 不过发现有的小伙伴提了各种各样的问题啊,不过我确实都没遇到过,我再 Win10,Linux Ubuntu,Linux CentOS,Mac OS X 都成功运行。不过确实有些奇怪的问题,跑着跑着崩了,一点就崩了我也就比较纳闷了。 如果大家有问题,可以看看作者项目里面有没有类似的 issue,另外也推荐大家直接到作者的 GitHub 上发 issue。 毕竟,这个框架不是我写的。 在此附上 Issue 地址: PySpider Issue

Python 爬虫进阶二之 PySpider 框架安装配置相关推荐

  1. Python爬虫进阶三之Scrapy框架安装配置

    初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...

  2. Python 爬虫进阶三之 Scrapy 框架安装配置

    初级的爬虫我们利用 urllib 和 urllib2 库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架 Scrapy,这安装过程也是煞费苦心哪,在此整理如下. 官网 官方安装文档 安装p ...

  3. python爬虫架构设置_Python爬虫进阶三之Scrapy框架安装配置

    初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...

  4. python爬虫项目实战教学视频_('[Python爬虫]---Python爬虫进阶项目实战视频',)

    爬虫]---Python 爬虫进阶项目实战 1- Python3+Pip环境配置 2- MongoDB环境配置 3- Redis环境配置 4- 4-MySQL的安装 5- 5-Python多版本共存配 ...

  5. python爬虫进阶-每日一学(字体反爬-移花接木)

    目的 分析与学习更多的字体反爬套路 详细需求 url:http://glidedsky.com/level/web/crawler-font-puzzle-2 思路解析 一.审查 二.分析 impor ...

  6. Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  7. 一文看懂Python 爬虫 进阶(三)

    一文看懂Python 爬虫 进阶(三) 文章目录 一文看懂Python 爬虫 进阶(三) **猫眼电影(xpath)** **链家二手房案例(xpath)** **百度贴吧图片抓取** 这篇几乎都是代 ...

  8. Python爬虫进阶五之多线程的用法

    前言 我们之前写的爬虫都是单个线程的?这怎么够?一旦一个地方卡到不动了,那不就永远等待下去了?为此我们可以使用多线程或者多进程来处理. 首先声明一点! 多线程和多进程是不一样的!一个是 thread ...

  9. 转 Python爬虫入门二之爬虫基础了解

    静觅 » Python爬虫入门二之爬虫基础了解 2.浏览网页的过程 在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以 ...

最新文章

  1. RESTful API 设计指南(转)
  2. 外部中断0——51程序
  3. 音视频技术开发周刊 61期
  4. iOS 10 的一个重要更新-自定义的通知界面
  5. 关于ODOO中高级视图的看板案例错误
  6. Android工具栏中心标题和自定义字体
  7. 继承性(HTML、CSS)
  8. Atitit.报名模块的管理
  9. 利用HttpOnly来防御xss攻击
  10. java实现贪吃蛇小游戏(源码+注释)
  11. dell笔记本重装win10系统超详细的教程(适用所有windows系统的一套流程)
  12. 基于AdaBoost的人脸检测 含源码
  13. 用PHP实现Instagram滤镜效果
  14. 手机性能对比测试要点
  15. 如何将网址放到桌面并修改桌面快捷方式的图标
  16. ABAP数据字典和数据表的读取
  17. java 数字 百分比_Java 数字转换成百分比
  18. 视唱练耳训练小程序开发,摆脱传统训练制约性
  19. 【每天更新】2022年最新WordPress主题下载,外贸独立站商城/企业网站/个人博客模板 2022-5-18
  20. 华为实现中:STP运行机制实例分析一

热门文章

  1. 40个漂亮的单页网站设计案例(上篇)
  2. 话里话外:成功的ERP需要全程的流程变革(三)
  3. 【转贴】想应聘的瞧仔细了:HW分析大全
  4. 5201. 给植物浇水
  5. leetcode 665. 非递减数列(贪心算法)
  6. leetcode 123. 买卖股票的最佳时机 III(dp)
  7. leetcode 1046. 最后一块石头的重量(堆)
  8. leetcode106. 从中序与后序遍历序列构造二叉树(dfs)
  9. 播客#50:Sacha Greif
  10. 使用Python发送电子邮件