Python 爬虫进阶二之 PySpider 框架安装配置
PySpider官方文档
项目地址
官方文档
安装
phantomjs
PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持 web 而不需浏览器支持,其快速、原生支持各种 Web 标准:DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。 安装 以上附有官方安装方式,如果你是 Ubuntu 或 Mac OS X 用户,可以直接用命令来安装 Ubuntu:
sudo apt-get install phantomjs
Mac OS X:
brew install phantomjs
pyspider
pip install pyspider
安装pyspider可能有以下错误
Using cached pycurl-7.43.0.6.tar.gz (222 kB)ERROR: Command errored out with exit status 10:
因为安装pycurl出错,pycurl-7.43.0.6.tar.gz没有安装成功。进入pythonlibs下载lib安装。首先查看平台支持的版本。
python -m pip debug --verbose
...
Compatible tags: 24cp36-cp36m-win_amd64cp36-abi3-win_amd64cp36-none-win_amd64
...
进入pythonlibs,没有pycurl-7.43.0.6.tar.gz,平台支持的有pycurl‑7.43.0.4‑cp36‑cp36m‑win_amd64.whl,那就安装这个。下载这个到本地。
安装pycurl
pip3 install C:\Python36\Scripts\pycurl-7.43.0.4-cp36-cp36m-win_amd64.whl
Processing c:\python36\scripts\pycurl-7.43.0.4-cp36-cp36m-win_amd64.whl
Installing collected packages: pycurl
Successfully installed pycurl-7.43.0.4
然后安装pyspider
pip3 install pyspider
安装成功后,命令行输入
pyspider all
有错误信息
File "c:\python36\lib\site-packages\wsgidav\wsgidav_app.py", line 118, in _check_configraise ValueError("Invalid configuration:\n - " + "\n - ".join(errors))
ValueError: Invalid configuration:- Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.
配置PhantomJS
windows:在官网下载对应版本的程序,然后放到python安装目录的python.exe同级目录下。
依然有错误
File "c:\python36\lib\site-packages\pyspider\webui\app.py", line 64, in runfrom werkzeug.wsgi import DispatcherMiddleware
ImportError: cannot import name 'DispatcherMiddleware'
发现还是版本的原因,werkzeug的版本为1.0.0,这个版本中没有DispatcherMiddleware方法,所以还是降低版本。
注意降低版本不能低于0.15版本,因为我们的pyspider要求大于0.15版本以上
pip3 uninstall werkzeug
pip3 install werkzeug==0.16.1
参考
启动pyspider
pyspider all
然后浏览器访问 http://localhost:5000 观察一下效果,如果可以正常出现 PySpider 的页面,那证明一切 OK 在此附图一张,如果写了爬虫,之后的界面。
常见错误
我曾遇到过的一个错误: PySpider HTTP 599: SSL certificate problem 错误的解决方法 ,后来在作者那发了 issue 得到了答案,其他的暂时没什么问题。 不过发现有的小伙伴提了各种各样的问题啊,不过我确实都没遇到过,我再 Win10,Linux Ubuntu,Linux CentOS,Mac OS X 都成功运行。不过确实有些奇怪的问题,跑着跑着崩了,一点就崩了我也就比较纳闷了。 如果大家有问题,可以看看作者项目里面有没有类似的 issue,另外也推荐大家直接到作者的 GitHub 上发 issue。 毕竟,这个框架不是我写的。 在此附上 Issue 地址: PySpider Issue
Python 爬虫进阶二之 PySpider 框架安装配置相关推荐
- Python爬虫进阶三之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
- Python 爬虫进阶三之 Scrapy 框架安装配置
初级的爬虫我们利用 urllib 和 urllib2 库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架 Scrapy,这安装过程也是煞费苦心哪,在此整理如下. 官网 官方安装文档 安装p ...
- python爬虫架构设置_Python爬虫进阶三之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
- python爬虫项目实战教学视频_('[Python爬虫]---Python爬虫进阶项目实战视频',)
爬虫]---Python 爬虫进阶项目实战 1- Python3+Pip环境配置 2- MongoDB环境配置 3- Redis环境配置 4- 4-MySQL的安装 5- 5-Python多版本共存配 ...
- python爬虫进阶-每日一学(字体反爬-移花接木)
目的 分析与学习更多的字体反爬套路 详细需求 url:http://glidedsky.com/level/web/crawler-font-puzzle-2 思路解析 一.审查 二.分析 impor ...
- Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)
专题系列导引 爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集 课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
- 一文看懂Python 爬虫 进阶(三)
一文看懂Python 爬虫 进阶(三) 文章目录 一文看懂Python 爬虫 进阶(三) **猫眼电影(xpath)** **链家二手房案例(xpath)** **百度贴吧图片抓取** 这篇几乎都是代 ...
- Python爬虫进阶五之多线程的用法
前言 我们之前写的爬虫都是单个线程的?这怎么够?一旦一个地方卡到不动了,那不就永远等待下去了?为此我们可以使用多线程或者多进程来处理. 首先声明一点! 多线程和多进程是不一样的!一个是 thread ...
- 转 Python爬虫入门二之爬虫基础了解
静觅 » Python爬虫入门二之爬虫基础了解 2.浏览网页的过程 在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以 ...
最新文章
- RESTful API 设计指南(转)
- 外部中断0——51程序
- 音视频技术开发周刊 61期
- iOS 10 的一个重要更新-自定义的通知界面
- 关于ODOO中高级视图的看板案例错误
- Android工具栏中心标题和自定义字体
- 继承性(HTML、CSS)
- Atitit.报名模块的管理
- 利用HttpOnly来防御xss攻击
- java实现贪吃蛇小游戏(源码+注释)
- dell笔记本重装win10系统超详细的教程(适用所有windows系统的一套流程)
- 基于AdaBoost的人脸检测 含源码
- 用PHP实现Instagram滤镜效果
- 手机性能对比测试要点
- 如何将网址放到桌面并修改桌面快捷方式的图标
- ABAP数据字典和数据表的读取
- java 数字 百分比_Java 数字转换成百分比
- 视唱练耳训练小程序开发,摆脱传统训练制约性
- 【每天更新】2022年最新WordPress主题下载,外贸独立站商城/企业网站/个人博客模板 2022-5-18
- 华为实现中:STP运行机制实例分析一