Published: 2016-12-03 15:59:00

Scrapy的安装说明

关于爬虫,Scrapy,在官网上资料很多,在这里

主要记录一下流程,忽略的步骤等等

以及爬出来的坑,也提醒一下自己

还有就是一些自己接触的新概念的学习--是什么,怎么做,为什么,改进或者升级

搭建语言环境

0.操作系统,操作系统的位数

Windows 32bit

1.Python的版本以及位数

安装Python完成后,记得设置环境变量

C:\Python2.7\;

C:\Python2.7\Scripts\;

查看 python -V Python的版本以及位数,打开命令提示符输入python ,看到以下内容,可见我安装的是32位的

Python 2.7.11 (v2.7.11:6d1b6a68f775, Dec 5 2015, 20:32:19) [MSC v.1500 32 bit (Intel)] on win32

2.从 http://sourceforge.net/projects/pywin32/ 安装 pywin32

https://sourceforge.net/projects/pywin32/files/pywin32/Build%20220/

出现ImportError: No module named win32api 或者出现 ImportError: No module named win32con,说明你的库没有安装好。

Pywin32像VC一样的形式来使用PYTHON开发win32应用

库里面最重要的模块:win32api就是通过python对win32的本地api进行了封装

下载对应版本的pywin32,直接双击安装即可,安装完毕之后验证。验证方式 在python环境下 import win32com 没提示错即证明安装成功

3.安装pip,对于版本小于2.7.9的需要安装,版本比较新的则不需要,查看

pip -version

4.Win32OpenSSL这个很可能是在我之前安装其他的程序已经安装了,所以在这里是不需要了。具体在自己的电脑上再具体分析吧

http://slproweb.com/products/Win32OpenSSL.html

爬虫安装过程

在Windows下安装,由于编译问题,很可能lxml安装不成功,对于这个问题,

简单的解决办法是,安装编译包

编译包的下载地址:windows版的各种Python库安装包下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/

注意版本库之间的相互依赖关系,以及自己操作系统的位数

将cmd当前目录切换到下载的文件所在的位置 然后在命令行安装,例如我把lxml-3.6.4-cp36-cp36m-win32.whl下载到C:\downloads

cd downloads

pip install lxml-3.6.4-cp36-cp36m-win32.whl

在Linux下安装lmxl 可以参见:

http://lxml.de/installation.html

安装openssl,网址:https://pypi.python.org/pypi/pyOpenSSL

Scrapy的库依赖

Scrapy 1.2.1的python介绍 https://pypi.python.org/pypi/Scrapy/1.2.1

Requires Distributions

w3lib (>=1.15.0)

six (>=1.5.2)

service-identity

queuelib

pyOpenSSL

parsel (>=0.9.3)

lxml

cssselect (>=0.9)

Twisted (>=10.0.0)

PyDispatcher (>=2.0.5)

ubuntu安装数据库MySQL模块

以mysql为例,一般先要安装mysqlclient模块

1.ubuntu下python版本为2.x中的mysqlclient安装方式

apt-get install python-dev libmysqlclient-dev

pip install MySQL-python

2.ubuntu下python版本为3.x中的mysqlclient安装方式

apt-get install python3-dev libmysqlclient-dev

pip install MySQL-python

关于安装的编译问题

关于Python的解释器

CPython即用C语言实现Python及其解释器(JIT编译器),Linux,OS X等自带的也是这个版本,第三方包Numpy等也是使用CPython。大多数第三方包仅兼容CPython。

Jython是用Java语言来实现,

Pypy是用Python来实现(准确说是个Python子集)

IronPython是用.NET实现的

Visual C++ |CPython

--------------------

14.0 |3.5

10.0 |3.3, 3.4

9.0 |2.6, 2.7, 3.0, 3.1, 3.2

对于Python的底层实现学习不学习,主要看时间投资是否值得以及自己的兴趣爱好的强烈程度。

Python标准库与第三方库

参考概念:

OpenSSL整个软件包大概可以分成三个主要的功能部分:SSL协议库、应用程序以及密码算法库

<1>MySQL-Python 1.2.5 does not support Python 3.0+ yet

<2>Even if you havea 64bit computer, if you installed a 32bit version of Python you must install

the 32bit version of pywin32.

参考网址:

Scrapy安装指南:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html

安装出错中的一些参考网站:http://stackoverflow.com/questions/22388519/problems-with-pip-install-numpy-runtimeerror-broken-toolchain-cannot-link-a

PyPI - the Python Package Index https://pypi.python.org/pypi2016/11/20

python爬虫如何连接数据库_Python爬虫框架和数据库连接相关推荐

  1. python 爬虫哪个好_Python爬虫框架哪个最好用最简单

    想使用python爬虫框架开发个爬虫,但目前了解有限,希望大家帮忙推荐几个,谢谢啦~ 另外,大家平常工作中都使用python干些什么事情呢?网站开发?爬虫?还是运维? scrapy 爬虫框架.纯pyt ...

  2. python爬虫开发环境_python爬虫开发教程下载|Python爬虫开发与项目实战(范传辉 著)pdf 完整版_ - 极光下载站...

    Python爬虫开发与项目实战pdf扫描版下载.Python爬虫开发是一个Pthyon编程语言与HTML基础知识引领读者入门知识,重点讲述了云计算的相关内容及其在爬虫中的应用,进而介绍如何设计自己的爬 ...

  3. python爬虫自学路线_python 爬虫学习路线:从入门到进阶

    大家好,我是凉拌 今天给大家详解一下我的爬虫学习路线. 对于小白来说,爬虫可能是一件非常复杂.技术门槛很高的事情.比如有的人则认为先要掌握网页的知识,遂开始 HTML\CSS,结果入了前端的坑,浪费了 ...

  4. python爬虫面试问题_Python爬虫面试总结

    ## Python爬虫面试总结 1. 写一个邮箱地址的正则表达式? [A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$ 2. 谈 ...

  5. python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)

    本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...

  6. python爬虫的用途_python爬虫用途

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 专业点来说就是应用多台机器同时实现爬虫任务,这多台机器上的爬虫,就是称作分布式爬 ...

  7. python爬虫文献综述_Python爬虫入门(1):综述

    首先爬虫是什么?网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 根据我的经验,要学习Python爬虫, ...

  8. python爬虫文献综述_Python爬虫入门一之综述

    大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...

  9. python爬虫多线程下载_Python爬虫之多线程下载豆瓣Top250电影图片

    爬虫项目介绍 本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示: 本次爬虫项目将分别不使用多线程和使用多线程 ...

  10. python爬虫面试经验_Python爬虫面试简历 经验分析

    分享之前的爬虫简历,仅供参考,因为技术有限,简历技能点逼格不是很高,但提到的很多爬虫常用技术,都已经写入简历,靠这份简历之前找工作时候2天预约了8家面试,面的第二天,在第4家公司通过拿到offer,后 ...

最新文章

  1. java对象序列化克隆_JAVA 对象克隆和序列化
  2. Cissp-【第3章 安全工程】-2021-2-23(290页-321页)
  3. 编程语言python入门要电脑什么配置能带动-对于几乎是零基础的人,直接学 Python 编程合适吗?...
  4. 机器学习知识点(十)马尔可夫链
  5. Leetcode 860. 柠檬水找零 解题思路及C++实现
  6. java字符型转百分比_小数转换成百分比,转字符串
  7. 1142 Maximal Clique (25 分)【难度: 一般 / 知识点: 模拟】
  8. python使用threading模块实现多线程
  9. 全局中断_实时性迷思(3)——80%时间屏蔽了中断,实时性还有救么?
  10. bind blz mysql_MySQ DBAL重点剖析课程 企业级MySQL系统安全与DBA运维日常事务管理 运维DBA必备宝典...
  11. margin-top失效的解决办法
  12. 论文精读:《电子政务的服务质量、感知价值与公民持续使用意愿——来自中国的实证经验》
  13. ROSE HA高可用性软件介绍(转载)
  14. html视频播放后自动跳转到页面,在html5视频中跳转到currentTime后自动播放(autoplay after jump to currentTime in html5 video)...
  15. java网上图书商城_java网上图书商城(8)订单模块3
  16. 类似京东商城客户端应用iOS源码
  17. remosaic插值算法_手机镜头像素:硬件直出和插值有啥区别?
  18. 基于Proteus学习单片机系列(二)——驱动数码管
  19. php单位有哪些,css中的角度单位有哪些?
  20. SSH tunnel 隧道技术

热门文章

  1. 1.Kubernetes权威指南 --- Kubernetes入门
  2. 5.性能之巅 洞悉系统、企业与云计算 --- 应用程序
  3. 34. HTTP服务的七层架构技术解析及运用
  4. 131. 理解MVC
  5. 2. PHP 编译安装
  6. 1.PHP数据库陷阱
  7. 15. CSS 表格
  8. 59. Event 例子
  9. X64上的IIS調用32位的DLL方法
  10. Groupon的电子邮件营销故事