爬虫python需要安装吗_python爬虫需要安装什么

世界上80%的爬虫是基于Python开发的，学好爬虫技能，可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。

python爬虫需要安装相关库：

python爬虫涉及的库：

请求库，解析库，存储库，工具库

1. 请求库：urllib/re/requests

(1) urllib/re是python默认自带的库，可以通过以下命令进行验证：

没有报错信息输出，说明环境正常

(2) requests安装

2.1 打开CMD，输入pip3 install requests

2.2 等待安装后，验证

(3) selenium安装(驱动浏览器进行网站访问行为)

3.1 打开CMD，输入pip3 install selenium

3.2 安装chromedriver

网址：https://npm.taobao.org/

把下载完成后的压缩包解压，把exe放到D:\Python3.6.0\Scripts\

这个路径只要在PATH变量中就可以

3.3 等待安装完成后，验证

回车后弹出chrome浏览器界面

3.4 安装其他浏览器

无界面浏览器phantomjs

下载网址：http://phantomjs.org/

下载完成后解压，把整个目录放到D:\Python3.6.0\Scripts\，把bin目录的路径添加到PATH变量

验证：

打开CMDphantomjs

console.log('phantomjs')

CTRL C

python

from selenium import webdriver

driver = webdriver.PhantomJS()

dirver.get('http://www.baidu.com')

driver.page_source

2. 解析库：

2.1 lxml (XPATH)

打开CMDpip3 install lxml

或者从https://pypi.python.org下载，例如，lxml-4.1.1-cp36-cp36m-win_amd64.whl (md5) ,先下载whl文件pip3 install 文件名.whl

2.2 beautifulsoup

打开CMD，需要先安装好lxmlpip3 install beautifulsoup4

验证python

from bs4 import BeautifulSoup

soup = BeautifulSoup('','lxml')

2.3 pyquery(类似jquery语法)

打开CMDpip3 install pyquery

验证安装结果python

from pyquery import PyQuery as pq

doc = pq('hi')

result = doc('html').text()

result

3. 存储库

3.1 pymysql(操作MySQL，关系型数据库)

安装：pip3 install pymysql

安装后测试：

3.2 pymongo(操作MongoDB，key-value)

安装pip3 install pymongo

验证python

import pymongo

client = pymongo.MongoClient('localhost')

db = client['testdb']

db['table'].insert({'name':'bob'})

db['table'].find_one({'name':'bob'})

3.3 redis(分布式爬虫，维护爬取队列)

安装：pip3 install redis

验证：

4.工具库

4.1 flask(WEB库)pip3 install flask

4.2 Django(分布式爬虫维护系统)pip3 install django

4.3 jupyter(运行在网页端的记事本，支持markdown，可以在网页上运行代码)pip3 install jupyter

验证：

打开CMDjupyter notebook

之后就可以在网页直接创建记事本，代码块和Markdown块，支持打印

【相关推荐】

1. python爬虫库以及相关利器

2. python爬虫入门教程

爬虫python需要安装吗_python爬虫需要安装什么相关推荐

爬虫python教程百度云_Python爬虫比较基础的教程视频百度云网盘下载
Python爬虫比较基础的教程视频百度云网盘下载,目录如下,给编程的朋友学习吧,请大家支持正版! QQ截图20180719110859.jpg (12.41 KB, 下载次数: 27) 2018-7- ...
爬虫python可以干嘛_python爬虫可以用来做什么？
1.收集数据 python爬虫程序可用于收集数据.这也是最直接和最常用的方法.由于爬虫程序是一个程序,程序运行得非常快,不会因为重复的事情而感到疲倦,因此使用爬虫程序获取大量数据变得非常简单和快速. ...
爬虫python下载文献代码_Python爬虫案例：爬取微信公众号文章
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 文章转载于公众号:早起Python 作者:陈熹大家好,今天我们来讲点Selenium自动化,你是 ...
爬虫python需要哪些软件_Python爬虫可以应用在哪些地方
Python爬虫可以应用在哪些地方发布时间:2020-06-19 14:46:48 来源:亿速云阅读:118 作者:元一网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页 ...
爬虫python下载网站所有图片_python爬虫（4）：多页图片批量下载-澎湃网信息图...
澎湃网文章的质量不错,它的"美数课"栏目的信息图做得也很好.图片干货多还能带来ppt和图表制作的技巧.为了更方便浏览所有文章图片,通过分析Ajax爬取栏目至今所有信息图的图片. 但 ...
爬虫python下载网站所有图片_Python爬虫之下载网页图片
传统的方式是在想要的图片上鼠标点击右键另存为,或者用截图的方式保存图片,其实我们还可以通过使用简单的Python语言实现图片的下载并保存到本地,下面让我们看看如何实现吧一.确定图片的URL地址及获取 ...
python爬虫要安装什么_python爬虫之分布式爬虫和部署
分布式爬虫:爬虫共用同一个爬虫程序,即把同一个爬虫程序同时部署到多台电脑上运行,这样可以提高爬虫速度. 在默认情况下,scrapy爬虫是单机爬虫,只能在一台电脑上运行,因为爬虫调度器当中的队列queu ...
python爬虫之路自学教程_python 爬虫学习之路
2016-6-18 --今天实现了第一个用urllib2实现的爬虫程序. --过程中发现 req = urllib2.Request(url,headers = headers) 总是报错: 主要原因 ...
origin和python有什么不同_python爬虫之git的使用（origin说明）
1.首先我们回忆两个命令 #git remote add origin 远程仓库链接 #git push -u origin master 我们一起看看这个命令,git是git的一级命令,push就是 ...
python解析网页数据_python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...

爬虫python需要安装吗_python爬虫需要安装什么

爬虫python需要安装吗_python爬虫需要安装什么相关推荐

最新文章

热门文章