爬虫python需要安装吗_python爬虫需要安装什么
世界上80%的爬虫是基于Python开发的,学好爬虫技能,可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。
python爬虫需要安装相关库:
python爬虫涉及的库:
请求库,解析库,存储库,工具库
1. 请求库:urllib/re/requests
(1) urllib/re是python默认自带的库,可以通过以下命令进行验证:
没有报错信息输出,说明环境正常
(2) requests安装
2.1 打开CMD,输入pip3 install requests
2.2 等待安装后,验证
(3) selenium安装(驱动浏览器进行网站访问行为)
3.1 打开CMD,输入pip3 install selenium
3.2 安装chromedriver
网址:https://npm.taobao.org/
把下载完成后的压缩包解压,把exe放到D:\Python3.6.0\Scripts\
这个路径只要在PATH变量中就可以
3.3 等待安装完成后,验证
回车后弹出chrome浏览器界面
3.4 安装其他浏览器
无界面浏览器phantomjs
下载网址:http://phantomjs.org/
下载完成后解压,把整个目录放到D:\Python3.6.0\Scripts\,把bin目录的路径添加到PATH变量
验证:
打开CMDphantomjs
console.log('phantomjs')
CTRL C
python
from selenium import webdriver
driver = webdriver.PhantomJS()
dirver.get('http://www.baidu.com')
driver.page_source
2. 解析库:
2.1 lxml (XPATH)
打开CMDpip3 install lxml
或者从https://pypi.python.org下载,例如,lxml-4.1.1-cp36-cp36m-win_amd64.whl (md5) ,先下载whl文件pip3 install 文件名.whl
2.2 beautifulsoup
打开CMD,需要先安装好lxmlpip3 install beautifulsoup4
验证python
from bs4 import BeautifulSoup
soup = BeautifulSoup('','lxml')
2.3 pyquery(类似jquery语法)
打开CMDpip3 install pyquery
验证安装结果python
from pyquery import PyQuery as pq
doc = pq('hi')
result = doc('html').text()
result
3. 存储库
3.1 pymysql(操作MySQL,关系型数据库)
安装:pip3 install pymysql
安装后测试:
3.2 pymongo(操作MongoDB,key-value)
安装pip3 install pymongo
验证python
import pymongo
client = pymongo.MongoClient('localhost')
db = client['testdb']
db['table'].insert({'name':'bob'})
db['table'].find_one({'name':'bob'})
3.3 redis(分布式爬虫,维护爬取队列)
安装:pip3 install redis
验证:
4.工具库
4.1 flask(WEB库)pip3 install flask
4.2 Django(分布式爬虫维护系统)pip3 install django
4.3 jupyter(运行在网页端的记事本,支持markdown,可以在网页上运行代码)pip3 install jupyter
验证:
打开CMDjupyter notebook
之后就可以在网页直接创建记事本,代码块和Markdown块,支持打印
【相关推荐】
1. python爬虫库以及相关利器
2. python爬虫入门教程
爬虫python需要安装吗_python爬虫需要安装什么相关推荐
- 爬虫python教程百度云_Python爬虫比较基础的教程视频百度云网盘下载
Python爬虫比较基础的教程视频百度云网盘下载,目录如下,给编程的朋友学习吧,请大家支持正版! QQ截图20180719110859.jpg (12.41 KB, 下载次数: 27) 2018-7- ...
- 爬虫python可以干嘛_python爬虫可以用来做什么?
1.收集数据 python爬虫程序可用于收集数据.这也是最直接和最常用的方法.由于爬虫程序是一个程序,程序运行得非常快,不会因为重复的事情而感到疲倦,因此使用爬虫程序获取大量数据变得非常简单和快速. ...
- 爬虫python下载文献代码_Python爬虫案例:爬取微信公众号文章
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 文章转载于公众号:早起Python 作者:陈熹 大家好,今天我们来讲点Selenium自动化,你是 ...
- 爬虫python需要哪些软件_Python爬虫可以应用在哪些地方
Python爬虫可以应用在哪些地方 发布时间:2020-06-19 14:46:48 来源:亿速云 阅读:118 作者:元一 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页 ...
- 爬虫python下载网站所有图片_python爬虫(4):多页图片批量下载-澎湃网信息图...
澎湃网文章的质量不错,它的"美数课"栏目的信息图做得也很好.图片干货多还能带来ppt和图表制作的技巧.为了更方便浏览所有文章图片,通过分析Ajax爬取栏目至今所有信息图的图片. 但 ...
- 爬虫python下载网站所有图片_Python爬虫之下载网页图片
传统的方式是在想要的图片上鼠标点击右键另存为,或者用截图的方式保存图片,其实我们还可以通过使用简单的Python语言实现图片的下载并保存到本地,下面让我们看看如何实现吧 一.确定图片的URL地址及获取 ...
- python爬虫要安装什么_python爬虫之分布式爬虫和部署
分布式爬虫:爬虫共用同一个爬虫程序,即把同一个爬虫程序同时部署到多台电脑上运行,这样可以提高爬虫速度. 在默认情况下,scrapy爬虫是单机爬虫,只能在一台电脑上运行,因为爬虫调度器当中的队列queu ...
- python爬虫之路自学教程_python 爬虫学习之路
2016-6-18 --今天实现了第一个用urllib2实现的爬虫程序. --过程中发现 req = urllib2.Request(url,headers = headers) 总是报错: 主要原因 ...
- origin和python有什么不同_python爬虫之git的使用(origin说明)
1.首先我们回忆两个命令 #git remote add origin 远程仓库链接 #git push -u origin master 我们一起看看这个命令,git是git的一级命令,push就是 ...
- python解析网页数据_python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...
最新文章
- centos的nginx支持ssl
- 项目四-用循环求(2)
- JSF----事件处理---动作事件
- 计算机网络接入接口设备,一种计算机网络集成接口设备的制作方法
- Spring MVC研究之MVC pure string response debug
- 无向图g的邻接矩阵一定是_矩阵是图
- Linux 中/etc/profile、~/.bash_profile 环境变量执行过程
- 云图说 | 分布式缓存服务DCS—站在开源Redis前辈的肩膀上,扬帆起航
- Java 视频生成缩略图教程
- ar9285网卡驱动 for linux,atheros ar9285无线网卡驱动 免费版
- 互联网支付系统整体架构详解
- 硬件算法与软件算法实现区别通俗易懂
- 127.0.0.1 zxt.php_shmilyzxt/
- 基于SpringBoot生鲜商城
- 计算机网络-数据链路层 1
- MATLAB---制作动画并演示
- windows 服务器使用量高导致网络异常
- 关于将EXCEL文件导入到MYSQL数据库的一些方法
- java根据拼音获取声调_Pinyin4j的基本用法 获得拼音的声调
- 趣图:我说自己菜 vs 大佬说自己菜
热门文章
- Read Asia Embedded fell
- STSegmentedControl
- 「leetcode」39. 组合总和【回溯算法】详解!
- puppet进阶指南——cron资源详解
- Vue cli 入门补充
- DigitalRealty公司在达拉斯新建一个数据中心
- 使用 IntelliJ IDEA 导入 Spark源码及编译 Spark 源代码
- Delphi单元文件引用名称问题
- 【转】windows操作系统同步 (Critical Section,Mutex,Semaphore,Event Object,Interlocked Variable)...
- mac查看进程 总是忘记