世界上80%的爬虫是基于Python开发的,学好爬虫技能,可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。

python爬虫需要安装相关库:

python爬虫涉及的库:

请求库,解析库,存储库,工具库

1. 请求库:urllib/re/requests

(1) urllib/re是python默认自带的库,可以通过以下命令进行验证:

没有报错信息输出,说明环境正常

(2) requests安装

2.1 打开CMD,输入pip3 install requests

2.2 等待安装后,验证

(3) selenium安装(驱动浏览器进行网站访问行为)

3.1 打开CMD,输入pip3 install selenium

3.2 安装chromedriver

网址:https://npm.taobao.org/

把下载完成后的压缩包解压,把exe放到D:\Python3.6.0\Scripts\

这个路径只要在PATH变量中就可以

3.3 等待安装完成后,验证

回车后弹出chrome浏览器界面

3.4 安装其他浏览器

无界面浏览器phantomjs

下载网址:http://phantomjs.org/

下载完成后解压,把整个目录放到D:\Python3.6.0\Scripts\,把bin目录的路径添加到PATH变量

验证:

打开CMDphantomjs

console.log('phantomjs')

CTRL C

python

from selenium import webdriver

driver = webdriver.PhantomJS()

dirver.get('http://www.baidu.com')

driver.page_source

2. 解析库:

2.1 lxml (XPATH)

打开CMDpip3 install lxml

或者从https://pypi.python.org下载,例如,lxml-4.1.1-cp36-cp36m-win_amd64.whl (md5) ,先下载whl文件pip3 install 文件名.whl

2.2 beautifulsoup

打开CMD,需要先安装好lxmlpip3 install beautifulsoup4

验证python

from bs4 import BeautifulSoup

soup = BeautifulSoup('','lxml')

2.3 pyquery(类似jquery语法)

打开CMDpip3 install pyquery

验证安装结果python

from pyquery import PyQuery as pq

doc = pq('hi')

result = doc('html').text()

result

3. 存储库

3.1 pymysql(操作MySQL,关系型数据库)

安装:pip3 install pymysql

安装后测试:

3.2 pymongo(操作MongoDB,key-value)

安装pip3 install pymongo

验证python

import pymongo

client = pymongo.MongoClient('localhost')

db = client['testdb']

db['table'].insert({'name':'bob'})

db['table'].find_one({'name':'bob'})

3.3 redis(分布式爬虫,维护爬取队列)

安装:pip3 install redis

验证:

4.工具库

4.1 flask(WEB库)pip3 install flask

4.2 Django(分布式爬虫维护系统)pip3 install django

4.3 jupyter(运行在网页端的记事本,支持markdown,可以在网页上运行代码)pip3 install jupyter

验证:

打开CMDjupyter notebook

之后就可以在网页直接创建记事本,代码块和Markdown块,支持打印

【相关推荐】

1. python爬虫库以及相关利器

2. python爬虫入门教程

爬虫python需要安装吗_python爬虫需要安装什么相关推荐

  1. 爬虫python教程百度云_Python爬虫比较基础的教程视频百度云网盘下载

    Python爬虫比较基础的教程视频百度云网盘下载,目录如下,给编程的朋友学习吧,请大家支持正版! QQ截图20180719110859.jpg (12.41 KB, 下载次数: 27) 2018-7- ...

  2. 爬虫python可以干嘛_python爬虫可以用来做什么?

    1.收集数据 python爬虫程序可用于收集数据.这也是最直接和最常用的方法.由于爬虫程序是一个程序,程序运行得非常快,不会因为重复的事情而感到疲倦,因此使用爬虫程序获取大量数据变得非常简单和快速. ...

  3. 爬虫python下载文献代码_Python爬虫案例:爬取微信公众号文章

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 文章转载于公众号:早起Python 作者:陈熹 大家好,今天我们来讲点Selenium自动化,你是 ...

  4. 爬虫python需要哪些软件_Python爬虫可以应用在哪些地方

    Python爬虫可以应用在哪些地方 发布时间:2020-06-19 14:46:48 来源:亿速云 阅读:118 作者:元一 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页 ...

  5. 爬虫python下载网站所有图片_python爬虫(4):多页图片批量下载-澎湃网信息图...

    澎湃网文章的质量不错,它的"美数课"栏目的信息图做得也很好.图片干货多还能带来ppt和图表制作的技巧.为了更方便浏览所有文章图片,通过分析Ajax爬取栏目至今所有信息图的图片. 但 ...

  6. 爬虫python下载网站所有图片_Python爬虫之下载网页图片

    传统的方式是在想要的图片上鼠标点击右键另存为,或者用截图的方式保存图片,其实我们还可以通过使用简单的Python语言实现图片的下载并保存到本地,下面让我们看看如何实现吧 一.确定图片的URL地址及获取 ...

  7. python爬虫要安装什么_python爬虫之分布式爬虫和部署

    分布式爬虫:爬虫共用同一个爬虫程序,即把同一个爬虫程序同时部署到多台电脑上运行,这样可以提高爬虫速度. 在默认情况下,scrapy爬虫是单机爬虫,只能在一台电脑上运行,因为爬虫调度器当中的队列queu ...

  8. python爬虫之路自学教程_python 爬虫学习之路

    2016-6-18 --今天实现了第一个用urllib2实现的爬虫程序. --过程中发现 req = urllib2.Request(url,headers = headers) 总是报错: 主要原因 ...

  9. origin和python有什么不同_python爬虫之git的使用(origin说明)

    1.首先我们回忆两个命令 #git remote add origin 远程仓库链接 #git push -u origin master 我们一起看看这个命令,git是git的一级命令,push就是 ...

  10. python解析网页数据_python爬虫——爬取网页数据和解析数据

    1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...

最新文章

  1. centos的nginx支持ssl
  2. 项目四-用循环求(2)
  3. JSF----事件处理---动作事件
  4. 计算机网络接入接口设备,一种计算机网络集成接口设备的制作方法
  5. Spring MVC研究之MVC pure string response debug
  6. 无向图g的邻接矩阵一定是_矩阵是图
  7. Linux 中/etc/profile、~/.bash_profile 环境变量执行过程
  8. 云图说 | 分布式缓存服务DCS—站在开源Redis前辈的肩膀上,扬帆起航
  9. Java 视频生成缩略图教程
  10. ar9285网卡驱动 for linux,atheros ar9285无线网卡驱动 免费版
  11. 互联网支付系统整体架构详解
  12. 硬件算法与软件算法实现区别通俗易懂
  13. 127.0.0.1 zxt.php_shmilyzxt/
  14. 基于SpringBoot生鲜商城
  15. 计算机网络-数据链路层 1
  16. MATLAB---制作动画并演示
  17. windows 服务器使用量高导致网络异常
  18. 关于将EXCEL文件导入到MYSQL数据库的一些方法
  19. java根据拼音获取声调_Pinyin4j的基本用法 获得拼音的声调
  20. 趣图:我说自己菜 vs 大佬说自己菜

热门文章

  1. Read Asia Embedded fell
  2. STSegmentedControl
  3. 「leetcode」39. 组合总和【回溯算法】详解!
  4. puppet进阶指南——cron资源详解
  5. Vue cli 入门补充
  6. DigitalRealty公司在达拉斯新建一个数据中心
  7. 使用 IntelliJ IDEA 导入 Spark源码及编译 Spark 源代码
  8. Delphi单元文件引用名称问题
  9. 【转】windows操作系统同步 (Critical Section,Mutex,Semaphore,Event Object,Interlocked Variable)...
  10. mac查看进程 总是忘记