一些较为高效的Python爬虫框架。分享给大家。

1.Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。

项目地址：https://scrapy.org/

2.PySpider

pyspider 是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储，还能定时设置任务与任务优先级等。

项目地址：https://github.com/binux/pyspider

3.Crawley

Crawley可以高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。

项目地址：http://project.crawley-cloud.com/

4.Portia

Portia是一个开源可视化爬虫工具，可让您在不需要任何编程知识的情况下爬取网站！简单地注释您感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。

项目地址：https://github.com/scrapinghub/portia

5.Newspaper

Newspaper可以用来提取新闻、文章和内容分析。使用多线程，支持10多种语言等。

项目地址：https://github.com/codelucas/newspaper

6.Beautiful Soup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。

项目地址：https://www.crummy.com/software/BeautifulSoup/bs4/doc/

7.Grab

Grab是一个用于构建Web刮板的Python框架。借助Grab，您可以构建各种复杂的网页抓取工具，从简单的5行脚本到处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容，例如与HTML文档的DOM树进行交互。

项目地址：http://docs.grablib.org/en/latest/#grab-spider-user-manual

8.Cola

Cola是一个分布式的爬虫框架，对于用户来说，只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。

项目地址：https://github.com/chineking/cola

Python爬虫：常用的爬虫工具汇总

将工具按照以上分类说明，按照学习路线顺序给出参考文章

一、页面下载器

requests(必学)
1. python爬虫入门requests模块
2. Python爬虫：requests库基本使用
3. Python爬虫：使用requests库下载大文件
4. Python爬虫：requests多进程爬取猫眼电影榜单
5. requests InsecureRequestWarning: Unverified HTTPS request is being made.

scrapy
1. Python网络爬虫之scrapy框架
2. scrapy学习
3. Python爬虫：关于scrapy模块的请求头
4. Python爬虫：scrapy框架请求参数meta、headers、cookies一探究竟
5. Python爬虫：scrapy辅助功能实用函数
selenium+chrome + PhantomJS(抓取动态网页，不推荐)
1. mac下安装selenium+phantomjs+chromedriver
2. Python爬虫：selenium模块基本使用
3. Python爬虫selenium模块
4. Python爬虫：selenium和Chrome无头浏览器抓取烯牛数据动态网页
5. Python爬虫：利用selenium爬取淘宝商品信息
6. Python爬虫：selenium使用chrome和PhantomJS实用参数

Splash(抓取动态网页，推荐)
1. Python爬虫：splash的安装与简单示例
2. Python爬虫：splash+requests简单示例
3. Python爬虫：scrapy利用splash爬取动态网页

总结：对于下载器而言，python自带的urllib就不要花时间去学了，学了就忘，直接requests能满足大部分测试+抓取需求，进阶工程化scrapy，动态网页优先找API接口，如果有简单加密就破解，实在困难就使用splash渲染

二、页面解析器

BeautifulSoup(入门级)
1. Python爬虫入门BeautifulSoup模块

pyquery （类似jQuery）
1. Python爬虫：pyquery模块解析网页
lxml
1. Python爬虫：使用lxml解析网页内容

parsel
1. Extract text using CSS or XPath selectors
scrapy的Selector (强烈推荐, 比较高级的封装，基于parsel)
1. 选择器(Selectors)
2. python爬虫：scrapy框架xpath和css选择器语法

总结：其实解析器学习一个就够了，其他都不用学，很多培训会教你从上到下的学习，我不是很推荐，直接学习scrapy的Selector 就行，简单、直接、高效

三、数据存储

txt文本
1. Python全栈之路：文件file常用操作

csv文件
1. python读取写入csv文件
sqlite3 （python自带）
1. Python编程：使用数据库sqlite3

MySQL
1. SQL：pymysql模块读写mysql数据
MongoDB
1. Python编程：mongodb的基本增删改查操作

总结：数据存储没有什么可深究的，按照业务需求来就行，一般快速测试使用MongoDB，业务使用MySQL

四、其他工具

execjs ：执行js Python爬虫：execjs在python中运行javascript代码
pyv8: 执行js mac安装pyv8模块-JavaScript翻译成python
html5lib 1. Python爬虫：scrapy利用html5lib解析不规范的html文本

五、关于xpath练习

本人的一个开源项目：PageParser https://github.com/mouday/PageParser 用于解析网页，最终实现6行代码写爬虫，可以贡献代码，顺便练习网页解析的能力

查看全文

http://www.taodudu.cc/news/show-1069822.html

python中mysql更新字段中传参问题
大数据技术和python开发工程师
linux不挂断运行python文件
超级好用的使用python批量更新MYsql，速度从一万条需要一天变道一万条需要10分钟左右
svn中文语言包安装(最详细步骤)+Language Pack+TortoiseSVN 安装
仅使用numpy从头开始实现神经网络,包括反向传播公式推导过程
CV模型，全目标检测等
揭秘Python并发编程——协程
服务器部署docker
谷歌大改Transformer注意力，速度、内存利用率都提上去了-新的 Transformer 架构——Performer
docker 部署Python项目以及dockerfile文件的编写
各种服务常用端口号的含义
Docker的基本使用(部署python项目)+两个奇技淫巧，将 Docker 镜像体积减小 99%
docker -v -it -p 详细说明
urllib.request.urlopen(req).read().decode解析http报文报“‘utf-8‘ codec can‘t decode”错处理
【Python】解决urllib返回http error 503问题
python list保存至csv文件
docker的简单操作和端口映射
Selenium爬虫
selenium.common.exceptions.WebDriverException: Message: ‘chromedriver’解决
基于Flask+Nginx+uWSGI实现CentOS服务端模型部署及预加载
基于深度学习的信息抽取技术
使用docker部署flask项目
Docker镜像大小
NLP算法落地相关的应用场景以及业界最新动态
智能写作
基于PaddleRec的用户点击率预测
腾讯-视频打标签算法探讨
面向中文自然语言处理的60余类系统开源实践项目与工业探索索引
爬取热门网站的热榜，集中展示

2020年8个效率最高的爬虫框架相关推荐

python开发效率最高_公认8个效率最高的爬虫框架
一些较为高效的Python爬虫框架.分享给大家. 1.Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中 ...
python爬虫框架排行榜-公认8个效率最高的爬虫框架
一些较为高效的Python爬虫框架.分享给大家. 1.Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中 ...
python 爬虫库比较_公认8个效率最高的爬虫框架
一些较为高效的Python爬虫框架.分享给大家. 1.Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中 ...
python做爬虫怎么样效率最高_公认8个效率最高的爬虫框架
一些较为高效的Python爬虫框架.分享给大家. 1.Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中 ...
【数据分析】干货！一文教会你 Scrapy 爬虫框架的基本使用
出品:Python数据之道 (ID:PyDataLab) 作者:叶庭云编辑:Lemon 一.scrapy 爬虫框架介绍在编写爬虫的时候,如果我们使用 requests.aiohttp 等库,需要从 ...
python 爬虫框架_Python实战：爬虫框架（6）
数据挖掘用于通过互联网到各个服务器获取数据数据公开数据:客户端浏览器访问网页所看到的数据隐私数据:服务器内部没有暴露,具有隐私权限的数据爬虫网络爬虫:公开数据蠕虫爬虫:携带具有攻击性病毒 ...
用Scrapy爬虫框架爬取食品论坛数据并存入数据库
这篇文章主要给大家介绍了食品网站的数据采集和存储过程,详解了如何分析网页结构.爬虫策略.网站类型.层级关系.爬虫方法和数据存储过程,最终实现将帖子的每条评论爬取到数据库中,并且做到可以更新数据,防止重 ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
python好用-Python有哪些常见的、好用的爬虫框架？
在这里推荐几个值得关注的异步爬虫库,给你的爬虫提速.看看有没有你没听过的? 类似 Requests 的库为什么要推荐类似 Requests 的库呢?Requests 不够好吗? 虽然 Requests ...

2020年8个效率最高的爬虫框架