一些较为高效的Python爬虫框架。分享给大家。

1.Scrapy

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。

项目地址:https://scrapy.org/

2.PySpider

pyspider 是一个用python实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优先级等。

项目地址:https://github.com/binux/pyspider

3.Crawley

Crawley可以高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等。

项目地址:http://project.crawley-cloud.com/

4.Portia

Portia是一个开源可视化爬虫工具,可让您在不需要任何编程知识的情况下爬取网站!简单地注释您感兴趣的页面,Portia将创建一个蜘蛛来从类似的页面提取数据。

项目地址:https://github.com/scrapinghub/portia

5.Newspaper

Newspaper可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。

项目地址:https://github.com/codelucas/newspaper

6.Beautiful Soup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。

项目地址:https://www.crummy.com/software/BeautifulSoup/bs4/doc/

7.Grab

Grab是一个用于构建Web刮板的Python框架。借助Grab,您可以构建各种复杂的网页抓取工具,从简单的5行脚本到处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容,例如与HTML文档的DOM树进行交互。

项目地址:http://docs.grablib.org/en/latest/#grab-spider-user-manual

8.Cola

Cola是一个分布式的爬虫框架,对于用户来说,只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。

项目地址:https://github.com/chineking/cola

Python爬虫:常用的爬虫工具汇总

将工具按照以上分类说明,按照学习路线顺序给出参考文章

一、页面下载器

  1. requests(必学)
    1. python爬虫入门requests模块
    2. Python爬虫:requests库基本使用
    3. Python爬虫:使用requests库下载大文件
    4. Python爬虫:requests多进程爬取猫眼电影榜单
    5. requests InsecureRequestWarning: Unverified HTTPS request is being made.
  1. scrapy
    1. Python网络爬虫之scrapy框架
    2. scrapy学习
    3. Python爬虫:关于scrapy模块的请求头
    4. Python爬虫:scrapy框架请求参数meta、headers、cookies一探究竟
    5. Python爬虫:scrapy辅助功能实用函数
  2. selenium+chrome + PhantomJS(抓取动态网页,不推荐)
    1. mac下安装selenium+phantomjs+chromedriver
    2. Python爬虫:selenium模块基本使用
    3. Python爬虫selenium模块
    4. Python爬虫:selenium和Chrome无头浏览器抓取烯牛数据动态网页
    5. Python爬虫:利用selenium爬取淘宝商品信息
    6. Python爬虫:selenium使用chrome和PhantomJS实用参数
  1. Splash(抓取动态网页,推荐)
    1. Python爬虫:splash的安装与简单示例
    2. Python爬虫:splash+requests简单示例
    3. Python爬虫:scrapy利用splash爬取动态网页

总结: 对于下载器而言,python自带的urllib就不要花时间去学了,学了就忘,直接requests能满足大部分测试+抓取需求,进阶工程化scrapy,动态网页优先找API接口,如果有简单加密就破解,实在困难就使用splash渲染

二、页面解析器

  1. BeautifulSoup(入门级)
    1. Python爬虫入门BeautifulSoup模块
  1. pyquery (类似jQuery)
    1. Python爬虫:pyquery模块解析网页
  2. lxml
    1. Python爬虫:使用lxml解析网页内容
  1. parsel
    1. Extract text using CSS or XPath selectors
  2. scrapy的Selector (强烈推荐, 比较高级的封装,基于parsel)
    1. 选择器(Selectors)
    2. python爬虫:scrapy框架xpath和css选择器语法

总结: 其实解析器学习一个就够了,其他都不用学,很多培训会教你从上到下的学习,我不是很推荐,直接学习scrapy的Selector 就行,简单、直接、高效

三、数据存储

  1. txt文本
    1. Python全栈之路:文件file常用操作
  1. csv文件
    1. python读取写入csv文件
  2. sqlite3 (python自带)
    1. Python编程:使用数据库sqlite3
  1. MySQL
    1. SQL:pymysql模块读写mysql数据
  2. MongoDB
    1. Python编程:mongodb的基本增删改查操作

总结: 数据存储没有什么可深究的,按照业务需求来就行,一般快速测试使用MongoDB,业务使用MySQL

四、其他工具

  1. execjs :执行js Python爬虫:execjs在python中运行javascript代码
  2. pyv8: 执行js mac安装pyv8模块-JavaScript翻译成python
  3. html5lib 1. Python爬虫:scrapy利用html5lib解析不规范的html文本

五、关于xpath练习

本人的一个开源项目:PageParser https://github.com/mouday/PageParser 用于解析网页,最终实现6行代码写爬虫,可以贡献代码,顺便练习网页解析的能力


http://www.taodudu.cc/news/show-1069822.html

相关文章:

  • python中mysql更新字段中传参问题
  • 大数据技术和python开发工程师
  • linux不挂断运行python文件
  • 超级好用的使用python批量更新MYsql,速度从一万条需要一天变道一万条需要10分钟左右
  • svn中文语言包安装(最详细步骤)+Language Pack+TortoiseSVN 安装
  • 仅使用numpy从头开始实现神经网络,包括反向传播公式推导过程
  • CV模型,全目标检测等
  • 揭秘Python并发编程——协程
  • 服务器部署docker
  • 谷歌大改Transformer注意力,速度、内存利用率都提上去了-新的 Transformer 架构——Performer
  • docker 部署Python项目 以及dockerfile文件的编写
  • 各种服务常用端口号的含义
  • Docker的基本使用(部署python项目)+两个奇技淫巧,将 Docker 镜像体积减小 99%
  • docker -v -it -p 详细说明
  • urllib.request.urlopen(req).read().decode解析http报文报“‘utf-8‘ codec can‘t decode”错处理
  • 【Python】解决urllib返回http error 503问题
  • python list保存至csv文件
  • docker的简单操作和端口映射
  • Selenium爬虫
  • selenium.common.exceptions.WebDriverException: Message: ‘chromedriver’解决
  • 基于Flask+Nginx+uWSGI实现CentOS服务端模型部署及预加载
  • 基于深度学习的信息抽取技术
  • 使用docker部署flask项目
  • Docker镜像大小
  • NLP算法落地相关的应用场景以及业界最新动态
  • 智能写作
  • 基于PaddleRec的用户点击率预测
  • 腾讯-视频打标签算法探讨
  • 面向中文自然语言处理的60余类系统开源实践项目与工业探索索引
  • 爬取热门网站的热榜,集中展示

2020年8个效率最高的爬虫框架相关推荐

  1. python开发效率最高_公认8个效率最高的爬虫框架

    一些较为高效的Python爬虫框架.分享给大家. 1.Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中 ...

  2. python爬虫框架排行榜-公认8个效率最高的爬虫框架

    一些较为高效的Python爬虫框架.分享给大家. 1.Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中 ...

  3. python 爬虫库比较_公认8个效率最高的爬虫框架

    一些较为高效的Python爬虫框架.分享给大家. 1.Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中 ...

  4. python做爬虫 怎么样效率最高_公认8个效率最高的爬虫框架

    一些较为高效的Python爬虫框架.分享给大家. 1.Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中 ...

  5. 【数据分析】干货!一文教会你 Scrapy 爬虫框架的基本使用

    出品:Python数据之道 (ID:PyDataLab) 作者:叶庭云 编辑:Lemon 一.scrapy 爬虫框架介绍 在编写爬虫的时候,如果我们使用 requests.aiohttp 等库,需要从 ...

  6. python 爬虫框架_Python实战:爬虫框架(6)

    数据挖掘 用于通过互联网到各个服务器获取数据 数据 公开数据:客户端浏览器访问网页所看到的数据 隐私数据:服务器内部没有暴露,具有隐私权限的数据 爬虫 网络爬虫:公开数据 蠕虫爬虫:携带具有攻击性病毒 ...

  7. 用Scrapy爬虫框架爬取食品论坛数据并存入数据库

    这篇文章主要给大家介绍了食品网站的数据采集和存储过程,详解了如何分析网页结构.爬虫策略.网站类型.层级关系.爬虫方法和数据存储过程,最终实现将帖子的每条评论爬取到数据库中,并且做到可以更新数据,防止重 ...

  8. 爬虫抓取页面数据原理(php爬虫框架有很多 )

    爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...

  9. python好用-Python有哪些常见的、好用的爬虫框架?

    在这里推荐几个值得关注的异步爬虫库,给你的爬虫提速.看看有没有你没听过的? 类似 Requests 的库为什么要推荐类似 Requests 的库呢?Requests 不够好吗? 虽然 Requests ...

最新文章

  1. 大三本科生获最佳短论文奖,清华大学狂揽信息检索顶会SIGIR 2020多个奖项
  2. ubuntu15.04中安装mysql和mysql-workbench
  3. plc tcp ip通讯怎么只能连一个客户端_浅谈西门子plc的profinet功能的开放式通信功能...
  4. 面向侧面的程序设计AOP-------《二》本质
  5. echarts地图json实现
  6. dmp只导数据不导结构_今日头条快消食品推广CVR为何高达4.40%?原来DMP定向这么好...
  7. 世上最齐全黑链(隐藏链接)代码大全
  8. 电商购物后台管理系统总结
  9. 公差带与配合 常用基轴制公差带的相互关系
  10. 制作网络畅销排行榜 HTML 关键代码
  11. 希捷硬盘查询保修期限的网址
  12. 使用gensim训练维基百科
  13. 读 Robert C. Solomon 之《大问题:简明哲学导论》兼序
  14. Android视频加水印和压缩
  15. 区块链是新的 Linux 而非新的互联网
  16. 职场饭桌:酒桌上的规矩,与领导吃饭如何谈话
  17. 【软件教程】解决kali无法和windows实现复制黏贴互通
  18. 通向互联网未来的七个路标
  19. 寄存器 内存 磁盘 读取速度
  20. 16进制高精度计算的加减乘20211001

热门文章

  1. boost::scoped_ptr与std::unique_ptr
  2. C/C++语言void及void指针深层探索
  3. 51单片机——硬件基础
  4. java 调用python_Java平台如何调用Python平台?
  5. 核酸结果统计难?130行代码实现基于ocr的核酸截图识别存储Excel(复现代码核查核酸报告)
  6. python的最受欢迎的库_2018年最受欢迎的15个Python库
  7. LeetCode 6062. 设计一个 ATM 机器
  8. LeetCode 1833. 雪糕的最大数量(贪心)
  9. 阿里云 超级码力在线编程大赛初赛 第2场 题目1. 三角魔法
  10. 南通大学python期末考试试卷答案_南通大学2015-2016年1学期《软工》作业点评总结...