网络爬虫就是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。今天小编特意整理了一些实用的Python爬虫小工具,希望对大家的工作学习有帮助。


通用

urllib -网络库(stdlib)。

requests -网络库。

grab – 网络库(基于pycurl)。

pycurl – 网络库(绑定libcurl)。

urllib3 – Python HTTP库,安全连接池、支持文件post、可用性高。

httplib2 – 网络库。

RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。

MechanicalSoup – 一个与网站自动交互Python库。

mechanize -有状态、可编程的Web浏览库。

socket – 底层网络接口(stdlib)。

Unirest for Python – Unirest是一套可用于多种语言的轻量级的HTTP库。

hyper – Python的HTTP/2客户端。

PySocks – SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征。作为socket模块的直接替换。

异步

treq – 类似于requests的API(基于twisted)。

aiohttp – asyncio的HTTP客户端/服务器(PEP-3156)。

 

网络爬虫框架

grab – 网络爬虫框架(基于pycurl/multicur)。

scrapy – 网络爬虫框架(基于twisted)。

pyspider – 一个强大的爬虫系统。

cola – 一个分布式爬虫框架。

 

HTML/XML解析器

通用

lxml – C语言编写高效HTML/ XML处理库。支持XPath。

cssselect – 解析DOM树和CSS选择器。

pyquery – 解析DOM树和jQuery选择器。

BeautifulSoup – 低效HTML/ XML处理库,纯Python实现。

html5lib – 根据WHATWG规范生成HTML/ XML文档的DOM。该规范被用在现在所有的浏览器上。

feedparser – 解析RSS/ATOM feeds。

MarkupSafe – 为XML/HTML/XHTML提供了安全转义的字符串。

xmltodict – 一个可以让你在处理XML时感觉像在处理JSON一样的Python模块。

xhtml2pdf – 将HTML/CSS转换为PDF。

untangle – 轻松实现将XML文件转换为Python对象。

 

字符编码

uniout – 打印可读字符,而不是被转义的字符串。

chardet – 兼容 Python的2/3的字符编码器。

xpinyin – 一个将中国汉字转为拼音的库。

pangu.py – 格式化文本中CJK和字母数字的间距。

 

Markdown

Python-Markdown – 一个用Python实现的John Gruber的Markdown。

Mistune – 速度最快,功能全面的Markdown纯Python解析器。

markdown2 – 一个完全用Python实现的快速的Markdown。

 

自然语言处理

处理人类语言问题的库

NLTK -编写Python程序来处理人类语言数据的最好平台。

Pattern – Python的网络挖掘模块。他有自然语言处理工具,机器学习以及其它。

TextBlob – 为深入自然语言处理任务提供了一致的API。是基于NLTK以及Pattern的巨人之肩上发展的。

jieba – 中文分词工具。

SnowNLP – 中文文本处理库。

loso – 另一个中文分词库。

genius – 基于条件随机域的中文分词。

langid.py – 独立的语言识别系统。

PyPLN – 用Python编写的分布式自然语言处理通道。这个项目的目标是创建一种简单的方法使用NLTK通过网络接口处理大语言库。

 

浏览器自动化与仿真

selenium – 自动化真正的浏览器(Chrome浏览器,火狐浏览器,Opera浏览器,IE浏览器)。

Ghost.py – 对PyQt的webkit的封装(需要PyQT)。

Spynner – 对PyQt的webkit的封装(需要PyQT)。

Splinter – 通用API浏览器模拟器(selenium web驱动,Django客户端,Zope)。

 

多重处理

threading – Python标准库的线程运行。对于I/O密集型任务很有效。对于CPU绑定的任务没用,因为python GIL。

multiprocessing – 标准的Python库运行多进程。

celery – 基于分布式消息传递的异步任务队列/作业队列。

concurrent-futures – concurrent-futures 模块为调用异步执行提供了一个高层次的接口。

 

异步

异步网络编程库

asyncio – (在Python 3.4 +版本以上的 Python标准库)异步I/O,时间循环,协同程序和任务。

Twisted – 基于事件驱动的网络引擎框架。

Tornado – 一个网络框架和异步网络库。

pulsar – Python事件驱动的并发框架。

diesel – Python的基于绿色事件的I/O框架。

gevent – 一个使用greenlet 的基于协程的Python网络库。

eventlet – 有WSGI支持的异步框架。

Tomorrow – 异步代码的奇妙的修饰语法。

 

队列

celery – 基于分布式消息传递的异步任务队列/作业队列。

huey – 小型多线程任务队列。

mrq – Mr. Queue – 使用redis & Gevent 的Python分布式工作任务队列。

RQ – 基于Redis的轻量级任务队列管理器。

simpleq – 一个简单的,可无限扩展,基于Amazon SQS的队列。

python-gearman – Gearman的Python API。

 

HTML页面的文本和元数据

newspaper – 用Python进行新闻提取、文章提取和内容策展。

html2text – 将HTML转为Markdown格式文本。

python-goose – HTML内容/文章提取器。

lassie – 人性化的网页内容检索工具

micawber – 一个从网址中提取丰富内容的小库。

sumy -一个自动汇总文本文件和HTML网页的模块

Haul – 一个可扩展的图像爬虫。

python-readability – arc90 readability工具的快速Python接口。

scrapely – 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例,scrapely为所有类似的网页构建一个分析器。

转载于:https://blog.51cto.com/14069759/2329057

全网最全Python爬虫工具使用指南相关推荐

  1. 全网最全python爬虫+数据分析资源整理

    4.29(第二天) 开篇词 你为什么需要数据分析能力? 第一模块:数据分析基础篇 (16讲) 01丨数据分析全景图及修炼指南 02丨学习数据挖掘的最佳路径是什么? 03丨Python基础语法:开始你的 ...

  2. 史上最全 Python 爬虫工具列表大全,赶快收藏一波

    这个列表包含与网页抓取和数据处理的Python库. 网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycurl). pycurl – 网 ...

  3. 全网最全python爬虫精进

    个人公众号 yk 坤帝 获取更多学习资料 之前我们讨论了一下请求和响应,接下来几天我们都会讨论对数据的处理. 接触了爬虫这个领域,大家肯定都听过正则表达式的鼎鼎大名,不过今天我们暂时不谈正则,我们先来 ...

  4. 全网最全python爬虫精进(体系学习)学完可就业(附源代码)

    之前我们讨论了一下请求和响应,接下来几天我们都会讨论对数据的处理. 接触了爬虫这个领域,大家肯定都听过正则表达式的鼎鼎大名,不过今天我们暂时不谈正则,我们先来讨论一下数据的简单处理,为之后的正则表达式 ...

  5. 全网最全python爬虫系统进阶学习(附原代码)学完可就业

    个人公众号 yk 坤帝 后台回复 爬虫进阶 获取全部源代码 5.2(第二天) 第一章 爬虫介绍 1.认识爬虫 第二章:requests实战(基础爬虫) 1.豆瓣电影爬取 2.肯德基餐厅查询 3.破解百 ...

  6. python爬虫作用小工具_【python小课堂|史上最全的Python爬虫工具列表大全】- 环球网校...

    [摘要]在这个科学技术高速发展的时代,越来越多的人都开始选择学习编程软件,那么首先被大家选择的编程软件就是python,也用在各行各业之中,并被大家所熟知,所以也有python学习者关注Python爬 ...

  7. 简单快捷的 Python 爬虫工具:SmartScraper

    大家好. 今天给大家介绍一款简单.自动且快捷的Python爬虫工具SmartScraper.SmartScraper使页面数据抓取变得容易,不再需要学习诸如pyquery.beautifulsoup等 ...

  8. python金融分析小知识(12)——python爬虫工具xpath使用

    Hello 大家好,我是一名新来的金融领域打工人,日常分享一些python知识,都是自己在学习生活中遇到的一些问题,分享给大家,希望对大家有一定的帮助! 本篇文章紧接上一篇文章,python金融分析小 ...

  9. 全网最全python实现数据挖掘,数据分析(matlablib,pandas,numpy,量化分析)(附源代码)

    全网最全python实现数据挖掘,数据分析(matlablib,pandas,numpy,量化分析)(附源代码) 1.横直方图电影票房 2.散点图3月与10月每天的天气 3.条形图电影票房 4.条形图 ...

最新文章

  1. 怎么确定迭代器后面还有至少两个值_JS Lazy evaluation:可迭代对象与迭代器
  2. 基于激光雷达的里程计及3D点云地图中的定位方法
  3. 山东计算机基础模拟题及答案,2016山东农信社考试模拟题--计算机基础知识答案(1)...
  4. P1642 规划 01分数规划+树形DP
  5. Visual Studio配置VLFeat库(一次配置,永久生效)
  6. spring mvc 中文乱码 post与get的方法解决
  7. 动态规划算法-01爬楼梯问题
  8. 华为硬件工程师社招机考题库_干货:2016年华为中兴硬件工程师笔试题目与经验...
  9. 指针的基本操作(10.1 Basic Pointer Operations)
  10. c语言头文件和函数库,C语言的头文件和库文件(函数库)
  11. java图书馆_java入门第三季--图书馆借书系统
  12. 求最小公倍数的几种方法
  13. html5弹幕制作(探索ing)
  14. 「需求广场」需求词更新明细(十六)
  15. 计算机那些事——图形图像渲染原理
  16. 31w赛题奖金!当 AI for Science 撞上“先导杯”,会擦出什么样的火花?
  17. linux dig命令使用详解
  18. 3dmax2019软件下载3dmax2019下载安装注册教程
  19. 智能化打造智慧物流管理系统详情分析
  20. python 自动化测试框架_0——目录

热门文章

  1. mysql集群如何保障数据分布均匀_如何保证数据库集群时候,主从库一致性的问题?...
  2. 谁记录了mysql error log中的超长信息
  3. rsync的介绍及参数详解,配置步骤,工作模式介绍
  4. ruby的optparse使用小记
  5. 机器学习基石HOW部分(1)
  6. 【疑问感受】初见指针——当函数遇到指针
  7. 单链表删除指定范围内的元素
  8. springboot 启动加载数据 commandLineRunner
  9. Springboot项目部署到外部Tomcat
  10. Bootstrap(二)——Grid栅格布局