python网络爬虫的第三方库_Python常用第三方库_网络爬虫、数据分析与WEB开发、机器学习...
Python语言有超过12万个第三方库,覆盖信息技术几乎所有领域。下面简单介绍下网络爬虫、自动化、数据分析与可视化、WEB开发、机器学习和其他常用的一些第三方库,如果有你感兴趣的库,不妨去试试它的功能吧。
1、网络爬虫
•requests-对HTTP协议进行高度封装,支持非常丰富的链接访问功能。
•PySpider-一个国人编写的强大的网络爬虫系统并带有强大的WebUI。
•bs4-beautifulsoup4库,用于解析和处理HTML和XML。
•Scrapy-很强大的爬虫框架,用于抓取网站并从其页面中提取结构化数据。可用于从数据挖掘到监控和自动化测试的各种用途
•Crawley-高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等
•Portia-可视化爬取网页内容
•cola-分布式爬虫框架
•newspaper-提取新闻、文章以及内容分析
•lxml-lxml是python的一个解析库,这个库支持HTML和xml的解析,支持XPath的解析方式
2、自动化
•XlsxWriter-操作Excel工作表的文字,数字,公式,图表等
•win32com-有关Windows系统操作、Office(Word、Excel等)文件读写等的综合应用库
•pymysql-操作MySQL数据库
•pymongo-把数据写入MongoDB
•smtplib-发送电子邮件模块
•selenium-一个调用浏览器的driver,通过这个库可以直接调用浏览器完成某些操作,比如输入验证码,常用来进行浏览器的自动化工作。
•pdfminer-一个可以从PDF文档中提取各类信息的第三方库。与其他PDF相关的工具不同,它能够完全获取并分析 P D F 的文本数据
•PyPDF2-一个能够分割、合并和转换PDF页面的库。
•openpyxl- 一个处理Microsoft Excel文档的Python第三方库,它支持读写Excel的xls、xlsx、xlsm、xltx、xltm。
•python-docx-一个处理Microsoft Word文档的Python第三方库,它支持读取、查询以及修改doc、docx等格式文件,并能够对Word常见样式进行编程设置。
3、数据分析及可视化
•matplotlib-Matplotlib 是一个 Python 2D 绘图库,可以生成各种可用于出版品质的硬拷贝格式和跨平台交互式环境数据。Matplotlib 可用于 Python 脚本,Python 和 IPython shell(例如 MATLAB 或 Mathematica),Web 应用程序服务器和各种图形用户界面工具包。”
•numpy-NumPy 是使用 Python 进行科学计算所需的基础包。用来存储和处理大型矩阵,如矩阵运算、矢量处理、N维数据变换等。
•pyecharts-用于生成 Echarts 图表的类库
•pandas-一个强大的分析结构化数据的工具集,基于numpy扩展而来,提供了一批标准的数据模型和大量便捷处理数据的函数和方法。
•Scipy: 基于Python的matlab实现,旨在实现matlab的所有功能,在numpy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。
•Plotly-Plotly提供的图形库可以进行在线WEB交互,并提供具有出版品质的图形,支持线图、散点图、区域图、条形图、误差条、框图、直方图、热图、子图、多轴、极坐标图、气泡图、玫瑰图、热力图、漏斗图等众多图形
•wordcloud-词云生成器
•jieba-中文分词模块
4、WEB开发
•Django-一个开放源代码的Web应用框架,由Python写成。是Python生态中最流行的开源Web应用框架,Django采用模型、模板和视图的编写模式,称为MTV模式。
•Pyramid是一个通用、开源的Python Web应用程序开发框架。它主要的目的是让Python开发者更简单的创建Web应用,相比Django,Pyramid是一个相对小巧、快速、灵活的开源Python Web框架。
•Tornado-一种 Web 服务器软件的开源版本。Tornado和现在的主流Web服务器框架(包括大多数Python的框架)有着明显的区别:它是非阻塞式服务器,而且速度相当快
•Flask是轻量级Web应用框架,相比Django和Pyramid,它也被称为微框架。使用Flask开发Web应用十分方便,甚至几行代码即可建立一个小型网站。Flask核心十分简单,并不直接包含诸如数据库访问等的抽象访问层,而是通过扩展模块形式来支持。
5、机器学习
•NLTK-一个自然语言处理的第三方库,NLP领域中常用,可建立词袋模型(单词计数),支持词频分析(单词出现次数)、模式识别、关联分析、情感分析(词频分析+度量指标)、可视化(+matploylib做分析图)等。
•TensorFlow-谷歌的第二代机器学习系统,是一个使用数据流图进行数值计算的开源软件库。
•Keras -是一个高级神经网络 API,用 Python 编写,能够在 TensorFlow,CNTK 或 Theano 之上运行。它旨在实现快速实验,能够以最小的延迟把想法变成结果,这是进行研究的关键。
•Caffe-一个深度学习框架,主要用于计算机视觉,它对图像识别的分类具有很好的应用效果。
•theano-深度学习库。它与Numpy紧密集成,支持GPU计算、单元测试和自我验证,为执行深度学习中大规模神经网络算法的运算而设计,擅长处理多维数组。
•Scikit-learn-是一个简单且高效的数据挖掘和数据分析工具,它基于NumPy、SciPy和matplotlib构建。Scikit-learn的基本功能主要包括6个部分:分类,回归,聚类,数据降维,模型选择和数据预处理。Scikit-learn也被称为sklearn。
6、其他常用
•IPython-一个基于Python 的交互式shell,比默认的Python shell 好用得多,支持变量自动补全、自动缩进、交互式帮助、魔法命令、系统命令等,内置了许多很有用的功能和函数
•PTVS-Visual Studio 的 Python 工具
•pydub-支持多种格式声音文件,可进行多种信号处理、信号生成、音效注册、静音处理等
•TimeSide-能够进行音频分析、成像、转码、流媒体和标签处理的Python框架
•dnspython-DNS工具包
•pygame-专为电子游戏设计的一个模块
•PyQt5-pyqt5是Qt5应用框架的Python第三方库,编写Python脚本的应用界面
•PIL(Pillow)-PIL库是Python语言在图像处理方面的重要第三方库,支持图像存储、显示和处理,它能够处理几乎所有图片格式,可以完成对图像的缩放、剪裁、叠加以及向图像添加线条、图像和文字等操作。
•OpenCV-图像和视频工作库
•Py2exe: 将python脚本转换为windows上可以独立运行的可执行程序。
•WeRoBot 是一个微信公众号开发框架,也称为的微信机器人框架。WeRoBot可以解析微信服务器发来的消息,并将消息转换成成Message或者Event类型。
python网络爬虫的第三方库_Python常用第三方库_网络爬虫、数据分析与WEB开发、机器学习...相关推荐
- python网络爬虫第三方库_Python常用第三方库大盘点
Python语言有超过12万个第三方库,覆盖信息技术几乎所有领域.下面简单介绍下网络爬虫.自动化.数据分析与可视化.WEB开发.机器学习和其他常用的一些第三方库,如果有你感兴趣的库,不妨去试试它的功能 ...
- python文档处理第三方库_Python常用第三方库大盘点
Python语言有超过12万个第三方库,覆盖信息技术几乎所有领域.下面简单介绍下网络爬虫.自动化.数据分析与可视化.WEB开发.机器学习和其他常用的一些第三方库,如果有你感兴趣的库,不妨去试试它的功能 ...
- python标准库和第三方库_python常用标准库及三方库
python 常用标准库及三方库 作者: yegle 链接: https://www.zhihu.com/question/20501628/answer/153211 84 著作权归作者所有.商业转 ...
- python下载文件的第三方库_Python常用第三方库(转载)
wxPython 如果你之前是 windows 程序员,用 MFC 或者 WIN32API 开发界面程序,那进入 Python 国度最好的 GUI 选择应该是 wxPython.它是 wxWidget ...
- 列出5个python标准库_Python常用标准库使用(一)
自学python一段时间,之前总是学习基本语法,对Python标准库没怎么接触,所以计划从常用的标准库开始,大体了解一遍,下面是学习过程中的笔记. 一.OS模块 主要对目录.或者文件操作.常用方法如下 ...
- python的random模块怎么写_Python常用标准库之random模块
一.概述 在我们日常写代码的过程中,经常需要产生随机数,Python为我们提供了random库,该模块实现了各种分布的伪随机数生成器,本文主要讲解其常用方法,更多详细内容请移步:Random官方文档. ...
- python删库_python常用删除库的方法
本文记于初学py的时候,两年后补发. python常用库的安装方法一般有几种,比如: 1.编译过的exe包,直接无脑下一步就可以了. 2.pip install 库名,快速安装.自动匹配最新版本. 3 ...
- python都需要安装哪些库_python常用到哪些库?
Python作为一个设计优秀的程序语言,现在已广泛应用于各种领域,依靠其强大的第三方类库,Python在各个领域都能发挥巨大的作用. 下面我们就来看一下python中常用到的库: 数值计算库: 1. ...
- python怎么用第三方库_python中第三方库的下载方法
1.最常用:在命令行中输入 pip install "库名称" 例如 pip install gensim 查看pip的命令集: pip uninstall "库名& ...
最新文章
- 为什么计算机模拟不了人脑,为什么计算机永远不会拥有人类的意识?听完科学家的解释恍然大悟...
- 【OPENGL】第三篇 着色器基础(一)
- Python入门100题 | 第039题
- httpsrequest java_java如何通过https返回数据
- 计算机网络体系结构物流层,计算机网络体系结构58029.ppt
- 三句话捋清楚java垃圾收集器
- 一招判断三元催化堵塞_三元催化堵塞,许多老司机不知道如何处理,教你一妙招,油耗低...
- 安装vmware tools 使用hgfs共享文件一波三折
- excel中提取中文拼音
- 江苏省苏州市谷歌高清卫星地图下载
- 简单的钓鱼网站的制作
- 深度学习-感知机模型---思路图解+python代码
- java String 转map、list
- SpringBoot中出现‘@‘ that cannot start any token. (Do not use @ for indentation)....
- 浅谈基于过程与基于对象
- z5s+android+4.4,中兴NX403a(Nubia Z5S Mini Android 4.4)刷Recovery教程
- D3D9学习笔记之精灵变换篇
- activiti报错:org.activiti.engine.ActivitiTaskAlreadyClaimedException: Task ‘12502‘ is already claimed
- 推特Twitter高级搜索
- C语言中逗号运算符和逗号表达式!
热门文章
- 基于STM32单片机医院病房呼叫系统Proteus仿真
- 毕业设计 嵌入式 病房呼叫系统
- 病房呼叫电路multisim仿真
- linux安装nginx1.14.0,Ubuntu 14.04 安装最新稳定版Nginx 1.6.0
- 基于Spring使用腾讯云短信服务
- 计算机语言表示教师节快乐,“教师节快乐”13国语言花式叫法 | 附《致吾师》微电影...
- Android模拟器快捷键 Eclipse 快捷键
- jvm万字总结(图文+代码示例)
- HOOPS中的OperatorControl
- 安卓界面上一些简单QQ 一键加群,微信号 手机号跳转,可用在app关于我们的界面中