关于Scikit-Learn你(也许)不知道的10件事
点击上方,选择星标或置顶,每天给你送干货!
阅读大概需要6分钟
跟随小博主,每天进步一丢丢
作者 | Rebecca Vickery
原文 | 见页面左下角『阅读原文』
编译 | NewBeeNLP公众号
写在前面
Scikit-learn是使用最广泛的Python机器学习库之一。它有标准化和简单的接口,用于数据预处理和模型训练、优化以及评估。
这个项目最初是由David Cournapeau 开发的Google Summer of Code 项目,并于2010年首次公开发布。自创建以来,该库已经发展成为一个丰富的生态系统,用于开发机器学习模型。随着时间的推移,该项目开发了许多方便的功能,以增强其易用性。在本文中,我将介绍你可能不知道的10个关于Scikit-learn最有用的特性。
1. 内置数据集
Scikit-learn API内置了各种toy和real-world数据集[1]。这些可以便捷地通过一行代码访问,如果你正在学习或只是想快速尝试新功能,这会非常有用。
你还可以使用make_regression()
、make_blobs()
和make_classification()
生成合成数据集。所有加载实用程序都提供了返回已拆分为X(特征)和y(目标)的数据选项,以便它们可以直接用于训练模型。
2. 获取公开数据集
如果你想直接通过Scikit-learn访问更多的公共可用数据集,请了解,有一个方便的函数datasets.fetch_openml
,可以让您直接从openml.org网站[2]获取数据。这个网站包含超过21000个不同的数据集,可以用于机器学习项目。
3. 内置分类器来训练baseline
在为项目开发机器学习模型时,首先创建一个baseline模型是非常有必要的。这个模型在本质上应该是一个“dummy”模型,比如一个总是预测最频繁出现的类的模型。这就提供了一个基准,用来对你的“智能”模型进行基准测试,这样你就可以确保它的性能比随机结果更好。
Scikit learn包括用于分类任务的DummyClassifier()
和用于基于回归问题的 DummyRegressor()
。
4. 内置绘图api
Scikit learn有一个内置的绘图API,允许你在不导入任何其他库的情况下可视化模型性能。包括以下绘图:部分相关图、混淆矩阵、精确召回曲线和ROC曲线。
5. 内置特征选择方法
提高模型性能的一种技术是只使用最好的特征集或通过删除冗余特征来训练模型。这个过程称为特征选择。
Scikit learn有许多函数来执行特征选择。一个示例为 SelectPercentile()
,该方法根据所选的统计方法选择性能最好的X百分位特征进行评分。
6. 机器学习pipeline
除了为机器学习提供广泛的算法外,Scikit learn还具有一系列用于「预处理」和「转换数据」的功能。为了促进机器学习工作流程的再现性和简单性,Scikit learn创建了管道(pipeline),允许将大量预处理步骤与模型训练阶段链接在一起。
管道将工作流中的所有步骤存储为单个实体,可以通过「fit」和「predict」方法调用该实体。在管道对象上调用fit方法时,预处理步骤和模型训练将自动执行。
7. ColumnTransformer
在许多数据集中,你将拥有不同类型的特征,需要应用不同的预处理步骤。例如,可能有分类数据和连续数据的混合,你可能希望通过one-hot编码将分类数据转换为数字,并缩放数字变量。
Scikit-learn管道有一个名为ColumnTransformer
的函数,它允许你通过索引或指定列名来轻松指定要对哪些列应用最适当的预处理。
8. 管道的HTML形式
管道通常会变得非常复杂,尤其是在处理真实世界的数据时。因此,scikit-learn提供了一种方法来输出管道中步骤的HTML图表[3],非常方便。
9. 可视化 树模型
plot_tree()
函数允许你创建决策树模型中的步骤图。
10. 丰富的第三方扩展
许多第三方库可以更好地扩展scikit-learn的特性。举个栗子,category-encoders
库,它为分类特性提供了更大范围的预处理方法,以及ELI5包
以实现更大的模型可解释性。这两个包也可以直接在Scikit-learn管道中使用。
本文参考资料
[1]
toy和real-world数据集: https://scikit-learn.org/stable/datasets/index.html
[2]
openml.org网站: https://www.openml.org/home
[3]
HTML图表: https://scikit-learn.org/stable/modules/compose.html#visualizing-composite-estimators
- END -
说个正事哈
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方“深度学习自然语言处理”,进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
推荐两个专辑给大家:
专辑 | 李宏毅人类语言处理2020笔记
专辑 | NLP论文解读
整理不易,还望给个在看!
关于Scikit-Learn你(也许)不知道的10件事相关推荐
- 关于ERP系统,你可能不知道的10件事
谈到ERP系统,大多数人只是考虑ERP日常管理的核心功能,即财务.销售.采购.库存.生产和分销.保持对这些关键领域的控制对任何企业的成功都是不可或缺的.但这些只是冰山一角,如果深入挖掘ERP系统,你可 ...
- 500强校园招聘中大学生不知道的10件事
最近改编成电影的<杜拉拉升职记>,应该很多人都第一时间去捧了场.动动手指数数,加上之前翻拍的<丑女无敌>.美国版的<丑女贝蒂>.揭露时尚圈工作狂本质的电影<穿 ...
- 关于PHP你可能不知道的10件事
小编之前也曾报导过PHP开发人员容易忽略的几点精华,除了一些精华技术方法外,很多细微之处也是程序员们容易忽略的,下面我们为您总结了10个关于PHP你可能不知道的事情. 关于PHP更多内容,欢迎访问:P ...
- 关于Ada Lovelace你可能不知道的 10 件事
查看关于这位经常被引用为世界上第一位计算机程序员的先驱女性的 10 个令人惊讶的事实 1.Ada Lovelace是她的父亲. 虽然艾达·Ada Lovelace是英国诗人乔治·戈登·拜伦勋爵唯一的合 ...
- 关于多线程编程您不知道的 5 件事 有关高性能线程处理的微妙之处
虽然很少有 Java™ 开发人员能够忽视多线程编程和支持它的 Java 平台库,更少有人有时间深入研究线程.相反地,我们临时学习线程,在需要时向我们的工具箱添加新的技巧和技术.以这种方式构建和运行适当 ...
- 大规模运行MongoDB应该知道的10件事
MongoDB的首席解决方案架构师Asya Kamsky 最近发表了一篇文章,概括了大规模运行MongoDB需要知道的10件事. MongoDB也需要DevOps.MongoDB是一个数据库.和任何其 ...
- 女孩做妻子前应知道的10件事
女孩做妻子前应知道的10件事 一段时间的甜蜜恋爱期过后,你和心爱的他终于要踏上期盼已久的红地毯.你发誓一定要做个最幸福的小女人,要成一个永远让丈夫着迷的好妻子.从一个女孩的身份转变为一个妻子的身份前, ...
- 佳能eosr控制环能否计算机控制,关于全画幅微单相机 你可能不知道的十件事
01关于微单相机你不知道的十件事 2018年之前,全画幅微单领域没有竞争,索尼一家独大,徕卡只走奢侈路线.为了满足专业摄影师和资深发烧玩家更多的使用需求,佳能.尼康和松下纷纷加入战局,在2018年开启 ...
- 阴阳师服务器维护结界卡暂停吗,阴阳师BUFF暂停功能你不能不知道的六件事
阴阳师BUFF暂停功能已经正式上线啦,哪些种类的加成可以暂停?在哪里找暂停按钮?暂停有时间限制吗?有次数限制吗?关于BUFF暂停你不能不知道的六件事! 一.在哪里暂停? 在庭院处点击头像右边的&quo ...
- 学习Go之前你应该知道的10件事 | Gopher Daily (2021.04.21) ʕ◔ϖ◔ʔ
每日一谚:Don't use an interface if it's not clear how the interface makes the code better. Go技术生态 编写好的单元 ...
最新文章
- JAVA常见工具配置
- ARM32页表-虚拟地址到物理地址的转换
- linux下安装lrzsz,配合SecureCRT上传下载文件
- 回归理性 务实推进 迎接AI新时代 2018中国人工智能大会完美收官
- 写出一个缓存系统的伪代码001
- html5视频抓取,js和HTML5基于过滤器从摄像头中捕获视频的方法
- centos 删除crontab_Centos7 利用crontab定时执行任务及配置方法
- 关于C中字符串的输入和输出使用的函数不同所造成的影响
- 如何将ffmpeg在windows编译和使用
- javascript获取TreeView控件选中节点的Text和Value
- 分享几个超好用的矢量图标网站
- Matlab中 regionprops和bwlabel的用法
- 外贸建站教程,WordPress外贸自建站流程,会打字即可学会
- 3.25期货每日早盘操作建议
- 推荐一个谷歌浏览器插件:划词翻译
- 真的存在“对事不对人”吗?
- win2008r2用户账户控制什么意思_养老保险统筹账户是什么意思?有什么用?
- 电竞游戏电脑推荐,台式机R13性能破界
- html 5 时代来了 视频播放还用falsh 还要找播放器 你out 了
- 如何入门独立开放游戏
热门文章
- 用sitemesh来装饰动态的左侧菜单和内容部分
- Oracle使用手册(二)---流程控制
- Python+Selenium开发工具安装及下载
- redis、kafka、rabittMQ对比 (转)
- Nginx 学习--初级篇,Nginx 认识以及作用
- 关于JS中的严格模式
- 「2013-9-14」Change Remote Desktop Port
- 集合、哈希表、泛型集合、字典
- SSM Controller 页面之间跳转 重定向,有参 无参问题
- 26.leetcode160_intersection_of_two_linked_lists