更多详细代码关注sklearn中文官方文档:

http://www.scikitlearn.com.cn/

http://lijiancheng0614.github.io/scikit-learn/index.html

1.概念

Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具,是机器学习中的常用第三方模块。它建立在 NumPy, SciPy, Pandas 和 Matplotlib 之上,里面的 API 的设计非常好,所有对象的接口简单,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。

2.方法

2.1有监督学习的分类任务(Classification

分类算法:

from sklearn import SomeClassifier
from sklearn.linear_model import SomeClassifier
from sklearn.ensemble import SomeClassifier

2.2有监督学习的回归任务(Regression

回归算法:

from sklearn import SomeRegressor
from sklearn.linear_model import SomeRegressor
from sklearn.ensemble import SomeRegressor

2.3无监督学习聚类任务(Clustering

聚类算法:

from sklearn.cluster import SomeModel

2.4无监督学习的降维任务(Dimensionality Reduction

from sklearn.decomposition import SomeModel

2.5模型选择任务(Model Selection

from sklearn.model_selection import SomeModel

2.6数据的预处理任务(Preprocessing

from sklearn.preprocessing import SomeModel

2.7引入某个数据集

from sklearn.datasets import SomeData

3.部分代码详细分析

3.1自带的数据集

例如导入乳腺癌数据集:

#导入乳腺癌数据集
from sklearn.datasets import load_breast_cancer

数据是以「字典」格式存储的,详细查看一下里面的键:

breast = load_breast_cancer()
print(breast.keys())

结果:

键的名词解释:

  • data:特征值 (数组)

  • target:标签值 (数组)

  • target_names:标签 (列表)

  • DESCR:数据集描述

  • feature_names:特征 (列表)

  • filename:iris.csv 文件路径

详细查看一下数据集:

#定义两个分别为数据集的样例个数、特征个数
n_samples,n_features = breast.data.shape
#输出数据集的样例个数和特征个数,类似数据集的规模
print(n_samples,n_features)
#输出数据集的特征名称
print(breast.feature_names)
#输出数据集的前5个特征示例
print(breast.data[0:5])

可以看到输出分别为——样例个数以及特征个数:

数据集中30个特征的名称为:

前五个示例为(每一个示例中都有30个数据,分别对应30个特征):

输出数据集的标签大小:

#输出数据集的标签数量(也就是最后的那个是乳腺癌良性还是恶性):
print(breast.target.shape)

输出数据集标签名称看看:

#输出数据集标签名称:
print(breast.target_names)

输出全部标签示例:

即数据集中有569个标签,2个类别(malignant恶性、benign良性),分别用0和1来表示。

使用pandas下的工具DataFrame来把数据集创建成表格来读取数据集中的详细数据

Seaborn 的 pairplot (看每个特征之间的关系)来用图来展示一下数据集的内容。

import seaborn as sns
from matplotlib import pyplot as plt
sns.pairplot(breast_data,hue='species',palette='husl');
plt.show()

Sklearn到底是什么?相关推荐

  1. 机器学习与计算机视觉(sklearn快速上手)

    [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 很多熟悉机器学习的同学,都知道python下面有一个sklearn的库.这个库使用起来很简单,不 ...

  2. 多分类f1分数_所以多分类情况下sklearn的f1值到底是怎么计算的

    已经很久没有更新新的文章啦,最近在弄GCN,很多东西的理解都还没有很透彻,所以也不太好发,不过就在今天"南归"的时候刷知乎,刷到了这么一个朋友( @苏小胖与喵 )的疑问: 这... ...

  3. python sklearn是什么_Sklearn到底是什么?

    更多详细代码关注sklearn中文官方文档: 1.概念 Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具,是机器学习中的常用第三方模块.它建立在 NumPy ...

  4. 7000 字精华总结,Pandas/Sklearn 进行机器学习之特征筛选,有效提升模型性能

    作者 | 俊欣 来源 | 关于数据分析与可视化 今天小编来说说如何通过pandas以及sklearn这两个模块来对数据集进行特征筛选,毕竟有时候我们拿到手的数据集是非常庞大的,有着非常多的特征,减少这 ...

  5. 用机器学习神器sklearn做特征工程!

    Datawhale干货 作者:jasonfreak,编辑:数据STUDIO 使用sklearn做特征工程 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是 ...

  6. 用Python预测收入,来看看你的收入到底应该是多少?

    Python界的网红机器学习,这股浪潮已经逐渐成为热点,而Python是机器学习方向的头牌语言,用机器学习来玩一些好玩的项目一定很有意思.比如根据你的职业,婚姻,家庭,教育时间等等来预测你的收入,这么 ...

  7. 为什么训练集用fit_transform()而测试集用transform()及sklearn.feature_extraction.text.CountVectorizer API详解

    真正讲明白的 https://blog.csdn.net/yyhhlancelot/article/details/85097656 API https://scikit-learn.org/stab ...

  8. PCA计算流程详解与实现(Python详细编码,全部测试正确,与sklearn完全一致,只有7行代码)

    如果无法理解一种算法的原理,那么就整理出它的流程,再在直接的计算过程中慢慢体会它的思想. – 我说的. 许多问题在一开始都很难理解其原理.像PCA这种经典的算法,其实从头至尾的每个步骤都非常严密,细节 ...

  9. sklearn学习(一)

    学习网站 http://scikit-learn.org/stable/tutorial/basic/tutorial.html#machine-learning-the-problem-settin ...

最新文章

  1. 服务器与ssl证书有关吗,选择网站SSL证书和服务器位置有没有关系和影响
  2. Nginx之rewrite简述
  3. 人工智能浪潮下,什么内容值得看?
  4. Robotium自动化测试框架实用教程(图)
  5. Spring整合redis,通过sentinel进行主从切换。(何志雄)--转
  6. java boolean if_Java if(boolean)和if(boolean=true)区别解析
  7. 动软代码生成器之模板功能介绍
  8. Flutter 日期选择器与时间选择器
  9. 我的worktools集合们
  10. 对“xxx”类型的已垃圾回收委托进行了回调。这可能会导致应用程序崩溃、损坏和数据丢失。向非托管代码传递委托时,托管应用程序必须让这些委托保持活动状态,直到确信不会再次调用它们。...
  11. linux关于tcp协议ack的实现--总结和公平性问题
  12. ad9修改焊盘阻焊层大小
  13. 埃夫特机器人示教器linux屏幕多少钱,不限 埃夫特机器人电路板维修
  14. Paul Graham:未来的互联网创业[转]
  15. 为什么博途V17及以下的HMI面板不能与1500固件版本2.9或1200版本4.5 的CPU建立连接?
  16. edxposed显示未安装_Magisk与EdXposed框架安装实践(Android P及以上)
  17. 通过具体的例子说明一维和二维的相关运算、卷积运算究竟是怎么做的。
  18. 高德h5地图api接口_H5,JS中使用微信、高德获取定位
  19. 2022下半年火爆互联网商业模式揭晓,乐分享如何超强吸粉?详解
  20. 企业微信开发——企业内部自建应用开发(第二篇)---JS_SDK配置

热门文章

  1. 爱与灾难·《致我们终将逝去的青春》
  2. 【AT91SAM9261EK】 编译运行Linux Kernel 2.6.39
  3. 我和对象学习游戏建模,她选了3DMAX,我选了MAYA,结果。
  4. 河北大学计算机考研资料汇总
  5. 心理测评软件php mysql_中小学心理测评软件系统
  6. 医院his系统什么服务器,医院营养餐微信订餐系统
  7. Agile PLM 物料无法删除
  8. 区块链革命来临,这些事儿你必须知道
  9. Java学习记录 根据路程计算费用。
  10. 中国广告灯箱市场现状调查与投资可行性分析报告2022-2028年