很多小伙伴在学习机器学习的时候会苦恼到底用什么进行学习。在看了大佬的介绍后可能会使用Keras或者pytorch直接进行学习,但实际上有优秀的机器学习工具包。没错,小编接下来要介绍的SKlearm就是一款基于python语言的机器学习工具包。今天我们就来讲讲SKlearm的安装与使用,希望小伙伴们能喜欢上这款工具包。

1、SKlearn 是什么

  Sklearn(全称 SciKit-Learn),是基于 Python 语言的机器学习工具包。

  Sklearn 主要用Python编写,建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基础上,也用 Cython编写了一些核心算法来提高性能。

  Sklearn 包括六大功能模块:

  • 分类(Classification):识别样本属于哪个类别,常用算法有 SVM(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林)
  • 回归(Regression):预测与对象相关联的连续值属性,常用算法有 SVR(支持向量机)、 ridge regression(岭回归)、Lasso
  • 聚类(Clustering):对样本进行无监督的自动分类,常用算法有 k-Means(k均值)、spectral clustering(特征聚类)、mean-shift(均值漂移)
  • 数据降维(Dimensionality reduction):减少相关变量维数,常用算法有 PCA(主成分分析)、feature selection(特征选择)、non-negative matrix factorization(非负矩阵分解)
  • 模型选择(Model Selection):比较,验证,选择参数和模型,常用模块有 grid search(网格搜索)、cross validation(交叉验证)、 metrics(度量)
  • 数据处理 (Preprocessing):特征提取和归一化,常用模块有 preprocessing(预处理),feature extraction(特征提取)
  • 这六个功能模块涉及 4类算法,分类、回归 属于监督学习,聚类属于非监督学习。

  官网地址:https://scikit-learn.org/

  官方文档中文版: https://www.scikitlearn.com.cn/

  内置数据集:https://scikit-learn.org/stable/datasets.html

2、SKlearn 的安装

  Sklearn 的安装要求:Python 3.5 以上版本,需要安装 NumPy、SciPy、Pandas 工具包的支持,部分内容需要使用 Matplotlib、joblib 工具包。

pip 安装命令:  

pip3 install -U scikit-learn
pip3 install -U scikit-learn -i https://pypi.douban.com/simple

  注意 Sklearn 建议安装 Numpy+mkl,可以在网址http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到你需要的numpy+mkl版本,下载后 pip3安装:

pip install numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl

3、SKlearn 内置数据集

  Sklearn 内置了一些标准数据集可以用于练习和测试,都是经常被引用的经典问题,数据网址:https://scikit-learn.org/stable/datasets.html  
  Sklearn 标准数据集主要包括:

测试问题数据集

  • 波士顿房价:Boston house prices dataset
  • 鸢尾花问题:Iris plants dataset
  • 糖尿病数据:Diabetes dataset
  • 手写数字的识别:Optical recognition of handwritten digits dataset
  • 体能训练:Linnerrud dataset
  • 葡萄酒鉴别:Wine recognition dataset
  • 威斯康星州癌症诊断:reast cancer wisconsin (diagnostic) dataset

实际问题数据集

  • 人脸数据:The Olivetti faces dataset
  • 20个新闻文本数据:The 20 newsgroups text dataset
  • 标记的人脸数据:The Labeled Faces in the Wild face recognition dataset
  • 森林覆盖类型:Forest covertypes
  • 路透社新闻数据:RCV1 dataset
  • 网络入侵检测数据:Kddcup 99 dataset
  • 加州住房数据:California Housing dataset

4、Sklearn 数模笔记的计划

  粗略看看 Sklearn 的文档,是一个功能强大和丰富的机器学习库,远远超出了数学建模学习的范围。
  基于数模教学的目的,本系列主要对应数模学习中的分类、聚类、降维问题,并不打算全面讲解 Sklearn 的各种算法,而是以典型问题为例来介绍原理简单、使用广泛的基本方法,以便新手入门。

掌财社:Python 机器学习工具包SKlearn的安装与使用相关推荐

  1. Python机器学习库sklearn的安装

    Python机器学习库sklearn的安装 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上能够为用户提供各种机器学习算法接口 ...

  2. 掌财社:python怎么爬取链家二手房的数据?爬虫实战!

    我们知道爬虫的比较常见的应用都是应用在数据分析上,爬虫作为数据分析的前驱,它负责数据的收集.今天我们以python爬取链家二手房数据为例来进行一个python爬虫实战.(内附python爬虫源代码) ...

  3. 掌财社:Python常见的安全问题有哪些?如何避免?

    随着计算机应用的普及,计算机安全的问题也随之暴露出来.实际上很多计算机安全的问题都是软件的问题,而软件的安全问题又有很大一部分是因为开发者开发不规范导致的(虽然也有攻击者钻空子的问题,但作为开发者让攻 ...

  4. 掌财社:原材料涨价有多猛?上游一天一价中下游艰难抉择

    "所有板材的报价,仅限于当日当时确认并付款,没有付款的一律作废重报." "最近都忙着一个事--谈判,和各式的供应商谈判." "去年就提了要涨,但一直压 ...

  5. python机器学习库sklearn与graphlab与opencv的安装

    1.安装python 首先安装python3.5 Link 然后安装python2.7 Link 注意选择合适的版本(记得之后安装的GraphLab只能用64位,也只能使用python2) 2.安装使 ...

  6. python机器学习库sklearn——特征提取

    全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 注意:特征特征提取与 特征选择 有很大的不同:前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征.后者是将这些特征应用到 ...

  7. python机器学习库sklearn——集成方法(Bagging、Boosting、随机森林RF、AdaBoost、GBDT)

    分享一个朋友的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!大家可以看看是否对自己有帮助:点击打开 docker/kubernetes入门视频教程 全栈工程师开发手册 (作者:栾鹏) pyth ...

  8. python机器学习库sklearn——交叉验证(K折、留一、留p、随机)

    分享一个朋友的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!大家可以看看是否对自己有帮助:点击打开 全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 学习预测函数的参数,并在相 ...

  9. python机器学习库sklearn——朴素贝叶斯分类器

    分享一个朋友的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!大家可以看看是否对自己有帮助:点击打开 全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 文档贝叶斯分类器的相关的知 ...

最新文章

  1. mysql网页后台_jsp+servlet+mysql开发java web旅游网站,有后台管理系统
  2. pycharm远程开发项目
  3. java 增量,Java增量运算符查询(++ i和i ++)
  4. Java刺客信条回复生命,刺客信条英灵殿怎么回血 生命值恢复方法介绍
  5. Linux input输入子系统demo驱动
  6. error: two or more data types in declaration specifiers原因及解决方法
  7. 数据结构1800题-错题集-第一章
  8. chromecast 协议_如何解决常见的Google Chromecast问题
  9. 七鑫易维彭凡演讲实录:眼球追踪技术让VR更“人性”
  10. android实现首页倒计时,Android倒计时 Android仿京东倒计时 android电商app源码倒计时源码...
  11. 小程序、APP Store 需要的 SSL 证书是个什么东西?
  12. 1297: 小数化分数
  13. AndroidStudio问题XML格式化
  14. ubuntu 安装mysql 源码,命令ubuntu上用源代码安装mysql的详细操作说明
  15. 小程序订阅消息推送工具类
  16. 目标检测算法汇集介绍
  17. android 默认勾选权限_Android系统Framework定制默认值预置修改
  18. 天龙八部与珍珑(文/《北京青年报》记者 郭婷婷)
  19. 金蝶云星空通过python实现物料编码审核后自动分配组织
  20. 搜索引擎下拉食云速捷详细_两招刷搜索引擎下拉框的方法分享

热门文章

  1. js中getMonth()+1
  2. 区分数据库中的 char、varchar、nchar、nvarchar
  3. 字符串解码(猿辅导笔试题数箱子)
  4. 红帽linux改root密码,Redhat 7.6 主机强制修改root密码及配置网关
  5. 标准紧固件、垫片、轴环
  6. Java虚拟机内存的堆区(heap),栈区(stack)和静态区(static/method)
  7. 怎么快速判断互质数?
  8. java 多态的应用——多态数组和多态参数详解
  9. Java设计模式之(九)——门面模式
  10. 上海计算机二级考试python_全国计算机等级考试上机考试题库.二级Python