Python开源机器学习框架:Scikit-learn入门指南.

Scikit-learn的六大功能

Scikit-learn的基本功能主要被分为六大部分:分类,回归,聚类,数据降维,模型选择和数据预处理。

分类是指识别给定对象的所属类别,属于监督学习的范畴,最常见的应用场景包括垃圾邮件检测和图像识别等。目前Scikit-learn已经实现的算法包括:支持向量机(SVM),最近邻,逻辑回归,随机森林,决策树以及多层感知器(MLP)神经网络等等。

需要指出的是,由于Scikit-learn本身不支持深度学习,也不支持GPU加速,因此这里对于MLP的实现并不适合于处理大规模问题。有相关需求的读者可以查看同样对Python有良好支持的Keras和Theano等框架。

回归是指预测与给定对象相关联的连续值属性,最常见的应用场景包括预测药物反应和预测股票价格等。目前Scikit-learn已经实现的算法包括:支持向量回归(SVR),脊回归,Lasso回归,弹性网络(Elastic Net),最小角回归(LARS ),贝叶斯回归,以及各种不同的鲁棒回归算法等。可以看到,这里实现的回归算法几乎涵盖了所有开发者的需求范围,而且更重要的是,Scikit-learn还针对每种算法都提供了简单明了的用例参考。

聚类是指自动识别具有相似属性的给定对象,并将其分组为集合,属于无监督学习的范畴,最常见的应用场景包括顾客细分和试验结果分组。目前Scikit-learn已经实现的算法包括:K-均值聚类,谱聚类,均值偏移,分层聚类,DBSCAN聚类等。

数据降维是指使用主成分分析(PCA)、非负矩阵分解(NMF)或特征选择等降维技术来减少要考虑的随机变量的个数,其主要应用场景包括可视化处理和效率提升。

模型选择是指对于给定参数和模型的比较、验证和选择,其主要目的是通过参数调整来提升精度。目前Scikit-learn实现的模块包括:格点搜索,交叉验证和各种针对预测误差评估的度量函数。

数据预处理是指数据的特征提取和归一化,是机器学习过程中的第一个也是最重要的一个环节。这里归一化是指将输入数据转换为具有零均值和单位权方差的新变量,但因为大多数时候都做不到精确等于零,因此会设置一个可接受的范围,一般都要求落在0-1之间。而特征提取是指将文本或图像数据转换为可用于机器学习的数字变量。

需要特别注意的是,这里的特征提取与上文在数据降维中提到的特征选择非常不同。特征选择是指通过去除不变、协变或其他统计上不重要的特征量来改进机器学习的一种方法。

总结来说,Scikit-learn实现了一整套用于数据降维,模型选择,特征提取和归一化的完整算法/模块,虽然缺少按步骤操作的参考教程,但Scikit-learn针对每个算法和模块都提供了丰富的参考样例和详细的说明文档。

scikit-learn.org/stable

SciPy——一个开源的基于Python的科学计算工具包。基于SciPy,目前开发者们针对不同的应用领域已经发展出了为数众多的分支版本,它们被统一称为Scikits,即SciPy工具包的意思。而在这些分支版本中,最有名,也是专门面向机器学习的一个就是Scikit-learn。

Scikit-learn项目最早由数据科学家 David Cournapeau 在 2007 年发起,需要NumPy和SciPy等其他包的支持,是Python语言中专门针对机器学习应用而发展起来的一款开源框架。

Scikit-learn的六大功能:分类,回归,聚类,数据降维,模型选择和数据预处理.

分类:识别给定对象的所属类别,属于监督学习的范畴,最常见的应用场景包括垃圾邮件检测和图像识别等

回归:预测与给定对象相关联的连续值属性,最常见的应用场景包括预测药物反应和预测股票价格等

聚类:

数据降维:

模型选择:

数据预处理

目前Scikit-learn已经实现的算法包括:

支持向量机(SVM),

最近邻,

逻辑回归,

随机森林,

决策树以及

多层感知器(MLP)神经网络等等。

详细参考;https://www.leiphone.com/news/201701/ZJMTak4Y8ch3Nwd0.html

由于Scikit-learn本身不支持深度学习,也不支持GPU加速

分析纬度可以高达4亿纬度。

特征分组

监督学习:数据,标签,分类,模型体系构建,知识体系构建

分类问题,

无监督学习:聚类,降维

增强学习:有延时的反馈,收益最大化

离散化

pandas,scikit learn

预处理分析数据60%(pandas),数据降维,数据采样,清洗,数据特征处理,垃圾数据清理

日期: 星期一,星期5 开车人多,

Learning30%:模式选择,参数配置,时间安排

evaluation10%:期末高考 估计

prediction 掌握知识 预言

数据量

机器原理:

贝叶斯(文本:一句话词的顺序不会影响这句话的意思,通过词越策算概率),

逻辑回归,

决策树,随机森林原来原理,SVM(三维,影射)

统计分析,数据处理,

knn

图像,文本

多媒体:深度学习

业务场景:逻辑回归,gbgt,pca 原理

分类

回归,

文本,

train_test_split

model.fit(X,y) #lihe

model.tranform(X) #wu jian du ,pc 数据预处理

model.transform(textx)#lihe

model.fit_transform(x)#及离合又数据预处理

model.predict(textx)#预测类别

model.predict_proba(testx)#预测概率

第8期机器学习

神经网络:曲折边界

随机森林:台阶边界

决策树:回归,分类

python scikit learn 关闭开源_Python开源机器学习框架:Scikit-learn六大功能,安装和运行Scikit-learn...相关推荐

  1. 微软又开源了一个机器学习框架,这次是核心产品的机器学习引擎infer.NET

    乾明 整理编译自 Microsoft Research Blog 量子位 报道 | 公众号 QbitAI 感觉微软对开源上瘾了. 在开源了跨平台机器学习框架ML.NET之后,微软又开源了一个非常重要的 ...

  2. python机器交易_全解用 Python 建立能源市场算法交易的机器学习框架

    原标题:全解用 Python 建立能源市场算法交易的机器学习框架 编译:数据派 - 笪洁琼 ,冯羽 , 英文:SIMON KUTTRUF 前言 人工智能的新突破每天都成为头条新闻.在金融领域,机器学习 ...

  3. python类定义框体_Python开源框架种类

    Python名气最大的框架:Django 初学Python时,你一定听到过Django,这两者就好像是一对好朋友.Django它是个开放源代码的Web应用框架,由Python写成的Django应该是最 ...

  4. python装饰器执行顺序_python unittest单元测试框架-3用例执行顺序、多级目录、装饰器、fixtures...

    1.用例执行顺序 unittest默认会按照ascii码的顺序,依次执行.类名--方法名排序,使用discover也是默认排序.如果不想使用默认排序,就使用testsuite测试集的方式. impor ...

  5. python获取电脑硬件信息_Python实现的读取电脑硬件信息功能示例

    本文实例讲述了Python实现的读取电脑硬件信息功能.分享给大家供大家参考,具体如下: 上学那会,老师让我用java获取电脑硬件信息,CPU, 硬盘,MAC等,那个时候感觉搞了好久...... 今天, ...

  6. 干货|全面介绍微软开源可解释机器学习框架InterpretML

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送 转自:机器之心 起初,机器于黑暗之中学习,为解释它们,数据科学家于虚空之中挣扎. 然后, ...

  7. 微软开源可解释机器学习框架InterpretML

    点击我爱计算机视觉标星,更快获取CVML新技术 本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载. 选自arXiv 作者:Harsha Nori等 机器之心编译 参与 ...

  8. python打开和关闭图片_python图像常规操作

    使用python进行基本的图像操作与处理 前言: 与早期计算机视觉领域多数程序都是由 C/C++ 写就的情形不同.随着计算机硬件速度越来越快,研究者在考虑选择实现算法语言的时候会更多地考虑编写代码的效 ...

  9. python一元线性回归的优点_Python实现机器学习一(实现一元线性回归)

    回归是统计学中最有力的工具之一.机器学习监督学习算法分为分类算法和回归算法两种,其实就是根据类别标签分布类型为离散型.连续性而定义的.顾名思义,分类算法用于离散型分布预测,如前面讲过的KNN.决策树. ...

  10. python远程主机强迫关闭了_Python 远程主机强迫关闭了一个现有的连接

    我并不是很明白你意思,你的socket用法我很费解.给你提供一个服务端和客户端的demo吧. server.py import socket if "__main__" == __ ...

最新文章

  1. python运行错误怎么查找_求助,python的二分法查找,按照视频上的代码写下来,结果运行错误...
  2. 阿里巴巴领导抱怨家里有矿的应届生不好带!聪明效率高,但从不加班,也不做职业规划!画饼谈心也没用,怎么办?...
  3. Java——SAX生成XML文件
  4. Cocos2d-xna : 横版战略游戏开发实验5 TiledMap实现关卡地图
  5. 解决bug_赛博朋克2077BUG卡关怎么办?卡关BUG解决办法
  6. C语言学习之输出10个整数中的最大值及其下标、最小值及其下标
  7. 【区块链之菜鸟入门】区块链发展史:从拜占庭将军问题到智慧契约
  8. 双屏怎么快速切换鼠标_双屏触摸一体机功能特点解析
  9. 导出文件:使用lowagie.itext导出数据为Word文件
  10. 修复win7便签功能
  11. 能编辑pdf文件的软件
  12. 秒杀系统设计与关键技术剖析
  13. PhotoShop制作gif动态广告效果示例
  14. 关于Word的累加符号上下标变右标的解决办法
  15. 规则库捕获漏洞信息专用脚本
  16. 滴滴出行3亿元收购支付牌照 | 地平线发布中国首款嵌入式人工智能视觉芯片 | FF 融资消息不实
  17. 优秀新媒体文案的4种必备能力
  18. 编写程序描述影视歌三栖艺人 需求说明:请使用面向对象的思想,设计自定义类,描述影视歌三梄艺人。 实现思路及关键代码 1)分析影视歌三栖艺人的特性 a)可以演电影 b)可以演电视剧 c)可以唱歌
  19. 什么内网穿透?如何使用内网穿透?
  20. 项目管理的核心要素——时间、成本与质量

热门文章

  1. 谈谈嵌入式设备用户界面的未来
  2. 终于把W32.Spybot.Worm给消灭了(这个标题不能用了)
  3. hashmap初试数组大小为什么一定要是2 的倍数
  4. The word 'localhost' is not correctly spelled 这个问题怎么解决
  5. Cocos2d-x中点九图(Scale9Sprite)创建图片按钮
  6. 我是如何从蛋壳的虎口里维权的?
  7. 霍夫线变换,霍夫圆变换
  8. 简单的spring mvc实例
  9. 安装WindowBuilder后,新建JFrame文件,不能查看Design
  10. R实例:非典型的数据可视化(一)