Python数模笔记-Sklearn (1)介绍
1、SKlearn 是什么
Sklearn(全称 SciKit-Learn),是基于 Python 语言的机器学习工具包。
Sklearn 主要用Python编写,建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基础上,也用 Cython编写了一些核心算法来提高性能。
Sklearn 包括六大功能模块:
分类(Classification):识别样本属于哪个类别,常用算法有 SVM(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林)
回归(Regression):预测与对象相关联的连续值属性,常用算法有 SVR(支持向量机)、 ridge regression(岭回归)、Lasso
聚类(Clustering):对样本进行无监督的自动分类,常用算法有 k-Means(k均值)、spectral clustering(特征聚类)、mean-shift(均值漂移)
数据降维(Dimensionality reduction):减少相关变量维数,常用算法有 PCA(主成分分析)、feature selection(特征选择)、non-negative matrix factorization(非负矩阵分解)
模型选择(Model Selection):比较,验证,选择参数和模型,常用模块有 grid search(网格搜索)、cross validation(交叉验证)、 metrics(度量)
数据处理 (Preprocessing):特征提取和归一化,常用模块有 preprocessing(预处理),feature extraction(特征提取)
这六个功能模块涉及 4类算法,分类、回归 属于监督学习,聚类属于非监督学习。
欢迎关注 Youcans 原创系列,每周更新数模笔记
Python数模笔记-PuLP库
Python数模笔记-StatsModels统计回归
Python数模笔记-Sklearn
Python数模笔记-NetworkX
Python数模笔记-模拟退火算法
官网地址:https://scikit-learn.org/
官方文档中文版: https://www.scikitlearn.com.cn/
内置数据集:https://scikit-learn.org/stable/datasets.html
2、SKlearn 的安装
Sklearn 的安装要求:Python 3.5 以上版本,需要安装 NumPy、SciPy、Pandas 工具包的支持,部分内容需要使用 Matplotlib、joblib 工具包。
pip 安装命令:
pip3 install -U scikit-learn
pip3 install -U scikit-learn -i https://pypi.douban.com/simple
注意 Sklearn 建议安装 Numpy+mkl,可以在网址http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到你需要的numpy+mkl版本,下载后 pip3安装:
pip install numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl
3、SKlearn 内置数据集
Sklearn 内置了一些标准数据集可以用于练习和测试,都是经常被引用的经典问题,数据网址:https://scikit-learn.org/stable/datasets.html
Sklearn 标准数据集主要包括:
- 测试问题数据集
- 波士顿房价:Boston house prices dataset
- 鸢尾花问题:Iris plants dataset
- 糖尿病数据:Diabetes dataset
- 手写数字的识别:Optical recognition of handwritten digits dataset
- 体能训练:Linnerrud dataset
- 葡萄酒鉴别:Wine recognition dataset
- 威斯康星州癌症诊断:reast cancer wisconsin (diagnostic) dataset
- 实际问题数据集
- 人脸数据:The Olivetti faces dataset
- 20个新闻文本数据:The 20 newsgroups text dataset
- 标记的人脸数据:The Labeled Faces in the Wild face recognition dataset
- 森林覆盖类型:Forest covertypes
- 路透社新闻数据:RCV1 dataset
- 网络入侵检测数据:Kddcup 99 dataset
- 加州住房数据:California Housing dataset
= 关注 Youcans,分享原创系列 https://blog.csdn.net/youcans =
- 加州住房数据:California Housing dataset
4、Sklearn 数模笔记的计划
粗略看看 Sklearn 的文档,是一个功能强大和丰富的机器学习库,远远超出了数学建模学习的范围。
基于数模教学的目的,本系列主要对应数模学习中的分类、聚类、降维问题,并不打算全面讲解 Sklearn 的各种算法,而是以典型问题为例来介绍原理简单、使用广泛的基本方法,以便新手入门。
版权说明:
YouCans 原创作品
Copyright 2021 YouCans, XUPT
Crated:2021-05-09
欢迎关注 Youcans 原创系列,每周更新数模笔记
Python数模笔记-PuLP库(1)线性规划入门
Python数模笔记-PuLP库(2)线性规划进阶
Python数模笔记-PuLP库(3)线性规划实例
Python数模笔记-StatsModels 统计回归(1)简介
Python数模笔记-StatsModels 统计回归(2)线性回归
Python数模笔记-StatsModels 统计回归(3)模型数据的准备
Python数模笔记-StatsModels 统计回归(4)可视化
Python数模笔记-Sklearn (1)介绍
Python数模笔记-Sklearn (2)聚类分析
Python数模笔记-Sklearn (3)主成分分析
Python数模笔记-Sklearn (4)线性回归
Python数模笔记-Sklearn (5)支持向量机
Python数模笔记-模拟退火算法(1)多变量函数优化
Python数模笔记-模拟退火算法(2)约束条件的处理
Python数模笔记-模拟退火算法(3)整数规划问题
Python数模笔记-模拟退火算法(4)旅行商问题
Python数模笔记-Sklearn (1)介绍相关推荐
- Python数模笔记-Sklearn(4)线性回归
1.什么是线性回归? 回归分析(Regression analysis)是一种统计分析方法,研究自变量和因变量之间的定量关系.回归分析不仅包括建立数学模型并估计模型参数,检验数学模型的可信度,也包括利 ...
- Python数模笔记-Sklearn(2)聚类分析
1.分类的分类 分类的分类?没错,分类也有不同的种类,而且在数学建模.机器学习领域常常被混淆. 首先我们谈谈有监督学习(Supervised learning)和无监督学习(Unsupervised ...
- Python数模笔记-Sklearn(5)支持向量机
支持向量机(Support vector machine, SVM)是一种二分类模型,是按有监督学习方式对数据进行二元分类的广义线性分类器. 支持向量机经常应用于模式识别问题,如人像识别.文本分类.手 ...
- Python数模笔记-Sklearn(3)主成分分析
主成分分析(Principal Components Analysis,PCA)是一种数据降维技术,通过正交变换将一组相关性高的变量转换为较少的彼此独立.互不相关的变量,从而减少数据的维数. 1.数据 ...
- Python数模笔记-NetworkX(4)最小生成树
1.生成树和最小生成树 1.1 生成树 连通的无圈图称为树,就是不包含循环的回路的连通图. 对于无向连通图,生成树(Spanning tree)是原图的极小连通子图,它包含原图中的所有 n 个顶点,并 ...
- Python数模笔记-NetworkX(3)条件最短路径
1.带有条件约束的最短路径问题 最短路径问题是图论中求两个顶点之间的最短路径问题,通常是求最短加权路径. 条件最短路径,指带有约束条件.限制条件的最短路径.例如,顶点约束,包括必经点或禁止点的限制:边 ...
- Python数模笔记-NetworkX(2)最短路径
1.最短路径问题的常用算法 最短路径问题是图论研究中的经典算法问题,用于计算图中一个顶点到另一个顶点的最短路径. 欢迎关注 Youcans 原创系列,每周更新数模笔记 Python数模笔记-PuLP库 ...
- Python数模笔记-NetworkX(1)图的操作
1.NetworkX 图论与网络工具包 NetworkX 是基于 Python 语言的图论与复杂网络工具包,用于创建.操作和研究复杂网络的结构.动力学和功能. NetworkX 可以以标准和非标准的数 ...
- Python数模笔记-StatsModels 统计回归(3)模型数据的准备
1.读取数据文件 回归分析问题所用的数据都是保存在数据文件中的,首先就要从数据文件读取数据. 数据文件的格式很多,最常用的是 .csv,.xls 和 .txt 文件,以及 sql 数据库文件的读取 . ...
最新文章
- 超越EfficientNet,GPU上加速5倍,何恺明组CVPR 2020论文提出新型网络设计范式
- [Spring MVC] - @ModelAttribute使用
- Spring5参考指南:IOC容器
- 线程通信机制之定时器队列
- android 权限动态申请
- node 16位 转24位_同时将24位和32位BMP图像顺时针旋转90度
- -组件基础-局部组件 // 局部组件的简写
- 一些知名的J2me优秀开源UI项目
- 【Elasticsearch】索引 强制合并 缓存 refresh flush 等操作
- bzoj1588 营业额统计
- 语言叮叮消息接口_五分钟学后端技术:如何学习Java工程师必知必会的消息队列...
- 接口自动化测试框架搭建(10、运行特定测试case,生成报告发送邮件)--python+HTMLTestRunnerCN+request+unittest+mock+db
- Hyperworks——Optistruct学习分享
- JDK8的下载和安装,以及配置环境变量
- 扎实干货!PP-Tracking:百度提出实时目标跟踪系统(附源码教程)
- 钉钉群机器人通知中的图片,突然不显示了
- 千锋Django学习笔记
- 1012循环神经网络 RNN 的实现
- 学习记录646@python求解有效年利率
- 用Python3调用百度AI和图灵机器人实现一个智能(bushi)AI聊天机器人
热门文章
- html vba 单元格 格式,VBA设置单元格格式之——字体
- eq值 推荐算法_利用 SVD 实现协同过滤推荐算法
- html画布360图案填充_在Photoshop中创建带有图案的抽象设计
- IoT -- (三) 2018 Top物联网项目排名
- Java面试——MyBatis系列总结
- 全国计算机英语四六级准考证打印准考证号,2017全国大学生英语四六级准考证打印...
- python elif可以单独使用_Python的elif语句怎么用
- 2020有效的邮箱号大全_2020年公众号免费裂变涨粉的3个有效方法,让我一天涨粉6000...
- php服务器怎么设置cookie,php服务器如何清除浏览器cookie
- java获取子路径_Java中路径的获取