Python数据分析学习笔记:使用SciKit-Learn进行数据规范化

数据规范化是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲,数值见的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,比如[0, 1],便于进行综合分析。

SciKit-Learn是Python的重要机器学习库,封装了大量的机器学习算法,比如分类、聚类、回归、降维等,此外,还包括了数据变换模块,下面我们来学习使用SciKit-Learn提供的数据转换模块进行数据规范化。

一、Min-Max规范化

Min-Max规范化也称为离散标准化,是对原始数据的线性变换,将数据值映射到[0, 1]之间。

公式:新数值 = (原数值 - 最小值) / (最大值 - 最小值)

SciKit-Learn里有个MinMaxScaler函数可以将原始数据映射到[min, max]区间,默认情况下,[min, max]就是[0, 1]。

但是可以通过规范器(MinMaxScaler)设置参数:scaler.set_params().feature_range = (a, b),于是[min, max] = [a, b]。

1、导入模块

Python数据分析学习笔记:使用SciKit-Learn进行数据规范化相关推荐

  1. Python数据分析学习笔记:计算向量夹角

    Python数据分析学习笔记:计算向量夹角 通过计算两个向量夹角了解两个向量之间的相关性. # 计算向量夹角import numpy as npdef included_angle(a, b):a_n ...

  2. Python数据分析学习笔记:计算相关系数

    Python数据分析学习笔记:计算相关系数 1.相关系数概念 相关系数,或称线性相关系数.皮氏积矩相关系数(Pearson product-moment correlation coefficient ...

  3. Python数据分析学习笔记05:用户画像

    Python数据分析学习笔记05:用户画像 一.用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...

  4. python客户画像_Python数据分析学习笔记05:用户画像

    Python数据分析学习笔记05:用户画像 一.用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...

  5. 数据分析学习笔记——数据可视化

    数据分析学习笔记系列--数据可视化 总第45篇 ▼ 写在前面: 本篇来源于书籍<数据之美-一本书学会可视化设计>的学习后整理所得.全篇主要围绕数据可视化的5个步骤展开,其中重点内容是第三步 ...

  6. Python交叉分析学习笔记

    Python交叉分析学习笔记 本文将介绍两种方法来进行交叉分析:1.独立T检验 2.数据透视表. 数据源:百度网盘,课程来源:慕课网 数据源 共包括10个变量,如下:satisfaction_leve ...

  7. 数据分析学习笔记-数据分析预备知识

    数据分析学习笔记 数据分析预备知识

  8. 数据分析学习笔记(二)数据分析三思维七技巧

    数据分析学习笔记(二) What 三种核心思维 结构化 公式化 业务化 Why 数据分析的思维技巧 象限法 多维法 假设法 指数法 二八法 对比法 漏斗法 总结 How 如何在业余时间锻炼分析能力 好 ...

  9. 大数据分析学习笔记(Z检验,分类器以及Association Rule)

    大数据分析学习笔记(Z检验,分类器以及Association Rule) Task 1 – Hypothesis Testing To improve student learning perform ...

最新文章

  1. 无法安装或运行应用程序。该应用程序要求首先在“全局程序集缓存(gac)”中安装程序集system.data.entity...
  2. TensorFlow for Hackers - Part III
  3. LongestPalindromeSequence
  4. VMware Workstation 7.0 203739 汉化补丁
  5. Lua === Lua 十分钟基础入门上手
  6. Exception in thread main org.apache.thrift.transport.TTransportException: Could not create ServerS
  7. Docker入门(CentOS7)
  8. Mac OS X必备APP推荐之二
  9. JS学习笔记6-JavaScript 数据类型
  10. 18 File Duplication and Pipes
  11. [BZOJ 3888] [Usaco2015 Jan] Stampede 【线段树】
  12. labjs 分析转载
  13. android 4.4 root精灵,ROOT精灵: 支持安卓4.3/4.4机型一键ROOT
  14. HHL论文第二弹(基本过程)
  15. 国有银行信息科技岗笔试内容
  16. ado连接mysql方式_用ADO 连接mysql数据库的方法
  17. 通用后台管理系统前端界面Ⅺ——信息列表页(弹窗复用增改、CRUD前端基础实现)
  18. 琵琶行用计算机弹,琵琶行中的三次弹奏
  19. 图解在EXCEL中,通过身份证自动获得出生日期和性别。
  20. HashMap是什么?HashMap的底层原理是什么?

热门文章

  1. 如何计算边缘计算的成本
  2. 基于华为云对话机器人技能平台的规则模板概述
  3. 硬核评测:企业上云的极速存储挑战,华为云全新极速IO云硬盘性能评测
  4. MySQL指定存储引擎命令_MySQL常用指令(2)——存储引擎
  5. 2021-06-20 pip有时候需要加上--user安装才好使
  6. 豆瓣镜像源的使用与pip包版本控制
  7. Python赋值语句浅析
  8. LeetCode-148:排序链表
  9. python人工智能github的一些跑程序技巧(持续更新~)
  10. C++学习系列笔记(八)