sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频)

https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

数据预处理方法包括scale,normalization,Binarizer

# -*- coding: utf-8 -*-
"""
Created on Sat Apr 14 09:09:41 2018@author:Toby
standardScaler==features with a mean=0 and variance=1
minMaxScaler==features in a 0 to 1 range
normalizer==feature vector to a euclidean length=1normalization
bring the values of each feature vector on a common scale
L1-least absolute deviations-sum of absolute values(on each row)=1;it is insensitive to outliers
L2-Least squares-sum of squares(on each row)=1;takes outliers in consideration during traing"""from sklearn import preprocessing
import numpy as npdata=np.array([[2.2,5.9,-1.8],[5.4,-3.2,-5.1],[-1.9,4.2,3.2]])
bindata=preprocessing.Binarizer(threshold=1.5).transform(data)
print('Binarized data:',bindata)#mean removal
print('Mean(before)=',data.mean(axis=0))
print('standard deviation(before)=',data.std(axis=0))#features with a mean=0 and variance=1
scaled_data=preprocessing.scale(data)
print('Mean(before)=',scaled_data.mean(axis=0))
print('standard deviation(before)=',scaled_data.std(axis=0))
print('scaled_data:',scaled_data)
'''
scaled_data: [[ 0.10040991  0.91127074 -0.16607709][ 1.171449   -1.39221918 -1.1332319 ][-1.27185891  0.48094844  1.29930899]]
'''#features in a 0 to 1 range
minmax_scaler=preprocessing.MinMaxScaler(feature_range=(0,1))
data_minmax=minmax_scaler.fit_transform(data)
print('MinMaxScaler applied on the data:',data_minmax)
'''
MinMaxScaler applied on the data: [[ 0.56164384  1.          0.39759036][ 1.          0.          0.        ][ 0.          0.81318681  1.        ]]
'''data_l1=preprocessing.normalize(data,norm='l1')
data_l2=preprocessing.normalize(data,norm='l2')
print('l1-normalized data:',data_l1)
'''
[[ 0.22222222  0.5959596  -0.18181818][ 0.39416058 -0.23357664 -0.37226277][-0.20430108  0.4516129   0.34408602]]
'''
print('l2-normalized data:',data_l2)
'''
[[ 0.3359268   0.90089461 -0.2748492 ][ 0.6676851  -0.39566524 -0.63059148][-0.33858465  0.74845029  0.57024784]]
'''

  

数据处理——One-Hot Encoding

一、One-Hot Encoding

One-Hot编码,又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。
在实际的机器学习的应用任务中,特征有时候并不总是连续值,有可能是一些分类值,如性别可分为“male”和“female”。在机器学习任务中,对于这样的特征,通常我们需要对其进行特征数字化,如下面的例子:
有如下三个特征属性:
  • 性别:["male","female"]
  • 地区:["Europe","US","Asia"]
  • 浏览器:["Firefox","Chrome","Safari","Internet Explorer"]

对于某一个样本,如["male","US","Internet Explorer"],我们需要将这个分类值的特征数字化,最直接的方法,我们可以采用序列化的方式:[0,1,3]。但是这样的特征处理并不能直接放入机器学习算法中。

二、One-Hot Encoding的处理方法

对于上述的问题,性别的属性是二维的,同理,地区是三维的,浏览器则是思维的,这样,我们可以采用One-Hot编码的方式对上述的样本“["male","US","Internet Explorer"]”编码,“male”则对应着[1,0],同理“US”对应着[0,1,0],“Internet Explorer”对应着[0,0,0,1]。则完整的特征数字化的结果为:[1,0,0,1,0,0,0,0,1]。这样导致的一个结果就是数据会变得非常的稀疏。

python风控评分卡建模和风控常识

https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

转载于:https://www.cnblogs.com/webRobot/p/8830816.html

sklearn-数据预处理scale相关推荐

  1. sklearn数据预处理-scale

    对数据按列属性进行scale处理后,每列的数据均值变成0,标准差变为1.可通过下面的例子加深理解: from sklearn import preprocessing import numpy as ...

  2. Scikit-learn学习系列 | 2. sklearn数据预处理的相关方法

    如有错误,恳请指出. 以下内容整理自专栏:博主"文火冰糖的硅基工坊"的专栏--机器学习与scikit-learn,对部分的文章的简化与整理. 文章目录 1. 数据预处理介绍 2. ...

  3. sklearn数据预处理

    @Author : By Runsen 文章目录 预处理数据 映射到统一分布 标准化,或平均删除和方差缩放 数据的正则化(正则化有时也叫归一化) 特征的二值化 怎么设置阈值 分类特征编码 有丢失的分类 ...

  4. Sklearn 数据预处理与特征工程 preprocessingimpute

    数据预处理:目的是为了提高数据质量,使数据挖掘的过程更加有效,更加容易,同时也提高挖掘结果的质量.数据预处理的对象主要是清理其中的噪声数据.空缺数据和不一致数据. 特征工程:降低计算成本.提升模型上限 ...

  5. [机器学习-sklearn]数据预处理要点总结

    数据预处理要点总结 1. 为什么要数据预处理 2. 数据中存在缺失值 2.1 查看数据的完整性(missingno) 2.2 简单删除法 2.3 人工填写(filling manually) 2.4 ...

  6. python机器学习库sklearn——数据预处理

    全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 主要操作内容 标准化,也称去均值和方差按比例缩放 将特征缩放至特定范围内 缩放稀疏(矩阵)数据 缩放有离群值的数据 核矩阵的中心化 非 ...

  7. sklearn数据预处理(二)非线性转换

    @R星校长 第2关:非线性转换 为什么要非线性转换. 映射到均匀分布. 映射到高斯分布. 为什么要非线性转换 在上一关中已经提到,对于大多数数据挖掘算法来说,如果特征不服从或者近似服从标准正态分布(即 ...

  8. sklearn 数据预处理1: StandardScaler

    转载自:https://blog.csdn.net/u012609509/article/details/78554709 StandardScaler 作用:去均值和方差归一化.且是针对每一个特征维 ...

  9. sklearn学习笔记(一)——数据预处理 sklearn.preprocessing

    python sklearn 更多 个人分类: Python 数据处理 sklearn 数据预处理 sklearn.preprocessing 查看全文 http://www.taodudu.cc/n ...

  10. Python: sklearn库——数据预处理

    Python: sklearn库 -- 数据预处理 数据集转换之预处理数据:       将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化.       原因:数据集的标准化(服从均 ...

最新文章

  1. VMware HA环境搭建七:WIN2012 ISCSI目标服务器的安装
  2. java 输出_使用IntelliJ IDEA2020.2.2 x64新建java项目并且输出Hello World
  3. 解压bzi2文件出错,分析和处理
  4. php一句话图片木马过滤_php一句话图片木马怎么解析
  5. (github标星9200+)《南瓜书》:周志华《机器学习》的代码实现
  6. CodeForces - 932G Palindrome Partition(回文自动机+Palindrome Series优化dp)
  7. 任务03——简单程序测试及 GitHub Issues 的使用
  8. 如何找到在SAP社区上经过SAP官方认可比较有影响力的SAP从业者
  9. Sentinel(十五)之在生产环境中使用 Sentinel
  10. NPTL(Native POSIX Thread Library)
  11. java判断ftp创建目录是否成功_Java判断Ftp服务器目录是否存在,若不存在创建目录 ....
  12. 访问母版页控件、属性、方法及母版页中调用内容页的方法
  13. 利用反射判断初始化后的对象所有属性是否为空判断对象指定属性是否为空
  14. GitLab Web IDE正式发布10.7版本并开源
  15. 获取手机idfa_东风无力百花残 | IDFA留给开发者的时间不多了
  16. 4.算法通关面试 --- 树和图
  17. 2018年度最佳网页设计与开发教程
  18. 秦汉考场科目三路线图_秦汉考场科目三考试过程
  19. PEI表面修饰CNTs步骤及原理
  20. 1万元左右理财方法有那些

热门文章

  1. mysql 启动 内存_mysql启动内存的疑问
  2. python开发网络小工具_Python 实现简单网络应用程序开发
  3. 苹果付费app共享公众号_娄底共享云店铺公众号
  4. Python对命令提示符cmd以及操作系统的一些操作
  5. linux获取主板温度电压_液晶彩电主板维修与代换探讨(三)
  6. 狄慧201771010104《面向对象程序设计(java)》第八周学习总结
  7. boost.asio学习-----reslover 域名解析
  8. 20165211 我期望的师生关系
  9. CentOS 7运维管理笔记(5)----源代码安装Apache 2.4,搭建LAMP服务器
  10. BAT-使用BAT方法清理Delphi临时文件