本文是由菜鸟窝特邀清华的人工智能博士亲授,从零开始教你如何进行数据预处理,并通过实际案例手把手教会大家进行实操。相关的源码会发给大家实践,让你真正做到学以致用。
阿里百度人工智能大神精讲的人工智能视频课程,领取地址:https://www.cniao5.com/course/10239
或欢迎勾搭运营小姐姐(微信 id:BT474849)免费领取63讲精品机器学习入门到实战视频哦~

视频详解和实操代码可联系运营小姐姐(微信id:BT474849)免费领取。

一、机器学习算法流程

• 数据预处理
• 模型训练
• 参数选择
• 模型(内部)评估
• 模型应用

二、为何要进行数据预处理

• 原因:现实世界情况复杂
• 数据库太大,信息多而杂
• 数据易受噪声数据、空缺数据和不一致性数据的侵扰
• 目标:
• 提机器学习效果和质量
• 使机器学习更有效、更容易

三、数据预处理

• 数据清洗
• 数据标准化

1、数据清洗
• 数据清洗原因:现实世界的数据一般是有噪声的、
不完整和不一致的。
• 数据清洗对象: • 错误数据
• 缺失数据
• 冗余/关联数据
• 无意义特征


2、数据清洗常见方法
• 错误数据
• 缺失数据
• 冗余数据
• 特征选择

错误数据
• 更改/修复数据:根据以往数据规律修改数据
• 比如1号,身高改为170,或者男性平均身高
• 忽略数据
• 比如抛弃第一行1号数据


缺失数据
• 数据补缺
• 局部:局部数据的线性插值法进行补缺
• 全局:使用一个全局常量或属性的平均值填充空缺值 • 例子:2号男的身高使用所有用户/男性平均身高代替
• 忽略数据
• 比如抛弃财富这一维度
• 比如抛弃6号用户数据


冗余数据
• 移除冗余部分
• 例子:第5号用户数据重复,可以移除一行

特征选择
目标是移除无用特征,只保留有效特征
• 例子:用户的id不代表任何含义,对于我们的分析任
务无用,在机器学习时可以移除
• 例子:财富特征缺失严重,可以移除

四、数据标准化

数据标准化
• 将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去
除数据的单位限制,将其转化为无量纲的纯数值,
便于不同单位或量级的指标能够进行比较和加权。

例子一:单位不同的时候标准化
• 身高、体重和财富
• 人与人之间的身高和体重的差异不大
• 人与人之间的财富差异巨大,比如我和马云比较

例子二:单位相同的时候的标准化-1 • 体重差异
• 假设对3名新生婴儿体重(5,6,7)斤和3名成年人
的体重(150,151,152)斤差异的大小进行对比分
析,从表面上看,两组人员的平均差异均为1斤,由
此便得出两组人员的体重差异程度相同显然是不合适,
因为两者的体重水平不在同一等级上;

例子三:单位相同的时候的标准化-2 • 应用背景的差异
• 假设一个程序员要需要读取温度计/风力计/地震计的
数目,但是他却很难进一步对数据进行理解和分析,
因为他缺乏相关行业背景。

常见数据标准化方法
1、min-max标准化
• 是对原始数据的线性变换,使结果映射到[0,1]区间。

2、 z-score 标准化
• 这种方法基于原始数据的均值和标准差进行数据的标
准化。将A的原始值x使用z-score标准化到x’。 • z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。

3、(正数)归一化方法


本节课的视频和源码可以勾搭运营小姐姐微信BT474849免费领取。

菜鸟窝出品】数据清洗、python与sklearn数据标准化实战(附项目源码)相关推荐

  1. Python实现恩尼格玛加密算法——附完整源码

    Python实现恩尼格玛加密算法--附完整源码 恩尼格玛是第二次世界大战中德国所使用的复杂电机械式密码机.它被认为是世界上最复杂的加密设备之一.在这个项目中,我们将使用Python模拟实现恩尼格玛加密 ...

  2. Python语言打造智能语音助手——附完整源码

    Python语言打造智能语音助手--附完整源码 随着智能家居.智能办公等领域的逐渐兴起,实现语音控制与交互已成为了一种趋势.而Python语言是一门极具魅力的编程语言,其强大的库.简洁的语法以及易于学 ...

  3. 实战|Python轻松实现动态网页爬虫(附详细源码)

    用浅显易懂的语言分享爬虫.数据分析及可视化等干货,希望人人都能学到新知识. 项目背景 事情是这样的,前几天我公众号写了篇爬虫入门的实战文章,叫做<实战|手把手教你用Python爬虫(附详细源码) ...

  4. beautifulsoup解析动态页面div未展开_实战|Python轻松实现动态网页爬虫(附详细源码)...

    用浅显易懂的语言分享爬虫.数据分析及可视化等干货,希望人人都能学到新知识.项目背景事情是这样的,前几天我公众号写了篇爬虫入门的实战文章,叫做<实战|手把手教你用Python爬虫(附详细源码)&g ...

  5. 【网络爬虫】【java】微博爬虫(一):小试牛刀——网易微博爬虫(自定义关键字爬取微博数据)(附软件源码)...

    一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...

  6. Python传感器采集数据文件分析处理实验源码

    前些天发现了一个巨牛的人工智能学习电子书,通俗易懂,风趣幽默,无广告,忍不住分享一下给大家.(点击跳转人工智能学习资料) 一.题目 附件sensor-data.txt是一个传感器采集数据文件,其中,每 ...

  7. 【Python数据分析】房价数据分析实战(包含源码和数据)

    今天我们利用波士顿房价进行简单分析,快速熟悉数据挖掘和分析的一般流程. 1.导入数据. 2.查看数据维度,从结果可以出,该数据一共有506条记录,14个特征,然后再输出特征的名字和数据类型. 3.然后 ...

  8. 基于 Python 的图书借阅管理系统(附报告源码)

    文章目录 项目需求 系统建模 活动图 用例图 类图 顺序图 状态图 系统部署说明 Requirements 启动系统 展示后修改和优化说明 源码下载 项目需求 系统建模 活动图 普通用户注册后通过前台 ...

  9. 手把手教你使用Python实现推箱子小游戏(附完整源码)

    文章目录 项目介绍 项目规则 项目接口文档 项目实现过程 前置方法编写 move核心方法编写 项目收尾 项目完善 项目整体源码 项目缺陷分析 项目收获与反思 项目介绍 我们这个项目是一个基于Pytho ...

最新文章

  1. Silverlight 3发布新版3.0.50106.0
  2. 3dsmax 长动画导入 three.js 转变成 多个动画
  3. give root password for maintenance 启动异常的解决
  4. 分布式事务之消息补偿解决方案
  5. vector赋值的常见错误
  6. Java实现单词树(trie)
  7. 深度学习笔记(16) 误差分析(一)
  8. WORD给文档设置密码保护?
  9. 使用MATLAB绘制周期信号的,周期信号频域分析及MATLAB实现.ppt
  10. javamail 超时_为什么JavaMail连接超时太长
  11. wireshark linux远程,如何在SSH连接Linux的环境下使用wireshark抓包云边端架构?
  12. EAST: An Efficient and Accurate Scene Text Detector(自然场景下文本识别)训练,测试
  13. 第七部分:小插曲,Deferred
  14. ocp认证考试报名_2019年OCP认证在线考试网_OCP题库
  15. R语言实现随机森林代码
  16. 阿里云免费个人Docker镜像仓库搭建
  17. python-pygame与pymunk-倒塌解压金字塔
  18. 微软技术交流群 303295519
  19. Java复习之抽象类和接口
  20. 产品驱动增长模式的最佳实践

热门文章

  1. 【Linux】什么是链接文件及其分类
  2. sequelize多条件_Sequelize 和 MySQL 对照
  3. 经典升级,长直播,马上开课 | 第 20 期高级转录组分析和R数据可视化火热报名中!!!...
  4. 日本金融监管机构将推出新的ICO法规
  5. 刚子:走马观花奋达创“芯”发布会
  6. java狗具有特别的接飞盘的方法_java第七章 多态 课堂笔记/作业
  7. 2007版Excel创建的数据透视表并不能在2003版中使用
  8. DGIOT平台实时展示OPC上报数据全流程代码剖析
  9. 全球与中国汽车空气悬架系统市场现状及未来发展趋势
  10. GEA 4.5比较各种旋转表达方式