菜鸟窝出品】数据清洗、python与sklearn数据标准化实战(附项目源码)
本文是由菜鸟窝特邀清华的人工智能博士亲授,从零开始教你如何进行数据预处理,并通过实际案例手把手教会大家进行实操。相关的源码会发给大家实践,让你真正做到学以致用。
阿里百度人工智能大神精讲的人工智能视频课程,领取地址:https://www.cniao5.com/course/10239
或欢迎勾搭运营小姐姐(微信 id:BT474849)免费领取63讲精品机器学习入门到实战视频哦~
视频详解和实操代码可联系运营小姐姐(微信id:BT474849)免费领取。
一、机器学习算法流程
• 数据预处理
• 模型训练
• 参数选择
• 模型(内部)评估
• 模型应用
二、为何要进行数据预处理
• 原因:现实世界情况复杂
• 数据库太大,信息多而杂
• 数据易受噪声数据、空缺数据和不一致性数据的侵扰
• 目标:
• 提机器学习效果和质量
• 使机器学习更有效、更容易
三、数据预处理
• 数据清洗
• 数据标准化
1、数据清洗
• 数据清洗原因:现实世界的数据一般是有噪声的、
不完整和不一致的。
• 数据清洗对象: • 错误数据
• 缺失数据
• 冗余/关联数据
• 无意义特征
2、数据清洗常见方法
• 错误数据
• 缺失数据
• 冗余数据
• 特征选择
错误数据
• 更改/修复数据:根据以往数据规律修改数据
• 比如1号,身高改为170,或者男性平均身高
• 忽略数据
• 比如抛弃第一行1号数据
缺失数据
• 数据补缺
• 局部:局部数据的线性插值法进行补缺
• 全局:使用一个全局常量或属性的平均值填充空缺值 • 例子:2号男的身高使用所有用户/男性平均身高代替
• 忽略数据
• 比如抛弃财富这一维度
• 比如抛弃6号用户数据
冗余数据
• 移除冗余部分
• 例子:第5号用户数据重复,可以移除一行
特征选择
目标是移除无用特征,只保留有效特征
• 例子:用户的id不代表任何含义,对于我们的分析任
务无用,在机器学习时可以移除
• 例子:财富特征缺失严重,可以移除
四、数据标准化
数据标准化
• 将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去
除数据的单位限制,将其转化为无量纲的纯数值,
便于不同单位或量级的指标能够进行比较和加权。
例子一:单位不同的时候标准化
• 身高、体重和财富
• 人与人之间的身高和体重的差异不大
• 人与人之间的财富差异巨大,比如我和马云比较
例子二:单位相同的时候的标准化-1 • 体重差异
• 假设对3名新生婴儿体重(5,6,7)斤和3名成年人
的体重(150,151,152)斤差异的大小进行对比分
析,从表面上看,两组人员的平均差异均为1斤,由
此便得出两组人员的体重差异程度相同显然是不合适,
因为两者的体重水平不在同一等级上;
例子三:单位相同的时候的标准化-2 • 应用背景的差异
• 假设一个程序员要需要读取温度计/风力计/地震计的
数目,但是他却很难进一步对数据进行理解和分析,
因为他缺乏相关行业背景。
常见数据标准化方法
1、min-max标准化
• 是对原始数据的线性变换,使结果映射到[0,1]区间。
2、 z-score 标准化
• 这种方法基于原始数据的均值和标准差进行数据的标
准化。将A的原始值x使用z-score标准化到x’。 • z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
3、(正数)归一化方法
本节课的视频和源码可以勾搭运营小姐姐微信BT474849免费领取。
菜鸟窝出品】数据清洗、python与sklearn数据标准化实战(附项目源码)相关推荐
- Python实现恩尼格玛加密算法——附完整源码
Python实现恩尼格玛加密算法--附完整源码 恩尼格玛是第二次世界大战中德国所使用的复杂电机械式密码机.它被认为是世界上最复杂的加密设备之一.在这个项目中,我们将使用Python模拟实现恩尼格玛加密 ...
- Python语言打造智能语音助手——附完整源码
Python语言打造智能语音助手--附完整源码 随着智能家居.智能办公等领域的逐渐兴起,实现语音控制与交互已成为了一种趋势.而Python语言是一门极具魅力的编程语言,其强大的库.简洁的语法以及易于学 ...
- 实战|Python轻松实现动态网页爬虫(附详细源码)
用浅显易懂的语言分享爬虫.数据分析及可视化等干货,希望人人都能学到新知识. 项目背景 事情是这样的,前几天我公众号写了篇爬虫入门的实战文章,叫做<实战|手把手教你用Python爬虫(附详细源码) ...
- beautifulsoup解析动态页面div未展开_实战|Python轻松实现动态网页爬虫(附详细源码)...
用浅显易懂的语言分享爬虫.数据分析及可视化等干货,希望人人都能学到新知识.项目背景事情是这样的,前几天我公众号写了篇爬虫入门的实战文章,叫做<实战|手把手教你用Python爬虫(附详细源码)&g ...
- 【网络爬虫】【java】微博爬虫(一):小试牛刀——网易微博爬虫(自定义关键字爬取微博数据)(附软件源码)...
一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...
- Python传感器采集数据文件分析处理实验源码
前些天发现了一个巨牛的人工智能学习电子书,通俗易懂,风趣幽默,无广告,忍不住分享一下给大家.(点击跳转人工智能学习资料) 一.题目 附件sensor-data.txt是一个传感器采集数据文件,其中,每 ...
- 【Python数据分析】房价数据分析实战(包含源码和数据)
今天我们利用波士顿房价进行简单分析,快速熟悉数据挖掘和分析的一般流程. 1.导入数据. 2.查看数据维度,从结果可以出,该数据一共有506条记录,14个特征,然后再输出特征的名字和数据类型. 3.然后 ...
- 基于 Python 的图书借阅管理系统(附报告源码)
文章目录 项目需求 系统建模 活动图 用例图 类图 顺序图 状态图 系统部署说明 Requirements 启动系统 展示后修改和优化说明 源码下载 项目需求 系统建模 活动图 普通用户注册后通过前台 ...
- 手把手教你使用Python实现推箱子小游戏(附完整源码)
文章目录 项目介绍 项目规则 项目接口文档 项目实现过程 前置方法编写 move核心方法编写 项目收尾 项目完善 项目整体源码 项目缺陷分析 项目收获与反思 项目介绍 我们这个项目是一个基于Pytho ...
最新文章
- Silverlight 3发布新版3.0.50106.0
- 3dsmax 长动画导入 three.js 转变成 多个动画
- give root password for maintenance 启动异常的解决
- 分布式事务之消息补偿解决方案
- vector赋值的常见错误
- Java实现单词树(trie)
- 深度学习笔记(16) 误差分析(一)
- WORD给文档设置密码保护?
- 使用MATLAB绘制周期信号的,周期信号频域分析及MATLAB实现.ppt
- javamail 超时_为什么JavaMail连接超时太长
- wireshark linux远程,如何在SSH连接Linux的环境下使用wireshark抓包云边端架构?
- EAST: An Efficient and Accurate Scene Text Detector(自然场景下文本识别)训练,测试
- 第七部分:小插曲,Deferred
- ocp认证考试报名_2019年OCP认证在线考试网_OCP题库
- R语言实现随机森林代码
- 阿里云免费个人Docker镜像仓库搭建
- python-pygame与pymunk-倒塌解压金字塔
- 微软技术交流群 303295519
- Java复习之抽象类和接口
- 产品驱动增长模式的最佳实践
热门文章
- 【Linux】什么是链接文件及其分类
- sequelize多条件_Sequelize 和 MySQL 对照
- 经典升级,长直播,马上开课 | 第 20 期高级转录组分析和R数据可视化火热报名中!!!...
- 日本金融监管机构将推出新的ICO法规
- 刚子:走马观花奋达创“芯”发布会
- java狗具有特别的接飞盘的方法_java第七章 多态 课堂笔记/作业
- 2007版Excel创建的数据透视表并不能在2003版中使用
- DGIOT平台实时展示OPC上报数据全流程代码剖析
- 全球与中国汽车空气悬架系统市场现状及未来发展趋势
- GEA 4.5比较各种旋转表达方式