目录

一、数据预处理可以包括那些操作

二.数据抽样可以包含那些类型的抽样方式,每一种抽样方式的原理是什么?

1.随机抽样(Random Sampling)

2.系统抽样(Systemactic Sampling)

3.分层抽样(Stratified Sampling)

4.加权抽样(Weighted Sampling)

三、回顾数据标准化及归一化原理,简述数据标准化及归一化的优势

1.数据标准化

2. 归一化

四、一般业务会存在什么样的数据质量问题

1.缺失(Missing)

2.离群(Outlier)

3.重复(Duplication)

4.错误(Error)

五、针对不同数据质量问题,采用什么样的数据手段对数据进行数据清洗

1.缺失值填充

2.格式、内容清洗

3.逻辑错误清洗

六、思考特征工程所包含的内容与步骤

1.大数据分析中的特征

2.特征的重要性

3.特征降维

4.特征提取和特征选择

5.特征构建

6.特征学习

7.特征变换


一、数据预处理可以包括那些操作

数据预处理是对获取的数据进行加工整理,使满足数据分析的需求,就需要用到数据预处理技术。数据预处理是对获取的数据进行加工整理,使满足数据分析的需求,保证了后期数据分析工作的质量和效率。该项工作包括数据抽样、数据标准化及归一化、数据质量提升与数据清洗。基于预处理后的数据从数据分析的需求出发,构建一个描述数据的特征模型,为后续的数据分析做好准备。

二.数据抽样可以包含那些类型的抽样方式,每一种抽样方式的原理是什么?

1.随机抽样(Random Sampling)

特点:从总体中逐个抽取样本

  • 抽签法
  • 随机数法
  • 水库抽样

2.系统抽样(Systemactic Sampling)

特点:将总体数据均衡地分成几个数据子集,然后按照某一预先设定的规则,在每个子集中抽取样本数据,这种抽样叫做系统抽样,又称等距抽样。

3.分层抽样(Stratified Sampling)

特点:先将总体按照某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽取样本,从而保证样本结构与总体结构比较相近提高估计地精度。

4.加权抽样(Weighted Sampling)

特点:该方法通过对总体中的每个样本设置不同数值大小的权值,使得样本能呈现出对数据分析工作不同的重要性,从而让数据分析结果能达到预期效果。

三、回顾数据标准化及归一化原理,简述数据标准化及归一化的优势

1.数据标准化

当样本不同特征之间在数值上存在较大差异或数值分布范围较大时,需要对数据进行标准化处理。常用的数据标准化方法有

  • Z-score标准化
  • Min-Max标准化
  • 小数点定标标准化
  • Logistic标准化

2. 归一化

样本特征数据之间往往有不同评价指标、不同的纲领和纲领单位,这种情况会降低数据分析结果的精确性和合理性,为了消除数据之间不同纲领对分析过程的影响,需要进行数据归一化处理。

  • 线性归一化:(1)0至1归一化 (2)-1至1归一化
  • 非线性归一化:(1)对数函数转换 (2)反正切函数转换

四、一般业务会存在什么样的数据质量问题

1.缺失(Missing)

  • 暂时无法获取相关数据
  • 数据被遗漏
  • 样本数据某个或某些特征是不具备的
  • 数据获取的代价过大或无法获取

2.离群(Outlier)

离群值即指存在一个或若干个样本特征数据,其在数值上与其他样本数据之间存在较大差异

3.重复(Duplication)

相同数据样本数据多次反复地出现的现象

4.错误(Error)

  • 删失
  • 截断

五、针对不同数据质量问题,采用什么样的数据手段对数据进行数据清洗

数据清洗主要有针对数据存在不完整的问题,进行缺失值填充;针对数据的数值或其格式存在不一致问题,进行数据格式、内容清洗;针对数据存在不准确问题,进行逻辑错误清洗。

1.缺失值填充

常用的缺失值处理方法:

  • 删除法:主要通过删除属性或者删除样本记录
  • 统计填充法:统计填充法即利用所有样本关于存在缺失值的字段的统计值对其进行填充
  • 统一填充法
  • 预测填充法

2.格式、内容清洗

  • 显示格式不一致清洗
  • 非法字符的清洗
  • 数据与字段定义的内容不一致清洗

3.逻辑错误清洗

  • 去重
  • 去除不合理值
  • 修正矛盾内容

六、思考特征工程所包含的内容与步骤

从本质上来说,特征工程是一项工程活动,即通过一系列的方法和操作流程,最大限度地从原始数据中提取有用、有意义的特征以供数据分析算法和模型使用,其直接影响了数据分析的质量。

1.大数据分析中的特征

大数据分析中常见数据的描述特征
数据类型 观测对象 特征描述
结构化数据 由不同的变量或属性构成 属性就是特征(这里属性特征队医分析和解决问题有用,有意义的属性)

结构化
数据
一幅图像 可能是图中的一条线
一个文本 可能是其中的段落或者词频率
一段语音 可能是一个词或者音素

2.特征的重要性

特征重要性,可以被认为是一个选择特征重要的评价方法。特征可以被分配一个分值,然后按照这个分值排序,那些具有较高得分的特征可以被选出来包含在训练集中,同时剩余的就可以被忽略。特征重要性得分可以帮助我们抽取或者构建新的特征。挑选那些相似但是不同的特征作为有用的特征。 如果一个特征与因变量(被预测的事物)高度相关,那么这个特征可能很重要。相关系数和其他单变量的方法(每一个变量被认为是相互独立的)是比较通用的评估方法。 更复杂的方法是通过预测模型算法来对特征进行评分。这些预测模型内部有这样的特征选择机制,比如多元自适应回归样条法,随机森林,梯度提升机。这些模型也可以得出变量的重要性。

3.特征降维

特征降维就是用来减少维度,去除过拟合现象的方法。特征降维分为两种特征选择和特征抽取。

降维的作用:(为什么会有这些作用?) 
(1)降低时间的复杂度和空间复杂度 
(2)节省了提取不必要特征的开销 
(3)去掉数据集中夹杂的噪音 
(4)较简单的模型在小数据集上有更强的鲁棒性 
(5)当数据能有较少的特征进行解释,我们可以更好地解释数据,是的我们可以提取知识 
(6)实现数据的可视化

4.特征提取和特征选择

特征提取是在原始特征或降维后的特征中,采用特征提取技术进行关键特征的提取。

特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下七种:

  1. 计算每一个特征和响应变量的相关性。
  2. 单个特征模型排序。
  3. 使用正则化方法选择属性。
  4. 应用随机森林选择属性。
  5. 训练能够对特征打分的预选模型。
  6. 通过特征组合后再来选择特征。
  7. 基于深度学习的特征选择。

5.特征构建

基于特征提取结果,采用人工的方式进行特征构建。

6.特征学习

特征学习是在原始数据中自动识别和使用特征。深度学习技术在特征学习领域有许多成功的案例,如自动编码器和首先波尔兹曼机。

7.特征变换

特征变换能消除原始特征之间的相关关系或减少冗余,得到新的特征使其更加便于数据分析。

  • 从信号处理观点来看,可在变换域中进行处理并提取信号性质,常见的算法有傅里叶变换、小波变换和Gabor变换等。
  • 从统计观点来看,减少变量之间的相关性,用少数的变量来尽可能反应样本信息,常见的算法有主成分分析、因子分析和独立成分分析等。
  • 从几何观点来看,通过变换到新的表达空间,使得数据可分性更好。常见的算法有线性判别分析、核方法等。

大数据分析与应用(中级) 数据预处理与特征工程相关推荐

  1. sklearn 神经网络_sklearn中的数据预处理和特征工程

    小伙伴们大家好~o( ̄▽ ̄)ブ,今天我们看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你 ...

  2. sklearn中eof报错_sklearn中的数据预处理和特征工程

    小伙伴们大家好~o( ̄▽ ̄)ブ,今天我们看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你 ...

  3. sklearn实战-----3.数据预处理和特征工程

    1 概述 1.1 数据预处理与特征工程 想象一下未来美好的一天,你学完了菜菜的课程,成为一个精通各种算法和调参调库的数据挖掘工程师了.某一天 你从你的同事,一位药物研究人员那里,得到了一份病人临床表现 ...

  4. 数据预处理与特征工程—12.常见的数据预处理与特征工程手段总结

    文章目录 引言 1.数据预处理 1.1 数据清洗 1.1.1 异常值处理 1.1.2 缺失值处理 1.2 特征预处理 1.2.1 数值型特征无量纲化 1.2.2 连续数值型特征分箱 1.2.2.1 无 ...

  5. 天池- IJCAI-18 阿里妈妈搜索广告转化预测新手入门经历(一:数据预处理、特征工程)

    第一次正式参加数据挖掘类的比赛,投入了三个星期.结果没有进入复赛,但是学到了许多经验.感谢技术圈和github的大佬们提供的baseline,让我少走了很多弯路. 第一次写博客,其一为了防止以后忘记, ...

  6. 使用Sklearn库学习数据预处理和特征工程

    目录 1,概述 1.1,数据预处理和特征工程 1.2,sklearn中的数据预处理和特征工程 2,数据预处理 Preprocessing & Impute 2.1,数据无量纲化 2.2,缺失值 ...

  7. pandas用众数填充缺失值_sklearn中的数据预处理和特征工程

    小伙伴们大家好~o()ブ,我是菜菜,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你的版本至少要3.4以上 Scikit-learn 0.20.0 (你的版 ...

  8. sklearn_数据预处理和特征工程

    转载自:菜菜的sklearn课堂 文章目录 1 概述 1.1 数据预处理与特征工程 1.2 sklearn中的数据预处理和特征工程 2 数据预处理 Preprocessing & Impute ...

  9. 「机器学习速成」数据预处理,特征工程,良好特征的特点

    https://www.toutiao.com/a6703863693408469516/ 大家好,今天我们学习[机器学习速成]之 数据预处理,特征工程,良好特征的特点 我们 马上学三点 , 特征工程 ...

最新文章

  1. 中小型研发团队架构实践:集中式日志ELK
  2. C#中的cookie编程
  3. 石子合并(GarsiaWachs算法)
  4. catia钣金根据线段折弯_钣金折弯加工注意事项有哪些?钣金折弯要点介绍
  5. 怎么把jad反编译放到Eclipse中
  6. Oracle基础知识-SQL简单命令
  7. 部署SCVMM2012 SP1 集群(1)---部署AD
  8. 安装nagios_grapher,有图有真相。
  9. 在Eclipse中通过axis2调用网络免费webService服务
  10. 网站项目建设流程概述
  11. 威纶通触摸屏与仪表通讯_威纶通触摸屏与英威腾变频器通信详细说明
  12. VIVADO synthesis和implementation具体完成什么操作
  13. linux登录提示文件 motd 有趣的motd
  14. html鼠标可拖动窗体,javascript div 弹出可拖动窗口
  15. 二叉树 最小公共祖先 c++版
  16. R-squared居然是负数
  17. 如何在PCB中放置禁止触摸标志
  18. .net 批量更新_痛点:Anaconda3 python第三方库批量安装
  19. codeforces 1139c Edgy Trees 【并查集 】
  20. 与思科交换机三层链路聚合连接 ❀ 飞塔 (Fortinet) 防火墙

热门文章

  1. 豆腐王国小游戏,烧脑推理全新来袭
  2. ccf python写题随手记
  3. 什么叫 Rss 订阅
  4. 网站代码该如何优化?
  5. Idea配置与项目导入(Java 与 Python 学习通法)
  6. python入门自学-如何系统地自学 Python?
  7. 淘宝、百度、腾讯、新浪开放平台
  8. kinetic安装cartographer及gazebo仿真测试教程[22年1月23日测试]
  9. linux dd nand,uboot 中 Nand flash 常用操作命令解释
  10. 力扣 857. 雇佣 K 名工人的最低成本