目录

什么是机器学习

数据来源与类型

数据特征工程

数据特征抽取

TF-IDF

TfidfVectorizer语法

数据的特征处理

归一化

归一化总结

标准化

结合归一化来谈标准化

StandardScaler语法

标准化总结

缺失值处理方法

Imputer流程

关于np.nan(np.NaN)


什么是机器学习

机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测

数据来源与类型

数据类型

•离散型数据:由记录不同类别个体的数目所得到的数据,又称计数数据,所

有这些数据全部都是整数,而且不能再细分,也不能进一步提高他

们的精确度。

•连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续

的,如,长度、时间、质量值等,这类整数通常是非整数,含有小数

部分。

注:只要记住一点,离散型是区间内不可分,连续型是区间内可分

Kaggle网址:https://www.kaggle.com/datasets

UCI数据集网址: http://archive.ics.uci.edu/ml/

scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets

数据特征工程

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性

特征工程的意义:•直接影响模型的预测结果

数据特征抽取

sklearn特征抽取API

•sklearn.feature_extraction

字典特征抽取作用:对字典数据进行特征值化

类:sklearn.feature_extraction.DictVectorizer

"coding = utf-8"from sklearn.feature_extraction import DictVectorizerdef dictvec():"""对数据进行特征工程化处理:return:"""dict = DictVectorizer(sparse=False)Xdata = [{"city": "beijing", "temperature": 100},{"city": "shanghai", "temperature": 90},{"city": "shenzhen", "temperature": 80},{"city": "lanzhou", "temperature": 75},]data = dict.fit_transform(Xdata)print(data)print(dict.get_feature_names())print(dict.get_params())return  Nonedef main():print(10*"=")dictvec()if __name__ == "__main__":main()

CountVectorizer语法

TF-IDF

TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高,

并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分

能力,适合用来分类。

TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

类:sklearn.feature_extraction.text.TfidfVectorizer

TfidfVectorizer语法

•TfidfVectorizer(stop_words=None,…)
•返回词的权重矩阵
•TfidfVectorizer.fit_transform(X,y)      
•X:文本或者包含文本字符串的可迭代对象
•返回值:返回sparse矩阵
•TfidfVectorizer.inverse_transform(X)
•X:array数组或者sparse矩阵

返回值:转换之前数据格式

•TfidfVectorizer.get_feature_names()
•返回值:单词列表

数据的特征处理

1、特征处理的方法

2、sklearn特征处理API

特征处理是通过特定的统计方法(数学方法)将数据转换成算法要求的数据

数值型数据:标准缩放:

1、归一化

2、标准化

3、缺失值

类别型数据:one-hot编码

时间类型:时间的切分

归一化

特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间

sklearn归一化API

sklearn归一化API:  sklearn.preprocessing.MinMaxScaler

MinMaxScaler语法

归一化总结

注意在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。

标准化

结合归一化来谈标准化

StandardScaler语法

标准化总结

在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

缺失值处理方法

Imputer流程

关于np.nan(np.NaN)

机器学习与深度学习基本概念 学习笔记相关推荐

  1. 学习新概念第一册 第一堂课 音标和基础知识储备(1)

    这是我第一次写博客,将自己学习新概念的笔记整理到上面希望对大家有帮助. 总共44堂课.今天是第一堂课.3节课音标和基础知识储备.剩余41节课讲新概念第一册. 在英语中音标就相当于汉语中的拼音,字母就相 ...

  2. 下载量过百万的吴恩达机器学习和深度学习笔记更新了!(附PDF下载)

    今天,我把吴恩达机器学习和深度学习课程笔记都更新了,并提供下载,这两本笔记非常适合机器学习和深度学习入门.(作者:黄海广) 0.导语 我和同学将吴恩达老师机器学习和深度学习课程笔记做成了打印版,放在g ...

  3. GitHub上AI岗位面试笔记(机器学习算法/深度学习/ NLP/计算机视觉)

    目录 机器学习 深度学习 自然语言处理与数学 算法题和笔试题 推荐阅读 工具 最近在GitHub上淘到一个很棒的AI算法面试笔记,特地分享给小伙伴们~ GitHub地址:https://github. ...

  4. 1.1机器学习和深度学习综述(百度架构师手把手带你零基础实践深度学习原版笔记系列)

    人工智能.机器学习.深度学习的关系 近些年人工智能.机器学习和深度学习的概念十分火热,但很多从业者却很难说清它们之间的关系,外行人更是雾里看花.在研究深度学习之前,我们先从三个概念的正本清源开始. 概 ...

  5. 机器学习基础:人工智能、机器学习、深度学习的概念和关系(一)

    本文属于入门深度学习系列文章的第一篇,该系列专栏主要是记录我在Coursera上学习Andrew Ng的 Machine Learning 和 Deep Learning.AI课程时做的笔记,如果有错 ...

  6. 干货丨机器学习和深度学习概念入门

    对于很多初入学习人工智能的学习者来说,对人工智能.机器学习.深度学习的概念和区别还不是很了解,有可能你每天都能听到这个概念,也经常提这个概念,但是你真的懂它们之间的关系吗?那么接下来就给大家从概念和特 ...

  7. 手机上的机器学习资源!Github标星过万的吴恩达机器学习、深度学习课程笔记,《统计学习方法》代码实现!...

    吴恩达机器学习.深度学习,李航老师<统计学习方法>.CS229数学基础等,可以说是机器学习入门的宝典.本文推荐一个网站"机器学习初学者",把以上资源的笔记.代码实现做成 ...

  8. 吴恩达老师的机器学习和深度学习课程笔记打印版

    注意:下载笔记.视频.代码:请点击"阅读原文" 我和同学将吴恩达老师机器学习和深度学习课程笔记做成了打印版,放在github上,下载后可以打印. 公布了深度学习笔记的word和ma ...

  9. 新建网站了!Github标星过万的吴恩达机器学习、深度学习课程笔记,《统计学习方法》代码实现,可以在线阅读了!...

    吴恩达机器学习.深度学习,李航老师<统计学习方法>,可以说是机器学习入门的宝典.本文推荐一个网站"机器学习初学者",把以上资源的笔记.代码实现做成了网页版,可以在线阅读 ...

  10. 吴恩达深度学习笔记_Github标星过万的吴恩达机器学习、深度学习课程笔记,《统计学习方法》代码实现,可以在线阅读了!...

    吴恩达机器学习.深度学习,李航老师<统计学习方法>,可以说是机器学习入门的宝典.本文推荐一个网站"机器学习初学者",把以上资源的笔记.代码实现做成了网页版,可以在线阅读 ...

最新文章

  1. 使用最新版(2020)IntelliJ IDEA 创建Servlet项目
  2. IIS7入门之旅:(3)CGI application和FastCGI application的区别
  3. 一文读懂神经网络初始化!吴恩达Deeplearning.ai最新干货
  4. 大型互联网公司必考java面试题与面试技巧
  5. 利用函数wavread对语音信号进行采样_语音识别第4讲:语音特征参数MFCC
  6. erwin 不能输入中文_国产开源建模软件PDMan与国外商业建模软件ERwin的主要功能比较...
  7. openssh升级后root_又一root神器停止营业!时至今日你还需要root吗
  8. C语言-查找顺序表中的最大值
  9. linux怎么升级python2.7,linux升级python到2.7
  10. 学英语专业后悔了_上大学一定不要读英语专业?当年志愿填报我选了英语专业...
  11. 文件上传到服务器文件名中文乱码问题
  12. C程序设计(第五版)谭浩强第七章课后答案
  13. DEDE源码分析与学习之二: member文件结构说明
  14. 【暴躁版】Java如何用IO流读取一个文本,按行输出到控制台?
  15. Super Point 笔记(二)
  16. 拍摄高质量数码照片的三条原则:安全快门、低感光度、最佳光圈
  17. 已注销主体的公众号迁移办理流程及方法
  18. 通过jenkins构建服务,并发布服务,修改Jenkins以Root用户运行
  19. 大疆机甲大师Python开发: 两只老虎
  20. 计算机配置高低怎么看,电脑配置怎么看高低?教你如何查看电脑配置高低?

热门文章

  1. android6.0显示系统 6,Android6.0 显示系统(四) 图像显示相关
  2. sw如何缩放装配体_solidworks提高大型装配体的展示、设计效率
  3. 搭建ftp_Windows 10搭建FTP服务器!
  4. input正则邮箱_javascript写一个校验邮箱的正则表达式
  5. xcode连接iphone调试_电脑操作手机?iPhone,安卓通吃?手机还能这么玩!
  6. #数组元素相乘_C++ 矩阵相乘
  7. tomcat设置context不生效_后端服务:关于Tomcat相关面试题,看懂这篇就够了(有深度)...
  8. python三大神器之fabric
  9. Apache双机热备
  10. 针对笔记本电源已接通未充电的提示怎么办