机器学习与深度学习基本概念 学习笔记
目录
什么是机器学习
数据来源与类型
数据特征工程
数据特征抽取
TF-IDF
TfidfVectorizer语法
数据的特征处理
归一化
归一化总结
标准化
结合归一化来谈标准化
StandardScaler语法
标准化总结
缺失值处理方法
Imputer流程
关于np.nan(np.NaN)
什么是机器学习
机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测
数据来源与类型
数据类型
有这些数据全部都是整数,而且不能再细分,也不能进一步提高他
们的精确度。
的,如,长度、时间、质量值等,这类整数通常是非整数,含有小数
部分。
注:只要记住一点,离散型是区间内不可分,连续型是区间内可分
Kaggle网址:https://www.kaggle.com/datasets
UCI数据集网址: http://archive.ics.uci.edu/ml/
scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets
数据特征工程
特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性
特征工程的意义:•直接影响模型的预测结果
数据特征抽取
sklearn特征抽取API
•sklearn.feature_extraction
字典特征抽取作用:对字典数据进行特征值化
类:sklearn.feature_extraction.DictVectorizer
"coding = utf-8"from sklearn.feature_extraction import DictVectorizerdef dictvec():"""对数据进行特征工程化处理:return:"""dict = DictVectorizer(sparse=False)Xdata = [{"city": "beijing", "temperature": 100},{"city": "shanghai", "temperature": 90},{"city": "shenzhen", "temperature": 80},{"city": "lanzhou", "temperature": 75},]data = dict.fit_transform(Xdata)print(data)print(dict.get_feature_names())print(dict.get_params())return Nonedef main():print(10*"=")dictvec()if __name__ == "__main__":main()
CountVectorizer语法
TF-IDF
TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高,
并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分
能力,适合用来分类。
TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
类:sklearn.feature_extraction.text.TfidfVectorizer
TfidfVectorizer语法
返回值:转换之前数据格式
数据的特征处理
1、特征处理的方法
2、sklearn特征处理API
特征处理是通过特定的统计方法(数学方法)将数据转换成算法要求的数据
数值型数据:标准缩放:
1、归一化
2、标准化
3、缺失值
类别型数据:one-hot编码
时间类型:时间的切分
归一化
特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间
sklearn归一化API
sklearn归一化API: sklearn.preprocessing.MinMaxScaler
MinMaxScaler语法
归一化总结
注意在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。
标准化
结合归一化来谈标准化
StandardScaler语法
标准化总结
在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。
缺失值处理方法
Imputer流程
关于np.nan(np.NaN)
机器学习与深度学习基本概念 学习笔记相关推荐
- 学习新概念第一册 第一堂课 音标和基础知识储备(1)
这是我第一次写博客,将自己学习新概念的笔记整理到上面希望对大家有帮助. 总共44堂课.今天是第一堂课.3节课音标和基础知识储备.剩余41节课讲新概念第一册. 在英语中音标就相当于汉语中的拼音,字母就相 ...
- 下载量过百万的吴恩达机器学习和深度学习笔记更新了!(附PDF下载)
今天,我把吴恩达机器学习和深度学习课程笔记都更新了,并提供下载,这两本笔记非常适合机器学习和深度学习入门.(作者:黄海广) 0.导语 我和同学将吴恩达老师机器学习和深度学习课程笔记做成了打印版,放在g ...
- GitHub上AI岗位面试笔记(机器学习算法/深度学习/ NLP/计算机视觉)
目录 机器学习 深度学习 自然语言处理与数学 算法题和笔试题 推荐阅读 工具 最近在GitHub上淘到一个很棒的AI算法面试笔记,特地分享给小伙伴们~ GitHub地址:https://github. ...
- 1.1机器学习和深度学习综述(百度架构师手把手带你零基础实践深度学习原版笔记系列)
人工智能.机器学习.深度学习的关系 近些年人工智能.机器学习和深度学习的概念十分火热,但很多从业者却很难说清它们之间的关系,外行人更是雾里看花.在研究深度学习之前,我们先从三个概念的正本清源开始. 概 ...
- 机器学习基础:人工智能、机器学习、深度学习的概念和关系(一)
本文属于入门深度学习系列文章的第一篇,该系列专栏主要是记录我在Coursera上学习Andrew Ng的 Machine Learning 和 Deep Learning.AI课程时做的笔记,如果有错 ...
- 干货丨机器学习和深度学习概念入门
对于很多初入学习人工智能的学习者来说,对人工智能.机器学习.深度学习的概念和区别还不是很了解,有可能你每天都能听到这个概念,也经常提这个概念,但是你真的懂它们之间的关系吗?那么接下来就给大家从概念和特 ...
- 手机上的机器学习资源!Github标星过万的吴恩达机器学习、深度学习课程笔记,《统计学习方法》代码实现!...
吴恩达机器学习.深度学习,李航老师<统计学习方法>.CS229数学基础等,可以说是机器学习入门的宝典.本文推荐一个网站"机器学习初学者",把以上资源的笔记.代码实现做成 ...
- 吴恩达老师的机器学习和深度学习课程笔记打印版
注意:下载笔记.视频.代码:请点击"阅读原文" 我和同学将吴恩达老师机器学习和深度学习课程笔记做成了打印版,放在github上,下载后可以打印. 公布了深度学习笔记的word和ma ...
- 新建网站了!Github标星过万的吴恩达机器学习、深度学习课程笔记,《统计学习方法》代码实现,可以在线阅读了!...
吴恩达机器学习.深度学习,李航老师<统计学习方法>,可以说是机器学习入门的宝典.本文推荐一个网站"机器学习初学者",把以上资源的笔记.代码实现做成了网页版,可以在线阅读 ...
- 吴恩达深度学习笔记_Github标星过万的吴恩达机器学习、深度学习课程笔记,《统计学习方法》代码实现,可以在线阅读了!...
吴恩达机器学习.深度学习,李航老师<统计学习方法>,可以说是机器学习入门的宝典.本文推荐一个网站"机器学习初学者",把以上资源的笔记.代码实现做成了网页版,可以在线阅读 ...
最新文章
- 使用最新版(2020)IntelliJ IDEA 创建Servlet项目
- IIS7入门之旅:(3)CGI application和FastCGI application的区别
- 一文读懂神经网络初始化!吴恩达Deeplearning.ai最新干货
- 大型互联网公司必考java面试题与面试技巧
- 利用函数wavread对语音信号进行采样_语音识别第4讲:语音特征参数MFCC
- erwin 不能输入中文_国产开源建模软件PDMan与国外商业建模软件ERwin的主要功能比较...
- openssh升级后root_又一root神器停止营业!时至今日你还需要root吗
- C语言-查找顺序表中的最大值
- linux怎么升级python2.7,linux升级python到2.7
- 学英语专业后悔了_上大学一定不要读英语专业?当年志愿填报我选了英语专业...
- 文件上传到服务器文件名中文乱码问题
- C程序设计(第五版)谭浩强第七章课后答案
- DEDE源码分析与学习之二: member文件结构说明
- 【暴躁版】Java如何用IO流读取一个文本,按行输出到控制台?
- Super Point 笔记(二)
- 拍摄高质量数码照片的三条原则:安全快门、低感光度、最佳光圈
- 已注销主体的公众号迁移办理流程及方法
- 通过jenkins构建服务,并发布服务,修改Jenkins以Root用户运行
- 大疆机甲大师Python开发: 两只老虎
- 计算机配置高低怎么看,电脑配置怎么看高低?教你如何查看电脑配置高低?
热门文章
- android6.0显示系统 6,Android6.0 显示系统(四) 图像显示相关
- sw如何缩放装配体_solidworks提高大型装配体的展示、设计效率
- 搭建ftp_Windows 10搭建FTP服务器!
- input正则邮箱_javascript写一个校验邮箱的正则表达式
- xcode连接iphone调试_电脑操作手机?iPhone,安卓通吃?手机还能这么玩!
- #数组元素相乘_C++ 矩阵相乘
- tomcat设置context不生效_后端服务:关于Tomcat相关面试题,看懂这篇就够了(有深度)...
- python三大神器之fabric
- Apache双机热备
- 针对笔记本电源已接通未充电的提示怎么办