文章目录

  • 机器学习
    • 机器学习的应用
  • 数据集
    • 数据集管理工具
    • 数据集的构成和分类
  • 特征工程
    • 特征抽取
    • TF-IDF
    • TF、IDF
  • 预处理
    • 归一化处理
    • 标准化处理
    • 缺失值
  • 降维
    • 特征选择
    • 主成分分析
  • 算法分类
    • 开发流程

机器学习

机器学习(MachineLearning, ML):机器学习是一类算法的总称。它指的是通过规律和算法使计算机能够具备学习能力,从而处理一堆烦琐的事务。

机器学习的应用

机器学习已经广泛的运用在了,计算机科学研究、自然语言处理、机器视觉、语音、游戏、医疗等。除此之外,我们还可以通过机器学习去预测房价还有股票和天气等。但在实现这一切的基础就是需要我们有足够多的数据,通过数据去评估预测。因此大数据和机器学习是密不可分的。

数据集

数据集(Dataset):数据的集合。

数据集管理工具

在数据存储中通常使用pandas作为数据的读取工具,由于在numpy中释放了GIF锁,所以pandas实现了真正的多线程快速处理。

数据集的构成和分类

数据集的基本构成是:特征值和目标值
(但并不是所有数据集都有目标值)
数据集的分类有:1.scikit-learn(最常用)2.uci 3.Kaggle

特征工程

"*数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”而这个数据就是就是通过特征工程得到的数据。
特征工程(Feature Engineering):把数据转换成模型,提高预测的准确性。进行特征处理常用的工具是:sckit-learn。
打个简单的比方,当你来判断一个人的性别,如果仅仅通过他头发的长短来判断是远远不够的。因此你需要一个更加精确的测量值,去进行判断。所以也可以说特征工程是通过原来有的数据去衍生出一个更加精准的数据。

特征抽取

特征抽取(featrue extraction feature extraction):将原始特征转换为一组具有明显物理意义。

TF-IDF

TF-IDF即TF*IDF。它提现了该词条(关键字)在文本中的重要性。
通常用于搜索引擎、关键字提取等。
用NLTK实现tf_idf更简单。

TF、IDF

TF(Term Frequency):字频。表示词条和关键字在文本中出现的频率。

IDF(Inverse Document Frequency):逆向文件频率。某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。

预处理

预处理(preprocessing):对数据进行修改,让模型能读懂且更好地学习数据。

归一化处理

归一化处理(MinmaxScalar):把数据映射到0~1范围之内处理。

归一化处理可以使某一特征对最终结果不会造成大的干扰那,但是如果数据点多处异常,就会导致最大值和最小值发生较大偏差,影响结果。

标准化处理

标准化处理(Normalization):当面对大量数据时,就可以采用标准化处理,相比于归一化处理更加稳定,适用于现代嘈杂大数据。

缺失值

缺失值:可以使用np.nan/np.NaN来代替缺失值。
常用的方法是Inputer。(axis中0代表列,1代表行)。

降维

降维:它指的是特征数量减少。

特征选择

特征选择(Variance Threshold):特征选择是一个很重要的数据预处理过程: 选择出重要的特征可以缓解维数灾难问题 去除不相关特征可以降低学习任务的难度。
常用的方法有Filter、Embedded、Wrapper、神经网络等。

主成分分析

主成分分析(decomposition):常用PCA<分析、简化数据技术>
n_components:1.小数 (范围变成0-1)2整数 (减少到的特征数量)

算法分类

开发流程

python机械学习(一)相关推荐

  1. 跟我一起学Python——机械学习实现之数据预处理(混淆矩阵,印第安人糖尿病案例)(Second day)

    首先说明一下,我使用的是上一篇所说的jupyter Notebook ,所以有一些是标记,并没有带"#"注释,这里边也用到了上次所说的两个库,sklearn以及panda数据导入的 ...

  2. 机械学python_为什么说Python是人工智能和机械学习的最佳编程语言

    近几年来,Python可谓大出风头,语法简练.功效壮大.胶水语言是人们对Python的普遍认知.学习Python就业机会多.薪资待遇好,是人们不停加入Python开发行列的动力.很多人疑惑为什么Pyt ...

  3. python与机械教育初探_Python公开课-机械学习之手写识别

    授课讲师 讲师尹强 职务高级讲师.项目经理 多年互联网开发经验与授课经验,曾参与某知名家具电商网站.车友商城.物流系统的开发设计,善于使用多种技术解决技术问题和优化网站的性能和提高网站速度,开发经验丰 ...

  4. 机械学python_机械学习 · python深度学习 · 看云

    # 监督学习 * 目前最**常见**的机器学习类型. **给定**一组样本(通常由人工标注),它可以学会将输入数据**映射**到已知目标[也叫**标注**(annotation)] * 例如:光学字符 ...

  5. 济南python工资一般多少钱-济南python开发培训机构哪个好

    济南python开发培训机构哪个好 发布时间:2020-01-31 09:06:55点击:次 网上预约报销路费 Python是编程语言界的新贵,它的算法明显.清晰.易读.便于维护,是一种广泛普及的编程 ...

  6. python自学攻略-Python自学攻略

    原标题:Python自学攻略 在过去的十年里,随着自动化技术的出现,科技最终成为杰出的金融机构,银行,保险和投资公司,股票交易公司,对冲基金,券商等公司的一部分.根据2013年的Crosman 报告, ...

  7. python好学吗 小木虫-25行Python代码完成人脸识别

    以下是Shantnu Tiwari的客座文章,作者有着在底层编程和嵌入式领域十年的工作经验.在发现Python语言之前的几年时间里,Shantnu Tiwari一直忍受着C/C++语言编程的不便,但P ...

  8. python变量命名规则思维导图_Python思维导图详解

    Python思维导图 Python思维导图详解 第一阶段:学习Python基础语法,主要学习变量的使用以及类型.变量的计算和输入输出.变量的命名.运算符.if判断语句.while循环语句.字符串.常量 ...

  9. python制作图_Python做图的方法

    最近一直没有更新文章,在学习Machine learning.然后业余在kaggle那里瞎转,对Python常用的作图摸了个遍,本文将对这些作图方法做个简单介绍 一般我们作图主要是为了看数据分布.数据 ...

最新文章

  1. 数据结构 排序(希尔排序)
  2. 安卓开发-Activity中finish() onDestroy() 和System.exit()的区别
  3. log4j配置文件_Mybatis对log4j的支持及常用标签-Mybatis(6)
  4. win8.1平板安装ubuntu16.04的折腾
  5. .NET 指南:许可请求
  6. ediplus 复制编辑一列_EditPlus等编辑器选中列(块)的方法
  7. JDK 14:CMS GC是OBE
  8. 【转载】12项职场缺陷行为你有吗?
  9. 【Android进阶】Junit单元測试环境搭建以及简单有用
  10. java 类编译_Java类编译、加载、和执行机制
  11. bert 是单标签还是多标签 的分类_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...
  12. 华硕笔记本的U盘启动
  13. [转载] python列表解释(list comprehension)记录
  14. python csv写入 不以科学计数法_【Python与GIS】聊聊Python与数据——上(三)
  15. python车牌识别_Python-车牌识别
  16. python函数中文手册-python函数手册
  17. YOLOV5训练数据(火焰检测)
  18. linux开发板推荐
  19. git add 后,如何撤销add?
  20. 从图形界面到会话界面

热门文章

  1. Vert.x(vertx) Web开发-路由
  2. 评估回归模型的指标:MSE、RMSE、MAE、R2、偏差和方差
  3. Vue.js 学习笔记十二:Vue CLI 之创建一个项目
  4. java.io.IOException: 设备未就绪
  5. interrupt using
  6. NSIS (NullSoft Scriptable Install System)使用指北(超详细)
  7. 我就喜欢那种认认真真和我吵架的
  8. oracle-ora 各种sql异常描述
  9. linux操作系统的关机命令
  10. 100道经典Hadoop常见面试/笔试题及答案解析