选自medium

作者:Benjamin Obi Tayo

机器之心编译 参与:小舟、杜伟

作为一门基础性学科,数学在数据科学和机器学习领域都发挥着不可或缺的作用。数学基础是理解各种算法的先决条件,也将帮助我们更深入透彻地了解算法的内在原理。所以,本文作者阐释了数据科学和机器学习为何离不开数学,并提供了统计学与概率论、多变量微积分、线性代数以及优化方法四个数学分支中需要熟悉的一些数学概念。

本文的作者是物理学家、数据科学教育者和作家 Benjamin Obi Tayo 博士,他的研究兴趣在于数据科学、机器学习、AI、Python 和 R 语言、预测分析、材料科学和生物物理学。

本文作者 Benjamin Obi Tayo。

数据科学和机器学习离不开数学

如果你是一个数据科学爱好者,则大概会产生以下两个疑问:

我几乎没有数学背景,那么能成为数据科学家吗?

哪些基本的数学技能在数据科学中非常重要呢?

我们都知道,数据科学离不开各式各样的扩展包。并且,现在有很多性能强大的包可以用来构建预测模型或者用来生成可视化数据。如下列举了用于描述性和预测性分析的一些最常见包:

  • Ggplot2

  • Matplotlib

  • Seaborn

  • Scikit-learn

  • Caret

  • TensorFlow

  • PyTorch

  • Keras

得益于以上这些扩展包,任何人都可以构建模型或者生成可视化数据。但与此同时,要优化模型进而生成性能最佳的可靠模型,拥有强大的数学背景也是很有必要的。

也就是说,构建模型只是一方面,另一方面还需要对模型进行解释,得出有意义的结论,这样才能更好地做出数据驱动的决策。

最后,在使用这些包之前,你需要理解每个包中蕴含的数学基础,这样才不会只把这些包当作黑盒工具(black-box tool)。

案例分析:构建一个多元回归模型

假设我们要构建一个多元回归模型,那么需要事先问自己几个问题:

  • 数据集有多大?

  • 特征变量和目标变量是什么?

  • 哪些预测特征与目标变量关联最大?

  • 哪些特征比较重要?

  • 是否应该扩展特征?

  • 数据集应该如何划分成训练集和测试集?

  • 主成分分析(principal component analysis, PCA)是什么?

  • 是否应该使用 PCA 删除多余特征?

  • 如何评估模型?用 R2 值、MSE 还是 MAE?

  • 如何提升模型的预测能力?

  • 是否使用正则化回归模型(regularized regression model)?

  • 回归系数是多少?

  • 截距是多少(intercept)?

  • 是否使用像 K 近邻回归(KNeighbors regression)或者支持向量回归(support vector regression)这样的无参数回归模型?

  • 模型中的超参数是多少?如何调整超参数使模型性能达到最佳?

很明显,如果没有良好的数学背景,你将无法解决上述问题。因此,在数据科学和机器学习中,数学技能和编程技能一样重要,这很关键。

作为一个数据科学的推崇者,投入时间来学习数据科学和机器学习中的理论基础和数学基础很有必要。毫不夸张地说,你所构建的可靠有效模型能否用于解决现实世界的问题,这也将取决于你的数学技能有多好。

接下来讨论一下数据科学和机器学习中一些必要的数学技能。

数据科学和机器学习中必要的数学技能

数学包罗万象,任何人都不可能门门精通。所以,在数据科学和机器学习研究中,我们可以根据自身所在的具体领域、手头的具体工作或者使用的具体算法来有侧重地学习对应的数学技能。

统计学与概率论

统计学和概率论可用于可视化变量、数据预处理、特征变换、数据插补、降维、特征工程和模型评估等等。

以下是需要熟悉的一些统计学与概率论概念:

平均数、中位数、众数、标准差 / 方差;

相关系数和协方差矩阵、概率分布(二项分布、泊松分布和正态分布);

p 值、贝叶斯定理(精度、召回率、正预测值、负预测值、混淆矩阵和 ROC 曲线)、中心极限定理;

R_2 值、均方误差(MSE)、A/B 测试、蒙特卡罗模拟。

多变量微积分(Multivariable Calculus)

大多数机器学习模型是使用包含几种特征或预测变量的数据集来构建的。因此,熟悉多变量微积分对于构建机器学习模型非常重要。

以下是你需要熟悉的多变量微积分数学概念:多元函数、导数和梯度、阶跃函数;

Sigmoid 函数、Logit 函数、ReLU 函数、损失函数;

Plot 函数绘制、函数最小值和最大值。

线性代数

线性代数是机器学习中最重要的数学技能,一个数据集可以被表示为一个矩阵。线性代数可用于数据预处理、数据转换以及降维和模型评估。

以下是你需要熟悉的线性代数概念:向量、向量范数;

矩阵、矩阵的转置、矩阵的逆、矩阵的行列式、矩阵的迹、点积、特征值、特征向量。

优化方法

大多数机器学习算法通过最小化目标函数的方法来执行预测建模。

以下是你需要熟悉的优化数学概念:

损失函数 / 目标函数、似然函数、误差函数、梯度下降算法及其变体。

总之,作为一个数据科学的推崇者,应该时刻谨记,理论基础对构建有效可靠的模型至关重要。因此,你应该投入足够的时间去研究每一种机器学习算法背后的数学理论。

原文链接:https://medium.com/towards-artificial-intelligence/how-much-math-do-i-need-in-data-science-d05d83f8cb19

入机器学习大坑,需要什么样的数学水平?相关推荐

  1. 入机器学习大坑,我需要什么样的数学水平?

    点击上方"视学算法",选择"星标" 快速获得最新干货 本文转自机器之心 作为一门基础性学科,数学在数据科学和机器学习领域都发挥着不可或缺的作用.数学基础是理解各 ...

  2. 机器学习和计算机视觉有关的数学

    1.线性代数(Linear Algebra): 我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要.这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的.我在科大一 ...

  3. 林达华-和机器学习和计算机视觉相关的数学

    以下文章转载自哪里也不清楚了,谢谢原著作者吧!! 和机器学习和计算机视觉相关的数学之一 (以下转自一位MIT牛人的空间文章,写得很实际:) 作者:Dahua 感觉数学似乎总是不够的.这些日子为了解决r ...

  4. 和机器学习和计算机视觉相关的数学

    http://blog.csdn.net/zouxy09/article/details/8084511 和机器学习和计算机视觉相关的数学之一 (以下转自一位MIT牛人的空间文章,写得很实际:) 作者 ...

  5. [译] 机器学习可以建模简单的数学函数吗?

    原文地址:Can Machine Learning model simple Math functions? 原文作者:Harsh Sahu 译文出自:掘金翻译计划 本文永久链接:github.com ...

  6. 韩信点兵,在中国数学史上,广泛流传着一个“韩信点兵”的故事:韩信是汉高祖刘邦手下的大将,他英勇善战,智谋超群,为汉朝建立了卓越的功劳。据说韩信的数学水平也非常高超,他在点兵的时候,为了知道有多少兵,

    7 韩信点兵 在中国数学史上,广泛流传着一个"韩信点兵"的故事:韩信是汉高祖刘邦手下的大将,他英勇善战,智谋超群,为汉朝建立了卓越的功劳.据说韩信的数学水平也非常高超,他在点兵的时 ...

  7. 机器学习入门--唤起你的数学记忆

    一.概率论与统计学 什么是中心极限定理? 中心极限定理,是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理:(这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的 ...

  8. 机器学习和计算机视觉相关的数学

    kinPark 2015-01-16 1:07:15 机器学习 评论(1) MIT一牛人对数学在机器学习中的作用给的评述,写得很实际 机器学习和计算机视觉都是很多种数学的交汇场.看着不同的理论体系的交 ...

  9. 熟读高数才能理解机器学习?不,初中数学就够了

    导读 谁说理解机器学习必须要熟读高数? 近日,数据科学Kyle在Medium发布博客表示,理解机器学习在做的事情,有初中数学知识足矣. 这篇博客简洁易懂.幽默风趣,在Medium上几天内获得600多赞 ...

最新文章

  1. 让你的eclipse插件只下载一次
  2. 一个简单的DWR入门例子
  3. 【MySQL】查看 mysql 数据库最后修改时间、创建时间、表大小
  4. vue实现搜索框记录搜索历史_使用JS location实现搜索框历史记录功能_苏颜_前端开发者...
  5. 如何获取filecoin_【IPFSFilecoin】Filecoin矿机厂商排名?如何选择?哪家公司靠谱?...
  6. dubbox开发rest+json指南【转】
  7. 留言板 HTML5代码
  8. C++——二维vector初始化
  9. VS2019打包exe文件
  10. 如何用手机访问电脑本地localhost网页, 以调试项目
  11. 谷歌浏览器反复提示PageOffice安装
  12. log4j.properties 使用说明
  13. Kotlin学习(1)初识及环境搭建,大厂面试必备技能
  14. 圆形与矩形碰撞算法分析
  15. 一文带你学会linux系统 史上最全linux命令大全
  16. 2012意大利之行1:从深圳到罗马_我是亲民_新浪博客
  17. 福利分享:1024程序员节,给大家推荐一个极简win10
  18. 验证元素的唯一性(二重循环法和快排优化)
  19. 爬虫+数据探索01-贝壳找房北京二手房信息数据
  20. 态度篇·与其混不如滚

热门文章

  1. mnist数据集保存为图片
  2. 算法也是颜值控,Twitter AI更青睐肤白貌美图
  3. 万字长文带你入门 GCN
  4. 干货 | 时间序列预测类问题下的建模方案探索实践
  5. 百度重磅发布云手机:低配置也可玩大型游戏 21
  6. 把自己朝九晚五的工作自动化了,有错吗?
  7. 从原理到代码,轻松深入逻辑回归模型!
  8. Spark入门系列(二)| 1小时学会RDD编程
  9. AI一分钟 | 小鹏汽车回应前苹果员工窃取商业机密:积极配合相关调查
  10. 高逼格的 SQL 写法:行行比较,别问为什么,问就是逼格高。。