入机器学习大坑,我需要什么样的数学水平?
点击上方“视学算法”,选择“星标”
快速获得最新干货
本文转自机器之心
作为一门基础性学科,数学在数据科学和机器学习领域都发挥着不可或缺的作用。数学基础是理解各种算法的先决条件,也将帮助我们更深入透彻地了解算法的内在原理。所以,本文作者阐释了数据科学和机器学习为何离不开数学,并提供了统计学与概率论、多变量微积分、线性代数以及优化方法四个数学分支中需要熟悉的一些数学概念。
本文的作者是物理学家、数据科学教育者和作家 Benjamin Obi Tayo 博士,他的研究兴趣在于数据科学、机器学习、AI、Python 和 R 语言、预测分析、材料科学和生物物理学。
本文作者 Benjamin Obi Tayo。
数据科学和机器学习离不开数学
如果你是一个数据科学爱好者,则大概会产生以下两个疑问:
我几乎没有数学背景,那么能成为数据科学家吗?
哪些基本的数学技能在数据科学中非常重要呢?
我们都知道,数据科学离不开各式各样的扩展包。并且,现在有很多性能强大的包可以用来构建预测模型或者用来生成可视化数据。如下列举了用于描述性和预测性分析的一些最常见包:
Ggplot2
Matplotlib
Seaborn
Scikit-learn
Caret
TensorFlow
PyTorch
Keras
得益于以上这些扩展包,任何人都可以构建模型或者生成可视化数据。但与此同时,要优化模型进而生成性能最佳的可靠模型,拥有强大的数学背景也是很有必要的。
也就是说,构建模型只是一方面,另一方面还需要对模型进行解释,得出有意义的结论,这样才能更好地做出数据驱动的决策。
最后,在使用这些包之前,你需要理解每个包中蕴含的数学基础,这样才不会只把这些包当作黑盒工具(black-box tool)。
案例分析:构建一个多元回归模型
假设我们要构建一个多元回归模型,那么需要事先问自己几个问题:
数据集有多大?
特征变量和目标变量是什么?
哪些预测特征与目标变量关联最大?
哪些特征比较重要?
是否应该扩展特征?
数据集应该如何划分成训练集和测试集?
主成分分析(principal component analysis, PCA)是什么?
是否应该使用 PCA 删除多余特征?
如何评估模型?用 R2 值、MSE 还是 MAE?
如何提升模型的预测能力?
是否使用正则化回归模型(regularized regression model)?
回归系数是多少?
截距是多少(intercept)?
是否使用像 K 近邻回归(KNeighbors regression)或者支持向量回归(support vector regression)这样的无参数回归模型?
模型中的超参数是多少?如何调整超参数使模型性能达到最佳?
很明显,如果没有良好的数学背景,你将无法解决上述问题。因此,在数据科学和机器学习中,数学技能和编程技能一样重要,这很关键。
作为一个数据科学的推崇者,投入时间来学习数据科学和机器学习中的理论基础和数学基础很有必要。毫不夸张地说,你所构建的可靠有效模型能否用于解决现实世界的问题,这也将取决于你的数学技能有多好。
接下来讨论一下数据科学和机器学习中一些必要的数学技能。
数据科学和机器学习中必要的数学技能
数学包罗万象,任何人都不可能门门精通。所以,在数据科学和机器学习研究中,我们可以根据自身所在的具体领域、手头的具体工作或者使用的具体算法来有侧重地学习对应的数学技能。
统计学与概率论
统计学和概率论可用于可视化变量、数据预处理、特征变换、数据插补、降维、特征工程和模型评估等等。
以下是需要熟悉的一些统计学与概率论概念:
平均数、中位数、众数、标准差 / 方差;
相关系数和协方差矩阵、概率分布(二项分布、泊松分布和正态分布);
p 值、贝叶斯定理(精度、召回率、正预测值、负预测值、混淆矩阵和 ROC 曲线)、中心极限定理;
R_2 值、均方误差(MSE)、A/B 测试、蒙特卡罗模拟。
多变量微积分(Multivariable Calculus)
大多数机器学习模型是使用包含几种特征或预测变量的数据集来构建的。因此,熟悉多变量微积分对于构建机器学习模型非常重要。
以下是你需要熟悉的多变量微积分数学概念:多元函数、导数和梯度、阶跃函数;
Sigmoid 函数、Logit 函数、ReLU 函数、损失函数;
Plot 函数绘制、函数最小值和最大值。
线性代数
线性代数是机器学习中最重要的数学技能,一个数据集可以被表示为一个矩阵。线性代数可用于数据预处理、数据转换以及降维和模型评估。
以下是你需要熟悉的线性代数概念:向量、向量范数;
矩阵、矩阵的转置、矩阵的逆、矩阵的行列式、矩阵的迹、点积、特征值、特征向量。
优化方法
大多数机器学习算法通过最小化目标函数的方法来执行预测建模。
以下是你需要熟悉的优化数学概念:
损失函数 / 目标函数、似然函数、误差函数、梯度下降算法及其变体。
总之,作为一个数据科学的推崇者,应该时刻谨记,理论基础对构建有效可靠的模型至关重要。因此,你应该投入足够的时间去研究每一种机器学习算法背后的数学理论。
原文链接:https://medium.com/towards-artificial-intelligence/how-much-math-do-i-need-in-data-science-d05d83f8cb19
入机器学习大坑,我需要什么样的数学水平?相关推荐
- 入机器学习大坑,需要什么样的数学水平?
选自medium 作者:Benjamin Obi Tayo 机器之心编译 参与:小舟.杜伟 作为一门基础性学科,数学在数据科学和机器学习领域都发挥着不可或缺的作用.数学基础是理解各种算法的先决条件,也 ...
- 机器学习百页书:机器学习中常用到的一些数学符号
一本精简的机器学习入门手册.机器学习百页书<机器学习精讲>,人工智能的核心是机器学习,本书囊括机器学习的精髓,系统而精炼地讲解机器学习的基本原理.本书英文版一经推出,就长期位于亚马逊机器学 ...
- 韩信点兵,在中国数学史上,广泛流传着一个“韩信点兵”的故事:韩信是汉高祖刘邦手下的大将,他英勇善战,智谋超群,为汉朝建立了卓越的功劳。据说韩信的数学水平也非常高超,他在点兵的时候,为了知道有多少兵,
7 韩信点兵 在中国数学史上,广泛流传着一个"韩信点兵"的故事:韩信是汉高祖刘邦手下的大将,他英勇善战,智谋超群,为汉朝建立了卓越的功劳.据说韩信的数学水平也非常高超,他在点兵的时 ...
- 【转】成为机器学习大家,你不能不懂数学
2018-09-06 | 作者:陈薇 编者按:如何自学机器学习?需要哪些数理基础?怎样从入门到进阶,成就大神之路?对于这些问题,作为毕业后投身机器学习研究的数学博士.微软亚洲研究院机器学习组主管研究员 ...
- 机器学习笔记-神经网络的原理、数学、代码与手写数字识别
机器学习笔记-神经网络 作者:星河滚烫兮 文章目录 前言 一.神经网络的灵感 二.基本原理 1.神经网络最小单元--神经元 2.神经网络层结构 3.正向传播 4.反向传播 5.梯度下降 三.数学理论推 ...
- 谈谈机器学习的基本问题,不谈数学!
https://www.toutiao.com/a6683738459938488840/ 不知道你有没有这种感觉,在阅读论文的时候,我们经常会遇到一些很长的专业术语.所以,这篇文章我想要写一些我的认 ...
- 机器学习系列(2)_从初等数学视角解读逻辑回归
作者:龙心尘 && 寒小阳 时间:2015年10月. 出处:http://blog.csdn.net/longxinchen_ml/article/details/49284391 ...
- 机器学习、深度学习需要哪些数学知识?✅
如果不是有太多自由时间,不要过度投入到数学上,或者说不要系统大量地学习,可以遇到不懂的再去学习相关数学知识. (本文部分摘自图灵的猫公众号 ) 微积分 微积分是现代数学的基础,线性代数,矩阵论,概率论 ...
- 学习机器学习,主要牵涉到哪些数学知识?
放假在家想写写机器学习系列的文章,除夕前先来开个头,后面会一直写下去,搞机器学习算法也有一年多了,体会多少还是有一些的,这里记录在博客中,一来为自己后面的面试做点储备,二来是为了分享,因为很多都是从大 ...
最新文章
- pytorch 激活函数
- 013_logback中的SyslogAppender
- mac 下idea光标问题
- 给Dev-Cpp开挂
- Intel 收购计算机视觉开发公司 Itseez
- 7-42 行编辑器 (10 分)
- ll命令报错-bash: ll: command not found
- 学习笔记---Web服务、Remoting、WCF (上) --- Web服务
- JAVA抽象类和接口类的区别
- 红黑所-1996-2011年中国黑客大事记
- Java打印变量的参数类型
- 哈工大物理学专业计算机知识怎样,哈尔滨工业大学应用物理学专业怎么样
- gif一键抠图 在线_8个免费在线抠图网站 不会PS的小白也能一键抠出专业效果图...
- BZOJ3034: Heaven Cow与God Bull
- 分享Python采集的77个PHP整站程序源码
- 汉字拼音的一个解决方法
- QQ秀已然式微,而同时迭代的厘米秀正在雄起。
- 【自动驾驶】高精地图在无人驾驶中的应用
- 如何通过脚本使Texture2D可读
- iPhone开发教程之iOS APP体验设计 - 醒醒吧 ))))) - majszt - 和讯博客
热门文章
- Datawhale组队学习 Task04:队列(2天)
- Matlab数据的可视化 -- 平面多边形的着色
- 两个矩形重叠部分面积
- 最近,又发现了 Pandas 中三个好用的函数
- 最后3天,BDTC 2019早鸟票即将售罄,超强阵容及议题抢先曝光!
- 旷视张祥雨:高效轻量级深度模型的研究和实践 | AI ProCon 2019
- 读8篇论文,梳理BERT相关模型进展与反思
- 《权力的游戏》最终季上线!谁是你最喜爱的演员?这里有一份Python教程 | 附源码...
- R和Python谁更好?这次让你「鱼与熊掌」兼得
- AI算法起家的今日头条为何败给了色情?一文告诉你机器学习何以搞不定鉴黄