GitHub 超全机器学习工程师成长路线图,开源两日收获3700+Star!
作者 | 琥珀
出品 | AI科技大本营(ID:rgznai100)
近日,一个在 GitHub 上开源即收获了 3700+ Star 的项目,引起了业界的注意。据介绍,该项目以 TensorFlow 和 Scikit-learn 的机器学习框架的基础库为例,详细介绍了如何成为一名机器学习工程师的成长路径。
该项目的作者还是一位来自意大利的 IT 工程师,名叫 Giacomo Ciarlini,十分帅气的有没有?
GitHub 传送门:
https://github.com/clone95/Machine-Learning-Study-Path-March-2019/tree/master/Career%20Paths/Machine%20Learning%20Engineer%20Career%20Path
作者首先强烈推荐了《Scikit-Learn 与 TensorFlow 机器学习实用指南》一书。之外,他还上传了全球顶尖大学和开源组织的学习资源,并收集了理论和示例,以及对选择最佳资源的建议。
内容主要分为四大部分:
一、先决条件
Python
Jupyter Notebook
需要掌握的基本数学知识
机器学习全貌
二、使如何使用 Scikit-Learn 进行机器学习
为什么是 Scikit-Learn?
端到端机器学习项目
线性回归
分类
训练模型
支持向量机
决策树
合奏学习和随机森林
无监督学习
结语和期待
三、通过 TensorFlow 训练的神经网络
为何选择 TensorFlow?
使用 TensorFlow
ANN - 人工神经网络
CNN - 卷积神经网络
RNN - 递归神经网络
训练网络:最佳实践
自动编码
强化学习
四、工具
机器学习项目
数据科学工具
博客 / YouTube 频道 / 网站
每个标签下,作者都有详细的解释并给出了实战操作的资源,实乃良心之作!下面来详细介绍下这个项目里有哪些值得一看的资源(并附上部分教程链接)。
先决条件
Python
基础知识:
https://pythonprogramming.net/introduction-learn-python-3-tutorials/
作者还建议,除了对 Python 熟悉掌握外,还可以了解下 Numpy,它是数学运算的重要模块,可以有助于你在后面 Python 环境中导入 Tensor 数据类型。
Python3 安装地址:
https://realpython.com/installing-python/
PyCharm Community Edition(一个用于 Python 开发的完整 IDE,为实验设置一个新的 Python 虚拟环境)
安装地址:
https://www.jetbrains.com/pycharm/download/#section=windows
Jupyter Notebook
是一个开源的 Web 应用程序,帮助用户创建和共享文档,包括 live code,方程,可视化,叙述文本。例如,数据清洗、数值模拟、统计建模、数据可视化、机器学习等。
需要掌握的基本数学知识
在作者看来,数学是机器学习背后的重要基础。但重要的是,掌握主要概念并认识到这些数学方法的应用领域和局限性。
他给出了三个课程链接,分别是:
线性代数:
https://ocw.mit.edu/courses/mathematics/18-06-linear-algebra-spring-2010/
概率基础和统计:
https://www.edx.org/course/introduction-to-probability-0
其他数学资源:
https://explained.ai/matrix-calculus/index.html#sec4.5
机器学习全貌
最后,还要通过一篇科普读物,了解整个机器学习全貌:
https://www.oreilly.com/library/view/hands-on-machine-learning/9781491962282/ch01.html
如何使用 Scikit-Learn 进行机器学习?
安装 Scikit-Learn
python pip install -U scikit-learn
如果安装时遇到一些问题,可能是你更新到最新版本的 pip,所以在同一个文件夹内运行:
python -m pip install --upgrade pip
为什么是 Scikit-Learn?
Scikit-Learn 是机器学习任务中最完整、最成熟,且记录完整的库之一。它开箱即用,具有强大而先进的模型。
端到端机器学习项目
Kaggle,作为机器学习和通用数据科学项目的首选平台,它提供了大量免费数据集,以及有趣的挑战和 ML 模型实验。
线性回归
线性回归是最简单的机器学习形式,也是模型训练的起点。
可以参看吴恩达的理论课程:
https://www.youtube.com/watch?v=W46UTQ_JDPk&list=PLoR5VjrKytrCv-Vxnhp5UyS1UjZsXP0Kj&index=2
分类
如果想要从不同的可能性中预测结果,分类则是最重要的机器学习任务之一。最简单的情况是二元分类问题。
训练模型
作者列举了 ML 任务中训练模型的一些技术,在 Google Crash 教程中可以找到:
梯度下降:
https://developers.google.com/machine-learning/crash-course/reducing-loss/gradient-descent
学习率:
https://developers.google.com/machine-learning/crash-course/reducing-loss/learning-rate
SGD:
https://developers.google.com/machine-learning/crash-course/reducing-loss/stochastic-gradient-descent
正则化:
https://www.youtube.com/watch?v=Q81RR3yKn30
支持向量机
是创建 ML 模型的另一种经典算法。
除了理论解释外,还有更多实战策略:
https://www.youtube.com/watch?v=g8D5YL6cOSE
决策树
集成学习和随机森林
集成学习(Ensemble Learning)的思路是利用了几款 ML 模型的所有不同特征、优劣势,以期得到最有可能性的预测结果。
集成学习基础知识:
https://www.youtube.com/watch?v=9VmKYwX_U7s
随机森林最经典实践:
https://www.youtube.com/watch?v=3kYujfDgmNk
无监督学习
涵盖了无监督学习的介绍、解释,以及与监督学习、强化学习之间的差别。
关于涉及的两个重要技术:关联规则(Association Rules)和聚类,作者分别提供了示例和教程。
通过 TensorFlow 训练的神经网络
在本节中,作者主力推荐斯坦福大学深度学习课程以及其他网络教程,帮助学习者快速了解这些内容。其中包括 ANN、CNN、RNN 等不同种类的机器学习模型。实际上,作者花了很长时间去理解神经网络的理论和应用,包括阅读博客、官网论坛、学习路径。
他给出了“三步走”的建议:
通过斯坦福大学教程了解神经网络的主要概念,不要过多担心一些数学解释,而要关注什么和为什么;
使用理论 + 教程 + 示例(如 RNN 理论 + RNN 教程 + RNN 示例),每次只深度探讨一个主题;
每探讨完一个主题,就回溯一遍斯坦福大学的课程。这种方式将帮助你完全理解所有公式,并将课程中提到的 “数学” 相关知识联系起来,触类旁通。
作者表示,以上这种方式可根据需要重复多次,然后在你的头脑中构建一个良好的通用模型。
斯坦福大学课程 PPT 地址:
http://cs231n.stanford.edu/slides/2018/
为何选择 TensorFlow?
目前,TensorFlow 已经企业里实现机器学习算法的事实标准。
在安装 TensorFlow 库之前,你只需在 Python 安装文件夹中打开一个终端并运行此命令:
python pip install tensorflow
ANN - 人工神经网络
CNN - 卷积神经网络
RNN - 递归神经网络
训练网络:最佳实践
自动编码
强化学习
以上细节就不一一细讲了。
其他资源
除了上述内容之外,作者还收集了大量文章、网络应用程序、最佳实践、项目和存储库。
机器学习项目
工具
YouTube 频道
博客
以及,其他值得一看的网站:
作者最后表示,将在接下来的时间里对不同的主题进行扩充,包括:无监督学习、机器学习心态框架(如何像数据科学家一样思考)、使用 Pandas 进行数据处理和准备、特征选择、特色工程、扩展参数优化部分、Keras 库、TensorFlow 2.0、如何在 AWS、Azure 上部署模型等。
热 文 推 荐
☞ 腾讯服务器崩溃!
微软新版 Edge 浏览器叫板 Chrome!
欧洲互联网将“死于”版权法?
☞日本高中生开发酷炫“扔瓶子”机器人,想砸谁就砸谁
雷军回应输 10 亿背后真相:世界正在青睐不务正业的人
“别傻了,你不需要区块链!”
微服务与单体架构:IT变革中企业及个体如何自处?
GitHub超全机器学习工程师成长路线图,开源两日收获3700+Star!
曝光!月薪 5 万的程序员面试题:73% 人都做错,你敢试吗?
System.out.println("点个在看吧!");
console.log("点个在看吧!");
print("点个在看吧!");
printf("点个在看吧!\n");
cout << "点个在看吧!" << endl;
Console.WriteLine("点个在看吧!");
Response.Write("点个在看吧!");
alert("点个在看吧!")
echo "点个在好看吧!"
点击阅读原文,输入关键词,即可搜索您想要的 CSDN 文章。
喜欢就点击“好看”吧!
GitHub 超全机器学习工程师成长路线图,开源两日收获3700+Star!相关推荐
- GitHub超全机器学习工程师成长路线图,开源两日收获3700+Star!
参加 2019 Python开发者日,请扫码咨询 ↑↑↑ 大会议题以及更多详情请查看:https://pythondevdays2019.csdn.net/ 作者 | 琥珀 出品 | AI科技大本营( ...
- 超全机器学习工程师成长路线图,GitHub已收获6400+Star!
作者 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 近日,一个在 GitHub 上开源即收获了 6400+ Star 的项目,引起了广泛关注.据介绍,该项目以 TensorFlow ...
- 完整的机器学习工程师成长路线
文章目录 机器学习工程师知识储备 1编程语言:Python 2 数学基础 3 数据结构和算法 4 计算机网络和操作系统 5 个人项目经历 6 数据分析/挖掘 7 传统机器学习 8 深度学习 9 深度学 ...
- 全栈工程师薪水_2020 Java 全栈工程师进阶路线图,不可错过
技术更新日新月异,对于初入职场或者刚开始学习的同学来说,经常会困惑该往那个方向发展,这一点所有刚开始学习的人基本都有这个体会的. 刚开始学习 Java 那会,最大的问题就是不知道该学什么,以及学习的顺 ...
- 全栈工程师薪水_2019Java 全栈工程师 进阶路线图!一定要收藏!
互联网技术,更新迭代迅速,用日新月异来说也不为过,所以,面对这这种大环境,对于码农尤其是那些对于初入职场的新手来说,该如何自我学习升级,往方向发展,这一点是大家都经常困惑的. 大部分人,刚开始学习的J ...
- 2019 Java 全栈工程师进阶路线图,一定要收藏
技术更新日新月异,对于初入职场的同学来说,经常会困惑该往那个方向发展,这一点松哥是深有体会的. 我刚开始学习 Java 那会,最大的问题就是不知道该学什么,以及学习的顺序,我相信这也是很多初学者经常面 ...
- 2019Java 全栈工程师 进阶路线图!一定要收藏!
原文:https://zhuanlan.zhihu.com/p/73671471 互联网技术,更新迭代迅速,用日新月异来说也不为过,所以,面对这这种大环境,对于码农尤其是那些对于初入职场的新手来说,该 ...
- 重磅!大数据《实战全栈工程师成长手册》,附 PDF PPT 下载
大数据被誉为"新石油",如何管理并洞悉数据的价值,是企业未来发展的核心竞争力.进入大数据时代,数据规模与日俱增.而且作为 IT 类职业中的"大熊猫",大数据工程 ...
- 年底了还没入门?分享下我的自动驾驶与CV算法工程师成长路线图(双十二巨献)...
自动驾驶是未来出行的趋势,无论是国家层面还是企业层面都投入巨资研发,期望计算机视觉与AI能够改变出行,推动人类社会进步!随之而来的是海量相关算法.开发.测试岗位需求,汽车人接触的从业者大多是机械.电气 ...
最新文章
- Java-ReentrantLock初探
- 物流管理论文实现:基于遗传算法的带时间窗和载重约束的车辆路径优化
- Linux下用ls和du命令查看文件以及文件夹大小
- 员工辞职的十大原因!
- python词云图_Python生成一篇文章的词云图
- Elasticsearch head插件
- ios怎么引入masonry_IOS之Masonry小结
- 解决百度文库文字无法复制
- 【C语言】实现 4阶(经典)龙格-库塔法 求解二阶微分方程
- Linux 将某个文件夹授予某个用户读写权限
- Excel的基本操作
- dataGrid使用deleteRow删除数据时会出现 ‘id‘ of undefined
- 实战 target 选择器,解放生产力
- 论如何写一份好的前端面试简历
- 字符类型与整形之间的转换
- 云计算时代催生下一代网络变革-软件定义的网络之技术架构篇
- UG/NX二次开发-阿飞博客专栏目录(九块九抄代码)
- 在ts文件中使用require报错解决
- 你的密码泄露没?触目惊心的密码泄露该如何查防
- lucene tvx tvd tvf 文件
热门文章
- 添加库文件_PLC|教你把 Micro/WIN 的库文件导入到 Micro/WIN SMART 中
- 运行github上的Vue项目
- cdc工具 postgresql_SQLServer CDC数据通过Kafka connect实时同步至分析型数据库 AnalyticDB For PostgreSQL及OSS-阿里云开发者社区...
- leetcode python3 简单题119. Pascal's Triangle II
- 超材料技术行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
- php.js 文件下载,使用JavaScript开始下载文件
- Python实现爬取豆瓣电影|python豆瓣全栈爬虫:电影系列全爬虫系统1.0:(信息,短评,影评,海报)|你想爬的都有
- SQLite性能提升10倍的Web数据库
- SQL用了两年多,分享2个最常用的小技巧
- “跳过更新”还得付费?Docker 新变化引发群嘲