上线数天获2400星,这个GitHub项目帮你从头开始学习数据科学
从头开始学习数据科学的免费资源。
>>>>
如何入门数据科学?
这个 GitHub 项目提供了一份免费学习资源,既包括超详细的学习路线图,又涵盖多个免费线上课程、大量数据科学项目和 100 多本免费机器学习书籍,项目上线数天即获得 2.4k 星。
项目地址:https://github.com/therealsreehari/Learn-Datascience-for-Free#5_-expressions
该项目收集了散布在网络上的不同资源,并按照一定的顺序进行组合,以帮助数据科学初学者解决如何搜索免费和结构化学习资源的问题。项目作者表示,该项目将基于新的免费资源持续更新。
数据科学家学习路线图
「磨刀不误砍柴工。」该项目首先详细介绍了一份数据科学路线图,罗列了数据科学学习者需要掌握的内容:
基础知识(矩阵和代数基础等);
统计学(概率论、贝叶斯定理等);
编程;
机器学习;
文本挖掘 / 自然语言处理;
数据可视化;
大数据;
数据获取;
数据再加工(Data Munging);
工具箱。
成为数据科学家需要掌握的基础知识
在成为数据科学家之前,你需要掌握关于矩阵的理论知识,了解其操作方式,熟悉矩阵的各种变换。项目作者还向我们介绍了多种数据结构,包括哈希函数、二叉树等。
以二叉树为例,项目作者解释了什么是二叉树:「在计算机科学中,二叉树是一种树数据结构,其中每个节点最多具有两个子节点,称为左子节点和右子节点。」
二叉树
除了矩阵知识以外,数据科学初学者还需掌握关系代数、数据库基础知识、CAP 原理、ETL 等多达十多个知识点(有些部分还在更新中)。
统计学
该项目介绍了许多关于统计学的知识,包括数据集的选择、描述性统计、探索性数据分析、直方图、概率论、贝叶斯定理等内容。
以探索性数据分析为例,项目作者从数据的可视化和分析两方面着手,向我们介绍了完成整个数据分析任务需要的开发环境、依赖库、安装方式以及分析方式。
在数据可视化方面,项目作者介绍了三个数据可视化库 Matplotlib、Pandas、Seaborn,每个库都有相应的链接,点击链接即可进入相应的网页进行查看。
点击 Seaborn 链接,可进入 Seaborn 主页,该图为链接到的主页内容。
在数据分析方面,项目作者介绍了 PCA 降维方法,帮助学习者了解什么是主成分分析,以及如何在 Python 中实现。
编程
成为数据科学家离不开编程,该项目介绍了需要掌握的编程语言 Python、R setup/R studio 等内容。以 R setup / R studio 为例,项目作者介绍了两种安装方式 Linux、Windows。但是本部分内容还有许多待补充知识。
待补充内容
机器学习
该项目还列举了掌握数据科学需要了解的机器学习知识,包括数值变量、分类变量、监督学习、无监督学习、训练集和测试集、分类器、过拟合、偏差和方差、支持向量机等 30 项内容。
以支持向量机为例,项目作者首先介绍了支持向量机的作用——可用于分类和回归任务,接着用简单明了的语言解释了支持向量机的原理。此外,项目作者还列举了关于支持向量机的其他知识,读者可通过链接自行学习。
支持向量机
除了上述介绍的内容外,项目作者还整理了文本挖掘、数据可视化等内容,此处不再赘述。
免费线上课程
该项目基于 GitHub 用户 Developer-Y 的项目整理了大量线上免费课程的资源,包括人工智能、机器学习、机器人学三个主要部分。其中机器学习部分又细分为机器学习导论、数据挖掘、数据科学、概率图模型、深度学习、强化学习、进阶版机器学习课程、基于机器学习的自然语言处理与计算机视觉、时序分析、概率与统计学、线性代数等。
该项目提供的免费线上课程列表部分截图。
从该项目列表中,我们可以看到熟悉的吴恩达机器学习课程,以及来自卡内基梅隆大学、斯坦福大学、苏黎世联邦理工学院、加州大学伯克利分校、微软等机构的丰富课程资源。
人工智能开源项目
此外,该项目还罗列了大量人工智能开源项目,涵盖机器学习、深度学习、自然语言处理、计算机视觉这些领域。
这一资源来自 AI 研究者、数据科学家 Ashish Patel 创建的 GitHub 库,目前包含 71 个条目,点开链接即可获取相应的项目和代码资源。
项目列表部分截图。
从目前的列表中,我们可以看到它包括目标检测、聊天机器人、GUI、无监督学习、回归分析、情感分析、推荐系统、数据科学、NLP、计算机视觉等细分领域的相关项目资源。盖列表将持续更新。
100+ 免费机器学习书籍
项目作者整理了一份来自 Insane 的机器学习书籍列表文章。该列表在 2021 年 1 月份刚刚更新过,包括我们熟悉的「花书」《深度学习》,以及主题为图算法、自然语言处理、数据挖掘、GAN、Python 等的书籍。
图源:https://www.theinsaneapp.com/2020/12/download-free-machine-learning-books.html
项目作者表示,希望这些免费资源能够帮助到无法支付教育费用的人们,从头开始掌握数据科学。
—THE END—
编辑 ∑Gemini
来源:机器之心
文章推荐
☞为什么美国学生学的数学比我们简单却能做出很牛逼的东西?
☞宇宙即计算~一种新科学:斯蒂芬·沃尔夫勒姆
☞中科大少年班目前为止出过多少大牛?
☞平凡而又神奇的贝叶斯方法
☞欧拉公式——真正的宇宙第一公式
☞方舟子:哥德巴赫猜想有什么用
上线数天获2400星,这个GitHub项目帮你从头开始学习数据科学相关推荐
- GitHub热榜,获2400星!帮你免费从头开始学Python数据科学
点上方"菜鸟学Python",选择"星标" 共460篇原创干货,第一时间送达 机器之心报道 作者:魔王.陈萍 如何入门数据科学? 这个 GitHub 项目提供了 ...
- Github标星超7k!从零开始,最简明扼要的数据科学学习路径(附高效免费小工具)...
点击上方"涛哥聊Python",选择"星标"公众号 重磅干货,第一时间送达 来源:大数据文摘 大数据文摘出品 作者:蒋宝尚 试图入门一个新话题时,多数人会感到不 ...
- Github标星超7k!从零开始,最简明扼要的数据科学学习路径
大数据文摘出品 作者:蒋宝尚 试图入门一个新话题时,多数人会感到不知所措?这时候,一份明确的学习路径可以帮你去除这一焦虑.数据科学当然也有这样一套路径. 一周前在Github上出现的一份超高赞贴就总 ...
- [Github项目]基于PyTorch的深度学习网络模型实现
2019 年第 48 篇文章,总第 72 篇文章 本文大约 1500 字,阅读大约需要 4 分钟 今天主要分享两份 Github 项目,都是采用 PyTorch 来实现深度学习网络模型,主要是一些常用 ...
- 大数据入门课程_我根据数千个数据点对互联网上的每门数据科学入门课程进行了排名...
大数据入门课程 by David Venturi 大卫·文图里(David Venturi) A year ago, I dropped out of one of the best computer ...
- [Github项目推荐] 推荐三个助你更好利用Github的工具
2019 年第 26 篇,总 50 篇文章 本文大约 1700 字,阅读大约需要 5 分钟 作为一名程序员,学会使用 Github 是一个必备技能,正如同需要学会利用谷歌搜索问题的解决方案一样. 今天 ...
- 【github】机器学习(Machine Learning)深度学习(Deep Learning)资料
转自:https://github.com/ty4z2008/Qix/blob/master/dl.md# <Brief History of Machine Learning> 介绍:这 ...
- 2017年度盘点:15个最流行的GitHub机器学习项目 By 机器之心2017年12月21日 15:23 在本文中,作者列出了 2017 年 GitHub 平台上最为热门的知识库,囊括了数据科学、机
2017年度盘点:15个最流行的GitHub机器学习项目 By 机器之心2017年12月21日 15:23 在本文中,作者列出了 2017 年 GitHub 平台上最为热门的知识库,囊括了数据科学.机 ...
- 不要上手就学深度学习!超详细的人工智能专家路线图,GitHub数天获2.1k星
来源:机器之心 本文约1600字,建议阅读5分钟 这个学习路线图几乎涵盖了人工智能领域的所有内容,点点鼠标,就能链接所需知识. 想从事人工智能领域的研究,盲目地在网上购买了一本又一本的参考资料,学习视 ...
最新文章
- python爬虫:Multipart/form-data POST文件上传详解
- 根据文法画出语法树_更多确定子句语法
- 关于解决tomcat的一个错误
- java运维工程师做什么_网络工程师和网络运维工程师有什么不同?
- 11-11 又是一年光棍节!
- 5种Python使用定时调度任务的方式
- 米斯特白帽培训讲义(v2)实战篇 余闻同学录
- 8086汇编语言微机原理上机大作业(全注释)
- 团队协助 开源项目_适合小团队的协作工具,良心开源项目管理工具
- 如何在 iPhone、iPad、iPod touch 或 Mac 更新 HomePod?
- Swift - iCloud存储介绍
- 如果我来治理城市大气污染
- Au 音频效果参考:调制
- 评价法(一):层次分析法的步骤和方法
- RAKsmart:美国服务器租用对建站有哪些帮助?
- Mac上使用Docker Desktop启动Kubernetes,踩坑后终于搞掂
- UE4 第三人称人物 目标偏移(Aim offset)学习笔记
- 高并发读,高并发写解决方案
- 解决申请开发者office E5中无法发送手机验证码,reCaptcha加载失败
- 2017下半年掘金日报优质文章合集:Android篇,靠着这份190页的面试资料
热门文章
- python3 爬虫实战:mitmproxy 对接 python 下载抖音小视频
- Spring Data JPA 从入门到精通~方法的查询策略设置
- C++学习之路 | PTA(甲级)—— 1099 Build A Binary Search Tree (30分)(带注释)(精简)
- 服务器ssr进程启动怎么运行,要SSR? NUXT项目从初始化到部署服务器流程全记录
- [设计模式] ------ 适配器模式
- linux怎样判断线程是否暂停_怎样判断股市是否会继续下跌?
- 服务器winsxs文件夹怎么清理工具,winsxs,教您winsxs文件夹清理方法
- 如何在jieba分词中加自定义词典_Pyspark Word2Vec + jieba 训练词向量流程
- JAVA进阶教学之(源码及API文档概述)
- android 获取应用列表,获取全部应用列表