背景

Datawhale 是国内很有名的一个开源学习组织。这个组织将渴望改变的学习者以及一群有能力有想法的青年人集结在一起,营造出一种互促高效的学习环境,一起为开源学习付出努力。

Datawhale 近期将推出三门课程的组队学习。我先将 初级算法梳理 的任务发布出来。如果你愿意跟我们一起来学习这门课程,请留意我们近期公布的 “Datawhale第八期组队学习计划”。


学习任务

Task01:机器学习概述(1天)

理论部分

  • 机器学习介绍:机器学习是什么,怎么来的,理论基础是什么,为了解决什么问题。
  • 机器学习分类:
    • 按学习方式分:有监督、无监督、半监督
    • 按任务类型分:回归、分类、聚类、降维 生成模型与判别模型
  • 机器学习方法三要素:
    • 模型
    • 策略:损失函数
    • 算法:梯度下降法、牛顿法、拟牛顿法
    • 模型评估指标:R2、RMSE、accuracy、precision、recall、F1、ROC、AUC、Confusion Matrix
    • 复杂度度量:偏差与方差、过拟合与欠拟合、结构风险与经验风险、泛化能力、正则化
    • 模型选择:正则化、交叉验证
    • 采样:样本不均衡
    • 特征处理:归一化、标准化、离散化、one-hot编码
    • 模型调优:网格搜索寻优、随机搜索寻优

Task02:线性回归(2天)

理论部分

  • 模型建立:线性回归原理、线性回归模型
  • 学习策略:线性回归损失函数、代价函数、目标函数
  • 算法求解:梯度下降法、牛顿法、拟牛顿法等
  • 线性回归的评估指标
  • sklearn参数详解

练习部分

https://github.com/xiaorancs/Datawhale/blob/master/final/Task1_Linear_regression.ipynb

  • 基于线性回归的房价预测问题
  • 利用sklearn解决回归问题
  • sklearn.linear_model.LinearRegression

Task03:逻辑回归(2天)

理论部分

  • 逻辑回归与线性回归的联系与区别
  • 模型建立:逻辑回归原理、逻辑回归模型
  • 学习策略:逻辑回归损失函数、推导及优化
  • 算法求解:批量梯度下降
  • 正则化与模型评估指标
  • 逻辑回归的优缺点
  • 样本不均衡问题
  • sklearn参数详解

练习部分

https://github.com/xiaorancs/Datawhale/blob/master/final/Task2_logistic_regression.ipynb

  • 利用sklearn解决分类问题
  • sklearn.linear_model.LogisticRegression
  • 利用梯度下降法将相同的数据分类,画图和sklearn的结果相比较
  • 利用牛顿法实现结果,画图和sklearn的结果相比较,并比较牛顿法和梯度下降法迭代收敛的次数

Task04:决策树(2天)

理论部分

  • 特征选择:信息增益(熵、联合熵、条件熵)、信息增益比、基尼系数
  • 决策树生成:ID3决策树、C4.5决策树、CART决策树(CART分类树、CART回归树)
  • 决策树剪枝
  • sklearn参数详解

练习部分

https://github.com/xiaorancs/Datawhale/blob/master/final/Task3_decision_tree.ipynb

  • 利用sklearn解决分类问题和回归预测。
  • sklearn.tree.DecisionTreeClassifier
  • sklearn.tree.DecisionTreeRegressor

Task05:聚类(2天)

理论部分

  • 相关概念

    • 无监督学习
    • 聚类的定义
  • 常用距离公式
    • 曼哈顿距离
    • 欧式距离
    • 闵可夫斯基距离
    • 切比雪夫距离
    • 夹角余弦
    • 汉明距离
    • 杰卡德相似系数
    • 杰卡德距离
  • K-Means聚类:聚类过程和原理、算法流程、算法优化(k-means++、Mini Batch K-Means)
  • 层次聚类:Agglomerative Clustering过程和原理
  • 密度聚类:DBSCAN过程和原理
  • 谱聚类:谱聚类原理(邻接矩阵、度矩阵、拉普拉斯矩阵、RatioCut、Ncut)和过程
  • 高斯混合聚类:GMM过程和原理、EM算法原理、利用EM算法估计高斯混合聚类参数
  • sklearn参数详解

练习部分

https://github.com/xiaorancs/Datawhale/blob/master/final/Task4_cluster_plus.ipynb

  • 利用sklearn解决聚类问题。
  • sklearn.cluster.KMeans

Task06:朴素贝叶斯(2天)

理论部分

  • 相关概念

    • 生成模型
    • 判别模型
  • 朴素贝叶斯基本原理
    • 条件概率公式
    • 乘法公式
    • 全概率公式
    • 贝叶斯定理
    • 特征条件独立假设
    • 后验概率最大化
    • 拉普拉斯平滑
  • 朴素贝叶斯的三种形式
    • 高斯型
    • 多项式型
    • 伯努利型
  • 极值问题情况下的每个类的分类概率
  • 下溢问题如何解决
  • 零概率问题如何解决
  • sklearn参数详解

练习部分

https://github.com/xiaorancs/Datawhale/blob/master/final/Task5_bayes_plus.ipynb

  • 利用sklearn解决聚类问题。
  • sklearn.naive_bayes.GaussianNB

Datawhale组队学习:初级算法梳理课程任务相关推荐

  1. 第7期 Datawhale 组队学习计划

    马上就要开始啦 这次共组织15个组队学习 涵盖了AI领域从理论知识到动手实践的内容 按照下面给出的最完备学习路线分类 难度系数分为低.中.高三档 可以按照需要参加 - 学习路线 - 基础知识 01 统 ...

  2. 五、在测试集上评估图像分类算法精度(Datawhale组队学习)

    文章目录 配置环境 准备图像分类数据集和模型文件 测试集图像分类预测结果 表格A-测试集图像路径及标注 表格B-测试集每张图像的图像分类预测结果,以及各类别置信度 可视化测试集中被误判的图像 测试集总 ...

  3. 第8期Datawhale组队学习计划

    第8期Datawhale组队学习计划马上就要开始啦 这次共组织15个组队学习,涵盖了AI领域从理论知识到动手实践的内容 按照下面给出的最完备学习路线分类,难度系数分为低.中.高三档,可以按照需要参加 ...

  4. Datawhale组队学习周报(第047周)

    本周报总结了从 2021年01月03日至2022年01月09日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. ...

  5. Datawhale组队学习周报(第041周)

    本周报总结了从 11月22日至11月28日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. 第 31 期组队学习 ...

  6. Datawhale组队学习周报(第040周)

    本周报总结了从 11月15日至11月21日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. 第 31 期组队学习 ...

  7. Datawhale组队学习周报(第048周)

    本周报总结了从 2022年01月10日至2022年01月16日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. ...

  8. Datawhale组队学习周报(第038周)

    本周报总结了从 11月01日至11月07日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. 第 30 期组队学习 ...

  9. Datawhale组队学习周报(第019周)

    本周(06月21日~06月27日),第 25 期组队学习一共有 3 门开源课程,共组建了 3 个学习群,参与的学习者有 292 人,其中 web开发入门教程.数据挖掘实战(异常检测) 已经结营,另外一 ...

最新文章

  1. 中科院分子细胞科学卓越创新中心化学生物学技术平台与Bio-protocol联合发布——《高内涵成像及分析实验手册》...
  2. mysql查询分数前三个_Mysql 单表查询各班级总分前三名
  3. PowerDesigner最基础的使用方法入门学习2
  4. Linux用extundelete恢复磁盘文件-攻防世界Recover-Deleted-File
  5. 引擎: 决定数据库存取数据的方式 = 不同的特点 = 不同的用户体验 数据类型: 规定了数据库可以存放哪些数据 约束: 限制存储数据的规则 键...
  6. mysql 重复率高字段 索引_MySQL性能优化(二)索引优化
  7. 设计模式——模板方法
  8. jvm调优:能生成的线程数
  9. 让你一目了然的ip划分!
  10. hyperstudy联合matlab,HyperStudy对后处理排气管道参数的灵敏度分析及优化设计
  11. c语言 子进程,子Shell和子进程
  12. 如何使用Tornado实现WebSocket服务器?
  13. Java运行原理研究(未完待续)
  14. 文档 hbase_0783-6.2.0-如何在Hue中集成HBase
  15. json在java中的使用_在Java中使用JSON
  16. 随想录(关于smp的均衡负载)
  17. real-time RGB-D camera relocalization
  18. 设置透明主题引起动画失效以及打开其他应用闪现桌面图标的问题
  19. 解决破解版matlab2018a打开示例或者帮助需要登录账号或者需要输入激活码问题
  20. FC下常用软件的安装配置

热门文章

  1. @Override is not allowed when implementing interface method
  2. php更新数据库时间戳,关于Thinkphp5 里面数据库自动更新与创建时间的问题
  3. java开发培训中消息中间件的优势有哪些
  4. 软件测试工程师如何提升自己?
  5. npm中package-lock.json的作用:npm install安装时使用
  6. P4269 [USACO18FEB]Snow Boots G
  7. java 复制对象有哪些方式
  8. Metasploit攻击Oracle的环境搭建
  9. 敏捷软件开发的12个原则
  10. iOS中UISearchBar(搜索框)使用总结