编者注:Datawhale是一个公益组织,也是AiUnion的四个成员之一,所有学习计划是免费的。

第7期Datawhale组队学习计划

马上就要开始啦

这次共组织15个组队学习

涵盖了AI领域从理论知识到动手实践的内容

按照下面给出的最完备学习路线分类

难度系数分为低、中、高三档

可以按照需要参加

- -

- 学习路线 -

                  

基础知识

01

统计学

课程设计:王佳鑫、许辉

组队学习说明:学习内容涵盖统计学中所有的主要知识,并对其分部分进行梳理总结。

任务路线:根据所学习内容进行

(1)统计学基本知识、二项及泊松分布、大数定律、正态分布等内容的总结进行整体的回顾、梳理与完善;

(2)中心极限定理、置信区间、 假设检验等内容的总结进行整体的回顾、梳理与完善。

组队学习周期:7天

定位人群:微积分、基本概率知识储备,难度系数中

每个任务完成大概所需时间:2-3h

任务预览(2天)

学习内容 1:统计学基本知识、二项及泊松分布

学习内容 2: 大数定律、正态分布

02

Python基础

课程设计:马晶敏,叶梁、许辉

组队学习说明:学习python基础知识,针对python小白的学习之路

任务路线:基础知识-函数-第三方模块-类和对象-基础爬虫

组队学习周期:10天

定位人群:python小白,难度系数低

每个任务完成大概所需时间:每天平均花费时间2小时-4小时不等,根据个人学习接受能力强弱有所浮动

任务预览(2天)

环境搭建

1.python初体验

2.python基础讲解

3.python变量特性+命名规则、注释方法、python中“:”作用、学会使用dir( )及和help( )、import使用、pep8介绍

4. python数值基本知识

python中数值类型,int,float,bool,e记法等、算数运算符、逻辑运算符、成员运算符、身份运算符、运算符优先级

03

编程

课程设计:光城 、LeoLRH

组队学习说明:利用自己所熟知的编程语言,具有一定基础,讨论在面试中可能出现的数据结构问题,一起学习重温经典数据结构

任务路线:数组->链表->栈->队列->递归->排序->二分查找->哈希表->字符串->二叉树->堆->图->回溯->分治->动态规划

组队学习周期:14天甚至往上大概16天左右(周末进行整体整理讨论)(每天任务时间具体看任务情况)

定位人群:有一门语言基础和算法基础的同学,难度系数高,小白慎入!!!

每个任务完成大概所需时间:平均每天学习时间在1个小时左右,晚上统一,半个小时进行集体讨论总结打卡。

任务预览(2天)

【数组】

实现一个支持动态扩容的数组

实现一个大小固定的有序数组,支持动态增删改操作

实现两个有序数组合并为一个有序数组

学习哈希表思想,并完成leetcode上的两数之和(1)及Happy  Number(202)!(要求全部用哈希思想实现!)(选做)(注意:在第四天会进行继续学习)

练习:

Three Sum(求三数之和)

Majority Element(求众数)

Missing Positive(求缺失的第一个正数)

【链表】

实现单链表、循环链表、双向链表,支持增删操作

实现单链表反转

实现两个有序的链表合并为一个有序链表

实现求链表的中间结点

练习:

Linked List Cycle I(环形链表)

Merge k Sorted Lists(合并 k 个排序链表)

04

leetcode

课程设计:老表、于鸿飞、杨皓博

组队学习说明:Leetcode刷题组队学习,从零开始每天一道算法题,在良好的学习氛围下,培养刷题习惯,学习算法思想。(不限制编程语言)

任务路线:腾讯精选练习(50 题)顺序每天一道题。

地址链接:

https://leetcode-cn.com/problemset/50/

组队学习周期:50天(50题全部完成即结束)

定位人群:适合有一门语言基础的同学,难度系数中

每个任务完成大概所需时间:2-3h

课程内容:选取腾讯精选练习(50 题)解答

数据分析/挖掘

01

Excel入门课程

课程设计:杨煜,李严

组队学习说明:职场人士必备学习内容。通过集中式学习和大量实战练习,快速了解并掌握Excel核心功能,保证今后工作中用得到。

任务路线:基础界面(2天) --> 基础文件操作&单元格操作(2天) --> 基础函数(2天) --> 查找函数vlookup和 match/index(2天) --> 基础图表(3天) --> 数据透视表(2天)

组队学习周期:11天

定位人群:小白或有一点基础但不熟练的人群;初入职场人群必学;难度系数低

每个任务完成大概所需时间:2-3h/每天

任务预览(2天)

文件操作

新建workbook

新建sheet/移动sheet/重命名sheet/修改sheet颜色、sheet种类: 工作表/图表/宏表等、保存为xls/xlsx/csv

基础单元格操作

输入数据、数据格式、合并单元格、自动填充、选择性粘贴、去重、分列、排序、筛选、条件格式、插入下拉列表、行高列宽设置、冻结首行首列、边框、单元格换行

作业:

任务一:

生成一个行高30,列宽15(第六列列宽45),名为“Excel组队学习”的表,冻结窗格1-3行

任务二:

操作对象为任务一生成的“Excel组队学习”表

将第六列分列,效果如下

利用条件格式,将薪资列大于8000的收入填充为深绿色,并将它们筛选出来

第二列将重复值删除,只保留唯一值

02

MySQL

课程设计:杨皓博 孙涛 杨煜

组队学习说明:一周内快速了解并掌握MySQL的主要内容。通过大量SQL语句的实战练习,可以在简历上写熟练掌握MySQL。(注意:本课程只关注SQL查询语句本身,对数据库的涉及较少。)

任务路线: MySQL软件安装及数据库基础->查询语句->表操作->表联结->MySQL 实战->MySQL 实战-复杂项目

组队学习周期:(7天)

定位人群:小白,难度系数小

每个任务完成大概所需时间:2-3h

任务预览(3天)

软件安装及服务器设置。

数据库基础知识

MySQL数据库管理系统

SQL是什么?MySQL是什么?

查询语句 SELECT FROM

筛选语句 WHERE

分组语句 GROUP BY

排序语句 ORDER BY

SQL注释

SQL代码规范

03

爬虫

课程设计:光城、李方

组队学习说明:

从零基础到能独立完成一个简易的爬虫项目

任务路线:请求→re→beautifulsoup→lxml→selenium→IP问题→实战小项目

组队学习周期:7天

定位人群:有Python基础。难度系数中

每个任务完成大概所需时间:2-3h/天

任务预览(2天)

1.学习get与post请求,尝试使用requests或者是urllib用get方法向https://www.baidu.com/发出一个请求,并将其返回结果输出。

2.如果是断开了网络,再发出申请,结果又是什么。了解申请返回的状态码。

3.了解什么是请求头,如何添加请求头。

4.学习什么是正则表达式并尝试一些正则表达式并进行匹配。

5.然后结合requests、re两者的内容爬取https://movie.douban.com/top250里的内容

6.要求抓取名次、影片名称、国家、导演等字段。

04

数据分析

课程设计:金娟娟

组队学习说明:学习python for data analysis基础知识

任务路线:python基础-重要的python库(numpy/pandas/matplotlib/seaborn等)-数据清洗和分析

组队学习周期:15天

定位人群:数据分析小白,难度系数低

每个任务完成大概所需时间:每天平均花费时间2小时-4小时不等,根据个人学习接受能力强弱有所浮动

机器学习

01

初级算法梳理

课程设计:苏静、康兵兵

组队学习说明:通过查阅书籍或参考文献、学习视频等,对传统机器学习算法进行梳理

任务路线:线性回归--->逻辑回归--->决策树

组队学习周期:7天

定位人群:有概率论、矩阵运算、求导、泰勒展开等基础数学知识;难度系数低

每个任务完成大概所需时间:2-3h

任务预览(2天)

1. 机器学习的一些概念

有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证

2. 线性回归的原理

3. 线性回归损失函数、代价函数、目标函数

4. 优化方法(梯度下降法、牛顿法、拟牛顿法等)

5、线性回归的评估指标

6、sklearn参数详解

学习时长:两天

参考:西瓜书

cs229吴恩达机器学习课程

李航统计学习

谷歌搜索

02

高级算法梳理

课程设计:黑桃,刘广月,于鸿飞

组队学习说明:通过查阅相关文献,对机器学习算法进行梳理

任务路线:RF--->GBDT--->XGB

组队学习周期:7天

定位人群:有概率论、矩阵运算、求导、泰勒展开等基础数学知识;难度系数中

如何申请CSDN博客:https://blog.csdn.net/sxhelijian/article/details/7752987

12分钟教你如何使用Markdown:https://www.bilibili.com/video/av8819726?from=search&seid=6223599217224903501

MarkDown公式编辑:https://katex.org/docs/supported.html

每个任务完成大概所需时间:2-3h

任务预览(2天)

【参考框架】欢迎有自己的框架

1. 集成学习概念

2. 个体学习器概念

3. boosting  bagging

4. 结合策略(平均法,投票法,学习法)

5. 随机森林思想

6. 随机森林的推广

7. 优缺点

8. sklearn参数

9.应用场景

03

李宏毅机器学习(一)

课程设计:王佳旭,李威,排骨,金一鸣

组队学习说明:通过观看李宏毅教学视频,团队整理详细笔记进行梳理算法,并且通过团队布置的任务理解算法(小作业,核心代码,大作业等),完全手写代码,不调包。

学习路线:回归,决策树,SVM,XGBoost

学习周期:1个月

定位人群:python基础,数据分析,基础数学等知识;

难度系数:高

每个任务完成大概所需时间:每天2-4小时不等,根据个人学习能力强弱有所浮动

参考资料:

李宏毅课程教学

机器学习实战

Datawhale整理的《学习李宏毅》笔记

04

西瓜书

课程设计:黑桃

组队学习说明:通过学习周志华老师的《机器学习》,以博客的形式完成算法的整理

学习路线:模型评估与选择-->线性模型-->决策树-->神经网络-->支持向量机-->贝叶斯分类-->集成学习-->聚类-->降维与度量学习-->特征选择与稀疏学习-->半监督学习-->概率图模型-->规则学习-->强化学习

学习周期:14周

定位人群:掌握基础数学等知识;

难度系数:高

每个任务完成大概所需时间:每天2-4小时不等,根据个人学习能力强弱有所浮动

参考资料:《机器学习》、《机器学习公式推导版》、cs229

05

数据挖掘

课程设计:范晶晶、李碧涵、

组队学习说明:应用机器学习算法,完整地走完一个数据挖掘项目流程

任务路线:数据分析→特征工程→模型构建→模型评估→模型调优→模型融合

组队学习周期:12天

定位人群:有Python基础,sklearn基础。难度系数中

每个任务完成大概所需时间:2-3h/天

任务预览(2天)

要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018

任务1:对数据进行探索和分析。时间:2天

1.数据类型的分析

2.无关特征删除

3.数据类型转换

4.缺失值处理

5.……以及你能想到和借鉴的数据分析处理

深度学习

01

Pytorch基础

课程设计:许辉 李奇锋

组队学习说明:通过学习pytorch的基本操作,最终完成手写数字的识别

任务路线:安装pytorch->设立图并计算->实现逻辑回归->构建多层神经网络->PyTorch实现L1,L2正则化以及Dropout->书写优化器代码->用PyTorch完成手写数字识别

学习周期:7天

定位人群:熟悉python的基础用法

任务完成所需时间:2-3h/天

难度系数中

任务预览(2天)

1.什么是Pytorch,为什么选择Pytroch?

2.Pytroch的安装

3.配置Python环境

a.准备Python管理器

b.通过命令行安装PyTorch

c.PyTorch基础概念

4.通用代码实现流程(实现一个深度学习的代码流程)

理论应用

01

自然语言处理(理论+实践)

课程设计:jepson

组队学习说明:学习自然语言处理理论,并且通过对某些数据集的文本分类任务不断优化来进行实践。

任务路线:特征提取—>特征选择—>文本表示—>传统机器学习算法跑模型—>LDA生成新特征—>深度学习算法跑模型

定位人群:有Python基础,基本框架的基础(例如TensorFlow、Keras和pyTorch等)!难度系数高

组队学习周期:18天

每个任务完成大概所需时间:3-4h

任务预览(2天)

1.IMDB数据集下载和探索(参考TensorFlow官方教程)

2.THUCNews数据集下载和探索(参考博客中的数据集部分和预处理部分)

3.学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念

组队学习将从8号陆续开始报名(Datawhale的报名微信)

请关注和分享↓↓↓ 

本站的知识星球(黄博的机器学习圈子)ID:92416895

目前在机器学习方向的知识星球排名第一

转发:Datawhale第七期组队学习计划相关推荐

  1. Datawhale第九期组队学习计划

    Datawhale 组队学习 第九期Datawhale组队学习计划马上就要开始啦! 这次共组织三个组队学习,涵盖了编程.机器学习理论以及动手实践的内容,大家可以按照需要选择参加. 数据结构与算法(上) ...

  2. Datawhale第五期组队学习团队成员

    第五期组队学习团队成员 组队学习 负责人 评优助教 星球星主 初级算法梳理 Danny 梁乾明 黑桃 高级算法梳理 居居 路建飞 黑桃 编程 LeoLRH 鲁力 黑桃 统计学 谷勇杰 ben 黑桃 L ...

  3. Datawhale第四期组队学习团队成员

    第四期组队学习团队成员 集训 负责人 评优助教 基础算法梳理 Sm1les 钱令武 高级算法梳理 于鸿飞 小雪 ML项目实践 杨冰楠 孙涛 编程 孙超 小熊 统计学 李奇锋 蓝昔 Leetcode 老 ...

  4. Datawhale第23期组队学习—深度学习推荐系统—task5 DIN

    DIN 1. 背景 2. 模型原理 2.1 特征表示 2.2 模型原理 3. 代码实现 参考来源: https://github.com/datawhalechina/team-learning-rs ...

  5. DataWhale第21期组队学习自然语言处理实践(知识图谱)task4— 用户输入->知识库的查询语句

    参考来源:https://github.com/datawhalechina/team-learning-nlp/blob/master/KnowledgeGraph_Basic/task04.md# ...

  6. 【Datawhale第25期组队学习】Task03:基于线性模型的异常检测

    Taks03 基于线性模型的异常检测 文章目录 Taks03 基于线性模型的异常检测 0 写在前面 1 概述 2 线性回归 2.1 基于自变量与因变量的线性回归 2.1.1梯度下降法优化目标函数 2. ...

  7. Datawhale第13期组队学习笔记Task3

    CNN CNN是一种层次模型,输入的是原始的像素数据.CNN通过卷积(convolution).池化(pooling).非线性激活函数(non-linear activation function)和 ...

  8. Datawhale第32期组队学习——task0:新闻推荐系统项目搭建:centos下前端配置

    文章目录 0.解决npm命令语法不正确问题 0.1 powershell报错 0.2 win10家庭版升级 nodejs 1.1 centos安装nodejs 1.2 win10安装nodejs 2. ...

  9. 第8期Datawhale组队学习计划

    第8期Datawhale组队学习计划马上就要开始啦 这次共组织15个组队学习,涵盖了AI领域从理论知识到动手实践的内容 按照下面给出的最完备学习路线分类,难度系数分为低.中.高三档,可以按照需要参加 ...

最新文章

  1. 深入理解分布式技术 - 配置中心
  2. 在Linux系统的命令行中为MySQL创建用户的方法
  3. Check task status after 2016 Spring festival
  4. 深井软岩巷道群支护技术与应用_引领支护创新,促进行业发展
  5. 【co】ES6-20/21 iterator与generator
  6. tensorflow图形检测_社交距离检测器——Tensorflow检测模型设计
  7. 於岳 linux实用教程(第2版),Linux实用教程 第2版 教学课件 ppt 作者 於岳 编著 06...
  8. Oracle 10g 报ORA-12514错误
  9. 【图像融合】基于matlab IHS变换与自适应区域特征遥感图像融合【含Matlab源码 1636期】
  10. MATLAB通信系统建模
  11. Lodash - 修复微信小程序中 Lodash 的运行环境(lodash-fix.js)
  12. Adobe官方清理工具Adobe Creative Cloud Cleaner Tool使用教程
  13. android webview 清空内容,Android WebView清空缓存
  14. linux访问mdio接口函数,MII 接口解析(三)GPIO 模拟 MDIO 接口使用代码
  15. 五险一金,这篇就够了
  16. 游戏公司的交互设计人员一般都做什么工作?
  17. Vue 登录验证之滑动拼图验证码
  18. Stata:固定效应模式必须加入时间固定效应吗?
  19. 巧用FC5的“添加/删除程序”(转)
  20. 土拍熔断意味着什么_315土拍将解地市之渴?“熔断”来了,别高兴太早

热门文章

  1. Conputer Vision-边缘检测-OpenCV实践
  2. 解释BOM头和去掉方法
  3. RxJava系列6(从微观角度解读RxJava源码)
  4. 显示和隐藏系统任务栏的类
  5. JavaScript变量作用域和内存问题(js高级程序设计总结)
  6. 如何将数据导入到 SQL Server Compact Edition 数据库中(四)
  7. SnapGene mac 5.3.1 中文分子生物学可视化工具及教程
  8. GraphPad Prism软件无响应问题解决办法
  9. 超实用资源,SCI写作到投稿全阶段模板
  10. 第11天学习Java的笔记(数组注意事项)