作者:陈安东,湖南大学,Datawhale成员

1. 开源初衷

对于任何一个将来要实际运用的技能,通过实战,自己亲自将一行行代码敲出来,然后达到自己想要的效果,这个过程是最好的学习方式。

最开始接触了Datawhale数据分析项目,那时我作为一名学员的以《Python for data analysis》这本书为教材,通过刷这本教材的代码来学习数据分析的数据处理技能,书里对于pandas和numpy操作讲的很细,但是对于数据分析思维的内容涉及就少了很多。最后感觉就是敲了一堆代码并不知道怎么用。

后面又接触了Datawhale数据挖掘实战项目[1] 。这个项目又比较偏模型和实战,直接给你一个任务,让你去完成,上手难度比较大,但是它的实战性可以让你对于什么是数据挖掘,以及数据挖掘的逻辑有很好的把握。

所以我们在想有没有这样一个项目,以实战为主线,将知识点孕育其中,通过边学,边做以及边被引导的方式来使学习效果达到更好,学完之后既能掌握数据处理技能又能掌握数据分析的大致思路和流程。于是就有了开源项目《动手学数据分析》,让小白也可以更好地开启他的数据分析之路。

2. 项目详情

2.1 项目概括

项目分为三个单元,大致可以分为:数据基础操作,数据清洗与重构,建模和评估。每个部分的学习内容如下:

  • 第一单元:我们获得一个要分析的数据,我要学会如何加载数据,查看数据,然后学习Pandas的一些基础操作,最后开始尝试探索性的数据分析。

  • 第二单元:当我们可以比较熟练的操作数据并认识这个数据之后,我们需要开始数据清洗以及重构,将原始数据变为一个可用好用的数据,为之后放入模型做准备。

  • 第三单元:我们根据任务需求不同,要考虑建立什么模型,我们使用流行的sklearn库,建立模型。对于一个模型的好坏,我们是需要评估的,之后我们会评估我们的模型,对模型做优化。

2.2 项目详情

  • 开源地址:

    https://github.com/datawhalechina/hands-on-data-analysis

  • 代码形式:jupyter

  • 数据集:kaggle上的泰坦尼克[2]数据集

  • 目的:是通过真实的数据,以实战的方式熟悉数据分析python的基本操作和了解数据分析思维

  • 结果:完成Kaggle上泰坦尼克任务

在从GitHub下载了我们的仓库之后,里面包含了我们所需的数据以及实战需要的代码。在每个单元里,分别有【课程】文件和【答案】文件。

【课程】是实战文件,根据我们的引导,通过代码完成相应的任务。除了需要完成了代码的编写,在重要的地方我们设计了思考题,学习者可以有更深刻的理解。

在完成一个【课程】后,既掌握了这一部分知识又可以完成代码的编写。

在相对应的【答案】文件,我们提供了参考答案。也是希望新手可以在实战的路上少一点坑,多一点注意力放到知识点本身。

3. 写到最后

关于我们项目的名字——动手学数据分析(Hands-on data analysis)。数据分析是一个要从一堆数字中看到真相的过程。学会操作数据只是数据分析的一半功力,剩下的另一半要用我们的大脑,多思考,多总结,更要多动手,实打实的的敲代码。所以也希望在学习这个开源教程的时候,多去推理,多去问问为什么;多多练习,确保理论实践结合起来,在学习结束的时候一定会大有收获。

参考资料

[1]

数据挖掘实战: https://github.com/datawhalechina/team-learning-data-mining

[2]

泰坦尼克数据集

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑获取一折本站知识星球优惠券,复制链接直接打开:https://t.zsxq.com/662nyZF本站qq群1003271085。加入微信群请扫码进群(如果是博士或者准备读博士请说明):

【资源】《动手学数据分析》开源教程完整发布!相关推荐

  1. 《动手学数据分析》开源教程完整发布!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:陈安东,湖南大学,Datawhale成员 1. 开源初衷 对于任何 ...

  2. 【组队学习】【32期】动手学数据分析

    动手学数据分析 航路开辟者:陈安东.金娟娟.杨佳达.老表.李玲.张文涛.高立业 领航员:范淑卷 航海士:武者小路.曾心怡 基本信息 内容属性:精品入门课系列 开源内容:https://github.c ...

  3. 【组队学习】【31期】动手学数据分析

    动手学数据分析 航路开辟者:陈安东.金娟娟.杨佳达.老表.李玲.张文涛.高立业 领航员:陈玉立 航海士:陈安东.武帅.肖涵哲.叶前坤.沈豪 基本信息 开源内容:https://github.com/d ...

  4. 【组队学习】【35期】动手学数据分析

    动手学数据分析 航路开辟者:陈安东.金娟娟.杨佳达.老表.李玲.张文涛.高立业 领航员:六一 航海士:郑园园.李牧轩.高岩 基本信息 开源内容:https://github.com/datawhale ...

  5. 【组队学习】【33期】动手学数据分析

    动手学数据分析 航路开辟者:陈安东.金娟娟.杨佳达.老表.李玲.张文涛.高立业 领航员:张文恺 航海士:武帅.戴治旭.初晓宇 基本信息 内容属性:精品入门课系列 开源内容:https://github ...

  6. 【组队学习】【29期】6. 动手学数据分析

    6. 动手学数据分析 航路开辟者:陈安东.金娟娟.杨佳达.老表.李玲.张文涛.高立业 领航员:李婉桦 航海士:陈安东.叶前坤.18:46.吴卓辰.livid 基本信息 开源内容:https://git ...

  7. 【组队学习】【27期】动手学数据分析

    动手学数据分析 论坛版块: http://datawhale.club/c/team-learning/25-category/25 开源内容: https://github.com/datawhal ...

  8. 【组队学习】【26期】动手学数据分析

    动手学数据分析 论坛版块: http://datawhale.club/c/team-learning/25-category/25 开源内容: https://github.com/datawhal ...

  9. Datawhale动手学数据分析打卡

    1.1 第一章:数据载入及初步观察 1.1.1 任务一:导入numpy和pandas import numpy as np import pandas as pd 1.1.2 任务二:载入数据 (1) ...

最新文章

  1. FM-2018-大熊猫的肠道菌群可能并没有特化出发酵纤维素的能力
  2. 投票系统之防止重复投票
  3. 对比学习系列论文CPCforHAR(一):Contrastive Predictive Coding for Human Activity Recognition
  4. 【MySQL】mysql 远程连接111
  5. Java Web Servlet
  6. aix 的c库为什么都是静态库_Linux静态库生成指南
  7. linux卸载alien,Ubuntu/Debian下的安装包装换工具—alien
  8. [转载] Python数据分析之Matplotlib数据可视化实例
  9. Gradle Maven部署,转化
  10. IE8 -- 此网页上的问题导致 Internet explore 关闭并重新打开该选项卡
  11. mysql双机热备份
  12. 优质计算机教案,信息技术优秀教案
  13. 计算机固态硬盘装系统,固态硬盘装系统,小编教你固态硬盘如何装系统
  14. Clean Architecture 读书笔记
  15. 软件测试证述职报告ppt,实验室检测员的述职报告ppt
  16. java实现处理无限层级树形结构
  17. N诺刷题——字符串、排序、查找、链表
  18. anacondaJupyter相关环境配置及常见问题及pycharm快捷命令(很全!很详细)
  19. Windows10如何去除快捷方式的小箭头
  20. GStreamer官方教程系列——Basic tutorial 5: GUI toolkit integration

热门文章

  1. Dynamics CRMのアップデートインポートツール移植的准备步骤与有用的网页
  2. VS2008的网页报表可以直接打印了
  3. JS使用onscroll、scrollTop实现图片懒加载
  4. 《程序是怎样跑起来的》第一章
  5. WPF窗口继承实现统一风格的自定义窗口
  6. Python(2)-- 运算符
  7. jax-ws实现WebService
  8. 函数mod(a,m)
  9. Andrew Ng机器学习课程14(补)
  10. JAVA集合迭代遍历和特性介绍