数据科学项目可以让你以一种有前途的方式开启在这个领域的职业生涯。你不仅可以通过项目应用来学习数据科学,还可以在简历中展示该项目! 如今招聘人员通过候选人的工作来评估其潜力,并不是非常重视获得的证书。 如果你只是告诉他们你知道多少,但你没有什么可以展示的话,那也没关系,这是大多数人挣扎和错过的地方。

你之前可能已经解决过一些问题,但是如果你不能使它们变得易于理解和解释,怎么能让人知道你具有什么能力? 这就是这些项目可以帮助你的地方。 想想你在这些项目上花费的时间,比如你的培训课程。 练习的时间越多,越会出色!

我们确保为你提供来自不同领域的各种问题的体验。 我们相信每个人都必须学会巧妙地处理大量数据,因此这里包含了大量数据集。 我们确保所有数据集都是开放并可以自由访问的。

为了帮助你决定从哪里开始,我们把这个列表分为3个层次,即:

1、初级水平:该级别包括一些易于使用的数据集,不需要复杂的数据科学技术。你可以用基本的回归或分类算法来解决它们。此外,这些数据集有足够的开放教程帮你前进。在这个列表中,我们还提供了教程帮你入门。

2、中级水平:该级别包括本质上更具挑战性的数据集,它由需要严格的模式识别技能处理的中、大数据集组成。此外,特征工程会在这里发挥作用。可以无限制使用机器学习(ML)技术,而且一切公开技术都可以投入使用。

3、高级水平:这个级别适合理解如神经网络、深度学习、推荐系统等高阶技术的人员。高维数据集是这个级别的特色。在这里可以看到数据科学的创意,看看科学家们在工作和代码中的创造力。

初级水平
1 虹膜数据

这可能是模式识别文献中最通用、简单和灵活多样的数据集,没有什么比虹膜数据集更容易学习分类技术。如果你对数据科学完全陌生,这是你最好的起点。此数据只有150行4列。

任务:根据可用的属性预测花的种类。

数据:https://archive.ics.uci.edu/ml/datasets/Iris

教程:https://www.slideshare.net/thoi_gian/iris-data-analysis-with-r

2 贷款预测数据

在所有行业中,保险领域是分析和数据科学方法使用最广的行业之一。这个数据集为你提供了保险公司的数据工作体验——那里面临什么挑战,使用什么策略,哪些变量影响结果等。这是一个分类问题。数据有615行13列。

任务:预测贷款是否会得到批准。

数据:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

教程:https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/

3 Bigmart销售数据

零售业是另一个需要广泛使用分析来优化业务流程的行业。诸如产品放置、库存管理、定制报价、产品捆绑等任务都在使用数据科学技术进行智能处理。此数据包括销售商店的交易记录,这是一个回归问题,数据集有8523行12个变量。

任务:预测一家商店的销售额。

数据:https://datahack.analyticsvidhya.com/ contest/practice-problem-big-mart-sales-iii/

教程:https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/

4 波士顿房屋数据

这是在模式识别文献中另一个流行使用的数据集。此数据集是来自波士顿(美国)的房地产业。这是一个回归问题,数据有506行14列,所以这是一个相当小的数据集,你可以尝试任何技术,不用担心笔记本电脑的内存过度使用。

任务:预测自住房屋的中位数值。

数据:https://www.cs.toronto.edu/~delve/ data/boston/bostonDetail.html

教程:https://www.analyticsvidhya.com/ blog/2015/11/started-machine-learning-ms-excel-xl-miner/

5 时间序列分析数据

时间序列是数据科学中最常用的技术之一。它具有广泛的应用——天气预报、销售预测、逐年趋势分析等。这个数据集是针对时间序列的,这里的挑战是在运输方式基础上预测交通状况。

任务:预测一种新的运输方式的交通状况。

数据:https://datahack.analyticsvidhya.com/ contest/practice-problem-time-series-2/

教程:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about

6 葡萄酒品质数据

这是数据科学初学者中最流行的数据集之一。它被分为2个数据集。你可以在这个数据上执行回归和分类任务。它将帮助你理解数据科学中的不同领域——离群点检测、特征选择和不平衡数据。在这个数据集中有4898行12列。

任务:预测葡萄酒质量。

数据:https://archive.ics.uci.edu/ml/datasets/Wine+Quality

教程:暂无

7 Turkiye学生评价数据

该数据集基于不同课程的学生填写的评价表。它含有不同的维度属性,包括考勤,难度,每个评估的得分等等。这是一个无监督的学习问题。数据集有5820行33列。

任务:使用分类和聚类技术来处理数据。

数据:https://archive.ics.uci.edu/ml/datasets/ Turkiye+Student+Evaluation

教程:暂无

8 身高和体重数据

对于刚接触数据科学的人来说,这是一个理想的简单问题。它一个回归问题。数据集有25000行3列(索引、高身高和体重)。

任务:预测一个人的身高或者体重。

数据:http://wiki.stat.ucla.edu/socr/i ndex.php/SOCR_Data_Dinov_020108_HeightsWeights

教程:https://www3.nd.edu/~steve/ computing_with_data/2_Motivation/motivate_ht_wt.html

中级水平
1 黑色星期五数据

该数据集包括从零售商店获得的销售交易数据。这是一个帮你探索和扩展你的特征工程技术和逐渐了解多角度购物经验的经典数据集。它是一个回归问题。数据集有550069行12列。

任务:预测销售额。

数据:https://datahack.analyticsvidhya.com/contest/black-friday/

教程:https://discuss.analyticsvidhya.com/ t/black-friday-data-hack-reveal-your-approach/5986

2 人类活动识别数据

该数据集是嵌入惯性传感器启用的智能手机捕获的30个人的活动记录的集合。许多机器学习课程使用这些数据来教学。现在轮到你来处理这个多分类问题。数据集有10299行561列。

任务:预测一个人的活动类别。

数据:http://archive.ics.uci.edu/ml/ datasets/Human+Activity+Recognition +Using+Smartphones

教程:https://rstudio-pubs-static.s3.amazonaws.com/ 291850_859937539fb14c37b0a311 db344a6016.html

3 文本挖掘数据集

这个数据集来自于在2007年举行的暹罗文本挖掘竞赛。数据集包括描述在某些发生问题的航班的航空安全报告。它是一个多分类的高维问题。它有21519行30438列。

任务:按标签分类文件。

数据:https://www.csie.ntu.edu.tw/~cjlin/ libsvmtools/datasets/multilabel.html#siam-competition2007

教程:https://wtlab.um.ac.ir/images/ e-library/text_mining/Survey%20of% 20Text%20Mining%202%20.pdf

4 历史出行数据

这个数据集来自于美国的共享单车。这个数据集需要你练习数据挖掘技术。它提供2010年第四季度以前季度数据,每个文件有7列。这是一个分类问题。

任务:预测用户分类。

数据:https://www.capitalbikeshare.com/system-data

教程:https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/

5 百万歌曲数据

你知道数据科学也可以用于娱乐行业吗?现在自己动手试试吧。该数据集提出了回归任务。它包括515345个观测值和90个变量。然而,这仅仅是大约有一百万首歌曲的歌曲数据库的一小部分。

任务:预测歌曲的发行年。

数据:http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD

教程:http://www-personal.umich.edu/~yjli/ content/projectreport.pdf

6 国民收入数据

这是一个不平衡分类的经典机器学习问题。正如你所知,机器学习正被广泛地被用于解决不平衡问题,如癌症检测、欺诈检测等。是时候轮到你去上手尝试了。数据集有48842行14列。为了方便指导,你可以直接点击查看这个不平衡数据项目。

任务:预测美国的收入等级。

数据:http://archive.ics.uci.edu/ml/ machine-learning-databases/census-income-mld/

教程:暂无

7 电影评级数据

你建立过推荐系统吗?这是你学习的好机会!该数据集是数据科学行业中最受欢迎及被引用最多的数据集之一。它有不同的数量级。在这里我使用了一个相当小的集合,包含6000个用户对4000部电影的100万个评级。

任务:给用户推荐新电影。

数据:https://grouplens.org/datasets/movielens/1m/

教程:https://www.analyticsvidhya.com/ blog/2016/06/quick-guide-build-recommendation-engine-python/

8 Twitter分类数据

Twitter数据是情感类分析问题的一个组成部分。如果你想为自己在这个领域开辟一个新天地,你会很高兴地迎接这个数据集所带来的挑战。这个数据集有3MB大,包含31962条推特。

任务:分辨正面推文和负面推文。

数据:https://datahack.analyticsvidhya.com /contest/practice-problem-twitter-sentiment-analysis/

教程:https://github.com/abdulfatir/twitter-sentiment-analysis

高级水平
1 图像识别

这个数据集让你学习分析和识别图像中的元素。这就是你的相机如何识别你的脸的原理——使用图像识别技术!现在轮到你建立和测试这种技术了。这是一个数字识别问题。该数据集具有7000个28×28大小的图像,总计31MB。

任务:从图像中识别数字。

数据:https://datahack.analyticsvidhya.com/ contest/practice-problem-identify-the-digits/

教程:https://www.analyticsvidhya.com/blog/2016/10 /an-introduction-to-implementing-neural-networks-using-tensorflow/

2 城市声音分类

当你开始你的机器学习之旅时,会遇到简单的机器学习问题,例如泰坦尼克号生存预测。 但是,当涉及到现实生活中的实际问题时,你仍然没有得到足够的练习。 因此,此练习题旨在向你介绍通常的分类场景中的音频处理。 该数据集包含摘录自10个等级的8,732个城市声音。

任务:从音频中分类声音类型。

数据:https://datahack.analyticsvidhya.com/ contest/practice-problem-urban-sound-classification/

教程:https://www.analyticsvidhya.com/blog/ 2017/08/audio-voice-processing-deep-learning/

3名人数据

音频处理正迅速成为深度学习的重要领域,这是另一个具有挑战性的问题。 该数据集用于大规模说话人识别,数据集包含从YouTube视频中提取的名人所说的单词。 这是一个有趣的语音分离和识别的例子。 这些数据包含了1,251位名人所说的100,000个话语。

任务:找出这个声音属于哪个名人。

数据:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

教程:https://www.robots.ox.ac.uk/~vgg/ publications/2017/Nagrani17/nagrani17.pdf

4 ImageNet数据

ImageNet提供了各种各样的问题,包括对象检测、定位、分类和屏幕解析。所有的图像都是免费提供的。你可以搜索任何类型的图像并围绕它构建项目。截至目前,该图像引擎有超过1500万个多形状图像,超过140GB。

任务:要解决的问题是你下载的图像类型。

数据:http://image-net.org/download-imageurls

教程:http://image-net.org/download-imageurls

5 芝加哥犯罪数据

如今每个数据科学家都希望能够处理大型数据集。 当公司具有处理完整数据集的计算能力时,就不再喜欢处理样本数据。 此数据集为你提供了在本地计算机上处理大型数据集所需的实践经验。 问题很简单,但数据管理才是关键! 该数据集具有6M观测值,这是一个多分类问题。

任务:预测犯罪类型。

数据:https://data.cityofchicago.org/Public-Safety/Crimes- 2001-to-present/ijzp-q8t2

教程:http://nathanwayneholt.com/mathematicalmodeling /ChicagoCrimesReport.pdf

6 印度演员年龄检测数据

对于所有深度学习爱好者来说,这都是一项极具挑战性的挑战。 该数据集包含数千张印度演员的图像,你的任务是确定他们的年龄。所有图像都是手动选择并从视频帧中裁剪出来的,导致了人物比例,姿势,表情,照明,年龄,分辨率,遮挡和化妆等方面的高度变化性。 训练集中有19,906个图像,测试集中有6,636个图像。

任务:预测演员的年龄。

数据:http://image-net.org/download-imageurls

教程:https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/

7 引擎推荐数据

这是一项高级推荐系统挑战。在这个实践问题中,你将得到程序员的数据、他们以前已经解决的问题以及他们解决那个特定问题所花费的时间。作为一名数据科学家,你所构建的模型将帮助在线评判人员决定向用户推荐的下一级问题。

任务:根据用户的当前状态预测解决问题所花费的时间。

数据:https://datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/

教程:暂无

8 VisualQA数据

VisualQA是一个包含有关图像的开放式问题的数据集,解决这些问题需要你了解计算机视觉和语言,问题均含有自动评估指标。 数据集有265,016个图像,每个图像3个问题,每个问题10个基础的真实答案。

任务:使用深度学习技术回答关于图像的开放性问题。

数据:http://www.visualqa.org/

教程:https://arxiv.org/abs/1708.02711

在上面列出的24个数据集中,你应该首先找到与你技能相匹配的数据集。 比如,如果你是机器学习的初学者,请避免从一开始就使用高级数据集,不要贪多嚼不烂,也不要因为还有很多要做而感到不知所措。 相反,专注于逐步的进步。

完成2到3个项目后,在简历和GitHub配置文件中展示它们(非常重要!)。 如今,很多招聘人员通过查看候选人的GitHub项目来选择。 你的动机不应该是完成所有项目,而是根据要解决的问题,域和数据集大小选择所选项目。 如果你想查看完整的项目解决方案,请查看这里。

原文标题:24 Ultimate Data Science Projects

To Boost Your Knowledge and Skills

原文URL:https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/

翻译、编辑、排版和校对:冀佳钰、朝乐门

转自:数据科学DataScience 公众号;

END

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。


关联阅读:

原创系列文章:

1:从0开始搭建自己的数据运营指标体系(概括篇)

2 :从0开始搭建自己的数据运营指标体系(定位篇)

3 :从0开始搭建自己的数据运营体系(业务理解篇)

4 :数据指标的构建流程与逻辑

5 :系列 :从数据指标到数据运营指标体系

6:   实战 :为自己的公号搭建一个数据运营指标体系

7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

数据运营 关联文章阅读:  

运营入门,从0到1搭建数据分析知识体系

推荐 :数据分析师与运营协作的9个好习惯

干货 :手把手教你搭建数据化用户运营体系

推荐 :最用心的运营数据指标解读

干货 : 如何构建数据运营指标体系

从零开始,构建数据化运营体系

干货 :解读产品、运营和数据三个基友关系

干货 :从0到1搭建数据运营体系

数据分析、数据产品 关联文章阅读:

干货 :数据分析团队的搭建和思考

关于用户画像那些事,看这一文章就够了

数据分析师必需具备的10种分析思维。

如何构建大数据层级体系,看这一文章就够了

干货 : 聚焦于用户行为分析的数据产品

如何构建大数据层级体系,看这一文章就够了

80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

从底层到应用,那些数据人的必备技能

读懂用户运营体系:用户分层和分群

做运营必须掌握的数据分析思维,你还敢说不会做数据

合作请加qq:365242293  


更多相关知识请回复:“ 月光宝盒 ”;

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

提升你知识和技能的24个终极数据科学项目(分级+任务+数据+教程)相关推荐

  1. 24个终极数据科学项目(免费获取资源)

    数据科学项目为你在这个领域的深入研究提供了一个基础.通过实际应用,你不仅可以学习数据科学,也能够写在简历中提升你的资历.在这上边花费的时间越多,你学到的知识就越多. 初级--这部分的数据集很容易处理, ...

  2. 【机器学习】24个终极项目提升您的机器学习知识和技能

    https://blog.csdn.net/ChenVast/article/details/81531882 介绍 数据科学项目为您提供了一个有前途的方式来启动您在该领域的职业生涯.您不仅可以通过应 ...

  3. 成为一名AI工程师,需要掌握的知识和技能?

    成为一名AI工程师,需要掌握以下知识和技能: 了解人工智能发展历史和概念.包括人工智能的定义.研究领域.发展历程等.这有助于理解人工智能的来龙去脉和未来发展趋势. 精通编程语言.特别是掌握Python ...

  4. 这些数据科学家必备的技能,你拥有哪些?

    1.教育背景 88%的数据科学家受过高等教育且拥有硕士学位,其中46%拥有博士学位.虽然有些人是例外,但通常需要非常强大的教育背景才能拥有成为数据科学家所必需的知识深度.要想成为数据科学家,你可以先获 ...

  5. 从0到1构建数据科学竞赛知识体系,有夕,鱼佬,茂霖等竞赛大咖将特邀分享...

    从0到1构建数据科学竞赛知识体系 这是怎样的数据竞赛知识体系 为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.DataFountain 和 Datawhale 联合邀请了 ...

  6. 大数据怎么学习:大数据学习的关键技术知识体系、学习路径和误区

    由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较大,难以三言两语说清楚,本文从数据科学和大数据关键技术体系角度,来说说大数据的核心技术什么,到底要怎么学习它 ...

  7. python 数据科学书籍_5本免费书籍,使您的数据科学技能更上一层楼

    python 数据科学书籍 As things stand, I am nowhere near where I aspire to reach as a Data Scientist. In my ...

  8. 数据科学 vs. 大数据 vs. 数据分析:定义,内涵,应用,所需技能

    什么是数据科学? 什么是大数据? 什么是数据分析? 数据科学的应用 大数据的应用 数据分析的应用 成为数据科学家所需的技能 成为大数据专家所需的技能 成为数据分析师所需的技能 薪资趋势 结论 数据无处 ...

  9. 24个提高知识和技能极限的机器学习项目

    介绍 数据科学(机器学习)项目为你提供了一种有前途的方式来启动你在该领域的职业.你不仅可以通过应用它来学习数据科学,还可以在自己的简历上展示一些项目! 如今,招聘人员通过他/她的工作来评估应聘者的潜力 ...

最新文章

  1. Hadoop集群上使用JNI,调用资源文件
  2. 北恒生物获德诚资本约1亿元A轮融资,德诚资本投资
  3. C语言 | 求级数的和
  4. strongswan技术
  5. 2021博客之星,请帮忙投上宝贵一票
  6. streaming接mysql数据库_[Spark streaming举例]-- 实时统计并且存储到mysql数据库中
  7. 一加手机虚拟键失灵解决方案
  8. 20190912:(leetcode习题)3的幂
  9. 【渝粤教育】国家开放大学2018年秋季 7048-21T危急重症护理学(本) 参考试题
  10. 190227每日一句
  11. 2020年mathorcup数模A题总结回顾
  12. 按键精灵手机助手连接mumu模拟器的方法,适用于任何模拟器连接按键精灵手机助手
  13. cmd 实用快捷键。。
  14. 【Flutter--实战】Dart 语言快速入门
  15. npm ERR code ETIMEDOUT npm ERR syscall connect npm ERR errno ETIMEDOUT npm ERR network reques...
  16. 游戏服务器租用阿里云和腾讯云价格对比
  17. 全国社会组织信用信息公式平台(试运行)爬虫记录
  18. Logistic回归模型C统计量及95%可信区间计算
  19. OSChina 周五乱弹 ——电影里有在线/离线,递归,循环,矩阵等概念?
  20. 安卓APP在运行时对全局进行网络状态监听的实现

热门文章

  1. build.prop参数详解和部分修改
  2. 人工智能还不错,人工智障就算了
  3. python余弦定理求角_python实现的文本相似度算法(余弦定理)
  4. 吉林大学计算机工程学院陈虹,刘奇芳
  5. 工厂模式(简单工厂模式和工厂方法模式)详解
  6. [转载]沧桑战神 4.25 收评 明天大盘能否接着忽悠?
  7. 基于Springboot的小型超市商品展销系统 计算机毕设源码01635
  8. jfreechart java配置_JFREECHART环境安装配置
  9. 酒店小秘:酒店行业应用再添新兵
  10. 浏览器渲染与浏览器内核相关杂谈