24个提高知识和技能极限的机器学习项目
介绍
数据科学(机器学习)项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学,还可以在自己的简历上展示一些项目!
如今,招聘人员通过他/她的工作来评估应聘者的潜力,而不是将重点放在认证上。如果你没有什么东西可以告诉他们,那也没关系!这是大多数人挣扎和错过的地方。
你以前可能曾处理过几个问题,但是如果你无法使其表现得那么好且易于解释,那么究竟有什么人会知道你的能力呢?这些项目将为你提供帮助。想想你将花费在这些项目上的时间,例如培训课程。练习花费的时间越多,你就会变得更好!
我们确保为你提供不同领域的各种问题。我们认为,每个人都必须学习如何巧妙地处理大量数据,因此其中包括大型数据集。另外,我们确保所有数据集都是开放的并且可以自由访问。
有用的信息
为了帮助你确定从何处开始,我们将该列表分为3个级别,即:
- 初级: 此级别包含相当容易使用的数据集,并且不需要复杂的数据科学技术。你可以使用基本回归或分类算法来解决它们。而且,这些数据集有足够的开放教程来帮助你入门。
- 中级:此级别包含本质上更具挑战性的数据集。它由中型和大型数据集组成,需要一些认真的模式识别技能。此外,功能工程将在这里有所作为。机器学习技术的使用没有限制;阳光下的一切都可以使用。
- 高级:此级别最适合理解高级主题(如神经网络,深度学习,推荐系统等)的人员。此处还提供了高维数据集。另外,这是时候发挥创造力了。查看最佳数据科学家将其带入他们的工作和代码的创造力。
目录
- 初级 虹膜数据 贷款预测数据 Bigmart销售数据 波士顿住房数据 时间序列分析数据 葡萄酒质量数据 Turkiye学生评估数据 身高体重数据
- 中级 黑色星期五数据 人类活动识别数据 暹罗比赛数据 行程记录数据 百万首歌曲数据 人口普查收入数据 电影镜头数据 Twitter分类数据
- 高级 识别你的数字 城市声音分类 Vox名人资料 ImageNet数据 芝加哥犯罪数据 印度演员数据的年龄检测 推荐引擎数据 VisualQA数据
初级
1.虹膜数据集
这可能是模式识别文献中最通用、最简单、资源最丰富的数据集。没有什么比虹膜数据集学习分类技术更简单的了。如果你是全新的数据科学学习生,这将成为你的起点。数据只有150行4列。
问题:根据可用属性预测花朵的类别。
开始:获取数据:https://archive.ics.uci.edu/ml/datasets/Iris
教程:http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r
让我们看一下Iris数据,并在下面的“实时编码”窗口中构建一个Logistic回归模型。
https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
2.贷款预测数据集
在所有行业中,保险领域是分析和数据科学方法最大的用途之一。该数据集使你可以从保险公司的数据集中进行操作,那里面临着哪些挑战,使用了什么策略,哪些变量影响了结果等等。这是一个分类问题。数据有615行和13列。
问题:预测贷款是否会获得批准。
开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/
教程:https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/
让我们看一下“贷款”数据并在下面的“实时编码”窗口中构建一个Logistic回归模型。
https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
3. Bigmart销售数据集
零售是另一个广泛使用分析来优化业务流程的行业。使用数据科学技术可以巧妙地处理诸如产品放置,库存管理,自定义报价,产品捆绑等任务。顾名思义,该数据包含销售商店的交易记录。这是一个回归问题。数据具有12个变量的8523行。
问题:预测商店的销售额。
开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/
教程:https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/
让我们看一下Big Mart销售数据,并在下面的“实时编码”窗口中构建线性回归模型。
https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
4.波士顿住房数据集
这是模式识别文献中另一个流行的数据集。数据集来自美国波士顿的房地产行业。这是一个回归问题。数据具有506行和14列。因此,这是一个相当小的数据集,你可以在其中尝试任何技术而不必担心笔记本电脑的内存被过度使用。
问题:预测业主占有的房屋的价值中值。
开始:获取数据:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
教程:https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/
5.时间序列分析数据集
时间序列是数据科学中最常用的技术之一。它具有广泛的应用程序——天气预报,预测销售,分析逐年趋势等。此数据集特定于时间序列,而此处的挑战是以一种运输方式预测交通量。数据具有行和列。
问题:以新的运输方式预测交通量。
开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/
教程:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about
6.葡萄酒质量数据集
这是数据科学初学者中最受欢迎的数据集之一。它分为2个数据集。你可以对此数据执行回归和分类任务。它将测试你在不同领域的理解能力——异常检测,特征选择和不平衡数据。该数据集中有4898行和12列。
问题:预测葡萄酒的质量。
开始:获取数据:https://archive.ics.uci.edu/ml/datasets/Wine+Quality
教程:https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf
7. Turkiye学生评估数据集
该数据集基于学生针对不同课程填写的评估表。它具有不同的属性,包括出勤率,难度,每个评估问题的得分等。这是一个无监督的学习问题。数据集有5820行和33列。
问题:使用分类和聚类技术来处理数据。
开始:获取数据:https://archive.ics.uci.edu/ml/datasets/Wine+Qualityhttps://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation
教程:https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf
8.身高和体重数据集
这是一个相当简单的问题,非常适合刚开始使用数据科学的人们。这是一个回归问题。数据集具有25,000行和3列(索引,高度和权重)。
问题:预测一个人的身高或体重。
开始:获取数据:http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights
教程:https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html
中级
1.黑色星期五数据集
该数据集包含在零售商店捕获的销售交易。这是一个经典的数据集,可从多种购物体验中探索和扩展你的特殊工程技能以及日常理解能力。这是一个回归问题。数据集具有550,069行和12列。
问题: 预测购买金额。
开始:获取数据:https://datahack.analyticsvidhya.com/contest/black-friday/
教程:https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986
2.人类活动识别数据集
该数据集是从通过嵌入式智能惯性传感器启用的智能手机捕获的30个人物的记录中收集的。许多机器学习课程将这些数据用于教学目的。轮到你了。这是一个多分类问题。数据集有10,299行和561列。
问题:预测人类的活动类别。
开始:获取数据:http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones
教程:https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html
3.文本挖掘数据集
该数据集最初来自2007年举行的暹罗文字采矿比赛。该数据包含描述某些飞行中出现的问题的航空安全报告。这是一个多分类的高维问题。它具有21,519行和30,438列。
问题:根据文档的标签对文档进行分类。
开始:获取数据:http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html#siam-competition2007
教程:https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf
4.行程历史数据集
该数据集来自美国的自行车共享服务。此数据集要求你锻炼专业数据处理技能。该数据从2010年第四季度开始按季度提供。每个文件有7列。这是一个分类问题。
问题:预测用户类别。
开始:获取数据:https://www.capitalbikeshare.com/trip-history-data
教程:https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/
5.百万首歌曲数据集
你知道数据科学也可以用于娱乐行业吗?自己动手吧!该数据集提出了回归任务。它由5,15,345个观测值和90个变量组成。但是,这只是大约一百万首歌曲的原始数据数据库的一小部分 。
问题:预测歌曲的发行年份。
开始:获取数据:http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD
教程:http://www-personal.umich.edu/~yjli/content/projectreport.pdf
6.人口普查收入数据集
这是一个不平衡的分类,是一个经典的机器学习问题。你知道,机器学习已广泛用于解决不平衡的问题,例如癌症检测,欺诈检测等。现在是时候自己动手了。数据集具有48,842行和14列。
问题:预测美国人口的收入等级。
开始:获取数据:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/
教程:https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf
7.电影镜头数据集
你是否已建立推荐系统?这是你的机会!该数据集是数据科学行业中最受欢迎和引用最多的数据集之一。它有各种尺寸。在这里,我使用了相当小的尺寸。它在4,000部电影中获得6,000名用户的100万收视率。
问题:向用户推荐新电影。
开始:获取数据:http://grouplens.org/datasets/movielens/1m/
教程:https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/
8. Twitter分类数据集
使用Twitter数据已成为情感分析问题不可或缺的一部分。如果你想在这一领域为自己开拓一片天地,那么你将很乐于应对该数据集带来的挑战。数据集大小为3MB,具有31,962条推文。
问题:识别哪些是仇恨推特,哪些不是。
开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/
教程:https://github.com/abdulfatir/twitter-sentiment-analysis
高级
1.确定你的位数数据集
该数据集使你可以研究,分析和识别图像中的元素。这就是相机使用图像识别来检测你的脸的方式!现在轮到你构建和测试该技术了。这是一个数字识别问题。该数据集包含7,000张28 X 28大小的图像,总计31MB。
问题:识别图像中的数字。
开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/
教程:https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/
2.城市声音分类
当你开始机器学习之旅时,你会遇到简单的机器学习问题,例如泰坦尼克号生存预测。但是,对于现实生活中的问题,你仍然没有足够的练习。因此,此练习问题旨在向你介绍常规分类情况下的音频处理。该数据集包含10个类别的8,732个城市声音的声音摘录。
问题:从音频中分类声音的类型。
开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/
教程:https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/
3. Vox名人数据集
音频处理正迅速成为深度学习的重要领域,因此这是另一个具有挑战性的问题。此数据集用于大规模的说话人识别,包含从YouTube视频中提取的名人所说的单词。这是用于分离和识别语音的有趣用例。数据包含1,251位名人所说的100,000次讲话。
问题:找出声音属于哪个名人。
开始:获取数据:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/
教程:https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf
4. ImageNet数据集
ImageNet提供了各种问题,包括对象检测,定位,分类和屏幕解析。所有图像均可免费获得。你可以搜索任何类型的图像并围绕该图像构建项目。截止到目前,该图像引擎已经拥有超过1500万张多种形状的图像,大小高达140GB。
问题:要解决的问题取决于你下载的图像类型。
开始:获取数据:http://image-net.org/download-imageurls
教程:http://image-net.org/download-imageurls
5.芝加哥犯罪数据集
如今,每位数据科学家都希望能够处理大型数据集。当公司在整个数据集上具有计算能力时,他们不再喜欢使用样本。该数据集为你提供了在本地计算机上处理大型数据集所需的实际经验。问题很容易,但是数据管理才是关键!该数据集具有600万个观测值。这是一个多分类问题。
问题:预测犯罪类型。
开始:获取数据: https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2
教程:http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf
6.印度演员年龄数据集
对于任何深度学习爱好者来说,这都是一个吸引人的挑战。数据集包含数千个印度演员的图像,你的任务是确定他们的年龄。手动选择所有图像,并从视频帧中裁剪所有图像,这导致了比例,姿势,表情,年龄,分辨率,遮挡和化妆具有高度的可变性。训练集中有19,906张图像,测试集中有6,636张图像。
问题:预测演员的年龄。
开始:获取数据:http://image-net.org/download-imageurls
教程:https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/
7.推荐引擎数据集
这是一个高级推荐系统的挑战。在这个实践问题中,将为你提供程序员的数据和他们先前已解决的问题,以及他们解决该特定问题所花费的时间。作为数据科学家,你建立的模型将帮助在线评委决定下一级的问题推荐给用户。
问题:根据用户的当前状态,预测解决问题所需的时间。
开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/
8. VisualQA数据集
VisualQA是一个数据集,其中包含有关图像的开放式问题。这些问题需要有对计算机视觉和语言的理解。这个问题有一个自动的评估指标。数据集包含265,016张图像,每张图像3个问题,每个问题10个真实答案。
问题:使用深度学习技术回答有关图像的开放性问题。
开始:获取数据:http://www.visualqa.org/
教程:https://arxiv.org/abs/1708.02711
尾注
在上面列出的24个数据集中,你应该首先找到一个与你的技能组匹配的数据集。如果你是机器学习的初学者,请避免从一开始就使用高级数据集。不要咬一个超过你咀嚼能力的东西,不要对仍然要做的事情感到不知所措。相反,应专注于逐步取得进展。
完成2-3个项目后,在简历和GitHub个人资料上展示它们(非常重要!)。如今,许多招聘人员通过检查GitHub个人资料来招聘候选人。你的动机不应该是完成所有项目,而应根据要解决的问题,领域和数据集大小挑选出一些项目。
24个提高知识和技能极限的机器学习项目相关推荐
- 24个提高你的知识和技能极限的数据科学(机器学习)项目(免费)
作者|ANALYTICS VIDHYA 编译|Flin 来源|analyticsvidhya 介绍 数据科学(机器学习)项目为你提供了一种有前途的方式来启动你在该领域的职业.你不仅可以通过应用它来学习 ...
- 能力与知识、技能三者之间的区别与联系是什么?
知乎用户 编程 话题的优秀回答者 知识是懂,技能是做,能力是成. 知识是懂得为什么,技能是知道如何做,能力是能够做成功. 有知识,可以更高效灵活的掌握技能:多一项技能,就多一分能力:除了知识技能,能力 ...
- 合格的电子工程师需要掌握的知识和技能
合格的电子工程师需要掌握的知识和技能 (转载) 愚以为,掌握了一下的硬件和软件知识,基本上就可以成为一个合格的电子工程师: 第一部分:硬件知识 一. 数字信号 1. TTL和带缓冲 ...
- 计算机知识和技能,计算机基本知识和技能PPT课件.ppt
你必须掌握的 计算机基本知识和技能 1 电脑的组成 2 电脑由硬件和软件两部分组成 软件可以分为系统软件和应用软件 3 操作系统就是替我们管理计算机的一种系统软件 操作系统 在计算机和人之间传递信息负 ...
- 大连商务英语培训百家外语国际部怎样提高商务英语阅读技能?
大连商务英语培训百家外语国际部怎样提高商务英语阅读技能? 近年来,随着我国涉外经济的发展,对外交流日益增多,商务英语考试近年来被各类外企.部门用来作为招收职员时英语能力的证明;同时也是商务工作人员或英 ...
- 知识、技能的区别与联系
知识是过去人类生产和生活经验的总结. 知识是各种知识,比如物理知识,化学知识,人际关系知识,管理知识等. 知识发展得非常迅速,人们用"知识爆炸"来描述知识的增长.知识是我们适应社会 ...
- 学习大数据要掌握哪些语言?哪些必备知识和技能呢?
大数据是近五年兴起的行业,发展迅速,很多技术经过这些年的迭代也变得比较成熟了,同时新的东西也不断涌现,想要保持自己竞争力的唯一办法就是不断学习.但是,大数据需要学习什么? 01 思维导图 下面的是我之 ...
- 6个开源项目提高GIS编程技能
摘要: 地理空间编程极具挑战性,尤其对于 GIS 或编程领域的新手而言.然而,构建项目的过程通常也非常有趣,因为它会帮助您获得实用的开发技能,以及将理论知识应用于开发其它的项目. 在本文中,我们展示了 ...
- [渝粤教育] 南昌大学 现场生命急救知识与技能 参考 资料
教育 -现场生命急救知识与技能-章节资料考试资料-南昌大学[] 随堂测试 1.[多选题]急救医疗服务体系由哪几部分构成? A.院前急救 B.院内急诊 C.急危重症监护 D.康复治疗 参考资料[ ] 随 ...
最新文章
- android shape的可选参数以及每个参数的含义与用法!
- 关于bin和obj文件夹。debug 和release的区别(转)
- C# 进程之间的通讯
- Nike Kyrie 1 Performance Review
- linux l显示详细信息,fdisk -l显示信息详解
- 怎么监听linux防火墙,linux怎么查看防火墙是否开启并清除防火墙规则?
- 五分钟实现网站安全 创新工场“安全宝”吸引大量用户
- RabbitMq学习笔记002---RabbitMq在SpringBoot中的应用_配置_使用_并且设置优先级
- 推荐系统基础之介绍入门篇
- Android帧动画的实现
- Python之函数的返回值
- 2020年电子设计竞赛 B题-单相在线式不间断电源 分析与总结
- Niushop官网出新版 由内而外 玩转简约时尚风
- 指投:3 常见的指数基金品种
- wps2022无法加载此加载项程序mathpage.wll
- python中pd是什么意思_python pd
- 克罗内克积Kronecker
- Docker容器修改端口映射
- html5百度地图展示运动轨迹,百度地图根据经纬度获取运动轨迹
- PrintWriter out=response.getWriter()的问题
热门文章
- 如何实现更换Jupyter Notebook内核Python版本
- RemoveError: ‘requests‘ is a dependency of conda and cannot be removed from conda‘s operating envir
- 数学帅才克莱因及其启示
- 这道「传说级」的数学题,为什么有 3 个正确答案?
- 2012年技术图书大盘点
- 如何用 TensorFlow 实现生成式对抗网络(GAN)
- 协作的力量——2021-2022年度《大数据系统基础》成果展示
- 你的声音作为一种“武器”:人类战争中声学活动
- 图卷积神经网络分析复杂碳水化合物
- 《算法笔记》中文版 - 包括数组,链表,树,图,递归,DP,有序表等相关数据结构与算法的讲解及代码实现...