购买的图像由PlargueDoctor设计

作为一个初学者,进入一个新的机器学习项目可能会很困难。 整个过程从选择一个数据集开始,然后,首先研究数据集,以找出哪种机器学习算法类或类型最适合该数据集。

以下是专家入门的一些技巧:

  • 找到一个相对容易分析的大小适中的数据集。 UCI ML存储库和Kaggle是搜索的好地方。
  • 实验数据集。 为了对数据集有良好的“感觉”,您可以对数据运行几种顶级的机器学习算法,以查看其行为以及每种算法可实现的性能。
  • 选择性能最佳的算法并进行相应调整。

好的,现在我们有了一些开始使用ML项目的一般提示,让我们看一下10个有趣的示例,这些示例将教您如何使用ML算法,对其进行调优以及如何分析给定的数据。

1.有虹膜花分类的有监督机器学习

Iris Flowers数据集被视为ML的“ Hello World”,因为它是分类的经典示例。 该数据集提供了很好的介绍,因为它要求您学习如何浏览数据以及如何加载数据。 此数据集的好处是加载到内存(150行)的空间很小,并且只有四个属性:花瓣长度,花瓣宽度,分隔长度和分隔宽度。


该项目涉及使用四个已知属性识别四种不同种类的鸢尾花。 数据集允许您在标记数据时使用监督学习算法,而无监督意味着当数据未被标记时,我们正在寻找数据中的隐藏结构。

分类类型? 我们在这里使用多类分类 。 这意味着我们应该能够准确地预测数据点属于哪个类别。

目标 :根据花的性质将花分类为三种:花瓣和萼片的尺寸。

下载: 鸢尾花数据集
完整指南:有关解决问题的信息,请参见此处 。

2.带有GNY的交易预测

多年来,机器学习一直是一个热门话题,但是主要由于成本,大多数开发人员无法使用许多流行的服务。 名为GNY的小组正在通过分散其强大的机器学习平台来解决这一问题,该平台可免费下载和安装。 机器学习平台实际上是嵌入在区块链中的,因此可以保护用户数据免受潜在黑客攻击。

该团队发布了一个演示,展示了该平台如何通过其强大的神经网络来预测零售交易组,并且将于今年夏天发布该平台的完全可下载和可定制的版本。 GNY将拥有一个可选的机器学习代码集库,可以根据每个人的需求对其进行选择,并将其应用于其侧链(因为GNY将使用Lisk的侧链技术)。

为什么这个这么重要? 几乎所有企业都在寻找一种负担得起的方法来释放其数据中的隐藏价值,但如果这样做会使他们面临安全风险,则不会。 区块链的固有结构有助于控制数据的一致性,并允许您始终控制数据。

由于可以在下一个块仍处于活动状态时为下一个块启动验证,因此性能得以提高。 验证包括检查用户是否有足够的余额。 仅对于错误预测的交易,才需要重做这项工作。

对于想要预测简单数字的人来说,此演示是一个有趣的入门项目,今年夏天启动的完整平台应为开发人员提供更多功能和定制功能。 在MLWave上可以找到一个很好的数据集,以便使用购买历史来预测回头客。

目标 :根据支出历史预测未来的交易。

3.带有Twitter的情绪分析

机器学习的一种有趣的应用是情感分析。 随着加密货币的兴起,情感分析已取得重大突破。 许多人试图构建结合了情绪分析的交易机器人,以做出更好的交易决策。

图片由AnalyticsVidhya.com提供

还有许多其他可用于情感分析的平台,例如Reddit,Facebook或LinkedIn,因为它们都提供了易于使用的API来检索数据。 但是,由于Twitter平台上数据的格式一致,因此这是机器学习的首选数据。 由于推文主要由文本,URL和主题标签组成,因此预处理也容易得多。

Twitter API知道许多可用于集成到您的项目中的API库。 可以使用!pip install python-twitter通过pip安装Python的包装。 但是,使用API​​时请当心,因为过度使用会使您进入黑名单。 因此,Twitter提供指导如何避免速率的限制。 如果您需要实时数据,Twitter流API可以为您省钱。

有几个有趣的例子可以分析:

  • 围绕新发行电影的情绪,并将其与IMDB和其他评级网站上的评论进行比较。
  • 围绕特定选举或任何其他趋势政治话题的情绪。
  • 根据推文的情绪预测前50种加密货币的价格未来方向。

目标 :情绪分析器学习一段内容背后的各种情绪。 该任务可帮助您考虑设计各种模型以将一条推文标记为肯定或否定。 在以后的阶段中,我们可以以更细微的方式标记推文,例如“中立”,“愤怒”,“乐观”,…

Github概述:所有与Twitter相关的数据集。

4.带有电影镜头的推荐系统

推荐系统是机器学习技术在企业中最成功和最广泛的应用之一。 您在日常生活中到处都有推荐系统。 例如,在观看Youtube视频时,Youtube算法会根据您的观看习惯向您推荐视频,同时还会根据他们在运行ML算法时对世界各地人们的观看行为的观看模式获得的重要见解。

我们可以找到两种用于推荐系统的算法:

  1. 基于内容的:如标签所述,它寻找内容的相似性。
  2. 协作过滤方法:此方法在交互中查找相似性。 交互的一个示例可以是查看用户的评分,并将其与其他人进行比较以找到相似的行为/喜好。 下图说明了这一点。

来源:关于推荐系统的机器学习算法的Recombee

目前,Movielens提供了电影收视率最受欢迎的数据集之一,这是初学者可以尝试的理想数据集。

目标 :根据收视率预测用户喜欢的电影。

网站: Grouplens.org

教程: Towardsdatascience提供了一个使用Python构建简单的推荐系统的教程。

5.带有Quandl的股票价格预测

股价预测器是一个了解公司绩效并预测未来股价的系统。 股票价格预测的棘手之处在于可以使用多种类型和数据源:

  • 波动率指数
  • 历史价格
  • 全球宏观经济指标
  • 基本面分析
  • 使用指标进行技术分析

分析股市的好处是反馈周期更短,这使您更容易验证您的预测。 如果您不知道市场周期,建议您阅读有关此主题的文章,以了解典型周期的情况。

资料来源:关于市场周期心理学的第五人

首先,您可以举一个简单的机器学习示例,在该示例中,我们根据其季度报告中某个组织的基本指标来预测6个月的价格走势。

目标 :使用基本指标和技术指标预测未来价格。

下载:来自Quandl.com或Quantoplan.com的股票市场数据集。

From: https://hackernoon.com/top-5-machine-learning-projects-for-beginners-47b184e7837f

面向初学者的5个最佳机器学习项目相关推荐

  1. 机器学习初学者_面向初学者的5个最佳机器学习项目

    机器学习初学者 购买的图像由PlargueDoctor设计 作为初学者,进入一个新的机器学习项目可能会很困难. 整个过程从选择一个数据集开始,然后,首先研究数据集,以找出哪种机器学习算法类或类型最适合 ...

  2. 动漫美少女生成神器、猫的门禁...2019 年十七大最佳机器学习项目 | 年度盘点...

    作者 | Derrick Mwiti 译者 | Raku 出品 | AI科技大本营(ID:rgznai100) 为了筛选2019年一些令人惊叹的机器学习项目.根据reddit上机器学习类目中的内容,作 ...

  3. 动漫美少女生成神器、猫的门禁...2019年十七大最佳机器学习项目 |年度盘点①...

    作者 | Derrick Mwiti 译者 | Raku 出品 | AI科技大本营(ID:rgznai100) 为了筛选2019年一些令人惊叹的机器学习项目.根据reddit上机器学习类目中的内容,作 ...

  4. 面向初学者的10个热门计算机视觉项目

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 人工智能最具挑战性的课题之一是计算机视觉技术.近年来,随着计算机视 ...

  5. Reddit年度盘点:那些2019年最佳机器学习项目

    点击上方"AI遇见机器学习",选择"星标"公众号 原创干货,第一时间送达 转自:AI开发者 为了帮助筛选 2019 年一些令人难以置信的项目.研究.演示等,下面 ...

  6. Reddit年度盘点:2019年最佳机器学习项目

    2019-12-20 16:41 导语:回顾过去一年subreddit r/MachineLearning中最受欢迎的项目.研究论文.演示等 为了帮助筛选 2019 年一些令人难以置信的项目.研究.演 ...

  7. java初学者书籍_面向初学者的5本最佳Java核心书籍

    java初学者书籍 Today I am sharing the best java books to learn java programming. Java is one of the most ...

  8. 用计算机视觉可以做什么项目,面向初学者的10个热门计算机视觉项目

    人工智能最具挑战性的课题之一是计算机视觉技术.近年来,随着计算机视觉应用的日益广泛,计算机视觉技术在机器人.监控.医疗等领域得到了广泛的应用. 在本文中,我们列出了十个流行的计算机视觉项目以及它们的可 ...

  9. 适合AI初学者的10个机器学习项目!入门so easy

    如果你是机器学习的初学者,并且希望最终开始使用机器学习项目,那么我建议你首先熟悉一下Google的AI实验,一个任何工程师都不容错过的机器学习项目.在开始面向任何机器学习专业人员/学生之前,你需要一个 ...

最新文章

  1. java内存栅栏_内存屏障(Memory Barriers/Fences) - 并发编程中最基础的一项技术
  2. MVC模型构建管理系统
  3. python下载微信公众号文章_python如何导出微信公众号文章
  4. SQL性能优化前期准备-清除缓存、开启IO统计
  5. 使用netty实现聊天室功能
  6. 鸟哥linux php,鸟哥的 Linux 私房菜 -- 启动关机、在线求助与命令下达方式
  7. 【报告分享】2020中国后浪生存图鉴.pdf(附下载链接)
  8. 计算机c语言在线课堂,计算机(C语言)
  9. window开机 关机 记录日志
  10. TestRange.cs error CS0104: `Range' is an ambiguous reference between `System.Range' and Gtk.Range
  11. html坦克游戏,HTML5实现经典坦克大战坦克乱走还能发出一个子弹
  12. Word:转换PDF
  13. 简单分析实现运维利器---webssh终端
  14. 敏捷开发模式下SDL实践
  15. win7系统两台计算机共享文件,教你设置win7系统的两台电脑实现文件共享的详细步骤...
  16. qq空间上传html代码,100分!如何在博客或msn、qq空间里面添加html代码?
  17. 体脂手环、体脂秤等产品的体脂测量原理及技术方案分析
  18. 使用Mixamo_Converter重新定义根骨骼导入UE4
  19. 關於微軟TTS的筆記
  20. 移动端、PC端 网页特效

热门文章

  1. win7 java开发环境安装
  2. 机器学习 cs229学习笔记4 EM for factor analysis PCA(Principal comp
  3. 云计算|OpenStack|社区版OpenStack安装部署文档(九--- 创建一个虚拟机实例---Rocky版)
  4. R语言学习笔记--数据框输出和查看
  5. GEE学习笔记一 利用GEE获取Sentinel-2 1C与2A级影像
  6. swupdate-linux开源OTA方案
  7. EFR32 AES-CCM
  8. 2018年天猫入驻新规则介绍 商家入驻必看
  9. 【CCF-GAIR特别报道】深度对话周志华教授和颜水成博士
  10. [绍棠] CGPathAddArc和CGPathAddArcToPoint函数