1 题记

AI、机器学习、监督学习、无监督学习、分类、决策树、聚类、深度学习和算法。深度学习、机器学习,人工智能——这些时下流行语代表着对未来技术的分析。

在这篇文章中,我们将通过现实世界中成熟的例子来解释什么是机器学习和深度学习。这样做并不是让你成为数据科学家,而是让你能够更清楚的理解你可以用机器学习做些什么。开发人员越来越容易的使用机器学习,在互联网时代,公司产生的每一条信息都有增值的潜力。

2 什么是人工智能?

在整个人工智能的历史长河中,它一直在不断的被重定义。AI是一个总称(这个想法始于50年代);机器学习是AI的一个子集,深度学习是机器学习的子集。

在1985年,当我作为学生在国家安全局实习的时候,人工智能也是一个非常热门的话题。在美国国家安全局,我甚至在AI上观看了关于专家系统的MIT视频课程。专家系统在规则引擎的指引下获取专家的知识。规则引擎在金融、医疗保健等行业中广泛使用,最近多用于事件处理,但是当数据发生变化时,规则可能变得难以更新和维护。机器学习的优点在于,它是从数据中学习,并且可以提供数据驱动的概率预测。

根据Ted Dunning的说法,最好使用精确的术语如机器学习或深度学习,而不是术语“AI”,因为在我们把事情做好之前,我们称它为AI;之后,我们总是称之为其他。AI最好作为下一个边界词。

分析在过去十年中的变化情况如何?

根据HBR的Thomas Davenport的说法,分析技术在过去十年中发生巨大的变化,通过商用服务器,流分析和改进的机器学习技术实现更强大更便宜的分布式计算,使公司能够存储和分析更多不同类型的数据。

传统上,数据存储在RAID系统中,发送到多核服务器进行处理,然后再发送回存储器,这样导致数据传输瓶颈,并且价格昂贵。通过MapR-XD和MapR-DB等文件和表存储,数据分布在集群中,而MapReduce、Pig和Hive等Hadoop技术将计算任务发送到数据所在的位置。

像Apache Spark这样的技术通过迭代算法加速分布式数据的并行处理,迭代算法通过内存缓存数据,并使用轻量级的线程。

MapR Event Streams是一种用于大规模流式传输事件数据的新型分布式消息传递系统,它与流式处理(如:Apache Spark流式传输或Apache Flink)相结合,可加快与机器学习模型并行处理实时事件的速度。

图像处理单元(GPU)加快了多核处理器的并行处理。GPU具有大规模并行架构,由数千个更小、更高效的内核组成,设计用于同时处理多个任务,而CPU由几个针对顺序串行处理优化的内核组成。就潜在性能而言,从Cray-1到今天拥有大量GPU的集群的发展,大约是地球史上速度最快的计算机的一百万倍,成本只是其中的非常小的一部分。

3 什么是机器学习?

机器学习使用算法查找数据中的模式,然后使用识别这些模式的模型对新数据进行预测。

通常,机器学习分解为以下类型:监督学习、无监督学习以及半监督学习。监督学习算法使用标记数据,无监督学习算法是在未标记数据中找到模式。半监督学习使用有标记和无标记数据的混合。强化学习训练算法基于反馈最大化奖励。

4 监督学习

监督算法使用有标记的数据,其中输入和目标结果或标签都提供给算法。

监督学习也被称作预测建模或预测分析,因为你构建了一个能够进行预测的模型。预测建模的一些示例有分类和回归。分类基于已知项目的标记示例(例如,已知是欺诈的交易)来识别项目属于哪个类别(例如,交易是否为欺诈)。逻辑回归预测概率 - 例如,欺诈的概率。线性回归预测数值——例如,欺诈数量。

分类的一些示例包括:

  • 信用卡欺诈检测(欺诈,非欺诈)

  • 信用卡申请(信誉良好,信用不良)

  • 电子邮件垃圾邮件检测(垃圾邮件,非垃圾邮件)

  • 文本情绪分析(开心,不开心)

  • 预测患者风险(高风险患者,低风险患者)

  • 将肿瘤分类为恶性或非恶性

逻辑回归(或其他算法)的一些示例包括:

  • 鉴于历史汽车保险欺诈性索赔和索赔的特征,如索赔人的年龄,索赔金额和事故的严重程度,预测欺诈的可能性。

  • 根据患者特征,预测充血性心力衰竭的可能性。

线性回归的一些例子包括:

  • 鉴于历史汽车保险欺诈性索赔和索赔的特征,如索赔人的年龄,索赔金额和事故的严重程度,预测欺诈金额。

  • 鉴于历史房地产销售价格和房屋特征(即平方英尺,卧室数量,位置),预测房屋的价格。

  • 根据历史街区犯罪统计数据,预测犯罪率。

下面显示了其他有监督和无监督的学习算法,我们不会对此进行讨论,但我们将更详细地查看每个算法的一个示例。

分类示例:借记卡诈骗

分类采用具有已知标签和预定特征的一组数据,并学习如何基于该信息标记新记录。功能是你提出的“如果”问题,标签是这些问题的答案。

我们来看一下借记卡诈骗的例子。

  • 我们想要预测什么?

    • 借记卡交易是否为欺诈。

    • 欺诈是标签(真或假)。

  • 您可以使用哪些“如果”问题或属性进行预测?

    • 今天花费的金额是否大于历史平均值吗?

    • 今天在多个国家都有交易吗?

    • 今天的交易数量是否大于历史平均值?

    • 今天新商家类型的数量是否与过去三个月相比较高?

    • 今天是否有来自具有风险类别代码的商家的多次购买?

    • 与历史上使用PIN相比,今天是否有不寻常的签名活动?

    • 与过去三个月相比,是否有新的州购买?

    • 与过去三个月相比,今天是否有外国购买?

要构建分类器模型,您需要提取最有助于分类的感兴趣的特征。

5 决策树

决策树创建一个模型,根据多个输入特征预测类或标签。决策树的工作原理是评估包含每个节点的特征的问题,并根据答案选择到下一个节点的分支。下面显示了用于预测借记卡欺诈的可能决策树。特征问题是节点,答案“是”或“否”是树节点到子节点的分支。(请注意,真正的树会有更多节点。)

  • Q1:24小时内的花费是否大于平均水平?

  • Q2:今天有风险的商家有多次购买?

    • 是欺诈= 90%

    • 不欺诈= 50%

决策树很受欢迎,因为它们易于可视化和解释。通过将算法与集合相结合的方法,可以提高模型的准确性。集合示例是随机森林,形成了决策树的多个随机子集。

6 无监督学习

无监督学习(有时也称为描述性分析)没有提前提供标记数据。这些算法发现输入数据中的相似性或规律性。无监督学习的一个例子是根据购买数据对类似客户进行分组。

7 聚类

在聚类中,算法通过分析输入示例之间的相似性将输入分类。一些聚类的示例包括:

  • 搜索结果分组

  • 对类似客户进行分组

  • 对类似患者进行分组

  • 文本分类

  • 网络安全异常检测(发现非相似的东西,来自群集的异常值)

K-means算法将观测值分组为K个集群,其中每个观测值属于具有距其集群中心最近平均值的集群。

聚类的一个例子是希望对其客户进行细分以便更好地定制产品和产品的公司。客户可以按人口统计和购买历史等功能进行分组。无监督学习的聚类通常与监督学习相结合,以获得更有价值的结果。例如,在该banking customer 360的用例中,首先根据调查的答案对客户进行分段。对客户组进行分析并标记客户角色。然后,这些标签通过客户ID与账户类型和购买等功能相关联。最后,有监督的机器学习应用于标记的客户并进行测试,允许将调查客户角色与他们的银行行为联系起来并提供见解。

8 深度学习

深度学习是多层神经网络的名称,多层神经网络是由输入和输出之间的几个节点“隐藏层”组成的网络。神经网络有很多变种,你可以在这个神经网络备忘单上学到更多。改进的算法,GPU和大规模并行处理(MPP)已经产生了具有数千层的网络。每个节点获取输入数据和权重,并将置信度分数输出到下一层中的节点,直到到达输出层,其中计算得分的误差。在一个称为梯度下降的过程中进行反向传播,错误再次通过网络发回,并调整权重,改善模型。该过程重复数千次,根据其产生的误差调整模型的权重,直到不再减少误差为止。

在此过程中,层学习模型的最佳特征,其优点是不需要预先确定特征。但是,这样做的缺点是模型的决策无法解释。因为解释决策很重要,研究人员正在开发新方法来理解深度学习的黑盒子。

深度学习算法有不同的变体,可以与MapR的分布式深度学习快速入门解决方案一起使用,以构建数据驱动的应用程序,如下所示:

  • 用于改进传统算法的深度神经网络

    • 财务:通过识别更复杂的模式来增强欺诈检测

    • 制造:基于更深的异常检测,增强缺陷识别

  • 用于图像的卷积神经网络

    • 零售:用于衡量流量的视频的店内活动分析

    • 卫星图像:标记地形和分类对象

    • 汽车:识别道路和障碍物

    • 医疗保健:X射线,扫描等的诊断机会

    • 保险:根据照片估算索赔严重程度

  • 用于测序数据的递归神经网络

    • 客户满意度:将语音数据转录为文本以进行NLP分析

    • 社交媒体:社交和产品论坛帖子的实时翻译

    • 照片字幕:搜索图像档案以获得新的见解

    • 财务:通过时间序列分析(也是增强的推荐系统)预测行为

9 总结

这些互联网原生企业的共同特征是:对新技术的充分应用:

竞争对手以一种完全不同的业务模式闯入行业,你发现自己完全没有招架之力!不管是个人,还是所在行业,都应该积极拥抱人工智能、机器学习和深度学习等新技术的到来!

长按二维码 ▲

订阅「架构师小秘圈」公众号

如有启发,帮我点个在看,谢谢↓

揭秘人工智能、机器学习和深度学习的神秘面纱相关推荐

  1. 揭开人工智能、机器学习和深度学习的神秘面纱

    (说明:如果您认为下面的文章对您有帮助,请您花费一秒时间点击一下最底部的广告以此来激励本人创作,谢谢) 了解人工智能.机器学习.监督学习.无监督学习.分类.决策树.聚类.深度学习和算法. 深度学习.机 ...

  2. 人工智能——机器学习与深度学习思维导图

    目录 0 综述 1 基本模型 1.1 回归 1.2 决策树与随机森林 1.3 SVM​ 1.4 最大熵与EM算法 2 特征工程 2.1 特征工程 2.2 多算法组合与模型最优 3 工业实践 3.1 S ...

  3. 一个“人工智能Python机器学习与深度学习”课程表

    简 介: 对于来自于邮件的一封Python培训课程中的内容表格进行整理,用于未来课程体系建设中的参考. 关键词: python,人工智能,深度学习,培训课程 §01 课程内容   通过邮件接收到一份关 ...

  4. 人工智能、机器学习、深度学习的关系,终于有人讲明白了

    作者:史丹青 来源:大数据DT(ID:hzdashuju) 2012年以后,信息爆炸带来的数据量猛增.计算机算力的高速提升.深度学习的出现以及运用,使人工智能的研究领域不断扩展,迎来大爆发.除了传统的 ...

  5. 人工智能、大数据、云计算、机器学习和深度学习,主要有什么关系?

    这些概念是当下的热点,它们本身并不复杂.相信我的回答能让你对这些概念以及它们之间的联系有一个清晰的了解. 我的主要研究方向是大数据和人工智能,所以机器学习.深度学习.云计算等技术也都接触过.这些概念之 ...

  6. 自学机器学习、深度学习、人工智能的学习资源集合

    本人美国top50本科统计就读,想当初我的机器学习和深度学习就是靠自学入门的.现在行业中对于人工智能自学这一方法众说纷纭,也有很多人质疑那些通过自学获得的技术及实力.就我个人而言,我体验过各种各样的课 ...

  7. 自学机器学习、深度学习、人工智能学习资源推大聚合

    想要解决如何自学机器学习.深度学习和人工智能这一问题,首先要了解三个概念以及它们之间的关系. 人工智能:人工智能英文缩写为AI,它是研究.开发用于模拟.延伸和扩展人的智能的理论.方法.技术及应用系统的 ...

  8. 人工智能、机器学习和深度学习的区别?

    作者:育心 链接:https://www.zhihu.com/question/57770020/answer/249708509 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商业转载 ...

  9. 机器学习 深度学习 ai_人工智能,机器学习,深度学习-特征和差异

    机器学习 深度学习 ai Artificial Intelligence (AI) will and is currently taking over an important role in our ...

最新文章

  1. 最小费用最大流 ---- 2017icpc青岛现场赛 K Our Journey of Xian Ends (拆点控制原图点度 + 中间必经过的点设置成源点 + 起点设成汇点)
  2. UGUI世界转屏幕坐标
  3. SD认证考题分布和复习要点(转摘)
  4. wxWidgets:wxTimePickerCtrl类用法
  5. Lombok常用注解和功能
  6. MariaDB 双主复制的配置
  7. jio文件 久其_功能强大的Windows文件管理器工具
  8. Android之Launcher分析和修改5——HotSeat分析
  9. WIN10系统 截图或者某些程序时屏幕会自动放大怎么办
  10. Javascript笔记:(实践篇)从jQuery插件技术说起-分析extend方法的源码(发现extend方法里有bug)(下篇)...
  11. tcp对连接断开的感知——保活定时器
  12. Mybatis懒加载机制
  13. git学习资料及心得
  14. 基于visual Studio2013解决面试题之1109全排列
  15. 【数据分析】数据分析达人赛3:汽车产品聚类分析
  16. 使用Maven构建Eova项目
  17. 支付宝支付原理以及测试接口获取支付url
  18. HTTPS加密为什么能保证网站的安全
  19. JSP 返回上一页的几种方法
  20. Redis数据结构之——跳表skiplist

热门文章

  1. python怎么控制while循环_Python流程控制之while循环怎么学呢?老男孩Python
  2. 最长上升子序列(LIS)/最长不上升子序列问题算法详解+例题(树状数组/二分优化,看不懂你来打我)
  3. tomcat7修改内存 win_详解Windows下调整Tomcat启动参数的实现方法
  4. 西安java招聘_西安招聘 | 陕西安控科技公司招聘(员工宿舍、节日福利、餐补)...
  5. php定时执行代码漏洞_【漏洞风险提示】Drupal任意PHP代码执行漏洞通告
  6. 如何更好的招聘软件测试人员?
  7. CountDownLatch的实现分析
  8. Handler消息处理机制详解
  9. Strom序列化机制
  10. 阿里云文件存储和自我管理的云解决方案的TCO比较