转自:https://www.sohu.com/a/217453268_178466

1 自然语言处理

自然语言处理对于许多机器学习方法来说是一个常用的概念,它使得计算机理解并使用人所读或所写的语言来执行操作成为了可能。

自然语言处理最重要的最有用的实例:

① 文本分类和排序

这项任务的目标是对一个文本进行预测标签(类别)或对列表中相关联的文本进行排序。它能够用于过滤垃圾邮件(预测一封电子邮件是否是垃圾邮件),或进行文本内容分类(从网络上筛选出那些与你的竞争者相关的文章)。

② 情感分析

句子分析是为了确定一个人对某个主题的看法或情感反应,如正面或负面情绪,生气,讽刺等。它广泛应用于用户满意度调查(如对产品的评论进行分析)。

③ 文件摘要

文件摘要是用一些方法来得到长文本(如文档,研究论文)短且达意的描述。https://sigmoidal.io/boosting-your-solutions-with-nlp/

④ 命名实体识别

命名实体识别算法是用于处理一系列杂乱的文本并识别目标(实体)预定义的类别,如人,公司名称,日期,价格,标题等等。它能够将杂乱的文本信息转换成规则的类表的格式,来实现文本的快速分析。

⑤ 语音识别

语音识别技术是用于得到人所讲的一段语音信号的文本表达。你可能听说过Siri助手?这就是语音识别应用的一个最好的例子。

⑥ 自然语言的理解和生成

自然语言的理解是通过计算机,将人类生成的文本转换成更正式的表达。反过来,自然语言生成技术是将一些正式又有逻辑性的表达转换成类人的生成文本。如今,自然语言理解和生成主要用于聊天机器人和报告的自动生成。

从概念上来说,它与实体命名识别任务是相反的。

⑦ 机器翻译

机器翻译是将一段文本或语音自动从一种语言翻译成另一种语言的一项任务。请见:https://youtu.be/Io0VfObzntA

2 数据库

数据库是机器学习一个必要的组成部分。如果你想构建一个机器学习系统,你要么可以从公众资源中得到数据,要么需要自己收集数据。所有的用于构建和测试机器学习模型的数据集合成为数据库。基本上,数据科学家会将数据划分为三个部分:

训练数据:训练数据是用于训练模型。这意味着机器学习模型需要认识并通过学习得到数据的模式以及确定预测过程中最重要的数据特征。

验证数据:验证数据是用于微调模型参数和比较不同模型来确定最优的模型。验证数据应该不同于训练数据,且不能用于训练阶段。否则,模型将出现过拟合现象,且对新的数据泛化不佳。

测试数据:这看起来似乎有些单调,但这通常是第三个也是最后的测试集(经常也被称为对抗数据)。一旦最终的模型确定,它就用于测试模型在从未见过的数据集上的表现,如这些数据从未在构建模型或确定模型时使用过。

图像:混合使用t-SNE和Jonker-Volgenant算法得到的MNIST数据库的可视化结果。T-SNE是一种广泛使用的降维算法,通过压缩数据的表达来得到更好的可视化和进一步处理。

3 计算机视觉

计算机视觉是一个专注于分析并深层次理解图像和视频数据的人工智能领域。计算机视觉领域最常见的问题包括:

① 图像分类

图像分类是教模型去识别给定的图像的一种计算机视觉任务。例如,训练一个模型去识别公共场景下的多个物体(这可以应用于自动驾驶)。

② 目标检测

目标检测是教模型从一系列预定义的类别中检测出某一类别的实例,并用矩形框框注出来的一种计算机视觉任务。例如,利用目标检测来构建人脸识别系统。模型可以在图片中检测出每张脸并画出对应的矩形框(顺便说下,图像分类系统只能识别出一张图片中是否有脸的存在,而不能检测出脸的位置,而目标检测系统就可以)。

③ 图像分割

图像分割是训练模型去标注类的每一个像素值,并能大致确定给定像素所属的预定义类别的一种计算机视觉任务。

显著性检测

显著性检测是训练模型产生最显著区域的一种计算机视觉任务。这可以用于确定视频中广告牌的位置。需要详细了解计算机视觉?请阅读 https://sigmoidal.io/dl-computer-vision-beyond-classification/

4 监督学习

监督学习是用实例来教模型学习的一类机器学习模型集合。这意味着用于监督学习任务的数据需要被标注(指定正确的,真实类别)。例如,如果我们想要构建一个机器学习模型用于识别一个给定的文本是否被标记过的,我们需要给模型提供一个标记过的样本集 (文本+信息,是否该文本被标记过)。给定一个新的,未见过的例子,模型能够预测它的目标,例如,规定样本的标签,1表示标记过的而0表示未标记的。

5 无监督学习

相比于监督学习,无监督学习模型是通过观察来进行自我学习。算法所用的数据是未标记过的(即提供给算法的是没有真实标签值的数据)。无监督学习模型能够发现不同输入之间的相关关系。最重要的无监督学习技术是聚类方法。对于给定的数据,模型能够得到输入的不同聚类(对于相似的数据聚合在同一类中),并能将新的、未见过的输入归入到相似的聚类中。

6 强化学习

强化学习区别于先前我们提到的那些方法。强化学习算法一种“游戏”的过程,其目标是最大化 “游戏奖励”。该算法通过反复的实验来尝试确定不同的 “走法”,并查看哪种方式能够最大化 “游戏收益”

最广为人知的强化学习例子就是教计算机来解决魔方问题或下象棋,但是强化学习能解决的问题不仅只有游戏。最近,强化学习大量地应用于实时竞价,其模型负责为一个广告竞拍价格而它的报酬是用户的转换率。

想要学习人工智能在实时竞价和程序化广告中的应用吗?详见:https://sigmoidal.io/ai-for-advertising/

7 神经网络

神经网络是一个非常广泛的机器学习模型集合。它的主要思想是模拟人类大脑的行为来处理数据。就像大脑中真实神经元之间相互连接形成的网络一样,人工神经网络由多层组成。每层都是一系列神经元的集合,这些神经元负责检测不同的食物。一个神经网络能够连续地处理数据,这意味着只有第一层才与输入直接相连,随着模型层数的增加,模型将学到越来越复杂的数据结构。当层数大量地增加,模型通常就是一个所谓的深度学习模型。很难给一个深度网络确定一个特定的网络层数,10年前通常3层神经网络就可谓深,而如今通常需要20层。

神经网络有许许多多不同的变体,最常用的是:

  • 卷积神经网络—它给计算机视觉任务带来了巨大的突破(而如今,它同样对于解决自然语言处理问题有很大帮助)。

  • 循环神经网络—被设计为处理具有序列特征的数据,如文本或股票票价。这是个相对古老的神经网络,但随着过去20年现代计算机计算能力的突飞猛进,使得它的训练变得容易并在很多时候得以应用。
  • 全连接神经网络—这是处理静态/表格式数据最简单的模型。

8 过拟合

当模型从不充分的数据中学习会产生偏差,这对模型会有负面的影响。这是个很常见,也很重要的问题。

当你在不同的时间进入一个面包坊,而每一次所剩下的蛋糕都没有你喜欢的,那么你可能会对这个面包坊失望,即使有很多其他的顾客可能会对剩下的蛋糕满意。如果你是个机器学习模型,可以说你对这一小数量样本产生了过拟合现象—要构建一个具有偏置量的模型,其得到的表示才不会过度拟合真实数据。

当过拟合现象发生,它通常意味着模型将随机噪声当作数据,并作为一个重要的信号去拟合它,这就是为什么模型在新数据上的表现会出现退化(噪声也有差异)。这在一些非常复杂的模型如神经网络或加速梯度模型上是很常见的。

想象构建一个模型来检测文章中出现的有关奥运的特定体育项目。由于所用的训练集与文章是由偏差的,模型可能学习到诸如 “奥运”这样词的特征,而无法检测到那些未包含该词的文章。

了解机器学习的八大专业术语相关推荐

  1. 机器学习常用专业术语(英汉)

    机器学习常用的专业术语 说明:以下术语会不断更新补充,建议收藏多看.增强记忆,共同进步. Artificial intelligence(AI) -- 人工智能 Machine learning(ML ...

  2. 关于机器学习,你应该知道的3个热门专业术语

    https://www.toutiao.com/a6683842829510246923/ 2019-04-25 22:43:48 关于机器学习,你应该知道的3个热门专业术语 原创: 吴郦军.罗人千 ...

  3. 机器学习中相关英文专业术语

    机器学习中相关英文专业术语 Name Instructions activation function 激活函数 additive noise 加性噪声 autoencoder 自编码器 Autoen ...

  4. 【计算广告】不懂这些专业术语别说你懂广告

    作者:十方  不知不觉,广告已经渗透在我们生活中的方方面面.你说你讨厌广告,但其实你又离不开广告,举个简单的例子,大家在求职的时候,投递简历,这也是一种广告,在求职中简历的重要性不需要过多强调.广告以 ...

  5. 内网通 去广告 代码_一文秒懂Facebook广告投放常见专业术语

    很多刚开始做Facebook广告的广告主都会被CPA.CPC.CPM.IAA这些广告投放术语搞的晕头转向,一个一个去查询解释又费很大的功夫,为此Facebook代理YinoLink易诺就来为大家盘点下 ...

  6. 人工智能ai的有关专业术语_您需要知道的11个人工智能术语

    人工智能ai的有关专业术语 "Any fool can know. The point is to understand." - Albert Einstein "任何傻 ...

  7. 人工智能领域专业术语合集

    人工智能专业术语 资料来源:https://github.com/jiqizhixin/Artificial-Intelligence-Terminology 文章目录 人工智能专业术语 Letter ...

  8. 计算机学习入门指北——计科软工网络信安侧重图析、解读专业术语、岗位分类、未来规划

    申明:本博文偏技术向,主观性较强,其中部分理解必有偏差和误解,望指出改正! 计算机学习入门指北: 作为刚入学的计算机系学生,面对一片专业术语十分蒙.区块链?大数据?开源?数据库?嵌入式开发?前端后端? ...

  9. 一文看懂计算机视觉!7个专业术语别说你不知道!

    你想了解的有关计算机视觉的所有信息. 计算机视觉是最强大和引人注目的AI之一,你几乎肯定会以各种方式体验过它,当时却不知道. 今天我们来好好研究一下它,包括它的工作原理以及它如此出色的原因(而且只会变 ...

最新文章

  1. WebView宽度自适应
  2. 密码学赛后技术总结 小片段啦
  3. 安驾者电子狗升级步骤
  4. java 静态类 静态方法_JAVA的静态变量、静态方法、静态类
  5. [渝粤教育] 广东-国家-开放大学 21秋期末考试马克思主义基本原理概论(A)10882k1 (5)
  6. python实现多表格合并_python 如何把两个表格数据,合并为一个呢?
  7. 计算机硬盘大小一般都是整数,电脑硬盘怎么精准整数分区
  8. 计算机专业学不学画法几何,给新手们学CAD的建议
  9. 中文核心期刊目录总览
  10. 如何控制积分成本?常见的积分成本的核算方法
  11. 微型计算机原理中的mov,微机原理(判断题)(指令正误)
  12. Windows10创建系统还原点
  13. dilated conv的理解
  14. 关于汽油清洁剂,到底该不该加
  15. MATLAB串联RLC响应
  16. Cisco Packet Tracer Student抓取协议包简介
  17. linux运维工程师的要求,合格的Linux运维工程师应该具备的条件有哪些?
  18. gerrit 评审 报错“Submit including parents”
  19. aarch64处理器下载哪个mysql_AArch64架构安装JDK
  20. 计算机组成原理复杂机实验总结,计算机组成原理复杂模型机设计_课程设计报告.doc...

热门文章

  1. 《Java编程思想》笔记13.字符串
  2. [学习笔记]矩阵乘法及其优化dp
  3. Java并发之synchronized
  4. Nginx防盗链,Nginx访问控制, Nginx解析php相关配置, Nginx代理
  5. 图书管理系统5W1H
  6. antlr-2.7.6.jar的作用
  7. CommonJS 的 AMD 规范
  8. inshot怎么转gif_Figma插件开发-生成Gif
  9. 中间件ROS/CyberRT/AutoSAR对比
  10. 2018/-4-11遗传,差分进化,免疫,蚁群算法中的公式