原文来源:codeburst.io

作者:Pramod Chandrayan

「雷克世界」编译:嗯~阿童木呀、我是卡布达

现如今,在更多情况下,我们是以比特和字节为生,而不是依靠交换情感。我们使用一种称之为计算机的超级智能机器在互联网上进行交易和沟通。因此,我们觉得有必要让机器明白我们在说话时是如何对其进行理解的,并且试图用人工智能,一种称之为NLP——自然语言处理技术为它们提供语言。作为一种研究结果,聊天机器人正在成为一种可靠的聊天工具,使用这种非人为依赖的智能工具与人类进行交流。

我强烈的感受到:

直到我们的机器学会了解行为和情绪,数据科学家和工程师的工作才完成了一半。与深度学习(ML学科领域)融合的NLP将对这种计算机语言的使用起到关键作用。

什么是NLP

这是一种人工智能方法,给定机器一些人类语言从而使得它们能够与人类进行沟通交流。它涉及使用NLP技术对书面语言进行智能分析,以获取对一组文本数据的见解,如:

1.情绪分析

2.信息提取和检索

3.智能搜索等

它是人工智能和计算语言学的交汇点,能够处理机器和人类自然语言之间的交互,即计算机需要对其进行分析、理解、改变或生成自然语言。NLP帮助计算机机器以各种形式使用自然人类语言进行交流,包括但不限于语音、印刷、写作和签名。

NLP机器学习和深度学习:它们是如何连接的

NLP与机器学习和深度学习密切相关,所有这些都是人工智能领域的分支,如下图所示:它是一个致力于使机器智能化的计算机科学领域。深度学习是一种流行的机器学习技术之一,如回归,K-means等。

机器学习的类型很多,像无监督机器学习这样的经常用于NLP技术中,如LDA(潜在狄利克雷分布,一种主题模型算法)。

为了能够执行任何一个NLP,我们需要深入理解人类使如何处理语言的情感和分析方面。还有各种各样像社交媒体这样的语言数据源,人们直接或间接地分享他们感受到的内容,而这必须通过使用NLP的机器进行智能分析。NLP机器需要建立一个人类推理系统,借助ML技术,它们可以自动执行NLP过程并对其进行扩展。

简而言之,“深度学习与自然语言处理”是相互联系、相互依存的,以构建一个能够像人类一样思考、说话和行动的智能计算机。

Meltwater Group的NLP专家John Rehling在《自然语言处理是如何帮助揭示社交媒体情绪》一文中说,

“通过分析语言的含义,NLP系统扮演着非常重要的角色,如纠正语法,将语音转换为文本,以及在多语言之间自动翻译。”

NLP如何工作

理解NLP的工作原理是非常重要的,因为这样的话,我们就可以将NLP作为一个整体来理解。NLP一般有两个主要组成部分:

1.NLU:自然语言理解

2.NLG:自然语言生成

让我们深入理解NLU

自然语言理解:它涉及的是一种方法论,试图了解如何对馈送给计算机的自然语言赋予一定的相关意义。

在开始时,计算机获得自然语言的输入(自然语言可以是任何语言,它们通过使用和重复在人类中自然进化,而不是有意识的计划或预谋,自然语言可以采用不同的形式,例如语音或签名)。

计算机之后将它们转换成人工语言,如语音识别和/或语音转换文本。在这里我们把数据转换成一个文本形式, NLU过程来理解其中的含义。

HMM:隐马尔可夫模型(NLU示例)

来源:wikipedia

它是一种统计语音识别模型,它可以在预先构建的数学技术的帮助下,将你的语音转换成文本,并试图推断出你所说的语言。

它试图理解你所说的,通过将语音数据分解成一小段特定的时间段,大多数情况下时间是20-20 ms。这些数据集将进一步与预馈语音进行比较,从而进一步解读你在每个语音单位中所说的内容。这里的目的是找到音素(一个最小的语音单位)。然后,机器对一系列这样的音素进行观察,并统计了最可能说出的单词和句子。

不仅如此,NLU会深刻理解每个单词,试图理解它是一个名词还是动词,什么是时态(过去或未来)等。这个过程被定义为POS:词性标注部分(Part Of Speech Tagging)。NLP具有内置的词典和一套与语法预编码相关的协议,这些协议被预编码到它们的系统中,并在处理自然语言数据集时使用它,从而在NLP系统处理人类语音时,编译所说的内容。

NLP系统也有一个词典(词汇表)和一套编码到系统中的语法规则。现代NLP算法使用统计机器,学习将这些规则应用于自然语言,并推断所说话语背后最可能的含义。在考虑诸如具有多个含义的词语(多义词)或具有相似含义的词语(同义词)时,存在一些挑战,但软件开发者在他们的NLU系统中建立了自己的规则,可以通过适当的训练和学习来处理这类问题。

自然语言生成:

与第一阶段(NLU做了大量的努力以理解人类的话语)相比,NLG可以很容易的进行翻译工作,即将计算机的人工语言翻译为有意义的文本,并可以通过文字转语音(tex-to-speech)技术将其转化为可听语音。文本转语音((tex-to-speech))技术通过韵律模型(prosody model)来分析文本,从而确定语言的断句、长短和音调。然后,利用语音数据库,将记录的所有音素汇集在一起,形成一个连贯的语音串。

简而言之,NLP采用NLU和NLG来处理人类自然语言,尤其是处理语音识别领域的人类自然语言,并试图将传递字符串或可听语言作为输出,来理解、编译并推断所说的内容。

NLP在现代语境中的应用:

在这个处于数字革命的电脑时代中,大部分任务需要由人类利用链接物联网的机器来完成。NLP在为媒体、出版、广告、医疗、银行和保险等行业领域建立强大的软件工具方面,发挥了重要作用,从而帮助他们高效快捷地运作。

NLP的一些现代用法:

1.聊天机器人

这是一个被称为机器人的成熟软件,它可以处理任何场景的人物对话。api.ai、微软语音理解智能服务(LUIS)等一些热门的NLP和机器学习平台,可用于研发你的商业聊天机器人。

2.垃圾邮件过滤

来源:yhat

你们中的大多数人一定对垃圾邮件并不陌生。Google使用基于NLP的技术来保障你的收件箱清洁、无垃圾邮件。贝叶斯垃圾邮件过滤(Bayesian spam filtering)是一种备受瞩目的技术,它是一种统计技术,基于此,电子邮件中词语的审核通过率根据其在垃圾和非垃圾邮件语料库中的典型事例来确定。

3.机器翻译

NLP被越来越多的应用于机器翻译程序当中,这使得一种语言被自动翻译成另一种语言,谷歌是一个将你的文本翻译为所需语言的先驱者。

机器翻译技术所面临的挑战不在于翻译单词,而在于保留句子的含义,这是一个复杂的技术问题,也是NLP的核心。

4.命名实体提取(Named entity extraction)

它用于从给定的项目集合中分离出具有相似性质和属性的项目。例如名字、姓氏、年龄、地理位置、地址、电话号码、电子邮件地址和公司名称等等。命名实体提取(亦称命名实体识别)使挖掘数据变得更加容易。

5.自动汇总

自然语言处理可用于从大段文本中提取可读摘要。例如,我们可以自动总结出一份长篇学术文章的简短摘要。

接下来我们将深入介绍一些NLP的技术细节。

当自然界与人工相逢的时候,机器就像是一个真正具有生命力的人类一样进入了生活中。

NLP技术术语

 

NLP术语

•语音体系——关于系统性地组织语音的研究。

•形态学——这是一个从基本意义单位中进行单词构建的研究。

•语素——语言中意义的基本单位。

•语法——它是指单词经过组合排列构成句子,它还涉及在句子和短语中确定单词结构的作用。

•语义——它涉及的是单词的含义,以及该如何将单词组合成有意义的短语和句子。

•语用学——它涉及的是在不同情况下使用和理解句子以及对句子的解释是如何受到影响的。

•话语——它指的是前面的句子如何影响对于下一句的解释的。

•常识性知识——它涉及的是对于世界的一般性认识。

自然语言处理库(对于开发者而言)

NLP库:

有许多通用的第三方开源库,开发人员可以使用它们来构建基于NLP的Projects Viz .。

•自然语言工具包(NLTK)

•Apache OpenNLP

•斯坦福大学NLP套件

•Gate NLP库

自然语言工具包(NLTK)是最通用的自然语言处理(NLP)库。它是用Python编写的,背后有一个很大的社区。

NLP实施所涉及的步骤:

来源:mediterra-soft

它涵盖了5个主要步骤:

•词法分析——它对给定单词的结构进行识别和分析,其中整个文本数据块在词法分析中被分解成段落、句子和词汇。

•解析(句法分析)——它涉及以一种显示单词之间的关系的方式对分析句子中的单词进行语法和单词排列分析,在这个阶段,任何不符合语法正确的句子都被拒绝,例如,“building lives in sita”将不会被语法分析器所接受

•语义分析——对给定的文本进行分析以从中提取意义。它通过对任务域中的语法结构和目标进行分析来完成。语义分析器拒绝不相关的句子,如“hot banana”。

•话语整合——正如我们所知,每个句子都与前一句话相互联系,基于倒数第二句的意义而言,任何句子都变得有意义。同样,它也使得后一句话变得有意义。

•语用分析——在此期间,常识性知识被重新定义了,解释了它们的真实意义到底是什么,它涉及到那些需要常识性知识的语言方面。

用图片来解读NLP(点击图片放大):

NLP应用程序:

1.光学字符识别

2.语音识别

3.机器翻译

4.自然语言生成

5.情绪分析

6.语义搜索

7.自然语言编程

8.情感计算

9.开发聊天机器人

未来智能实验室致力于研究互联网与人工智能未来发展趋势,观察评估人工智能发展水平,由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎支持和加入我们。扫描以下二维码或点击本文左下角“阅读原文”

「自然语言处理」如何快速理解?有这篇文章就够了!相关推荐

  1. 多生产者_多线程必考的「生产者 - 消费者」模型,看齐姐这篇文章就够了

    生产者 - 消费者模型 Producer-consumer problem 是一个非常经典的多线程并发协作的模型,在分布式系统里非常常见.也是面试中无论中美大厂都非常爱考的一个问题,对应届生问的要少一 ...

  2. 「前端-HTML」 HTML-表格-表单-第二篇

    前端-HTML-第二篇 这是HTML第二篇,共三篇,如需看其他篇请点击跳转 目录 前端-HTML-第二篇 HTML 列表 1.无序列表 2.有序列表 3.自定义列表 其他 pre标签 HTML实体 H ...

  3. 「前端工程化」该怎么理解?

    大家好,我是若川.今天分享一篇「前端工程化」的好文.非广告,请放心阅读.可点击下方卡片关注我,或者查看系列文章.今天发文比较晚,以往都是定时早上7:30发文,也不知道是不是有点早. 一.什么是前端工程 ...

  4. 自然语言处理模型_ICLR 2020 「自然语言处理」【Prosus AI】金融情感分析FinBERT模型(含源码)!...

    来源:AINLPer微信公众号 编辑: ShuYini 校稿: ShuYini 时间: 2020-1-15 TILE: FinBERT: Financial Sentiment Analysis wi ...

  5. excel多列多行堆叠成多列一行_「Excel技巧」Excel快速实现将一行转为多行多列的四种方法...

    今天来说说在Excel中,将表格里的一列转换为多行多列的几种方法. 例如,以下表格,是一个行业分类表,都放在同一列中.现我们准备把它转为多列. 表格里数据除掉标题行行,总共有60列数据,干脆我们就给它 ...

  6. 彻底理解 SpringIOC、DI,这篇文章就够了

    前言 你可能会有如下问题: 1.想看Spring源码,但是不知道应当如何入手去看,对整个Bean的流程没有概念,碰到相关问题也没有头绪如何下手 2.看过几遍源码,没办法彻底理解,没什么感觉,没过一阵子 ...

  7. 「自然语言处理」使用自然语言处理的智能文档分析

    什么是智能文档分析? 智能文档分析(IDA)是指使用自然语言处理(NLP)和机器学习从非结构化数据(文本文档.社交媒体帖子.邮件.图像等)中获得洞察.由于80%的企业数据是非结构化的,因此IDA可以跨 ...

  8. 清华刘知远亲授「自然语言处理」

    他是清华大学"贵系"的副教授 是让人崇拜的学术大咖 在ACL.IJCAI.AAAI等 人工智能领域 著名国际期刊和会议上 他发表过30余篇论文 Google Scholar统计引用 ...

  9. 【创业指导】如何理解 IPD 体系中的市场管理「MM」流程?这篇文章就够了

    从逻辑顺序看,企业经营应当是"战略-产品规划-产品开发-生产-销售-服 务",也就是下图中从左到右的流程. 但很多中国传统企业的关注重点和能力构建是从右向左进行的,以卫 Sir 当 ...

最新文章

  1. 从C#中的枚举获取int值
  2. Win2008 r2 下修改mysql data目录的方法
  3. LFS-Git命令行向Github上传大文件
  4. VTK:直线网格之RectilinearGridToTetr​​ahedra
  5. VVC为什么首先在印度落地?
  6. 大道至简第二篇阅读笔记
  7. OpenGL ES总结(二)OpenGL坐标变换之平移及旋转
  8. 三种平摊分析的方法分别为_平摊分析
  9. OpenERP工作流不同角色看属于自己审批的方法
  10. java 自己实现连接池_JAVA自定义连接池原理设计(一)
  11. STL与Boost对比
  12. 81章 老子1章到_《道德经》81章全文(建议收藏)
  13. mysql cbrt函数_PostgreSQL学习笔记5之函数和操作符一
  14. 学习管理系统 LMS
  15. 让你对DC完全了解的88条名词解释(转)
  16. 25个最适合Crossfit的WordPress主题(2020)
  17. 使用Node.js创建命令行工具
  18. 如何进行自我职业规划?
  19. 2017年最好的JavaScript插件
  20. 2345浏览器的2.4版本,在2013年1月19日,像小丑一样笑着!

热门文章

  1. 剑指offer:从尾到头打印链表
  2. LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA...
  3. 全球首个安全有效新冠疫苗:陈薇院士团队研制,登上《柳叶刀》
  4. 胡渊鸣的「太极图形」又融了5000万美元,下一步:3D内容创作平台
  5. 德鲁克管理31条金句
  6. 大苏州战略:“北上”滨江?
  7. 谷歌CEO皮猜致歉,被解雇的AI伦理研究员:根本没有认错
  8. 人脸识别应用场景不断拓展 刷脸要方便更要安全
  9. 迁移学习的魔法:任何人都将能使用深度学习
  10. BERT在小米NLP业务中的实战探索