原文来源: 机器人圈

概要:在自然语言处理方面的研究已经延续了五十多年,而随着计算机的兴起,它的发展也早已超出了语言学的范畴。


提起AI,你可能会不假思索的想到自然语言处理、人脸识别、无人驾驶等。那么,你对这些真的了解吗?接下来,我们就以自然语言处理为例,来仔细说一说。

自然语言处理(Natural Language Processing),简称NLP,广义上定义为通过软件对诸如语音和文本这样的自然语言进行自动操作。

在自然语言处理方面的研究已经延续了五十多年,而随着计算机的兴起,它的发展也早已超出了语言学的范畴。

而当你读完本篇文章之后,你就会明白什么是自然语言处理,以及它为什么那么重要:

•什么是自然语言?它与其他类型的数据有什么不同?

•什么使得处理自然语言的工作变得如此具有挑战性?

•NLP的领域来自哪里?现代从业者是如何对其进行界定的?

现在我们就来深入探索一下!

自然语言

自然语言是指我们作为人类来说,人与人之间相互沟通的方式,即语音和文本。而我们无时不刻地处在文本的包围之中。

想象一下你每天将会看到多少文本:

•符号

•菜单

•电子邮件

•短信

•网页

•还有更多……

甚至可以说,这个名单是无休无止的。

现在我们先来考虑一下语音。

人类作为一个物种,我们可以相互交流,而这要远远超过我们所需要进行的写作。我们不得不承认,相对写作来说,学会说话要简单得多。

语音和文字是我们进行相互交流的方式。

鉴于这种类型的数据的重要性,我们必须有方法来了解和理解自然语言,就像我们对其他类型的数据一样。

自然语言的挑战

使用自然语言数据所存在的问题还没有得到解决。

该领域的专家已经对其进行了半个多世纪的研究,但必须要承认,它真的很难。

对于那些必须花费好多年来学习获得一门语言的孩子来说,这是很难的;对于一个学习语言的成年人来说,这是很难的;对于那些尝试建模的科学家来说,这是很难的;同样,对于那些尝试构建处理自然语言输入或输出系统的工程师来说,这也是很难的。这些任务是如此的困难,以至于图灵将可以用自然语言进行流畅的交流作为他对智能测试的核心。

——2010年《数学语言学》,第248页

自然语言之所以难主要是因为它很混乱,几乎没有规则可循。

不过大部分的时间里我们而已很容易地彼此相互理解。

人类语言是非常模糊的……它也在不断变化和演变。从古至今,人类在创造语言、理解语言方面是非常擅长的,并且能够表达,感知和解读非常精细和细微的含义。同时,虽然我们人类是语言使用的极大群体者,但我们在形式理解和描述用以管理语言的规则方面还存在一定的欠缺。

——2017年《自然语言处理中的神经网络方法》,第1页

从语言学到自然语言处理

语言学

语言学是对语言进行的科学研究,包括语法、语义学和语音学。

古典语言学涉及到语言规则的设计和评估,在语法和语义学的形式方法上取得了很大的进步,但在大多数情况下,自然语言理解中存在的很多有趣的问题遏制了清晰的数学形式。

广义上来说,语言学家可以是学习语言的任何人,但更通俗地说,一个以语言学家自居的人可能更侧重于此领域之外的领域。

数学是科学的工具。从事自然语言工作的数学家可能将他们的研究称为数学语言学,仅专注于离散数学形式学的使用和自然语言理论(例如形式语言和自动机理论)。

计算语言学

计算语言学是使用计算机科学工具对语言学进行的现代研究。昨天的语言学可能是今天的计算语言学家,因为计算工具的使用和思考方式的改变已然跨越了研究的大多数领域。

计算语言学是对理解和产生自然语言的计算机系统的研究。计算语言学的一个本质上的功能将是对理论语言学家提出的语法进行测试。

——1986年《计算语言学》导言,第4-5页

大数据和计算机的发展意味着,通过编写和运行软件,可以从大量文本数据集中发现新的、不同的事物。

在20世纪90年代,统计方法和统计机器学习开始盛行,并最终取代了经典的自上而下的基于规则的语言方法,而这主要得益于它们结果的优良性、速度的快捷性、以及鲁棒性。现在研究自然语言的统计方法主导了这一领域,它可以定义这个领域。

现如今,数据驱动的自然语言处理方法受到了广泛的欢迎,以至于被认定是计算语言学的主流方法。导致这一发展的一个强有力的因素无疑是可用的电子存储数据的增加量,从而为这些处理方法的应用提供了充足的数据量。由于其观察到的脆性,另一个因素可能是在看到现存方法的脆弱性之后对过分依赖手工制动规则的觉醒。

——2005年《牛津计算语言学手册》,第358页

自然语言的统计方法不仅限于统计本身,而且还包括用于应用机器学习中的高级推理方法。

理解自然语言并不是一件简单的事情,这需要大量的关于形态学、语法、语义和语用学知识,以及对世界的普遍认识。获取和对所有这些知识进行编码是开发具有良好有效性和鲁棒性的语言系统的根本障碍之一。就像统计方法一样,机器学习方法并没有做到这一点,即从带有注释或未注释的语言语料库中自动获取这种知识。

——2005年《牛津计算语言学手册》,第377页

统计自然语言处理

计算语言学也被称为自然语言处理或NLP,以反映统计方法的更为基于工程师或经验的方法性一面。

该领域的统计优势还常常导致NLP被描述为统计自然语言处理,也许是为了将其与经典计算语言学方法区别开来。

我认为计算语言学既具有科学的一面又具有工程学的一面。称为工程学的这一面,通常称为自然语言处理(NLP),主要涉及构建计算工具,以便使用语言做有用的事情,例如机器翻译、总结、问答等。与任何工程学科一样,自然语言处理也涵盖了各种不同的科学学科。

——2009年《统计变革是如何改变(计算)语言学的》

语言学是一个很大的研究课题,虽然NLP的统计学方法在某些领域取得了巨大的成功,但从传统的自上而下的方法来看,仍然有很大的空间和巨大的收益。

粗略地说,统计NLP将概率与在分析话语或文本过程中遇到的替代方案相关联,并将最可能的结果接受为正确的结果。 ......毫不奇怪的是,词语的名称现象在世界上都是密切相关的,或者我们对它的认知,在关于世界的事实反映在文本的一些模糊事实上,经常彼此接近。这个观点有很大的争论空间。

——2005年《牛津计算语言学手册》,第19页

 

自然语言处理

作为对处理文本数据感兴趣的机器学习从业者,我们关注自然语言处理领域中的工具和方法。

在前面的内容中,我们已经看到了从语言学到NLP的路径。现在,我们来看看现代研究人员和从业人员如何定义NLP的所有内容。

在这一领域最顶尖研究人员撰写的教科书中,他们将这个学科称为“语言科学”,允许讨论古典语言学和现代统计学方法。

语言科学的目的是能够描述和解释围绕在我们周围的大量语言观察,在对话、写作和其他媒体中。其中一部分与人类获取、产生和理解语言的认知范围有关,一部分与理解语言话语与世界的关系有关,一部分与了解用哪种语言沟通的语言结构有关。

——1999年《统计自然语言处理基础》,第3页

他们通过在自然语言处理中使用统计方法继续关注推理过程。

统计NLP旨在对自然语言领域进行统计推理。统计推理通常包括采取一些数据(根据一些未知概率分布生成),然后对该分布进行一些推断。

—— 1999年《统计自然语言处理基础》,第191页

在应用自然语言处理的文本中,作者、NLP的知名NLPK Python库的贡献者将其广泛描述为使用计算机来处理自然语言数据。

我们将采用自然语言处理(简称NLP),涵盖了对自然语言任何类型的计算机操作。一方面,它可以简单地计算单词频率来比较不同的写作风格。另一方面,NLP涉及“理解”完整的人类言语,至少在能够给予有效回应的程度上。

——2009《用Python进行自然语言处理》,第9页

统计NLP已经转向另一个角度,现在强调使用深度学习神经网络来对特定任务进行推理,并开发强大的端对端系统。

在第一本专门针对这一新兴主题的教科书中,Yoav Goldberg简洁地将NLP定义为将自然语言作为输入或生成自然语言作为输出的自动方法。

自然语言处理(NLP)是指人类语言的自动计算处理的总称。这包括将人类生成的文本作为输入的算法,以及生成自然文本作为输出的算法。

——2017年《自然语言处理中的神经网络方法》,第17页

进一步阅读

如果你想更深入了解,本部分将提供有关该主题的更多资源。

图书:

《数学语言学》,2010,http://amzn.to/2tO1cOO

《自然语言处理中的神经网络方法》,2017,http://amzn.to/2u0JtPl

《计算语言学:导论》,1986,http://amzn.to/2h6U4qY

《牛津计算语言学手册》,2005年,http://amzn.to/2uHeERE

《统计自然语言处理基础》,1999,http://amzn.to/2uzwxDE

《用Python进行自然语言处理》,2009,http://amzn.to/2uZMF27

维基百科:

维基百科上的语言学,https://en.wikipedia.org/wiki/Linguistics

维基百科上的计算语言学,https://en.wikipedia.org/wiki/Computational_linguistics

维基百科上的自然语言处理https://en.wikipedia.org/wiki/Natural_language_processing

维基百科上的自然语言处理史https://en.wikipedia.org/wiki/History_of_natural_language_processing

维基百科上的自然语言处理概要https://en.wikipedia.org/wiki/Outline_of_natural_language_processing

Natural 自然语言处理(NLP)「全解析」相关推荐

  1. 我所知道的中国NLP「破圈」十年

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 现在,我们已经习惯了全球各类顶级学术会议上的中国力量. 从论文入选,到参会面孔,抑或赞助企业,中国代表几乎无处不在. 前不久刚落幕的ACL ...

  2. 吾爱破解热榜:45k 的小工具让 Windows 升级成「全面屏」!

    公众号关注 "GitHubDaily" 设为 "星标",每天带你逛 GitHub! 大家好,我是小 G. 我们都知道,如果有太多软件是开机启动的话,那么 Win ...

  3. 极目智能发布首款「全国产化」L2级智能驾驶方案,已获得10余家车企定点

    智能驾驶竞争进入深水区,市场开始分层,新的竞争局面开启. 高工智能汽车研究院数据显示,今年1-11月国内L2级ADAS新车搭载上险量为338.51万辆,同比上年同期增长78.33%.预计未来2-3年间 ...

  4. 「全链路」取代UI/交互岗位是即将到来的趋势么

    @柏傅美:取消UI/交互岗位,从更全面的设计层面要求设计师,应该是一个很正常的趋势吧,也许阿里在内的大厂已经发现他们目前很难招到「合适」的资深设计师和设计Leader们了.每次碰到猎头对于阿里「UI/ ...

  5. 【NLP】一次性生成完整句子!Salesforce发布全球首个「全并行」神经翻译系统

    原文来源:Salesforce Researc 作者:JiataoGu. James Bradbury 「雷克世界」编译:嗯~阿童木呀.多啦A亮 Salesforce研究院去年了成立研究院,之后又发布 ...

  6. 微盟,为商超生鲜行业开一张「全链路」的数字化良方

    ​ 随着越来越多的企业加入数字化的大潮,也将为数字化升级传递新的信息,激励以微盟为代表的数字化服务商能力的迭代和升级,进而共同推动数字经济在零售行业的应用和发展. 作者|吴柯 出品|产业家 " ...

  7. mysql数据丢失_图解MySQL | 「原理解析」 MySQL使用固定的server_id导致数据丢失

    原创作者:爱可生开源社区 本文我们来看一个场景,两台MySQL实例使用主从复制,当master故障,触发高可用切换,新master上线后,通过备份重建旧master并建立复制后,数据发生丢失. 以下我 ...

  8. mysql新增列并同时增加数据_图解MySQL | 「原理解析」 MySQL 为表添加列 是怎么立刻完成的...

    原创作者:图解MySQL 在上一期图解 图解MySQL | MySQL DDL为什么成本高?中,我们介绍了: 传统情况下,为表添加列需要对表进行重建 腾讯团队为 MySQL 引入了 Instant A ...

  9. 「全版本」Origin科学绘图下载安装,Origin2022详细激活安装教程

    Origin是一款常用的科学绘图和数据分析软件,适用于数据可视化.统计分析.信号处理.曲线拟合等各种科学研究和工程应用.以下是Origin软件的功能和安装条件: Origin软件功能: 数据处理:可以 ...

最新文章

  1. 网络营销外包——网络营销外包专员如何系统化梳理网站优化方法
  2. 用Go语言建立一个简单的区块链part4(1):交易(1)
  3. easyui带表单的弹窗效果制作
  4. com.alibaba.excel.exception.ExcelAnalysisException: java.lang.NoClassDefFoundError: org/apache/poi/p
  5. 图灵2008年12月出版的计算机图书
  6. SQL Server 视图 语句
  7. 哈夫曼编码详解——图解真能看了秒懂
  8. 基于物联网的多传感器远程温度监测系统
  9. 2021-05-23 自学Java第三天 唉 怎么感觉自制力不是很强啊 感觉有些慢了 慢慢来吧
  10. 什么是Java垃圾回收器
  11. 电容降压工作原理简介
  12. left out join举例
  13. Obama Praises Japanese Partnership
  14. yishaadmin,yishaadmin修改数据后回到起始页的解决办法,保持在修改前的页码,分页组件在修改数据后不返回到第一页
  15. 计算一个页面中的数据库查询次数和用时
  16. Proj.NET-地球椭球体、大地基准面及地图投影
  17. 全栈工程师是那些为了节约成本的小公司在招聘吗?
  18. SQL sever 数据库数据类型
  19. 转区系统开放艾欧尼亚转入服务器,终于可以在一起了!转区功能开放申请啦
  20. 2019年同济大学计算机夏令营游记

热门文章

  1. 李飞飞对话顶级神经科学家纽瑟姆:大脑也做「微积分」,最高效GPU依然很浪费...
  2. 豆瓣评分9.7,Github 9.9K Star的中文版《神经网络与深度学习》分享(附PDFPPT下载)...
  3. 百度正在摆脱广告营收依赖!AI云增长64%成最大推动力
  4. 写的书太受欢迎怎么办?北大《深度强化学习》重磅开放下载
  5. 老板不爽,同事不满,下属不服,是你违反了这10大团队管理原则
  6. Facebook新AI模型实现直接从非英语语言翻译到另一种非英语语言
  7. 卷积神经网络(CNN)新手指南
  8. AI领域3种典型的深度学习算法
  9. 产品经理:三步到位,落地需求
  10. SAP MM MRKO功能里的Display与Settle功能之分离?