目录

什么是NLP

NLP的重要性

NLP的发展

NLP的任务及应用

NLP实施步骤

自然语言处理有哪些方法?

监督 NLP

非监督 NLP

自然语言理解

自然语言生成

NLP 的5个难点


什么是NLP

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它是一种机器学习技术,目的是使计算机能够解读、处理,和生成人类生活语言,实现人机之间的信息交流。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。

NLP的重要性

随着人类进入智能时代,智能设备和数据量都空前增长,通过语音和语言进行人机交互的需求也在急速增长;让机器变得善解人意变得至关重要。

人们可以用自己最习惯的语言来使用计算机,与计算机进行有效通信,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;

人们也可通过它进一步了解人类的语言能力和智能的机制。

自然语言处理对于高效全面分析文本和语音数据至关重要。其可以处理日常对话中的方言、俚语和典型语法异常方面的差异。公司将其用于一些自动化任务,这种自动化流程有助于降低成本,节省座席在冗余查询上花费的时间,并提高客户满意度。

NLP的发展

20世纪50年代到70年代——采用基于规则的方法

初期的的自然语言处理主要采用基于规则的方法[1],研究人员们认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,所以大量的研究员基于这个观点来进行研究,但是基于规则的方法具有不可避免的缺点,首先规则不可能覆盖所有语句,其次这种方法对开发者的要求极高,开发者不仅要精通计算机还要精通语言学,因此,这一阶段虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。

20世纪70年代到21世纪初——采用基于统计的方法

70年代以后随着互联网的高速发展,丰富的语料库成为现实以及硬件不断更新完善,基于统计的方法逐渐代替了基于规则的方法。贾里尼克和他领导的IBM华生实验室是推动这一转变的关键,他们采用基于统计的方法,将当时的语音识别率从70%提升到90%。在这一阶段,自然语言处理基于数学模型和统计的方法取得了实质性的突破,从实验室走向实际应用。

2008年到2019年——深度学习的RNN、LSTM、GRU

在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究,由最初的词向量到2013年的word2vec,将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。深度学习是一个多层的神经网络,从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网络,即可执行预想的任务。RNN已经是自然语言处理最常用的方法之一,GRU、LSTM等模型相继引发了一轮又一轮的热潮。

2019后

近年来,预训练语言模型在自然语言处理领域有了重要进展。预训练模型指的是首先在大规模无监督的语料上进行长时间的无监督或者是自监督的预先训练(pre-training),获得通用的语言建模和表示能力。之后在应用到实际任务上时对模型不需要做大的改动,只需要在原有语言表示模型上增加针对特定任务获得输出结果的输出层,并使用任务语料对模型进行少许训练即可,这一步骤被称作微调(fine tuning)。自 ELMo、GPT、BERT 等一系列预训练语言表示模型(Pre-trained Language Representation Model)出现以来,预训练模型在绝大多数自然语言处理任务上都展现出了远远超过传统模型的效果,受到越来越多的关注,是 NLP 领域近年来最大的突破之一,是自然语言处理领域的最重要进展。

NLP的任务及应用

1.机器翻译

机器翻译软件使用自然语言处理将我们输入的源信息从一种语言翻译成另一种语言,在无需任何人工干预下同时保留上下文的准确性。最著名的应用程序可能是Google Translate,Amazon Translate

Google翻译基于SMT-统计机器翻译。这不是单字逐字替换的工作。Google翻译会搜集尽可能多的文本,然后对数据进行处理来找到合适的翻译。

机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。

2.语音识别

语音识别是将输入计算机的语音数据识别转换成书面语表示。

它的应用包括移动电话,家庭自动化,视频游戏,语音助手(Siri等)。它们不是那么完美。对于更复杂的任务或是日常对话中出现的挑战,例如口音、辱骂、语调和语法使用不当,NLP和神经网络无法很好地应对其任务。但是谁知道呢,也许这个问题会随着时间很快就会解决。

语音识别的一个关键应用是转录,

3.情感分析

情感分析是一种有趣的NLP和数据挖掘任务,用于衡量人们的观点倾向,解释文本数据传达的情感。NLP 软件会分析文本中是否存在表现不满、快乐、怀疑、遗憾和其他隐藏情感的字词或短语,例如,我们可以对电影评论或由该电影引起的情绪状态进行分析。

情感分析有助于检查顾客对商品或服务是否满意。人们愿意在社交网络上分享他们的观点。搜索负面文本和识别主要的投诉可以显著地帮助改变概念、改进产品和广告,并减少不满的程度。反过来,明确的正面评论会提高收视率和需求。

4.问答系统

问答系统(QA)是一种涉及到构建能够用自然语言自动回答人类提出的问题的系统。下面是一些真正的问答应用程序:Siri、OK谷歌、和虚拟助理。虽然之前也提到过这些应用程序,但是理解语音只是其中的一半,另一个自然是给出响应与回答。

5.自动摘要

回到我们每天面对的文本数据量,信息过载是一个巨大的挑战,但是现在NLP技术让我们拥有了自动过滤和汇总的能力。这是为较长的文本文档创建简短,准确且流利的摘要的过程。使用自动摘要的最重要优点是可以减少阅读时间。

以下是可以尝试的一些API:Aylien文本分析,MeaningCloud摘要,ML分析器,文本摘要。

6.聊天机器人

目前聊天机器人广泛运用于即时通讯平台,例如Facebook Messenger、微信、LINE和Kik,以娱乐、零售行销、以及客服为目的。NLP已经成为创建聊天机器人的基础,尽管这样的系统并不是那么完美,但它们可以轻松地处理标准任务。聊天机器人当前可在多种渠道上运行,包括Internet,应用程序和消息传递平台。

7.市场预测

营销人员还使用NLP来搜索有可能或明确打算购物的人。Internet上的行为,维护社交网络上的页面以及对搜索引擎的查询提供了许多有用的非结构化客户数据。Google可以充分利用这些数据来向互联网用户销售合适的广告。每当访问者点击广告时,广告客户就要向Google付费。点击的成本从几美分到超过50美元不等。

市场情报的核心是使用多种信息源来全面了解公司的现有市场,客户,问题,竞争以及新产品和服务的增长潜力。用于分析的原始数据来源包括销售日志,调查和社交媒体等。

8.文本分类

文本分类用机器对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。通过使用NLP技术,文本分类器可以自动分析文本,然后根据其内容分配一组预定义标签或类别。

9.字符识别

字符识别系统还具有许多应用程序,例如收据字符识别,发票字符识别,支票字符识别,合法开票凭证字符识别等。是现在最常用的NLP应用之一

10.拼写检查

拼写检查器是一种软件工具,可识别并纠正文本中的所有拼写错误。大多数文本编辑器允许用户检查其文本是否包含拼写错误。最直接的例子之一是Grammarly。这是一个在线语法检查器,可扫描您的文本以查找所有类型的错误,从错别字到句子结构问题等等。

11.词性标注

在此流程中,NLP 软件根据上下文用法(例如名词、动词、形容词或副词)标记句子中的单个字词。其帮助计算机理解字词如何相互形成有含义的关系。

12.词义消歧

一些字词用于不同场景时可能具有不同的含义。例如,字词 bat 在这些句子中的含义不同:

  • bat(蝙蝠)是一种夜间活动的生物。
  • 棒球运动员使用 bat(棒球拍)击球。

借助词义消歧,NLP 软件通过训练语言模型或参考字典定义来识别字词的预期含义。

NLP实施步骤

1. 获取语料

一般来说,NLP 流程首先从来源(例如云数据仓库、调查、电子邮件或内部业务流程应用程序)收集和准备非结构化文本或语音数据。

2.预处理

NLP 软件使用预处理技术(例如分词、词干、词形还原和停用词删除)为各种应用程序准备数据。

  • 分词将句子分解为单个单元的字词或短语。
  • 词干和词形还原将字词简化为词根形式。例如,这些流程将 starting 转换为 start
  • 删除停用词可确保删除对句子没有重要含义的字词,例如 "为" 和 "与"

3.特征工程

这一步主要的工作是将分词表示成计算机识别的计算类型,一般为向量,常用的表示模型有:

传统向量表示

  • 独热编码 one-hot
  • 词集模型
  • 词袋模型
  • TF-IDF

分布式向量表示

  • word2vec / fasttext / glove (词级别)
  • ELMo / GPT / BERT (句子级别)

4. 特征选择

特征选择主要是基于第三步特征工程得到的特征,选择合适的、表达能力强的特征,常见的文本特征选择方法主要有:

  • DF (Document Frequency)

    统计特征词出现的文档数量,用来衡量某个特征词的重要性

  • MI (Mutual Information)

    互信息法用于衡量特征词与文档类别直接的信息量

  • IG (Information Gain)

    信息增益法,通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。

  • CHI (Chi-square)

    CHI特征选择算法利用了统计学中的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的,如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。

  • WLLR (Weighted Log Likelihood Ration)
  • WFO (Weighted Frequency and Odds)

    最后一个介绍的算法,是由苏大李寿山老师提出的算法。通过以上的五种算法的分析,李寿    山老师认为,"好"的特征应该有以下特点:好的特征应该有较高的文档频率;好的特征应该有较高的文档类别比例

5. 模型选择

当选择好特征后,需要进行模型选择,选择什么样的模型进行训练。常用的有机器学习模型,比如:KNN、SVM、Naive Bayes、决策树、K-means等;深度学习模型,比如:RNN、CNN、LSTM、Seq2Seq、FastText、TextCNN 等。

6. 模型训练

当选择好模型后,则进行模型训练,其中包括了模型微调等。在模型训练的过程中要注意由于在训练集上表现很好,但在测试集上表现很差的过拟合问题以及模型不能很好地拟合数据的欠拟合问题。同时,也要防止出现梯度消失和梯度爆炸问题。

7. 模型评估

模型的评价指标主要有:错误率、精准度、准确率、召回率、F1 值、ROC 曲线、AUC 曲线等。

8. 投产上线

模型的投产上线方式主要有两种:一种是线下训练模型,然后将模型进行线上部署提供服务;另一种是在线训练模型,在线训练完成后将模型 pickle 持久化,提供对外服务。

训练 NLP 算法需要向软件提供大量数据样本,以提高算法的准确性。

自然语言处理有哪些方法?

以下提供一些常用的自然语言处理方法[2]

监督 NLP

监督 NLP 方法使用一套已标记或已知的输入和输出来训练软件。该程序首先处理大量已知数据,并学习如何从任何未知输入生成正确输出。例如,公司训练 NLP 工具根据特定标签对文档进行分类。

非监督 NLP

非监督 NLP 使用统计语言模型预测在提供非标签输入时出现的模式。例如,文本消息收发中的自动完成功能通过监控用户的回复来建议对句子有含义的相关字词。

自然语言理解

自然语言理解 (NLU) 是 NLP 的一个子集,专注于分析句子背后的含义。NLU 使该软件能够在不同的句子中找到类似含义或处理具有不同含义的字词。

自然语言生成

自然语言生成 (NLG) 专注于根据特定的关键字或主题生成像人类对话一样的对话文本。例如,具有 NLG 功能的智能聊天机器人能够以类似于客户支持人员行为的方式与客户交谈。

NLP 的5个难点[3]

  1. 语言是没有规律的,或者说规律是错综复杂的。
  2. 语言是可以自由组合的,可以组合复杂的语言表达。
  3. 语言是一个开放集合,我们可以任意的发明创造一些新的表达方式。
  4. 语言需要联系到实践知识,有一定的知识依赖。
  5. 语言的使用要基于环境和上下文。

[1] Natural language processing. (2022, November 10). In Wikipedia. https://en.wikipedia.org/wiki/Natural_language_processing

[2]什么是自然语言处理?- NLP - AWS

[3]一文看懂自然语言处理NLP(4个应用+5个难点+6个实现步骤)

[论文素材]Background----NLP相关推荐

  1. Stanford NLP 解读 ACL 2018 论文——用于调试 NLP 模型的语义等价对立规则

    Stanford NLP 解读 ACL 2018 论文--用于调试 NLP 模型的语义等价对立规则 本文作者:王雪佩 2019-02-23 20:13 专题:ACL 2018 导语:新鲜出炉的论文解读 ...

  2. 星空NLP对话机器人论文班:NLP领域10篇最高质量的对话机器人经典论文解密

    课程名称:星空NLP对话机器人论文班:NLP领域10篇最高质量的对话机器人经典论文解密 课程介绍:基于Gavin做星空智能业务对话机器人过程中阅读的超过3000篇NLP论文中挑选出过去五年最经典.最高 ...

  3. Re23:读论文 How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence

    诸神缄默不语-个人CSDN博文目录 论文名称:How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence ...

  4. ACL最佳论文提出最新NLP模型测试方法,最佳论文提名也不可小觑

    译者 | 刘畅 出品 | AI科技大本营(ID:rgznai100) 导读:近日,ACL 2020公布了最佳论文奖,另有两篇最佳论文荣誉提名奖也各自提出了解决NLP领域问题的创新方法. 最佳论文:Be ...

  5. ICLR 2019最佳论文揭晓!NLP深度学习、神经网络压缩夺魁 | 技术头条

    整理 | Linstansy 责编 | Jane 出品 | AI科技大本营(id:rgznai100) [导语]ICLR 是深度学习领域的顶级会议,素有深度学习顶会 "无冕之王" ...

  6. 论文荐读 | NLP之Attention从入门到精通

    https://www.toutiao.com/a6709249369914212872/ Sequence to Sequence Learning with Neural Networks seq ...

  7. 【每周NLP论文推荐】 NLP中命名实体识别从机器学习到深度学习的代表性研究

    NER是自然语言处理中相对比较基础的任务,但却是非常重要的任务.在NLP中,大部分的任务都需要NER的能力,例如,聊天机器人中,需要NER来提取实体完成对用户输入的理解:在信息提取任务中,需要提取相应 ...

  8. 从4篇最新论文详解NLP新范式——Continuous Prompt

    ©PaperWeekly 原创 · 作者 | 张一帆 学校 | 中科院自动化所博士生 研究方向 | 计算机视觉 近几年,NLP 技术发展迅猛,特别是 BERT 的出现,开启了 NLP 领域新一轮的发展 ...

  9. nlp gpt论文_GPT-3:NLP镇的最新动态

    nlp gpt论文 什么是GPT-3? (What is GPT-3?) The launch of Open AI's 3rd generation of the pre-trained langu ...

  10. [论文素材]Previous Work----自动仇恨言论检测和冒犯性语言问题

    目录 摘要 介绍 相关工作 数据 特征 模型 结果 结论 https://arxiv.org/pdf/1703.04009.pdf 发布时间:2017 年 3 月 11 日 (Google翻译) 摘要 ...

最新文章

  1. 如何制定客户留存策略_如何制定品牌营销策略?
  2. unity3d优化IOS
  3. 题目1431:Sort
  4. 数据的中心化和标准化
  5. [转载]matlab中控制mesh或者surf的颜色
  6. ZAM 3D入门教程(3):Viewport
  7. 百度OCR文字识别API使用心得===com.baidu.ocr.sdk.exception.SDKError[283604]
  8. 连接MySQL错误:Can't connect to MySQL server (10060)
  9. html轮播图水平传送带,经典的白富美型jQuery图片轮播插件
  10. Spring ——《第二章》Spring中的Bean
  11. c语言下建立直角坐标系,大地坐标系和地心地固直角坐标ECEF转换公式和C语言函数代码...
  12. SQL基础知识总结二
  13. MATLAB函数文件的使用
  14. 读史可以明智_在开发中明智思考的5种方法
  15. 爆肝六万字整理的python基础,快速入门python的首选
  16. C++ new关键字分析
  17. 【Unity】在Inspector上显示自定义的位掩码枚举(Flags)
  18. 主动学习(Active Learning)概述及最新研究
  19. uni-app锚点跳转及滚动Tab切换(非scroll-view)
  20. 基于java调用adb命令安卓shell里面Read-only file system 问题解决

热门文章

  1. ESP32 ESP-IDF串口的使用-读GPS北斗模块数据
  2. 【机器学习】稀疏编码
  3. 【大数据存储技术】实验1 Hbase数据库的部署和操作
  4. 2021年我国豪华车市场竞争格局分析,一二三线城市是主阵地「图」
  5. 记录一个制作图片水印的功能
  6. stm32f107串口乱码
  7. 「产品读书」硅谷增长黑客实战笔记
  8. 一文秒懂JavaScript函数,手册级详细解读
  9. 【专业数据】三.2020~2022年北京交通大学【控制科学与工程】专业复试线/分数线差/计划招生数/复试数/录取数/复试比例/录取率
  10. python应用实例:坐标转换——基于布尔莎模型,可实现BJ54坐标系/GSC2000坐标系/WGS84等各种地心直角坐标系的转换