*本文约3000字,阅读大约需要5分钟。

自然语言处理(Nature Language Processing,NLP)被誉为“人工智能技术皇冠上的明珠”,一方面表明了它的重要性,另一方面也显现出了它的技术难度。但NLP并不像语音识别、图像识别等人工智能技术一样为人熟知,接下来的5分钟,我们来快速了解NLP技术,感受它的魅力。

NLP是与自然语言的计算机处理有关的技术统称,为了更好地理解,我们把“自然语言处理”拆分成为两部分:

1、自然语言——人和人之间书面或口语交流的形式

2、处理——计算机对数据进行理解和分析

换言之,自然语言处理就是让计算机理解人类语言,并进行相应的分析。我们所熟知的苹果Siri、微软小冰,就是自然语言处理的典型的应用,他们不仅能够理解我们所说的话,还能够针对性地做出反馈。

先说结论:为了更加轻松、美好的生活。举一个简单的例子,当我们需要让计算机处理某个问题或者实现某个功能,需要输入计算机能够理解的指令,也就是代码。全世界知名度最高的代码莫过于“Hello World”,我们想让计算机“打印Hello World”,就需要用计算机理解的语言对它下达指令:

#include <stdio.h>

int main()

{

printf("Hello, World! \n");

return 0;

}

而自然语言处理就是把人类的语言和文本转换成为机器能够理解的数据,再将机器对数据解析出来的结果转换成为人类的语言和文本,弥补机器和人类之间的差距,帮助人们更高效地解决问题。首先举一个例子来理解利用NLP带来的【高效】

搜索是我们平时获取信息的重要途径,但往往现有的搜索引擎很难第一时间满足我们的信息需求。

例如,想要查询“微信MAU有多少”,我们得到的往往是下图这样需要耗费大量时间去逐个二次查找的链接,甚至一番查找过后,仍然得不到需要的准确信息。

而利用NLP技术的智能搜索通过理解人类语言和文本,在信息获取需求和海量数据信息之间,能够架起一座直达的桥梁。虎博搜索就是这样一款基于语义理解的下一代搜索引擎,区别于已经延续了20年的基于关键词匹配的上一代搜索引擎,虎博搜索可以理解自然语言的搜索意图,并且返回直观的结构化搜索结果,实现问答式的搜索体验。

搜索同样的问题,得到的就是通过语义搜索提取到的腾讯财报中的准确数据——12.061亿(微信及Wechat的合并月活跃账户数)。

虎博搜索PC版搜索示意

在一键获取有效结果的背后,是NLP技术的综合应用,机器需要理解查询的意图,知道微信这个实体从属于哪家公司,明白MAU所指代的具体含义,再将腾讯财报中非结构化的数据转化成为结构化的数据呈现出来。一键获取核心财经数据及行业分析,体验不一样的问答式搜索,可登陆虎博搜索PC版(http://search.tigerobo.com)。

这种高效具体是如何实现的呢?首先我们要明确,既然自然语言处理要解决的是人类和机器的沟通障碍,那它就需要达成两个目标:

1、让计算机听得懂“人话”——即NLU自然语言理解,让计算机具备人类的语言理解能力

2、让计算机能够“讲人话”——即NLG自然语言生成,让计算机能够生成人类理解的语言和文本,比如文章、报告、图表等等

然而,不可否认的是,尽管Google I/O大会上的Google Assistant宣称已经通过了图灵测试,但是离机器真正理解人类语言仍有很长的距离。但在NLPer们的埋头苦干之下,机器已经能够逐步理解人类的语言和文本,并帮助人们处理实际问题。把人类的文本拆解来看,可以理解为词、句、关系的组合,要让机器理解人类语言和文本,首先要让机器对文本进行拆解分析,以下是现阶段常用的重要算法:

1、词法分析

首先是对词和词组的分析,包括分词处理、词性标注、命名实体识别等。

分词处理,将多种语言的文字序列切分成有意义的词或词组。

词性标注,对分词后的每个独立单词进行词性判断并标注。

命名实体识别,从输入信息中自动识别出命名实体,如姓名、时间、地点以及机构等。

2、句法依存分析

词法分析过后,通过词汇之间的依存关系来拆解整个句子结构,依存关系表达了句子各成分之间的语义依赖关系,比如主谓、动宾、定中等结构关系。

3、关系/知识抽取

句法分析过后,就可以抽取信息中的特定实体之间的关系。例如从属关系、亲属关系、同义关系等。

上图就是利用算法让机器对文本进行理解的例子,经过拆解分析,机器就能够理解“NLP这个实体是从属于人工智能这个学科的研究方向”。

当机器抽取出了人类语言中的关系或知识,进而就可以对语言和文本做更进一步的处理,例如:

1、文本相似度分析通过对输入的两个文本进行理解和对比,输出文本之间的相似程度。下图是对《证券日报》和《上海证券报》有关腾讯今年二季度业务报道的对比,虽然两篇报道主题相同,但是具体报道内容各有侧重,机器能够识别出来二者内容并不相似。

文本相似度技术在网络内容自动排重、文章关联分析、相似度检索等方面有着良好的应用效果。

2、语义聚类自动对大量未分类的信息进行聚类,把内容相近的信息归为一类,并自动为该类生成主题词。

上图是对一段时间内有关银行业相关报道的聚类效果,首先将同类型信息归纳在一起,同时生成该类信息的热词:理财、银行、消金等等。语义聚类对于发现新热点、发现新事件等需求有着巨大的辅助作用。可以为专题制作、热点追踪等众多业务场景提供方便。

3、文本摘要

根据输入信息,对其进行理解,精简提炼出核心信息,形成摘要。文本摘要可以方便用户快速预览信息。

下图就是对前文提到的《上海证券报》报道进行的摘要示意,可以看到摘要准确提取到了报道中所重点阐述的净利润的财务指标及微信月活用户数的业务指标。

现阶段NLP技术对文本的处理还有很多,此处只做一小部分举例。

当NLP技术对文本的处理应用综合在一起,就能帮助解决人们在工作和生活场景中的实际问题,现阶段最典型的应用包括智能搜索、智能问答、智能舆情等。

1、智能搜索

诞生了20年的传统搜索引擎,主要基于关键词匹配来提供搜索结果,返回的是一条一条链接,很多时候我们需要一条一条的点开、阅读,才能找到我们所需要的信息。

而使用了NLP技术的下一代搜索引擎,体验更偏向于问答,首先理解用户搜索的真实意图,再对它所理解过的海量信息进行匹配,最终反馈一个精准的结果。这样就能大幅度提高检索数据、信息的效率。

还是以下一代搜索引擎虎博搜索来举例。电商直播可以说是今年最热的风口之一,如果想要了解电商直播的市场规模,查询相关的研究数据,通过虎博搜索即可快速得到。

虎博搜索的底层核心智能搜索技术,还可以应用于企业和机构的具体业务场景中,例如关联关系分析、多重维度对比、风险评估判断、海量文档资讯管理、竞品研究分析、行业研究分析等。

更多NLP技术产品及落地应用案例,可点击阅读原文,或登陆虎博科技官网(http://tigerobo.com)了解。

2、智能问答

智能问答是智能搜索的另一种应用形态,核心仍然在于理解。区别于传统的关键词匹配及预设问答的系统,智能问答通过理解人类语言和文本,能够有更加精准地回复,并且可以7*24小时在线。可广泛应用于产品业务咨询、服务引导、坐席分流、自动问答、自助查询办理、回访与调研。

3、智能舆情

传统的舆情系统,仍主要基于关键词的匹配对海量舆情进行监测和判定,如果一条资讯或者一则政策中没有事先所设置好的关键词,那就会出现两个结果,一是舆情遗漏,二是需要大量人工核验。

自然地,如果使用了NLP技术,让机器从理解文本含义本身入手进行舆情监测,就能很大程度上减少上述两种情况的发生,以避免由此带来的风险危机和人力浪费。可广泛应用于交易决策参考、风险防控辅助、舆论态势感知、敏感信息预警、竞品跟踪分析、口碑形象管理等。

虎博科技为某客户定制的舆情系统

NLP的技术应用还有很多,以上只做部分举例。NLP技术最大的价值,更在于与实际的业务场景相结合后,带来的服务、产品的创新以及辅助不同领域企业和机构创造出更大的商业价值。

在后续的系列文章中,将为大家带来更详尽NLP业务场景价值解读。

当然,NLP技术的落地应用还在不断的拓展和演变,NLP技术也尚处在早期的研发探索阶段,但它是推动人工智能从弱人工智能走向强人工智能的关键突破口,想象一下,当机器真正理解人类的语言和文本,能够思考和推理,并且帮助人们解决人力所无法解决的问题的时候,或许人类就能够在机器的帮助下,更好地解决问题、探索未知。

5分钟了解什么是自然语言处理技术相关推荐

  1. 浅谈自然语言处理技术在自动化的应用

    自然语言处理与技术其在自动化的应用 引言 作为人工智能领域的一个重要分支,自然语言处理在目前的学术界领域非常的有市场.无论从哪个方面来看,自然语言处理技术,非常的具有前瞻性.目前,自然语言处理技术应以 ...

  2. 新闻行业中,自然语言理解技术该如何应用?

    在信息爆炸时代下,要想快速获取有价值的内容非常困难,这一点在新闻行业中尤为明显,而本文提到的自然语言理解技术将会是一个不错的解决建议. 自然语言理解技术在新闻行业中的应用 现如今,人类生活在一个信息大 ...

  3. Keras蚂蚁金服大赛实战——自然语言处理技术

    之前在自然语言处理技术系列的第一篇NER实战的结语中介绍过:序列标注(分词,NER),文本分类(情感分析),句子关系判断(语意相似判断),句子生成(机器翻译)是NLP领域的四大任务,之后我又陆续简单介 ...

  4. 自然语言处理技术(NLP)在推荐系统中的应用 原2017.06.29人工智能头条 作者: 张相於,58集团算法架构师,转转搜索推荐部负责人,负责搜索、推荐以及算法相关工作。多年来主要从事推荐系统以及机

    自然语言处理技术(NLP)在推荐系统中的应用 原2017.06.29人工智能头条 作者: 张相於,58集团算法架构师,转转搜索推荐部负责人,负责搜索.推荐以及算法相关工作.多年来主要从事推荐系统以及机 ...

  5. NLP:自然语言处理技术近十年发展技术更迭的简介、案例之详细攻略(持续更新)

    NLP:自然语言处理技术近十年发展技术更迭的简介.案例之详细攻略(持续更新) 目录 自然语言处理技术近十年发展技术更迭的简介.案例

  6. AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用)、常用算法、经典案例之详细攻略(建议收藏)

    AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用).常用算法.经典案例之详细攻略(建议收藏) 目录 NLP是什么? 1.NLP前置技术解析 2.python中NLP技术相关库 3.NLP案例 ...

  7. 送书福利 | 大数据智能:数据驱动的自然语言处理技术

    刘知远 崔安颀 等编著 电子工业出版社-博文视点 2020-01 ISBN: 9787121375385 定价: 89.00 元 新书推荐 ????今日福利 |关于本书| 本书前身<大数据智能- ...

  8. 盲人方便的使用计算机输入文字,中文信息学报盲人用计算机软件系统中的语音和自然语言处理技术Ξ.PDF...

    中文信息学报盲人用计算机软件系统中的语音和自然语言处理技术Ξ 中 文 信 息 学 报 第 18 卷 第 4 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vo ...

  9. 自然语言处理技术在推荐系统中的应用和发展(附交流视频和PPT下载链接)

    今天给大家带来山东大学任昭春老师在2020年5月10日举办的"推荐系统前沿进展"系列学术沙龙活动中所做的分享<自然语言处理技术在推荐系统中的应用与发展>,本次分享从自然 ...

  10. 大快HanLP自然语言处理技术介绍

    大快HanLP自然语言处理技术介绍 这段时间一直在接触学习hadoop方面的知识,所以说对自然语言处理技术也是做了一些了解.网络上关于自然语言处理技术的分享文章很多,今天就给大家分享一下HanLP方面 ...

最新文章

  1. 1. 文件系统——磁盘分区、各目录功能、硬盘
  2. Cinder 的 I/O QoS
  3. 36个引人注目JQuery导航菜单
  4. java技术系列(一) Enum
  5. 如何获取ubuntu源码包里面的源码进行编译
  6. ckrule规则编辑器在wpf中的使用
  7. [翻译]在Asp.net 2.0中操作数据::母板页和站点导航
  8. 边缘计算(edge computing)中computation offloading、resource allocation、resource provisioning的区别
  9. 处理MySql连接超时引起的错误
  10. 现代控制理论电子版_SANXINB01开发板verilog教程V3电子版
  11. 使用gooflow和easyui做的一个工作流程配置图
  12. oracle没有网卡驱动,联想台式机网卡驱动,手把手教你联想台式机网卡驱动
  13. mmd Ray渲染 mikumikudance导入模型阴影很黑
  14. 机器学习,分类算法(饭店评价的例子)
  15. 集群调度LSF-学习笔记
  16. 计算机二级Python错题
  17. Java-面向对象构造函数 -(private private)关键字
  18. 「解析」正则化 DropPath
  19. 实验4 用JavaBean实现简单计算器
  20. Cisco Packet Tracer 配置交换机与路由器静态路由

热门文章

  1. ECTOUCH系统默认模板是有显示销量的,但是销量一直为0,第二种方法OK
  2. 华为手机图标怎么变小_华为手机怎么设置图标由大变小
  3. Origin 2017去除水印的方法
  4. layui 之 laypage分页插件
  5. Voicemeeter Potato —— Windows 平台下的终极虚拟音频混音器
  6. VUE下载安装与配置
  7. 独立游戏开发(一)-- 安装Unity
  8. vue上传、修改头像
  9. wps2019无法使用粘贴复制快捷键
  10. knockoutjs总结