自然语言处理系列-1.什么是NLP?
常常会听到有人说,自然语言处理(NLP)是人工智能技术(AI)皇冠上的明珠。那么,从这句话上就能够看到,目前我们常常说的NLP其实是AI技术的一个分支,而且是较难的那一个分支。
那么,到底什么是NLP呢?大概这个问题会在我们从事NLP研究和学习的过程中会一直存在,当你处于不同的阶段,应该会有不同的理解。小Dream也只能说一说在目前这个阶段,对NLP的一些理解。
所谓“自然语言”,是相对于计算机语言(计算机能够理解的语言,如汇编、C语言等)而言的,也就是人类日常使用的语言。因为计算机设计之初主要是用于计算,或者完成某一项有明确规则任务。所以计算机语言与人类日常使用的语言存在很大的差异,计算机不能直接理解人类语言的含义,不能直接同人类进行沟通。要想实现计算机的智能化,不能够理解人类语言,是必须要跨越的一道障碍。因为,人类语言承载了人的思考、文化等,是每个人对外沟通的最主要手段。NLP就是为了解决这样一个问题而出现的技术。他希望能够使得计算机能够理解人类的语言,甚至是语言背后的文化与意图。例如说,当你说“我饿了”,计算机能够明白你肚子饿了,并且提出帮你定外卖;当你说“保护好你的菊花”,计算机能够结合当时的情境,明白你说的菊花到底是哪个菊花。
1. NLP技术的主要范畴
1)语音识别
顾名思义,就是将语音转化为文字。这一部分,小Dream还没机会涉及到,短时间应该不会涉及,感兴趣的小伙伴可以出门左转,百度一下。
2)分词、实体识别等序列标注问题
分词和实体识别是自然语言处理比较基础的部分,但是非常的重要。小Dream之前涉及过实体识别相关的工作,所以会在下一篇NLP系列文章中介绍相关的工作,敬请关注啦。
3)机器翻译
这是NLP领域比较早的一个工作,谷歌的机器翻译已经能够做到较好的水平。谷歌在2018年,利用attention技术构建的Transformer模型,是目前在这一领域比较大的进展。
4)对话系统
智能客服,聊天机器人等都需要用到这一项NLP技术。小Dream未来一段时间都会从事这项工作的研究及开发,所这一方面应该做一个较长的连载了。
5)文本摘要
6)自然语言生成
最近,OPENAI发布的GPT2.0具有很高的自然语言生成能力,预期会对自然语言处理技术产生不小的影响,感兴趣的同学可以参见如下链接:https://github.com/openai/gpt-2
7)文字蕴含
8)其他方面
2. NLP技术的难点
1)单词的边界界定
在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。
2)词义的消歧
在各国的语言中,多义词的现象都比较多。NLP常常需要根据词语的上下文决定目前的语境环境下,该词的具体含义。
3)句法的模糊性
自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析出多棵剖析树,而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。
4)语言的概括性
句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。
---------------------------------------------------------------------------------------------------------------------------------
常常在想,生活的意义是什么?挣钱,买房,开豪车或许都很重要。但是真正能让内心平静的往往是亲近之人的笑容、获取知识的满足感。
更多的AI知识,关注“Dream看AI”,用简单、朴实的语言介绍AI技术。
转载于:https://www.cnblogs.com/jen104/p/10494037.html
自然语言处理系列-1.什么是NLP?相关推荐
- NLP自然语言处理系列-音乐推荐系统实战 - 数据处理
NLP自然语言处理系列-音乐推荐系统实战 - 数据处理 本文进行音乐推荐系统案例实战,对音乐数据集进行数据清洗和特征提取,基于矩阵分解进行音乐推荐. 数据处理 读取音乐数据集,统计数据指标,选择文本信 ...
- NLP自然语言处理系列-基于知识图谱的电影推荐实战
NLP自然语言处理系列-基于知识图谱的电影推荐实战 kaggle数据集 https://www.kaggle.com/netflix-inc/netflix-prize-data?select=com ...
- NLP自然语言处理系列——LDA主题词模型探析
NLP自然语言处理系列--LDA主题词模型探析 时间 2015-06-17 22:39:57 十一城elevencitys.com 原文 http://elevencitys.com/2015/0 ...
- NLP自然语言处理系列- week6-文本数据增强(6)(PGN )
NLP自然语言处理系列- week6-文本数据增强(6)(PGN ) 少样本问题是自然语言处理NLP领域经常面临的问题,在医疗.金融.法律等领域通常缺乏高质量的标注语料,因此需使用数据增强技术,几种常 ...
- NLP自然语言处理系列- week6-文本生成案例(4)(PGN模型代码)
NLP自然语言处理系列- week6-文本生成案例(4)(PGN模型代码) PGN架构图
- NLP自然语言处理系列-week6-Seq2Seq+Attention
NLP自然语言处理系列-week6-Seq2Seq+Attention 目录 序列到序列模型 序列到序列算法 Seq2seq在机器翻译中的应用 RNN序列到序列演示第一步 RNN序列到序列演示 注意力 ...
- NLP自然语言处理系列- week6-文本生成案例(5)(PGN+Beam Search)
NLP自然语言处理系列- week6-文本生成案例(5)(PGN+Beam Search) PGN 模型 Beam Search 在计算机科学中,Beam Search是一种启发式搜索算法,通过在有限 ...
- NLP自然语言处理系列- week7- 检索模型(精排)(8)
NLP自然语言处理系列- week7- 检索模型(精排)(8) 检索模型(精排)排序模块步骤: 处理数据 ⼈⼯特征 深度匹配 排序 整合 目录 数据预处理 ⼈⼯特征 数据预处理 微众银行提供了微众银行 ...
- 自然语言处理系列二十二》词性标注》词性标注原理》词性介绍
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书<分布式机器学习实战>(人工智能科学与技术丛书)[陈敬雷编著][清华大学出版社] 文章目录 自然语言处理系列二十二 词性 ...
最新文章
- 使用 vue filters过滤器直接显示 几分钟前 几小时前 几天前
- Activiti——工作流之流程实例、任务的执行(五)
- CVPR 2021|SensatUrban:城市规模点云数据集
- php留言簿代码,php自治简单留言板代码
- ABAP 获取登陆者的IP地址和主机名
- 《系统集成项目管理工程师》必背100个知识点-66工作说明书
- vue脚手架 全局变量可以是变量吗_Vue.js2 全局变量的设置方法
- 基于PHPEnv的本地环境搭建—PHP第一个项目:HelloWorld(从安装到运行)
- mysql字段重命名_MySQL中使用SQL语句对字段进行重命名
- SQL Server2005探索之---正确使用索引
- php计算字符串散列,php计算字符串的SHA-1散列函数sha1()
- SBUS协议转换芯片,SBUS转UART,sbus转rs232,sbus解码IC,zr003
- 旷视产品营销总监吕盟:构建AIoT时代的城市智慧|量子位沙龙回顾
- css之左边div固定宽度右边div自适应布局
- C# 与 C++ 数据类型对照
- Python标准类型的分类
- php gd libpng,libpng版本问题导致的PHP调用gd扩展出错解决方案
- Get-ChildItem参数之 -Exclude,Filter,Recurse应用
- 安卓手游辅助分析与开发!五步搞定Android开发环境部署,深度好文
- C# ActiveX 网页打包验证自动升级
热门文章
- 超仪电子 java面试_全靠这份阿里大佬的“Java进阶面试手册”助我收获蚂蚁金服offer!...
- [Java] 蓝桥杯ALGO-48 算法训练 关联矩阵
- [Java] 蓝桥杯ALGO-85 算法训练 进制转换
- 【操作系统】线程的实现-思维导图
- c语言编写自动生成密码,c语言密码生成.doc
- aws 部署python lambda_awslambda-为Lambda工具部署Python项目。-Philipp Gorczak Getting started Usage...
- java分桃子_Java经典编程题分桃子
- Android线程和线程Handler基础一览
- 看小白如何解决ajax跨域问题
- iOS 10 UserNotifications 框架解析