自然语言处理(NLP)的一般处理流程!
文章目录
- 1. 什么是NLP
- 2. NLP主要研究方向
- 3. NLP的发展
- 4. NLP任务的一般步骤
- 5. 我的NLP启蒙读本
- 6. NLP、CV,选哪个?
1. 什么是NLP
自然语言处理 (Natural Language Processing) 是人工智能(AI)的一个子领域。**自然语言处理是研究在人与人交互中以及在人与计算机交互中的语言问题的一门学科。**为了建设和完善语言模型,自然语言处理建立计算框架,提出相应的方法来不断的完善设计各种实用系统,并探讨这些实用系统的评测方法。
2. NLP主要研究方向
- 信息抽取:从给定文本中抽取重要的信息,比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。
- 文本生成:机器像人一样使用自然语言进行表达和写作。依据输入的不同,文本生成技术主要包括数据到文本生成和文本到文本生成。数据到文本生成是指将包含键值对的数据转化为自然语言文本;文本到文本生成对输入文本进行转化和处理从而产生新的文本。
- 问答系统:对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
- 对话系统:系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。
- 文本挖掘:包括文本聚类、分类、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。
- 语音识别和生成:语音识别是将输入计算机的语音符号识别转换成书面语表示。语音生成又称文语转换、语音合成,它是指将书面文本自动转换成对应的语音表征。
- 信息过滤:通过计算机系统自动识别和过滤符合特定条件的文档信息。通常指网络有害信息的自动识别和过滤,主要用于信息安全和防护,网络内容管理等。
- 舆情分析:是指收集和处理海量信息,自动化地对网络舆情进行分析,以实现及时应对网络舆情的目的。
- 信息检索:对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。
- 机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。
3. NLP的发展
1950年前:图灵测试
1950年前阿兰·图灵图灵测试:人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器具有智能。1950-1970:主流:基于规则形式语言理论
乔姆斯基,根据数学中的公理化方法研究自然语言,采用代数和集合论把形式语言定义为符号的序列。他试图使用有限的规则描述无限的语言现象,发现人类普遍的语言机制,建立所谓的普遍语法。
1970-至今:主流:基于统计
谷歌、微软、IBM,20世纪70年代,弗里德里克·贾里尼克及其领导的IBM华生实验室将语音识别率从70%提升到90%。
1988年,IBM的彼得·布朗提出了基于统计的机器翻译方法。
2005年,Google机器翻译打败基于规则的Sys Tran。2010年以后:逆袭:机器学习
AlphaGo先后战胜李世石、柯洁等,掀起人工智能热潮。深度学习、人工神经网络成为热词。领域:语音识别、图像识别、机器翻译、自动驾驶、智能家居。
4. NLP任务的一般步骤
下面图片看不清楚的,可以百度脑图查看,点击链接
5. 我的NLP启蒙读本
《数学之美》–吴军
6. NLP、CV,选哪个?
NLP:自然语言处理,数据是文本。
CV:计算机视觉,数据是图像。
两者属于不同的领域,在遇到这个问题的时候,我也是犹豫了很久,想了很多,于是乎得出一个结论:都是利用深度学习去解决现实世界存在的问题,离开了CV,NLP存活不了;离开了NLP,CV存活不了。两者就像兄弟姐妹一样,整个“家庭”不能分割但个体又存在差异!
NLP/CV属于两个不同的研究领域,都是很好的领域,可以根据自己的爱好作出适合自己的选择,人工智能是一个多学科交叉的领域,需要的不仅仅是单方面的能力,而是多方面的能力。对于每个人来说都有自己的侧重点,毕竟人的精力是有限的。只要在自己擅长的领域里持续深耕,我相信都会有所成就!
这里提供一些参考资料给大家阅读阅读,做出适合自己的选择:
- 一文看尽2018全年AI技术大突破:NLP跨过分水岭、CV研究效果惊人
- 《数学之美》–吴军
- BERT时代与后时代的NLP
【机器学习通俗易懂系列文章】
作者:@mantchs
GitHub:https://github.com/NLP-LOVE/ML-NLP
欢迎大家加入讨论!共同完善此项目!群号:【541954936】
自然语言处理(NLP)的一般处理流程!相关推荐
- 中文自然语言处理(NLP)(三)运用python jieba模块计算知识点当中关键词的词频
前两次链接:中文自然语言处理(NLP)(一)python jieba模块的初步使用 中文自然语言处理(NLP)(二)python jieba模块的进一步学习和xlrd模块 续上次的随笔之后 ...
- 自然语言处理NLP——GSDMM用于短文本聚类
目录 系列文章目录 一.论文与算法介绍 1.论文背景与简介 2.电影分组过程模拟GSDMM聚类 3.算法模型与流程 4.论文结果与分析 二.GSDMM模型复现(MGP过程) 1.核心思想 2.实现过程 ...
- [深度学习] 自然语言处理 --- NLP入门指南
NLP的全称是Natuarl Language Processing,中文意思是自然语言处理,是人工智能领域的一个重要方向 自然语言处理(NLP)的一个最伟大的方面是跨越多个领域的计算研究,从人工智能 ...
- 视频教程-从零开始自然语言处理-NLP
从零开始自然语言处理 楚门智能创始人,昆士兰理工大学数据科学硕士,多年大数据行业经验,原联想电商大数据平台负责人,Cloudera认证架构师.管理员,主要科研方向为数据科学,在自然语言处理领域有的经验 ...
- 自然语言处理(NLP)之word2vec的实现(PTB语料库)<找语义相近的词>
在2013年Google开源了一款用于词向量计算的工具:word2vec,它本身不是一种深度学习之类的模型,是一种用于计算词嵌入的体系结构.实际上大家平时说的这个指代的就是前面介绍过的跳字(元)模型与 ...
- 视频教程-2020新版 自然语言处理NLP视频课程Word2Vec GloVe关系挖掘-NLP
2020新版 自然语言处理NLP视频课程Word2Vec GloVe关系挖掘 6年开发经验,具有丰富的移动端.中台.后端.大数据.NLP.语音生成.图像识别开发经验,团队管理经验:擅长数据架构,NLP ...
- 智能金融的三驾马车之自然语言处理NLP
什么是自然语言处理NLP 用通俗的话来讲,自然语言处理NLP的目标是让机器能够理解人类的语言,NLP就是人和机器进行交流的技术.用专业语言来讲,自然语言处理有狭义和广义之分.狭义的自然语言处理是使用计 ...
- 自然语言处理NLP——ERNIE-M:基于回译机制的“预训练-微调”多语言模型
目录 系列文章目录 一.背景介绍 1.多语言任务 1.1 多语言任务定义 1.2 多语言任务难题 2.多语言模型 2.1 多语言模型定义与原理 2.2 多语言模型困难 3.论文简介 3.1 背景与开发 ...
- 手把手教你看懂自然语言处理-NLP(4个典型应用+5个难点+6个实现步骤)
导读:自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域.因此,自然语言处理是与人机交互的领域有关的.在自然语言处理面临很多挑战,包括自然语言理解,因 ...
最新文章
- iOS下拉tableView实现上面的图片放大效果
- 鸿蒙os2.0游戏体验,华为运行鸿蒙OS 2.0体验:界面近似EMUI 11
- Linux常用初级指令介绍
- 不要打2岁内和6岁后的孩子 父母必看
- RedisSingleUtils 工具类
- sublimeText3安装、激活、环境配置与代码补全神器Kite安装配置
- Web前端-HTML基础
- 制冷与空调设备运行操作作业题库(含答案)
- 圆内接等边三角形的画法_几何画板绘制圆的内接正三角形的操作教程
- css兼容360浏览器极速,CSS hack 360浏览器 极速模式与兼容模式
- 离线语音识别应用(windows和Android)
- 高中信息技术教资科目三总结
- cesium图层管理
- RabbitMQ管理界面操作详情
- 两台设备连接在同一Wi-Fi不能通信问题解决
- 我的理想计算机软件设计师,我的理想设计师
- 类unix系统中启动脚本记录
- PyCharm安装及汉化
- CentOS 7 更改 任务栏 高度
- IK Analyzer
热门文章
- Python 基于tkinter模块的GUI可视化学生成绩管理系统实现(含文件保存)
- No tracked branch configured for branch dev-rongtong or the branch doesn‘t exist.
- 旅行售货员问题及其近似算法(NPC问题)
- 【竞赛项目,测试点】
- 如何使用outlook配置qq邮箱
- SDWAN组网与传统组网方式的对比
- 网友爆料奇葩leader:日报要精确到0.5小时,每晚检查!每周写周计划,评审ABCD等级,午休不许刷手机、看视频、玩游戏!...
- Redis Lua 列表批量操作
- STM32FXXX J-link下载程序说明
- 计算机无法继续安装程序,解决方法:如果计算机继续无法安装图形驱动程序,该怎么办...