【机器学习】自然语言处理中的关键技术
目录
- 参考
- 分词
- 规则分词
- 统计分析
- 深度学习分词
- 混合分词
- 词性标注的定义
- 命名实体识别
- 深度学习NER
- 关键词提取
- TF-IDF算法
- TextRank算法
- LSA/LSI/LDA算法
- LSA\LSI算法
- LDA算法
参考
华为云学院
分词
中文分词(Chinese Word Segmentation):指的是将一个汉字序列切分成一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
例如:一九九八年/中国/实现/进出口/总值/达/一千零九十八点二亿/美元
规则分词
规则分词:一种机械分词方法,主要是通过维护词典,在切分语句时,将语句中的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。按照匹配切分的方式,主要有:
(1)正向最大匹配法(Maximum Match Method,MM法)
(2)逆向最大匹配法(Reverse Maximum Match Method,RMM法)
(3)双向最大匹配法(Bi-direction Match Method,MM法)
特点:简单高效,词典维护困难。网络新词层出不穷,词典很难覆盖所有词。
统计分析
将分词作为字在字串中的序列标注任务来实现。每个字在构造一个特定的词语时都占据着一个确定的构词位置,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。
步骤:
(1)建立统计语言模型
(2)对句子进行单词划分,然后对结果进行概率计算,获得概率最大的分词方式。如隐马尔科夫(HMM)、条件随机场(CRF)等。
深度学习分词
使用word2vec对词料的词进行嵌入,得到词嵌入后,用词嵌入特征输入给双向LSTM,对输出的隐层加一个线性层,然后加一个CRF得到最终实现的模型。
混合分词
在实际工程应用中,多是基于一种分词算法,最常用的是先基于词典的方式分词,再用统计分词方式进行辅助。
词性标注的定义
词性标注是指为分词结果中的每个单词标注一个正确的词性的过程。比如一个词是名词、动词、形容词或其他词性。
词性:词汇基本的语法属性。
目的:是很多NLP任务的预处理步骤,如句法分析、信息抽取,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺。
方法:基于规则的方法、基于统计的方法、基于深度学习的方法。
命名实体识别
命名实体识别(Named Entities Recognition,NER):又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。例如:冶金/n 工业部/n 洛阳/ns 耐火材料/l 研究院/n。
NER研究的命名实体一般分为3大类(实体类、时间类和数字类)和7小类(人名、地名、组织机构名、时间、日期、货币和百分比)。
与自动分词、词性标注一样,命名实体识别也是自然语言中的一个基础任务,是信息抽取、信息检索、机器翻译、问答系统等技术必不可少的组成部分。
步骤:(1)实体边界识别。(2)确定实体类别(人名、地名、机构名)
难点:(1)各类命名实体的数量众多。(2)命名实体的构成规律复杂。(3)嵌套情况复杂。(4)长度不确定
深度学习NER
关键词提取
关键词是代表文章重要内容的一组词,现实中大量文本不包含关键词,因此自动提取关键词技术能使人们便捷地浏览和获取信息,对文本聚类、分类、自动摘要等起重要的作用。
关键词提取算法一般也可以分为有监督和无监督两类。
有监督:通过分类的方式进行,通过构建一个较为丰富和完善 的词表,然后通过判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到提取关键词的效果。
无监督:不需要人工生成、维护的词表,不要人工标准语料辅助进行训练。例如,TF-IDF算法、TextRank算法、主题模型算法(LSA、LSI、LDA)
TF-IDF算法
词频-逆文档频率算法(Term Frequency-Inverse Document Frequency,TF-IDF):是一种基于统计的计算方法,常用于评估在一个文档集中一个词对某份文档的重要程度。
TextRank算法
TextRank算法的基本思想来源于Google的PageRank算法。PR算法用来评价搜索系统覆盖网页重要性的一种方法。其基本思想有两条:
(1)链接数量。一个网页被越多的其他网页链接,说明这个网页越重要。
(2)链接质量。一个网页被一个越高权重的网页链接,也能说明这个网页重要。
LSA/LSI/LDA算法
主题模型认为在词与文档之间没有直接的联系,它们应当还有一个维度将它们串联起来,这个维度称为主题。每个文档都应该你对应着一个或者多个主题,而每个主题都会有对应的词分布,通过主题可以得到每个文档的词分布。
LSA\LSI算法
LDA算法
【机器学习】自然语言处理中的关键技术相关推荐
- NLP之BoWNLTK:自然语言处理中常用的技术——词袋法Bow、NLTK库
NLP之BoW&NLTK:自然语言处理中常用的技术--词袋法Bow.NLTK库 目录 输出结果 实现代码 输出结果 [[0 1 1 0 1 0 0 0 1 1 1 1 1 1 1 1 1 0 ...
- 自然语言处理中的预训练技术发展史
公众号关注 "视学算法" 设为 "星标",重磅干货,第一时间送达! 本文作者:张俊林 https://zhuanlan.zhihu.com/p/49271699 ...
- 自然语言处理中的语言模型与预训练技术的总结
目录 0. 背景 1. 统计语言模型(Statistical Language Model) 马尔科夫假设(Markov Assumption) N-Gram模型 拉普拉斯平滑(Laplace Smo ...
- 【NLP】从WE、ELMo、GPT到Bert模型—自然语言处理中的预训练技术发展史
Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得.那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角 ...
- 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
本文可以任意转载,转载时请标明作者和出处. 张俊林 2018-11-11 (如果图片浏览有问题可以转至:知乎版本) Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高 ...
- Bert模型-自然语言处理中的预训练技术发展史
为什么Bert最近很火? 其实Bert并没有重大的理论或者模型创新,创新并不算大.主要原因是效果太好了,刷新了很多NLP任务的最好性能,有些任务还被刷爆了.另外一点是Bert具备广泛的通用性,绝大部分 ...
- 从Word Embedding到Bert模型:自然语言处理中的预训练技术发展史
转:https://zhuanlan.zhihu.com/p/49271699 作者:张俊林 专栏:深度学习前沿笔记 目录: 1.图像领域的预训练 2.Word Embedding考古史 3.从Wor ...
- 【发展史】自然语言处理中的预训练技术发展史—Word Embedding到Bert模型
目录 自然语言处理中的预训练技术发展史-Word Embedding到Bert模型 1 图像领域的预训练 2 Word Embedding考古史 3 从Word Embedding到ELMO 4 从W ...
- 【技术综述】深度学习在自然语言处理中的应用发展史
本篇介绍深度学习在自然语言处理(NLP)中的应用,从词向量开始,到最新最强大的BERT等预训练模型,梗概性的介绍了深度学习近20年在NLP中的一些重大的进展. 作者&编辑 | 小Dream哥 ...
最新文章
- golang 随机数 math/rand包 crypto/rand包
- 简述进程的启动、终止的方式以及如何进行进程的查看。
- 抽象工厂模式_抽象工厂模式
- mongoDB非关系型数据库
- coreboot学习9:ramstage阶段之设备初始化流程
- Google Puppeteer加入到headless Chrome的工具行列
- rac ogg to mysql_RAC环境下OGG的HA问题请教!
- paip. sip module implements API v10.0 to v10.1 but the PyQt4.QtCore module requires API v9.2
- 数据库——数据字典是什么?
- 帮助你提高排版技巧的18个 PS 文字特效教程
- C++类的构造函数及操作符()重载
- 计算机病毒中的后门病毒,国家计算机病毒中心发现恶意后门程序新变种
- vue使用file-saver本地文件导出
- 2021-09-10体脂模块做体脂秤方案,体脂秤模块原理解析
- 我们需要“梦想比回忆多”的精神
- 如何快速批量修改图片名称?
- html5页面 学生作品,最完整长页面H5制作教程来啦!
- Hive输出文件的间隔符
- 乘法原理的例题和答案_加法原理与乘法原理练习题
- Oracle-DDL语句详解
热门文章
- 出处大神git_iOS---学习研究大牛Git高星项目YYCategories(一)
- 第16章 第一个信徒
- c实现多播客户端与服务端
- 部署VCenter Server
- Smart forms
- 年度结转的时候,弹出“系统所用科目被删除,不能结转上年度数据”
- MySQL数据库被黑了
- 使用RENREN-GENERATOR时遇到循环错误问题 Relying upon circular references is discouraged and they are prohibited
- android智能云电视,率先升级Android4.0 TCL3D智能云电视独领技术风潮
- antd菜单栏与react-router刷新页面不跳转