目录

  • 参考
  • 分词
    • 规则分词
    • 统计分析
    • 深度学习分词
    • 混合分词
  • 词性标注的定义
  • 命名实体识别
    • 深度学习NER
  • 关键词提取
    • TF-IDF算法
    • TextRank算法
    • LSA/LSI/LDA算法
    • LSA\LSI算法
    • LDA算法

参考

华为云学院

分词

中文分词(Chinese Word Segmentation):指的是将一个汉字序列切分成一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
例如:一九九八年/中国/实现/进出口/总值/达/一千零九十八点二亿/美元

规则分词

规则分词:一种机械分词方法,主要是通过维护词典,在切分语句时,将语句中的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。按照匹配切分的方式,主要有:
(1)正向最大匹配法(Maximum Match Method,MM法)
(2)逆向最大匹配法(Reverse Maximum Match Method,RMM法)
(3)双向最大匹配法(Bi-direction Match Method,MM法)
特点:简单高效,词典维护困难。网络新词层出不穷,词典很难覆盖所有词。

统计分析

将分词作为字在字串中的序列标注任务来实现。每个字在构造一个特定的词语时都占据着一个确定的构词位置,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。

步骤:
(1)建立统计语言模型
(2)对句子进行单词划分,然后对结果进行概率计算,获得概率最大的分词方式。如隐马尔科夫(HMM)、条件随机场(CRF)等。

深度学习分词

使用word2vec对词料的词进行嵌入,得到词嵌入后,用词嵌入特征输入给双向LSTM,对输出的隐层加一个线性层,然后加一个CRF得到最终实现的模型。

混合分词

在实际工程应用中,多是基于一种分词算法,最常用的是先基于词典的方式分词,再用统计分词方式进行辅助。

词性标注的定义

词性标注是指为分词结果中的每个单词标注一个正确的词性的过程。比如一个词是名词、动词、形容词或其他词性。
词性:词汇基本的语法属性。
目的:是很多NLP任务的预处理步骤,如句法分析、信息抽取,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺。
方法:基于规则的方法、基于统计的方法、基于深度学习的方法。

命名实体识别

命名实体识别(Named Entities Recognition,NER):又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。例如:冶金/n 工业部/n 洛阳/ns 耐火材料/l 研究院/n。
NER研究的命名实体一般分为3大类(实体类、时间类和数字类)和7小类(人名、地名、组织机构名、时间、日期、货币和百分比)。
与自动分词、词性标注一样,命名实体识别也是自然语言中的一个基础任务,是信息抽取、信息检索、机器翻译、问答系统等技术必不可少的组成部分。
步骤:(1)实体边界识别。(2)确定实体类别(人名、地名、机构名)
难点:(1)各类命名实体的数量众多。(2)命名实体的构成规律复杂。(3)嵌套情况复杂。(4)长度不确定

深度学习NER

关键词提取

关键词是代表文章重要内容的一组词,现实中大量文本不包含关键词,因此自动提取关键词技术能使人们便捷地浏览和获取信息,对文本聚类、分类、自动摘要等起重要的作用。
关键词提取算法一般也可以分为有监督和无监督两类。
有监督:通过分类的方式进行,通过构建一个较为丰富和完善 的词表,然后通过判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到提取关键词的效果。
无监督:不需要人工生成、维护的词表,不要人工标准语料辅助进行训练。例如,TF-IDF算法、TextRank算法、主题模型算法(LSA、LSI、LDA)

TF-IDF算法

词频-逆文档频率算法(Term Frequency-Inverse Document Frequency,TF-IDF):是一种基于统计的计算方法,常用于评估在一个文档集中一个词对某份文档的重要程度。

TextRank算法

TextRank算法的基本思想来源于Google的PageRank算法。PR算法用来评价搜索系统覆盖网页重要性的一种方法。其基本思想有两条:
(1)链接数量。一个网页被越多的其他网页链接,说明这个网页越重要。
(2)链接质量。一个网页被一个越高权重的网页链接,也能说明这个网页重要。

LSA/LSI/LDA算法

主题模型认为在词与文档之间没有直接的联系,它们应当还有一个维度将它们串联起来,这个维度称为主题。每个文档都应该你对应着一个或者多个主题,而每个主题都会有对应的词分布,通过主题可以得到每个文档的词分布。

LSA\LSI算法

LDA算法


【机器学习】自然语言处理中的关键技术相关推荐

  1. NLP之BoWNLTK:自然语言处理中常用的技术——词袋法Bow、NLTK库

    NLP之BoW&NLTK:自然语言处理中常用的技术--词袋法Bow.NLTK库 目录 输出结果 实现代码 输出结果 [[0 1 1 0 1 0 0 0 1 1 1 1 1 1 1 1 1 0 ...

  2. 自然语言处理中的预训练技术发展史

    公众号关注 "视学算法" 设为 "星标",重磅干货,第一时间送达! 本文作者:张俊林 https://zhuanlan.zhihu.com/p/49271699 ...

  3. 自然语言处理中的语言模型与预训练技术的总结

    目录 0. 背景 1. 统计语言模型(Statistical Language Model) 马尔科夫假设(Markov Assumption) N-Gram模型 拉普拉斯平滑(Laplace Smo ...

  4. 【NLP】从WE、ELMo、GPT到Bert模型—自然语言处理中的预训练技术发展史

    Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得.那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角 ...

  5. 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

    本文可以任意转载,转载时请标明作者和出处. 张俊林 2018-11-11 (如果图片浏览有问题可以转至:知乎版本) Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高 ...

  6. Bert模型-自然语言处理中的预训练技术发展史

    为什么Bert最近很火? 其实Bert并没有重大的理论或者模型创新,创新并不算大.主要原因是效果太好了,刷新了很多NLP任务的最好性能,有些任务还被刷爆了.另外一点是Bert具备广泛的通用性,绝大部分 ...

  7. 从Word Embedding到Bert模型:自然语言处理中的预训练技术发展史

    转:https://zhuanlan.zhihu.com/p/49271699 作者:张俊林 专栏:深度学习前沿笔记 目录: 1.图像领域的预训练 2.Word Embedding考古史 3.从Wor ...

  8. 【发展史】自然语言处理中的预训练技术发展史—Word Embedding到Bert模型

    目录 自然语言处理中的预训练技术发展史-Word Embedding到Bert模型 1 图像领域的预训练 2 Word Embedding考古史 3 从Word Embedding到ELMO 4 从W ...

  9. 【技术综述】深度学习在自然语言处理中的应用发展史

    本篇介绍深度学习在自然语言处理(NLP)中的应用,从词向量开始,到最新最强大的BERT等预训练模型,梗概性的介绍了深度学习近20年在NLP中的一些重大的进展. 作者&编辑 | 小Dream哥 ...

最新文章

  1. golang 随机数 math/rand包 crypto/rand包
  2. 简述进程的启动、终止的方式以及如何进行进程的查看。
  3. 抽象工厂模式_抽象工厂模式
  4. mongoDB非关系型数据库
  5. coreboot学习9:ramstage阶段之设备初始化流程
  6. Google Puppeteer加入到headless Chrome的工具行列
  7. rac ogg to mysql_RAC环境下OGG的HA问题请教!
  8. paip. sip module implements API v10.0 to v10.1 but the PyQt4.QtCore module requires API v9.2
  9. 数据库——数据字典是什么?
  10. 帮助你提高排版技巧的18个 PS 文字特效教程
  11. C++类的构造函数及操作符()重载
  12. 计算机病毒中的后门病毒,国家计算机病毒中心发现恶意后门程序新变种
  13. vue使用file-saver本地文件导出
  14. 2021-09-10体脂模块做体脂秤方案,体脂秤模块原理解析
  15. 我们需要“梦想比回忆多”的精神
  16. 如何快速批量修改图片名称?
  17. html5页面 学生作品,最完整长页面H5制作教程来啦!
  18. Hive输出文件的间隔符
  19. 乘法原理的例题和答案_加法原理与乘法原理练习题
  20. Oracle-DDL语句详解

热门文章

  1. 出处大神git_iOS---学习研究大牛Git高星项目YYCategories(一)
  2. 第16章 第一个信徒
  3. c实现多播客户端与服务端
  4. 部署VCenter Server
  5. Smart forms
  6. 年度结转的时候,弹出“系统所用科目被删除,不能结转上年度数据”
  7. MySQL数据库被黑了
  8. 使用RENREN-GENERATOR时遇到循环错误问题 Relying upon circular references is discouraged and they are prohibited
  9. android智能云电视,率先升级Android4.0 TCL3D智能云电视独领技术风潮
  10. antd菜单栏与react-router刷新页面不跳转