自然语言处理NLP算法总结(持续更新)
2019独角兽企业重金招聘Python工程师标准>>>
分词
- 最大匹配法(机械分词)
- n-gram 参考
- hmm 参考
- crf
词性标注
- crf
命名实体识别NER
- CRF
- biLSTM-CRF
关键词提取
- tf-idf
- textrank
基于PageRank
句法分析、依存关系
词向量
- 独热编码(one-hot encoder):
比如有三个单词“man"、”husband“、”dog“,将之分别表示为[0,0,1],[0,1,0],[1,0,0],这些词向量可以作为机器学习模型的输入数值向量,但是它们难以表达关联性,而且当词库单词量庞大时,独热编码的维度也会十分巨大,给计算和存储带来不少问题。
- Word2Vec
- GloVec
- FastText
- WordRank
参考
句子/篇章向量
词袋表示(Bag-of-words model):
例如两个句子:”She loves cats.“、”He loves cats too.“ 我们可以构建一个词频字典:{"She": 1, "He": 1, "loves": 2 "cats": 2, "too": 1}。根据这个字典, 我们能将上述两句话重新表达为下述两个向量: [1, 0, 1, 1, 0]和[0, 1, 1, 1, 1],每1维代表对应单词的频率。
Doc2Vec:
是 Tomas Mikolov 基于 word2vec 模型提出的,其具有一些优点,比如不用固定句子长度,接受不同长度的句子做训练佯本,Doc2vec 是一个无监督学习算法,该算法用于预测一个向量来表示不同的文档,该模型的结构潜在的克服了词袋模型的缺点.
论文LSI(潜在语义索引):
潜在语义索引(Latent Semantic Indexing,以下简称LSI),有的文章也叫Latent Semantic Analysis(LSA)。它是一种简单实用的主题模型。LSI是基于奇异值分解(SVD)的方法来得到文本的主题的。
参考LDA:
(Latent Dirichlet Allocation)中文翻译为:潜在狄利克雷分布。LDA主题模型是一种文档生成模型,是一种非监督机器学习技术。LDA是基于贝叶斯模型的。
参考其他:参考
文本检索
BM25:一种用来评价搜索词和文档之间相关性的算法,主要就是计算一个query里面所有词和文档的相关度,然后在把分数做累加操作,而每个词的相关度分数主要还是受到tf/idf的影响。
参考 R(qi,d)是每个词和文档的相关度值,其中qi代表每个词,d代表相关的文档,Wi是这个词的权重,然后所有词的乘积再做累加。
文本分类
- 传统机器学习方法:LR、SVM、决策树、...
- fasttext
- rnn
- cnn
机器翻译
文本摘要
- textrank
- LSTM-attention
ref:https://github.com/dongjun-Lee/text-summarization-tensorflow
阅读理解
问答匹配
自动生成
转载于:https://my.oschina.net/u/3851199/blog/1941968
自然语言处理NLP算法总结(持续更新)相关推荐
- 自然语言处理评测汇总(持续更新)
自然语言处理评测汇总(持续更新) 目录 自然语言处理评测汇总(持续更新) 一.评测相关会议 1. WSDM Cup 2021(3月份) 2. TAC相关评测(3月份) 3. CCKS 2021相关评测 ...
- Interview之NLP:人工智能领域求职岗位—自然语言处理NLP算法工程师职位的简介、薪资介绍、知识结构之详细攻略
Interview之NLP:人工智能领域求职岗位-自然语言处理NLP算法工程师职位的简介.薪资介绍.知识结构之详细攻略 目录 自然语言处理NLP算法工程师的职位简介 1.资讯指数 2.各大公司的具体职 ...
- IRS中波束赋形设计源代码之AO算法学习(持续更新,多多交流)
IRS中波束赋形设计源代码之AO算法学习(持续更新,多多交流) 论文:Weighted Sum-Rate Maximization for Reconfigurable Intelligent Sur ...
- 自然语言处理数据集集锦(持续更新ing...)
诸神缄默不语-个人CSDN博文目录 最近更新时间:2023.6.27 最早更新时间:2023.4.25 文本摘要主题的数据集见我之前写的另一篇博文:文本摘要数据集的整理.总结及介绍(持续更新ing-) ...
- 常见的面试问题————NLP篇(持续更新)
Word2Vec 的原理,使用的技巧? https://mp.weixin.qq.com/s/lerKdFXkhqQaaVl4BGgblA Word2Vec 的多层 softmax 是怎么实现的,思路 ...
- 2021年自然语言处理 (NLP) 算法学习路线!
在过去几年时间里,NLP领域取得了飞速的发展,这也推动了NLP在产业中的持续落地,以及行业对相关人才的需求. 但这里我们要面对的现实是,行业上90%以上的NLP工程师是"不合格的" ...
- 【最新】2021年自然语言处理 (NLP) 算法学习路线!
在过去几年时间里,NLP领域取得了飞速的发展,这也推动了NLP在产业中的持续落地,以及行业对相关人才的需求. 但这里我们要面对的现实是,行业上90%以上的NLP工程师是"不合格的" ...
- 2021年自然语言处理(NLP)算法学习路线!
NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生.我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准资 ...
- 目标跟踪经典算法汇总(持续更新...)
如题,虽然这个问题是经典目标跟踪算法,但事实上,可能我们并不需要那些曾经辉煌但已被拍在沙滩上的tracker(目标跟踪算法),而是那些即将成为经典的,或者就目前来说最好用.速度和性能都看的过去trac ...
最新文章
- 1033 To Fill or Not to Fill (25 分)
- 再也不怕复现论文!arXiv携手Papers with Code,提交论文+上传代码一步到位
- Python爬虫的终极必杀绝技
- mvc5入门示例博客(有惊喜)
- ApacheTomcat解析请求参数的过程
- TestNG方法測试及注意要点 代码及配置具体解释(解决testng方法不运行问题)
- JS文件信息收集工具-LinkFinder
- C++学习笔记章节中 面向对象详解
- VMware NSX词汇表
- LR mobile HTTP/HTML协议实战
- 英文站变现赚美金的7种方式
- 非线性控制1.0——模糊控制理论基础
- 鼎捷易飞ERP视频教程-金速鹏-专题视频课程
- 基于单片机的语音小车设计
- 算法入门:日期计算(附蓝桥杯)
- undefined reference to 问题汇总及解决方法
- 使用百度网盘上传大文件到云服务器
- android SDK-25事件分发机制--源码正确解析
- EMQX 入门教程 环境篇④——修改HTTP:Dashboard监听的端口
- 粗谈云端概念及首次写博客感悟