2019独角兽企业重金招聘Python工程师标准>>>

分词

  • 最大匹配法(机械分词)
  • n-gram 参考
  • hmm 参考
  • crf

词性标注

  • crf

命名实体识别NER

  • CRF
  • biLSTM-CRF

关键词提取

  • tf-idf
  • textrank 基于PageRank

句法分析、依存关系

词向量

  • 独热编码(one-hot encoder):比如有三个单词“man"、”husband“、”dog“,将之分别表示为[0,0,1],[0,1,0],[1,0,0],这些词向量可以作为机器学习模型的输入数值向量,但是它们难以表达关联性,而且当词库单词量庞大时,独热编码的维度也会十分巨大,给计算和存储带来不少问题。
  • Word2Vec
  • GloVec
  • FastText
  • WordRank

参考

句子/篇章向量

  • 词袋表示(Bag-of-words model):例如两个句子:”She loves cats.“、”He loves cats too.“ 我们可以构建一个词频字典:{"She": 1, "He": 1, "loves": 2 "cats": 2, "too": 1}。根据这个字典, 我们能将上述两句话重新表达为下述两个向量: [1, 0, 1, 1, 0]和[0, 1, 1, 1, 1],每1维代表对应单词的频率。

  • Doc2Vec:是 Tomas Mikolov 基于 word2vec 模型提出的,其具有一些优点,比如不用固定句子长度,接受不同长度的句子做训练佯本,Doc2vec 是一个无监督学习算法,该算法用于预测一个向量来表示不同的文档,该模型的结构潜在的克服了词袋模型的缺点.论文

  • LSI(潜在语义索引):潜在语义索引(Latent Semantic Indexing,以下简称LSI),有的文章也叫Latent Semantic Analysis(LSA)。它是一种简单实用的主题模型。LSI是基于奇异值分解(SVD)的方法来得到文本的主题的。参考

  • LDA:(Latent Dirichlet Allocation)中文翻译为:潜在狄利克雷分布。LDA主题模型是一种文档生成模型,是一种非监督机器学习技术。LDA是基于贝叶斯模型的。参考

  • 其他:参考

文本检索

BM25:一种用来评价搜索词和文档之间相关性的算法,主要就是计算一个query里面所有词和文档的相关度,然后在把分数做累加操作,而每个词的相关度分数主要还是受到tf/idf的影响。参考 R(qi,d)是每个词和文档的相关度值,其中qi代表每个词,d代表相关的文档,Wi是这个词的权重,然后所有词的乘积再做累加。

文本分类

  • 传统机器学习方法:LR、SVM、决策树、...
  • fasttext
  • rnn
  • cnn

机器翻译

文本摘要

  • textrank
  • LSTM-attention ref:https://github.com/dongjun-Lee/text-summarization-tensorflow

阅读理解

问答匹配

自动生成

转载于:https://my.oschina.net/u/3851199/blog/1941968

自然语言处理NLP算法总结(持续更新)相关推荐

  1. 自然语言处理评测汇总(持续更新)

    自然语言处理评测汇总(持续更新) 目录 自然语言处理评测汇总(持续更新) 一.评测相关会议 1. WSDM Cup 2021(3月份) 2. TAC相关评测(3月份) 3. CCKS 2021相关评测 ...

  2. Interview之NLP:人工智能领域求职岗位—自然语言处理NLP算法工程师职位的简介、薪资介绍、知识结构之详细攻略

    Interview之NLP:人工智能领域求职岗位-自然语言处理NLP算法工程师职位的简介.薪资介绍.知识结构之详细攻略 目录 自然语言处理NLP算法工程师的职位简介 1.资讯指数 2.各大公司的具体职 ...

  3. IRS中波束赋形设计源代码之AO算法学习(持续更新,多多交流)

    IRS中波束赋形设计源代码之AO算法学习(持续更新,多多交流) 论文:Weighted Sum-Rate Maximization for Reconfigurable Intelligent Sur ...

  4. 自然语言处理数据集集锦(持续更新ing...)

    诸神缄默不语-个人CSDN博文目录 最近更新时间:2023.6.27 最早更新时间:2023.4.25 文本摘要主题的数据集见我之前写的另一篇博文:文本摘要数据集的整理.总结及介绍(持续更新ing-) ...

  5. 常见的面试问题————NLP篇(持续更新)

    Word2Vec 的原理,使用的技巧? https://mp.weixin.qq.com/s/lerKdFXkhqQaaVl4BGgblA Word2Vec 的多层 softmax 是怎么实现的,思路 ...

  6. 2021年自然语言处理 (NLP) 算法学习路线!

    在过去几年时间里,NLP领域取得了飞速的发展,这也推动了NLP在产业中的持续落地,以及行业对相关人才的需求. 但这里我们要面对的现实是,行业上90%以上的NLP工程师是"不合格的" ...

  7. 【最新】2021年自然语言处理 (NLP) 算法学习路线!

    在过去几年时间里,NLP领域取得了飞速的发展,这也推动了NLP在产业中的持续落地,以及行业对相关人才的需求. 但这里我们要面对的现实是,行业上90%以上的NLP工程师是"不合格的" ...

  8. 2021年自然语言处理(NLP)算法学习路线!

    NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生.我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准资 ...

  9. 目标跟踪经典算法汇总(持续更新...)

    如题,虽然这个问题是经典目标跟踪算法,但事实上,可能我们并不需要那些曾经辉煌但已被拍在沙滩上的tracker(目标跟踪算法),而是那些即将成为经典的,或者就目前来说最好用.速度和性能都看的过去trac ...

最新文章

  1. 1033 To Fill or Not to Fill (25 分)
  2. 再也不怕复现论文!arXiv携手Papers with Code,提交论文+上传代码一步到位
  3. Python爬虫的终极必杀绝技
  4. mvc5入门示例博客(有惊喜)
  5. ApacheTomcat解析请求参数的过程
  6. TestNG方法測试及注意要点 代码及配置具体解释(解决testng方法不运行问题)
  7. JS文件信息收集工具-LinkFinder
  8. C++学习笔记章节中 面向对象详解
  9. VMware NSX词汇表
  10. LR mobile HTTP/HTML协议实战
  11. 英文站变现赚美金的7种方式
  12. 非线性控制1.0——模糊控制理论基础
  13. 鼎捷易飞ERP视频教程-金速鹏-专题视频课程
  14. 基于单片机的语音小车设计
  15. 算法入门:日期计算(附蓝桥杯)
  16. undefined reference to 问题汇总及解决方法
  17. 使用百度网盘上传大文件到云服务器
  18. android SDK-25事件分发机制--源码正确解析
  19. EMQX 入门教程 环境篇④——修改HTTP:Dashboard监听的端口
  20. 粗谈云端概念及首次写博客感悟

热门文章

  1. 告别大学生活,出来闯荡!
  2. php安装后检测不成功,apache无法解析php
  3. 2013年12月综合交友类行业网站综合影响力排名
  4. 40%的中小企业已倒闭,谁来救助剩下的60%?
  5. php生成sitemap.xml地图文件
  6. android:exported =true,什么是具有相同用户ID的Android应用程序
  7. 如何快速制作脚本?间隔时间自动使用按键精灵游戏技能辅助脚本
  8. 2014成都《IT领袖峰会》
  9. android爱哥的日历,安卓版人生日历日子使用方法
  10. CSS3边框及盒子阴影