每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~

———————————————————————————

词向量的表示主流的有两种方式,一种当然是耳熟能详的google的word2vec,还有一类就是GloVe。那么前面一类有三个开源的包,后面这一类我倒是看到得不多,恰好是在我关注了许久的一个包里面有,它就是text2vec啦。该包提供了一个强大API接口,能够很好地处理文本信息。

本包是由C++写的,流处理器可以让内存得到更好的利用,一些地方是用RcppParallel包进行并行化加乘,同时兼容各个系统的服务器。如果没有并行的地方,大家也可以自己用foreach包来自己加速。

这个生态系统也是笔者见到过的,R语言里面最好、最全面的包了,包含了很多类型的算法以及成熟的应用。而且包的介绍十分详尽,很棒!!

系列文章:

重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介)
R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例(二,情感标注)

R+NLP︱text2vec包——四类文本挖掘相似性指标 RWMD、cosine、Jaccard 、Euclidean (三,相似距离)

————————————————————————————————

该包的四大功能

1、快速文本表达方式。文档可以以多种方式表达,单独词组、n-grams、特征hashing化的方法等。

2、GloVe词向量表达

3、LDA主题模型,LDA(latent dirichlet allocation)、LSA(latent sematic analysis),那么这个就是继lda、topicmodels两大包之后,第三个有主题模型功能的包啦~前面两个包可以参考我的另外博客:

R语言︱LDA主题模型——最优主题数选取(topicmodels)+LDAvis可视化(lda+LDAvis)

4、距离计算。cosine距离、jaccard距离、Relaxed word mover's distance(在最近的Kaggle比赛中很有效)、Euclidean距离。

————————————————————————————————————

一、快速文本表达

文档可以以多种方式表达,单独词组、n-grams、特征hashing化的方法等。
      一般来说文本分析的步骤有以下三个步骤:
1、第一步:把内容表达成为文档-词组矩阵(document-term矩阵,DTM)或者词组共现矩阵(term-co-occurrence矩阵,TCM),换言之第一步就是在文档之上创造一个词条地图。
2、第二步:找个模型在DTM上进行拟合,有LDA、文本分类等
3、第三步:在验证集上进行验证

————————————————————————————————

二、GloVe词向量表达

在Tomas Mikolov等人开发了word2vec词向量表达工具之后,一大批衍生方法由此崛起与发展,其中一种斯坦福大学的GloVe(Global Vectors for word representation)就是一篇非常好的文献。
      主要是在词语共现矩阵下因式分解。经过代码优化GloVe性能提高了2-3倍,是通过单精度浮点运算。

————————————————————————————————————————

三、LDA主题模型

LDA主题模型是基于lda包开发的(Jonathan Chang),在下次发布的时候该主题模型的引擎就会嵌入到lda包之中,目前text2vec开发模型要比lda快2倍,比topicmodels包快10倍。LSA模型是基于irlab包。

——————————————————————————————————————

四、距离计算

  • Cosine
  • Jaccard
  • Relaxed Word Mover's Distance
  • Euclidean

还在研究中,后续加更...

——————————————————————————————————————

参考文献:

1、重磅︱文本挖掘深度学习之word2vec的R语言实现

2、语言︱LDA主题模型——最优主题数选取(topicmodels)+LDAvis可视化(lda+LDAvis)

3、自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)

4、NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重)

5、NLP︱R语言实现word2vec(词向量)经验总结(消除歧义、词向量的可加性)

重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介)相关推荐

  1. R+NLP︱text2vec包——四类文本挖掘相似性指标 RWMD、cosine、Jaccard 、Euclidean (三,相似距离)

    要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 在之前的开篇提到了text2vec ...

  2. R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例(二,情感标注)

    在之前的开篇提到了text2vec,笔者将其定义为R语言文本分析"No.1",她是一个文本分析的生态系统.笔者在学习之后发现开发者简直牛!基于分享精神,将自学笔记记录出来.开篇内容 ...

  3. 细思极恐——R语言forestplot包画meta分析群体药动学常用森林图

    细思极恐--R语言forestplot包画meta分析群体药动学常用森林图 今天,笔者想分享一下最近科研作图的经历,最主要的就是用于群体药动学模型建立的森林图,其百度百科定义为: 森林图是以统计指标和 ...

  4. r语言 bsda包_使用R语言creditmodel包进行Vintage分析或留存率分析

    1 什么是vintage分析? Vintage分析(账龄分析法)被广泛应用于信用卡及信贷行业,这个概念起源于葡萄酒,即不同年份出产的葡萄酒的品质有差异,那么不同时期开户或者放款的资产质量也有差异,其核 ...

  5. 使用R语言creditmodel包进行Vintage分析或留存率分析

    1 什么是vintage分析? Vintage分析(账龄分析法)被广泛应用于信用卡及信贷行业,这个概念起源于葡萄酒,即不同年份出产的葡萄酒的品质有差异,那么不同时期开户或者放款的资产质量也有差异,其核 ...

  6. R语言GD包地理探测器分析时报错、得不到结果等情况的解决方案

      本文介绍在利用R语言的GD包,实现自变量最优离散化方法选取与执行.地理探测器(Geodetector)操作时,出现各类报错信息.长时间得不到结果等情况的解决方案.   在之前的文章R语言GD包基于 ...

  7. R语言DEDeq2包进行RNA-seq分析总结

    最近在学习DESeq2包进行RNA-seq分析,并画火山图,分析代码总结如下: rm(list = ls()) options(stringsAsFactors = F)## 读入counts数据 e ...

  8. 09-R中文文本分析方便工具包chinese.misc简介

    文章目录 0.美图 1. chinese.misc安装与数据准备 2.为什么会出现chinese.misc 3.chinese.misc包的特点 4. chinese.misc中的内容很多,简单罗列: ...

  9. c语言 r语言 java,R语言rJava包安装载入及JAVA环境配置

    rJava 包的安装与载入 一般文本分词的教程都会贴出: install.packages("rJava") library(rJava) 来引导我们装载rJava包,运行inst ...

最新文章

  1. asp.net创建文件夹出错的解决方案[转]
  2. linux下svn迁移
  3. Java并发编程—常见面试题
  4. python基础(part11)-作用域LEGB
  5. 【C语言简单说】三:变量总结ASCII码扩展(5)
  6. [html] 在a标签中,怎样防止链接跳转?
  7. Java关于延迟加载的一些应用最佳实践
  8. jquery 扩展ajax请求,jQuery如何管理、扩展AJAX请求
  9. C和指针---第十一章:动态内存分配
  10. paip.SOCKET抓包工具总结V2012.9.17
  11. HFS远程命令执行漏洞入侵抓鸡黑阔服务器
  12. 解读《美国国家BIM标准》– BIM能力成熟度模型(六)
  13. 解决大疆无人机飞了一段距离就停下来的问题(大疆限飞50米)
  14. CTWAP和CTNET的区别
  15. 【DL】第7章 推荐表情符号
  16. “元气可乐”不是终点,“中国可乐”才是
  17. linux下 eps怎么打开方式,eps文件怎么用ps打开
  18. Ardunio Nano 无法上传解决办法
  19. 诛仙手游服务器维护中,诛仙手游2021年7月22日更新维护公告
  20. VIM 配置函数列表

热门文章

  1. 循环数组的动态规划问题
  2. Highsoft.Highcharts 5.0.6439.38401 key
  3. Maven项目环境搭建实例.
  4. C# MD5 加密算法
  5. SQL-Server 语句存档整理
  6. 精和泛的一点思考(跨学科思维)
  7. vsftpd更新和修改版本号教程
  8. Android 模块化编程之引用本地的aar
  9. mdpi ldpi hdpi的区别
  10. 图形学相关的一些数学知识(链接)