首先需要安装并加载tm包。


1、读取文本

x = readLines("222.txt")

2、建立语料库

 > r=Corpus(VectorSource(x))> rA corpus with 7012 text documents

3、语料库输出,保存到硬盘

> writeCorpus(r)

4、查看语料库

> print(r)
A corpus with 7012 text documents
> summary(r)
A corpus with 7012 text documentsThe metadata consists of 2 tag-value pairs and a data frame
Available tags are:create_date creator
Available variables in the data frame are:MetaID 

> inspect(r[2:2])
  A corpus with 1 text document

The metadata consists of 2 tag-value pairs and a data frame
  Available tags are:
  create_date creator
  Available variables in the data frame are:
  MetaID

[[1]]
  Female; Genital Neoplasms, Female/*therapy; Humans

> r[[2]]
  Female; Genital Neoplasms, Female/*therapy; Humans

5、建立“文档-词”矩阵

> dtm = DocumentTermMatrix(r)
> head(dtm)
A document-term matrix (6 documents, 16381 terms)Non-/sparse entries: 110/98176
Sparsity           : 100%
Maximal term length: 81
Weighting          : term frequency (tf)

6、查看“文档-词”矩阵

> inspect(dtm[1:2,1:4])

7、查找出现200次以上的词

> findFreqTerms(dtm,200)[1] "acute"          "adjuvant"       "advanced"       "after"         [5] "and"            "breast"         "cancer"         "cancer:"       [9] "carcinoma"      "cell"           "chemotherapy"   "clinical"
[13] "colorectal"     "factor"         "for"            "from"
[17] "group"          "growth"         "iii"            "leukemia"
[21] "lung"           "lymphoma"       "metastatic"     "non-small-cell"
[25] "oncology"       "patients"       "phase"          "plus"
[29] "prostate"       "randomized"     "receptor"       "response"
[33] "results"        "risk"           "study"          "survival"
[37] "the"            "therapy"        "treatment"      "trial"
[41] "tumor"          "with"          

7、移除出现次数较少的词

inspect(removeSparseTerms(dtm, 0.4))

8、查找和“stem”的相关系数在0.5以上的词

> findAssocs(dtm, "stem", 0.5)stem cells 1.00  0.61 

9、计算文档相似度(用cosine计算距离)

> dist_dtm <- dissimilarity(dtm, method = 'cosine')
> head(dist_dtm)
[1] 1.0000000 0.7958759 0.8567770 0.9183503 0.9139337 0.9309934

10、聚类

> hc <- hclust(dist_dtm, method = 'ave')
> plot(hc,xlab='')

转载于:https://www.cnblogs.com/todoit/archive/2012/07/13/2589741.html

R学习之——R用于文本挖掘(tm包)相关推荐

  1. R语言文本挖掘tm包详解(附代码实现)

    文本挖掘相关介绍 1什么是文本挖掘 2NLP 3 分词 4 OCR 5 常用算法 6 文本挖掘处理流程 7 相应R包简介 8 文本处理 词干化stemming snowball包 记号化Tokeniz ...

  2. R语言 文本挖掘 tm包 使用

    为什么80%的码农都做不了架构师?>>>    #清除内存空间 rm(list=ls())  #导入tm包 library(tm) library(SnowballC) #查看tm包 ...

  3. 10-R语言文本挖掘tm包详解

    0.美图 文本挖掘相关介绍 1.什么是文本挖掘 文本挖掘是 抽取有效.新颖.有用.可理解的.散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程. 在文本挖掘领域中,文本自动分类,判同, ...

  4. R语言︱文本挖掘套餐包之——XML+SnowballC+tm包

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言︱文本挖掘套餐包之--XML+tm+Sn ...

  5. R语言文本挖掘相关包介绍

    本文摘自<Kears深度学习:入门.实战及进阶>第10章10.2小节. 文本挖掘被描述为"自动化或半自动化处理文本的过程",中文分词的结果就可以直接用来建立文本对象,最 ...

  6. R学习_multitaper包解析2:子函数spec.mtm.dpss,dpssHelper

    前言 之前讲了MTM(多锥形窗谱估计)的相关原理,现在来分析一下它的R语言的实现,这个实现是提出人的学生写的,和matlab的实现进行对照分析,加深理解,提高大家对这门技术的掌握程度,解析的顺序依旧是 ...

  7. R学习笔记(4): 使用外部数据

    来源于:R学习笔记(4): 使用外部数据 博客:心内求法 鉴于内存的非持久性和容量限制,一个有效的数据处理工具必须能够使用外部数据:能够从外部获取大量的数据,也能够将处理结果保存.R中提供了一系列的函 ...

  8. R语言系统自带及附属包开元可用数据集汇总

    R语言系统自带及附属包开元可用数据集汇总 目录 R语言系统自带及附属包开元可用数据集汇总 #R自带数据集 #R的各种包自带数据集 #R自带数据集 向量 euro #欧元汇率,长度为11,每个元素都有命 ...

  9. c语言 r语言 java,R语言rJava包安装载入及JAVA环境配置

    rJava 包的安装与载入 一般文本分词的教程都会贴出: install.packages("rJava") library(rJava) 来引导我们装载rJava包,运行inst ...

最新文章

  1. python发邮件实例_python 发邮件实例
  2. linux6的关机快捷键是,桌面应用|Fedora GNOME 的常用快捷键
  3. 【效率】推荐一款特别厉害的在线工具,程序员的百宝箱
  4. java final被覆盖_java中的final的使用
  5. Qt工作笔记-Qt文档阅读笔记-qualifiedName()的官方解析及XML使用名称空间
  6. 安装composer 提示需要反复重启解决办法
  7. 固态硬盘怎么看出厂日期_固态到底怎么选?雷克沙NM610和西部数据SN500固态硬盘实测对比...
  8. linux -- ubuntu桌面版安装xampp
  9. UML各种图画法总结
  10. 开启JAVA死锁之迷
  11. 如何从PDF中删除页面?
  12. 几个非常实用性的在线学习Ethical Hacking的网站
  13. ipad pro能用python编程吗_涨知识!iPad还可以运行Python代码
  14. 弹出启动windows安全中心服务器,win10系统启用windows安全中心服务器提示关闭的操作方法...
  15. 判断题 错与对的 t、f 是什么意思
  16. C语言计算个人所得税
  17. shell命令进制转换
  18. Chrome浏览器标签管理插件–OneTab
  19. 手机充电器的D+,D-电压
  20. Pytorch实战 |Y5 yolo.py文件解读

热门文章

  1. 关于游戏架构设计的一些整理吧
  2. LeetCode - Easy - 28. Implement strStr()
  3. spark官方文档_Spark整合Ray思路漫谈
  4. 什么是面试的关键?资深HR告诉你!
  5. VUE:兄弟组件间传参
  6. 如何使用Dockerfile构建镜像
  7. jQuery上传插件Uploadify使用Demo、本地上传(ssm框架下)
  8. Ubuntu安装LNMP
  9. webAPI token验证
  10. 很多人喜欢露脚踝你觉得时尚吗?