把tcga大计划的CNS级别文章标题画一个词云

获取网页的泛癌文章标题,目前一共24篇
get_title <- function(url){web <- xml2::read_html(url, encoding = "utf-8") #解析urlurlpage <- XML::htmlParse(web) #解析xmltitle = XML::xpathSApply(urlpage, '//*[@id="content"]/div[3]/section/article/div[1]/h3/a/articletitle') title=lapply(title, function(name){name[[1]]})title
}title=get_title(url='https://www.nature.com/collections/afdejfafdb/')sink("title.txt")
for (data in title) {print(data)#产生了一个特殊空格<U+00A0>,这个是空格的特殊格式;使用特殊字符进行表达\u00A0$
}
sink()
词频统计
file <- scan('title.txt',sep='\n',what='',encoding="UTF-8")
file <- sub('<U\\+00A0>', ' ',file) #去掉特殊空格<U+00A0>
txtList = lapply(file, strsplit,"\\s+") #使用空格符号进行分词
txtChar = tolower(unlist(txtList)) #把所有单词变为小写模式
txtChar <- txtChar[nchar(txtChar)>2] #去除字符长度小于2的词语
txtChar <- table(txtChar) #统计词频
#grepl类似grep,但是返回逻辑向量,即是否包含pattern
txtChar <- txtChar[!grepl('^[0-9-,]+$',names(txtChar),perl = TRUE)] #去除纯数字
txtChar <- txtChar[!grepl('^and|the|of$',names(txtChar),perl = TRUE)] #delete and the,of
data=data.frame(txtChar)
wordcloud2::wordcloud2(data, size = 1, shape = 'star')

wordcloud::wordcloud(words = data$txtChar, freq = data$Freq, min.freq = 1,max.words=200, random.order=FALSE, rot.per=0.35, colors=RColorBrewer::brewer.pal(8, "Dark2"))

ps

title里的对象不知道咋处理,所以直接存入文件中再读出来了
大佬有好办法的,欢迎留言,谢谢~

task4b_Nature_Pan_Cancer_词云相关推荐

  1. Rstudio 实现 爬虫 文本分词 个性化词云设计--我爱中国我爱党

    Rstudio 爬虫 文本分词个性化词云设计 目录 1.环境准备,加载依赖 2.rvest 爬虫,数据爬取 3.jiebaR用于分词,词频统计 4.wordcloud2 结果可视化 ========= ...

  2. echarts的词云图表类型有哪些_词云图的几种制作方法评测,你pick哪款

    前言 大家好,不知道大家会在什么场合使用词云图,对我来说词云图的优点除了它可以展示大量文本数据.从而让读者快速抓住重点,更重要的是词云图好看啊所以今天给大家分享几种词云图的制作方法.首先我们来思考一下 ...

  3. python制作词云时出现figure1 figure2_用Python生成词云

    词云是一种数据可视化技术,用于表示文本数据,其中每个单词的大小表示其出现的频率或重要性. 可以使用词云突出显示重要的文本数据点. 词云被广泛用于分析来自社交网络网站的数据. 为了在Python中生成词 ...

  4. python 词云_python数据可视化——词云

    阅读本文需要4分钟 词云百度百科:"词云"就是对网络文本中出现频率较高的"关键词"予以视觉上的突出,形成"关键词云层"或"关键词渲 ...

  5. Python 词云玩一下

    github 地址 https://github.com/amueller/word_cloud 安装词云 sudo pip install wordcloud 生成一个文本,里面显示你要显示的词库, ...

  6. 一步一步教你如何用python做词云_一步一步教你如何用Python做词云

    前言 在大数据时代,你竟然会在网上看到的词云,例如这样的. 看到之后你是什么感觉?想不想自己做一个? 如果你的答案是正确的,那就不要拖延了,现在我们就开始,做一个词云分析图,Python是一个当下很流 ...

  7. R语言生成词云(wordcloud)实战

    R语言生成词云(wordcloud)实战 目录 R语言生成词云(wordcloud)实战 #包的安装及导入 #仿真数据

  8. 可视化文本数据—词云

    "词云"这个概念由美国西北大学新闻学副教授.新媒体专业主任里奇·戈登(Rich Gordon)于提出,词云是一种可视化描绘单词或词语出现在文本数据中频率的方式,它主要是由随机分布在 ...

  9. python 词云手把手_手把手教你生成炫酷的词云

    前言: 话说,在这个大数据时代,获取信息显得极为容易,可正是如此,我们想要对信息进行直观地了解难度就大了.Excel是一个很好的数据可视化方法,不过有时候我们的数据来源可能并不是一张或者多张Excel ...

  10. python词云去除词_使用Python制作一个带GUI界面的词云自动生成工具(连载五)

    上一篇中我们介绍了自动生成词云工具(GUI)中数据清洗界面的实现过程(详解词云自动生成工具的数据清洗界面制作过程(连载四)),了解掌握了Grid.Pack混合布局的方法.本篇我们将讨论Python自动 ...

最新文章

  1. android webview 63版,Issue in WebView Android History When update Chrome stable version 63
  2. tomcat服务器上https的SSL证书安装配置
  3. web前端——html基础笔记 NO.12{css布局模型(流动,浮动,层模型)}
  4. 盘点过去10年美国规模最大科技公司IPO:阿里一直是纪录保持者
  5. Selenium 特点
  6. android viewpager监听,viewPager的OnPageChangeListener监听器的方法调用顺序
  7. C语言读取文件所有内容
  8. mfc9340扫描到文件服务器,兄弟MFC7340打印机怎么扫描文件?
  9. 利用Python分析新旧页面的A/B测试结果
  10. Part-02/通过案例学爬虫(豆瓣电影TOP250)
  11. 从学校,到字节跳动,追忆似水流年
  12. golang 源码分析之channel
  13. Java switch和break用法
  14. 【Visual C++】游戏开发笔记十六 讲解一个完整的回合制游戏demo
  15. 安卓的BP、AP、NV是什么意思
  16. FileZilla连接阿里云服务器
  17. 12.1接收短信【斯纳克PACS医学影像云平台用户手册】
  18. Maven+SSM整合
  19. 用Grid Factory生成TBC所需要的大地水准面模型文件
  20. 杰理之动态调节混响效果【篇】

热门文章

  1. 第一届腾讯社交广告高校算法大赛经验分享
  2. 基于钉钉的多人协作项目办公
  3. 卡特彼勒CAT SIS 售后服务系统3D零件图系统软件 2019年最新版
  4. 基于Tensorflow深度学习的ECG身份识别方法(二)
  5. 2010QQ游戏登录器(分析+感叹)
  6. 冯小刚“开撕”崔永元,娱乐圈炒作就要进入3.0时代
  7. 基于osgEarth的空间态势三维场景视点控制与卫星轨道绘制
  8. 微软云存储SkyDrive API:将你的数据连接到任何应用、任何平台,及任何设备上
  9. 杜兰大学计算机专业,杜兰大学计算机专业
  10. python requests 由于目标计算机积极拒绝,无法连接