词频统计是进行词云图绘制的基础,我用的有两种简单方法,一个是excel统计,一个是vosviewer统计,后者更加方便准确。

1、excel统计词频

以在web of science核心集中下载的数据为例(选择制表符分隔文件导出),其中DE字段表示论文关键词。
可以看到关键词之间以英文分号+空格分隔开来;

使用excel的分列功能,按照指定分隔符分列;

分列之后将所有列的内容,合并到第一列中,使得所有的关键词都在这一列

接下来,需要对数据进行简单的处理,首先为了好看,把所有首字母都改为大写的,方法如下:
在右边新建一列,用下面的公式,就可以进行首字母大写替换,然后用这一列覆盖原来的一列就好了;

=REPLACE(T3,1,1,UPPER(LEFT(T3,1)))
T3指的是待转化的关键词所在的单元格


接下来,对这一列进行简单的去重,复制处理后的首字母为大写字母的一列,然后对这新的一列进行去重,使用excel的删除重复值即可,还可以注意一下是不是第一个就是字母,因为有的第一位是空格,那么就需要我们先删除前面的空格再转化字母大小写;

在删除时选择以当前选定区域排序;

接下来就可以进行词频统计,在新的一列中输入统计词频公式;

=COUNTIFS($A$2:$A$389,B3)
$A$2:$A$389指的是所有关键词的范围,B3指的是待统计的词所在的已去重列的单元格


进行降序排序,得到词频统计表:

此外也可以对关键词这一列进行降序排序,这样可以人工检查是否仍然存在一个相似度很高的词,比如单复数问题,时态问题的词,有的话将他们合并后修改一下频次。

2、vosviewer统计词频

很明显,通过excel来统计词频,需要手动的地方很多,效率低,vosviewer提供了帮助计算词频的功能,但是隐藏的比较深,找到的步骤如下:
首先,vosviewer只能识别特定格式的数据,如果需要统计的是wos的关键词就很好解决,但是需要统计的如果是别的东西,可以把需要统计的关键词复制到wos下载数据的“DE”字段下就可以,系统识别的字段名称,需要注意的是你自己数据的关键词之间的间隔符和wos标准格式是否一致。替换好之后,具体步骤如下:





到这一步之后,右击界面,然后选择导出所选择的关键词即可;

可以看到,vosviewer导出的数据是对关键词进行一些近似词检验处理的,将结果与excel的结果对比就可以看出来,更加省心,还可以看到每个词与其他单词的连接强度;

excel/vosviewer词频统计的方法相关推荐

  1. python英文词频统计代码_python实现中文和英文的词频统计功能方法汇总

    python的思维就是让我们用尽可能少的代码来解决问题.对于词频的统计,就代码层面而言,实现的方式也是有很多种的.之所以单独谈到统计词频这个问题,是因为它在统计和数据挖掘方面经常会用到,尤其是处理分类 ...

  2. python词频统计实验报告_Python实验报告八

    安徽工程大学Python程序设计 班级:物流191 姓名:汤振宇 学号:319050108 成绩: 日期:2020/06/04 指导老师:修宇 [实验目的] : 掌握读写文本文件或 CSV 文件,进而 ...

  3. 对指定关键词进行词频统计

    过往的词频统计都是针对整个文档进行的,而如果研究中需要知道单条评论或某个研究单元内某些词的词频,那么就需要进行额外的处理.原理非常的简单,就是遍历筛选,具体做法为去除停用词的逆运算. Step1:分词 ...

  4. 中英文分词后进行词频统计(包含词云制作)

    文章目录 1.英文词频统计和词云制作 2.中文词频统计和词云制作 2.1 错误发现 2.2 错误改正  在之前的分词学习后,开始处理提取的词语进行词频统计,因为依据词频是进行关键词提取的最简单方法: ...

  5. python分词统计词频_python jieba分词并统计词频后输出结果到Excel和txt文档方法

    前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率. 让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的. 运行环境: 安装python2.7.13 ...

  6. python 对excel文件进行分词并进行词频统计_python 词频分析

    python词频分析 昨天看到几行关于用 python 进行词频分析的代码,深刻感受到了 python 的强大之处.(尤其是最近自己为了在学习 c 语言感觉被它的语法都快搞炸了,python 从来没有 ...

  7. python对excel表统计视频教程_Python实现对excel文件列表值进行统计的方法

    本文实例讲述了Python实现对excel文件列表值进行统计的方法.分享给大家供大家参考.具体如下: #!/usr/bin/env python #coding=gbk #此PY用来统计一个execl ...

  8. 用python编excel统计表_Python实现对excel文件列表值进行统计的方法

    本文实例讲述了Python实现对excel文件列表值进行统计的方法.分享给大家供大家参考.具体如下: #!/usr/bin/env python #coding=gbk #此PY用来统计一个execl ...

  9. 词频统计的java实现方法——第一次改进

    需求概要 原需求 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果 新需求: 1.小文件输入. 为表明程序能跑 ...

  10. Python案例:两种方法实现词频统计

    Python案例:两种方法实现词频统计 一.利用字典实现词频统计 1.编写源代码 2.查看运行结果 二.利用collections的Counter模块实现词频统计 <

最新文章

  1. 刷前端面经笔记(七)
  2. linux 安装 redis3.0
  3. 寻找mysql的data文件夹得方式
  4. OpenSuSe使用相关
  5. Undefined symbols for architecture i386问题解决方法
  6. 一款超强的手机屏幕投影工具
  7. 2020中国十大最丑建筑出炉,你觉得哪个更丑?
  8. 三层架构学习的困难_“网工起航计划”3天集训营 带你了解大型企业网络架构设计!...
  9. 管道(Pipe)/createPipe
  10. BDTC 2019 | 七个开发者能干多大的事?​
  11. 使用ArcGIS Engine来实现地图的点击查询并闪烁
  12. 创建list集合_Java 9新增的不可变集合
  13. Trusted Execution Technology (TXT) --- 启动控制策略(LCP)篇
  14. 【STM32】STM32驱动 LCD12864程序代码(串行方式)
  15. Git小乌龟(TortoiseGit) 简单提交代码到github
  16. NAT穿透的工作原理
  17. JS判断当前手机类型
  18. HDU - 4489 The King’s Ups and Downs (排列组合+dp)
  19. ROS学习笔记-cmd_vel转换成两轮小车速度
  20. python下载-Python中文版

热门文章

  1. 蜂考数据结构c语言版答案
  2. C语言程序设计谭浩强第五版课后答案
  3. 电阻电容封装选择以及电路接地问题
  4. Windows 内核会换为 Linux 吗?
  5. 渗透测试基础-XSS漏洞简析
  6. VideoPlayer取某一帧图片
  7. 访问网址(使用CDN)时 智能DNS调度 与 用户定位调度(根据IP定位)
  8. POP3协议主要功能及命令简介
  9. Python 搜狗词库的批量下载
  10. 搜狗输入法linux词库导入,Fedora 20下 ibus 导入搜狗词库的正确做法