如何去做词频统计和关键词共现分析
1 对关键词的词频进行统计
下面展示一些 内联代码片
。
# encoding=utf-8
import openpyxl
wb = openpyxl.Workbook()
wb = openpyxl.load_workbook('copy1.xlsx') # Excel名
sh = wb['all'] # sheet名
'''
换一种写法
row=sh.max_row # 得到行数
'''
cons=[] # 将所有数据append成一个list
for cases in list(sh.rows)[1:9240]: # 行数,也可以通过代码来带入 即rowcase_D = cases[2].value # 关键词所在的列cons.append(case_D) result_new = []
res2 = []
for con in cons:fenci = con.strip().split('; ') # 假定关键词是以分号+空格分开的result_new.append(fenci)
new = sum(result_new,[])
res2.append(new)
#print(res2) # res2的形式是 [['aaa','bbb','abc']]import collections
dic = collections.Counter(res2[0])from openpyxl import Workbook
workbook = Workbook()
i=2 # 默认sheet
sh = workbook.active
sh.title = "count" #sheet名
for key in dic:sh.cell(row=1, column=1, value='关键词')sh.cell(row=1, column=2, value='频次') sh.cell(row=i, column=1, value=str(key))sh.cell(row=i, column=2, value=dic[key])i+=1
workbook.save(r'name.xlsx')
2 统计词共现的全部代码
注意,'一行作者.txt’这个文件必须是每篇文献的作者之间通过//连接成一行,合作作者通过分号+空格连接。
import pandas as pd
import numpy as np
from openpyxl import Workbookdef authors_stat(co_authors_list):au_dict = {} # 单个作者频次统计au_group = {} # 两两作者合作for authors in co_authors_list:authors = authors.split('; ') # 按照逗号分开每个作者authors_co = authors # 合作者同样构建一个样本for au in authors: # 统计单个作者出现的频次if au not in au_dict:au_dict[au] = 1else:au_dict[au] += 1# 统计合作的频次authors_co = authors_co[1:] # 去掉当前作者for au_c in authors_co:A, B = au, au_c # 不能用本来的名字,否则会改变au自身if A > B:A, B = B, A # 保持两个作者名字顺序一致co_au = A+'; '+B # 将两个作者合并起来,依然以逗号隔开if co_au not in au_group:au_group[co_au] = 1else:au_group[co_au] += 1return au_group, au_dictif __name__ == '__main__':f1 = open('一行作者.txt','r',encoding = 'utf-8')cons = f1.read()co_authors = consco_authors_list = co_authors.split('//')au_group, au_dict = authors_stat(co_authors_list)workbook = Workbook()i=2 # 默认sheetsh = workbook.activesh.title = "count"for (k,v) in au_group.items(): sh.cell(row=1, column=1, value='合作作者')sh.cell(row=1, column=2, value='频次') sh.cell(row=i, column=1, value=str(k))sh.cell(row=i, column=2, value=v)i+=1workbook.save(r'co_author.xlsx')
下次教画图。
接下来就是愉快的分析啦。
over is Over——Lee
如何去做词频统计和关键词共现分析相关推荐
- 如何用VOSviewer分析CNKI关键词共现?
用VOSviewer尝试CNKI中文文献关键词共现(keyword co-occurence)分析时,你可能会踩到一个大坑.本文帮助你绕开这个坑,或是从坑里爬出来. (由于微信公众号外部链接的限制,文 ...
- CiteSpace关键词共现图谱含义详细解析
CiteSpace关键词共现图谱含义详细解析 本文以CiteSpace软件做的关键词共现分析为例,进行关键词共现图谱含义详细解析. 关键词是一篇论文的核心概括,对论文关键词进行分析可对文章主题窥探一二 ...
- 基于 python获取教育新闻进行分词关键词词共现分析 知识图谱 (附代码+报告)
本文着眼于对疫情期间教育领域新闻的分析,基于 python 语言,利用爬虫获取教育领域的最新新闻,并将其内容进行分词,抓取关键词.在此基础上,根据关键词进行共现分析,并利用 Gephi 软件绘制主题知 ...
- 绘制作者共现和关键词共现图教学
需要的作者共现.关键词共现次数 使用到的工具包括python和gephi 注意:gephi的安装需要java支持. 步骤 1.数据准备 1.1 作者词频 1.2 作者共现 2.形成gephi可读的数据 ...
- python关键词共现图谱_如何用知网导出的关键词 几秒 生成共现矩阵及图谱 》完整版...
自编软件使用技能视频演示(一) 最新整理完整版的,从收集数据 到 共词矩阵 到 图谱. 在做社会网络分析时,首先需要得到共现矩阵,如关键词共现矩阵.作者共现矩阵.机构共现矩阵等. 可是如何把从知网里导 ...
- BICOMB(书目共现分析系统软件)介绍、使用文献及下载
BICOMB(书目共现分析系统,Bibliographic Items Co-occurrence Matrix Builder)是一款文本挖掘的基础工具软件,BICOMB可对国际上权威的生物医学文献 ...
- 关于高频关键词共现,ACA(作者同被引)等的范式
这篇随笔是写在看了若干篇关于高频关键词共现和ACA的文章之后的一个总结,这些论文大多是2010年之前发表的,这与这种方法是传统方法有很大关系.同时,这些文章不仅限于图书情报领域. 下面是正文: ①大多 ...
- 【NLP】关键词共现/属性共现矩阵
[NLP]关键词共现/属性共现矩阵 [共现]理解起来无非是两个词语同时出现的频次作为一个指标,构造矩阵.矩阵的第一列和第一行都是词语列表中的所有词,因此对角线一般设置为0--即不把自己和自己共现算进去 ...
- CiteSpace系列——关键词共现图重叠很多怎么办?
假设我们正在进行关键词共现可视化: 方法一:在控制面板调整字体大小,将字体调小在一定程度上可以减少重叠 方法二: 在工具栏上找到Labels,点选最小化重叠按钮
最新文章
- (转)CATALINA_BASE与CATALINA_HOME的区别
- Java的后缀分类_JAVA根据文件后缀名分类文件,并且将文件复制到不同的文件夹,求这段代码的注释...
- 人口预测和阻尼-增长模型_使用分类模型预测利率-第1部分
- 最小化或关闭时隐藏到系统托盘
- 跨域推荐: 迁移学习和推荐系统的火花碰撞
- Ubuntu18.04录音无声音解决
- bug4-UnknownError: Failed to get convolution algorithm. This is probably because cuDNN failed...
- Tomcat实现Session对象的持久化原理及配置方法介绍
- java实现选择排序+图解+代码解析
- 绕过密码关闭趋势防毒墙
- 内蒙古自治区包头市谷歌高清卫星地图下载
- chrome谷歌浏览器 离线安装包下载64位
- 如何在“文件资源”左侧栏处删除坚果云图标
- 使用快捷指令高德导航(高德地图)
- linux下mysql修改时区,linux修改系统时区
- 有道云笔记本 html,有道云笔记怎么保存网页 有道云笔记保存路径在哪
- AG9300|Type-C 转VGA数据转换器解决方案
- android 手机开门,1号社区APP"手机开不了门后的处理流程"
- 微机原理与接口技术:并行接口
- 【PPT】画三维立体块
热门文章
- Mysql语句计算文本字数_使用SQL来确定文本字段的字数统计
- Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks论文理解
- 零基础学平面设计怎么掌握好基础
- 机票售票系统/飞机票购票系统的设计与实现
- 密歇根安娜堡大学计算机科学教授,UMich的EECS「密歇根大学安娜堡分校电气工程与计算机科学系」...
- 利用Sulley测试easyftp服务器
- 解决 手机使用10193 拨打国际长途时候 国际拨号助手 自动增加区号的问题
- 程序员过失泄露代码违法吗_软件过失的23种模式
- php反向引用,JavaScript 正则应用详解【模式、欲查、反向引用等】
- python实现渐变图像