阿里舆情︱舆情热词分析架构简述(Demo学习)
本节来源于阿里云栖社区,同时正在开发一个舆情平台,其中他们发布了一篇他们所做的分析流程,感觉可以作为案例来学习。文章来源:觉民cloud/云栖社区
平台试用链接:https://prophet.data.aliyun.com/hotword?spm=5176.100239.blogcont68813.6.QB2AAc&isDemo=true
一般热词分析历经:分词、关键词提取、词关联计算、热度计算
一、分词
主要是词包大法,你懂得,阿里词包都不用自己写,本身一大堆啊!!!厉害了word哥:公众趋势分析背后有百万级的人名、品牌、地址、组织机构名、商品、品牌词库等做支撑。
万能词包啊!!!
.
.
二、关键词提取
如何在一篇长文本中挑出关键词呢? 在一定程度也就是等于找词权重,一种衡量一个句子里面词语重要性指标,其他方法可见博客:
NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重)
那么,该舆情平台使用的是:TextRank算法为文本生成关键词。
TextRank的算法思想来源于PageRank,旨在通过文本中句子、词之间的相互投票,为句子、词进行权重的排序。PageRank假设一个网页的入链越多,则其权重越高。随机地为每个网页分配一个初始权重,在每一轮投票中,每个网页将其权重均匀地分配给其出链,收敛后(平稳马尔科夫过程)每个网页得到的权重值反映了其重要性,每轮投票的数学表述为:
其中d为阻尼系数,(1-d)/N表示每次页面转移时有一定的概率会从全网随机选择url,这样可以避免没有外链的悬挂网页让所有权重收敛到0。
PageRank通过页面之间的链接关系建立投票机制,TextRank以此为启发,通过词之间的邻近关系建立词权重投票机制,即假如两个词出现在同一个窗口中,则它们之间产生一次权重投票,这样可以通过PageRank的求解方法,计算每个词在文本中的权重。得到权重的排序之后,就可以挑选topN词作为关键词了。
.
.
三、词关联计算
词关联计算也可以使用社交网络的方式(点出度、点入度等,参考:R语言︱SNA-社会关系网络
R语言实现专题(基础篇)(一)),也可以使用一些统计学的方式(互信息,
NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重))。
该平台使用的是互信息.
词关联使用点互信息PMI(pointwise mutual information)来表示,用信息论的语言来表述,点互信息衡量的是“给定一个随机变量后,另一个随机变量不确定性的减少程度”。假设有两个词x和y,则x和y之间的点互信息由下述公式表示:
其中p(x,y)表示x和y同时出现的概率,p(x)和p(y)分别表示x和y单独出现的概率。简单粗暴地理解,就是说相对于单独出现,某两个词更喜欢一起出现,则它们之间的关联程度越高。
.
.
四、词热度计算
词的热度计算不能仅仅统计这个词在所有文章中的出现次数,因为每篇文章的热门程度不一样,汪峰上了头条时的报道,对于热度的计算不能跟一般的小道消息同日而语。热词分析在计算热度时,会用文章的热度对词进行加权,而文章的热度会综合考虑以下因素:
文章的转发量
浏览量
评论量
文章发布的时间,如果发布时间越长,则热度衰减地越高
具体的计算公式就不在这公开了,那是我们经过无数次的调试之后的结果,有兴趣的读者也可以了解一下这篇文章:http://www.smartinsights.com/social-media-marketing/facebook-marketing/how-to-use-facebook-edgerank/?spm=5176.100239.blogcont68813.7.0MuQOh
阿里舆情︱舆情热词分析架构简述(Demo学习)相关推荐
- 慧眼舆情热词分析架构简述
慧眼舆情大家都不会陌生,这是近年来非常火热的话题,各行各业都想借助大数据为自己助力,有了这个工具,就好像在飞机上看农田一般清晰,一目了然,也也就是业内人士常说的大数据提供了一个------上帝视角 大 ...
- 创新实训【16】——热词分析图表展示
主要内容 这篇主要记录了热词分析的图表展示,从数据库中获得了讨论次数最多的10个热词,使用echarts的扇形图和条形图展示了热词和数量. 展示内容 主要步骤 1.在前端用div展示图表的宽度和高度. ...
- 信息领域热词分析系统--python统计
统计词语出现的频率,并且按从高到低的顺序报错在文件中 def main():file=open("F:\大数据\大作业\分词后的文件\data4_xinxi.txt",'r')wo ...
- 在热词中看舆论,摆脱“黑天鹅”效应
在互联网时代,热词往往反应了一段时间内公众普遍关注的事件.因此,热词计算是舆情系统中的核心模块,针对资讯.评论.弹幕等进行热词统计,可以快速对海量资讯提取核心词汇,帮助用户快速研判舆论舆情.然而海量数 ...
- 2022华为机试4.6第一题舆情热词题解
第一道AC,后来复盘了一下,简化了代码. 题目链接:舆情热词题目链接 思路:本题可以利用LinkedHashMap来保证输入输出顺序,那么在定义比较器时仅考虑频次即可.有个细节:最后输出的 ...
- 上手结巴分词文本分析,输出热词、TF-IDF权重和词频
前言 舆情分析.文本分析,在做特征提取时,需要把一整段内容合并后,提取内容中的热词.F-IDF权重和词频,本编以python编程,分享如何通过结巴分词简易上手. 代码讲解 先给代码片段配内容讲解,篇尾 ...
- 2020年数维杯数学建模A题舆情监测情感倾向分析建模求解全过程文档及程序
2020年数维杯数学建模 A题 舆情监测情感倾向分析建模 原题再现: 公共危机事件爆发时,如拍石击水,相关信息在短时间内迅速传播,引起群众的广泛关注.其中负面报道或者主观片面的一些失实评判常常在一 ...
- TOOM大数据舆情监控系统方案,如何做好舆情大数据监测分析?
大数据舆情监控是指通过对大量数据的收集.分析和处理,了解舆论的发展趋势和活动,并对舆论风险进行预警和评估,以保障企业的舆论安全.TOOM大数据舆情监控系统方案,如何做好舆情大数据监测分析? 一.大数据 ...
- 互联网舆情数据信息挖掘分析的方法
互联网时代,信息数据海量化,要想从浩瀚的网络舆情数据中挖掘出极具价值的信息是个难题.那么,到底舆情数据挖掘分析怎么做?怎样对网络舆情数据进行挖掘分析?接下来,蚁坊软件就针对此难题来进行解答. 关于互联 ...
最新文章
- 利用Procdump+Mimikatz获取Windows帐户密码
- 开发日记-20190502 关键词 汇编语言(一)
- python代码示例500行源代码-500行Python代码打造刷脸考勤系统,其实也就那么简单...
- php 中curd表达啥,CURD语句的基本语法和PDO中操作数据表的基本步骤实例演示增删改查命令 2019年07月24日 23时10分...
- Svn安装成功后的操作
- linux进程配置异常中断自动重启_Linux系统配置及服务管理 (四)进程管理
- php重定向页面位置,php - PHP重定向到基于页面版本的用户位置(IPAPI),并在会话中记住 - SO中文参考 - www.soinside.com...
- java源代码保存在扩展名为,看完跪了
- Informix IDS 11体系操持(918测验)认证指南,第 4 部门: 机能调优(1)
- VMware16安装CentOS7.6虚拟机
- codevs 1766 装果子
- 微信小程序——通过百度API查询天气情况
- string类型输入一行字符串,带空格
- 励磁电感公式_ANSYS Maxwell 电感矩阵计算
- dxp交流电源怎么找_常见dxp元件搜索方法
- tpu云_如何与TPU合作
- 给定divId,滚动条滚到相应位置
- vscode + prettier 专治代码洁癖
- eclipse快捷键使用以及一些小机灵
- 记录——使用坚果云引发的一次史诗级笔记灾难