本节来源于阿里云栖社区,同时正在开发一个舆情平台,其中他们发布了一篇他们所做的分析流程,感觉可以作为案例来学习。文章来源:觉民cloud/云栖社区

平台试用链接:https://prophet.data.aliyun.com/hotword?spm=5176.100239.blogcont68813.6.QB2AAc&isDemo=true

一般热词分析历经:分词、关键词提取、词关联计算、热度计算

一、分词

主要是词包大法,你懂得,阿里词包都不用自己写,本身一大堆啊!!!厉害了word哥:公众趋势分析背后有百万级的人名、品牌、地址、组织机构名、商品、品牌词库等做支撑。
万能词包啊!!!
.
.

二、关键词提取

如何在一篇长文本中挑出关键词呢? 在一定程度也就是等于找词权重,一种衡量一个句子里面词语重要性指标,其他方法可见博客:
NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重)
那么,该舆情平台使用的是:TextRank算法为文本生成关键词。

TextRank的算法思想来源于PageRank,旨在通过文本中句子、词之间的相互投票,为句子、词进行权重的排序。PageRank假设一个网页的入链越多,则其权重越高。随机地为每个网页分配一个初始权重,在每一轮投票中,每个网页将其权重均匀地分配给其出链,收敛后(平稳马尔科夫过程)每个网页得到的权重值反映了其重要性,每轮投票的数学表述为:


其中d为阻尼系数,(1-d)/N表示每次页面转移时有一定的概率会从全网随机选择url,这样可以避免没有外链的悬挂网页让所有权重收敛到0。

PageRank通过页面之间的链接关系建立投票机制,TextRank以此为启发,通过词之间的邻近关系建立词权重投票机制,即假如两个词出现在同一个窗口中,则它们之间产生一次权重投票,这样可以通过PageRank的求解方法,计算每个词在文本中的权重。得到权重的排序之后,就可以挑选topN词作为关键词了。

.
.

三、词关联计算

词关联计算也可以使用社交网络的方式(点出度、点入度等,参考:R语言︱SNA-社会关系网络
R语言实现专题(基础篇)(一)),也可以使用一些统计学的方式(互信息,
NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重))。

该平台使用的是互信息.
词关联使用点互信息PMI(pointwise mutual information)来表示,用信息论的语言来表述,点互信息衡量的是“给定一个随机变量后,另一个随机变量不确定性的减少程度”。假设有两个词x和y,则x和y之间的点互信息由下述公式表示:

其中p(x,y)表示x和y同时出现的概率,p(x)和p(y)分别表示x和y单独出现的概率。简单粗暴地理解,就是说相对于单独出现,某两个词更喜欢一起出现,则它们之间的关联程度越高。

.
.

四、词热度计算

词的热度计算不能仅仅统计这个词在所有文章中的出现次数,因为每篇文章的热门程度不一样,汪峰上了头条时的报道,对于热度的计算不能跟一般的小道消息同日而语。热词分析在计算热度时,会用文章的热度对词进行加权,而文章的热度会综合考虑以下因素:
文章的转发量
浏览量
评论量
文章发布的时间,如果发布时间越长,则热度衰减地越高
具体的计算公式就不在这公开了,那是我们经过无数次的调试之后的结果,有兴趣的读者也可以了解一下这篇文章:http://www.smartinsights.com/social-media-marketing/facebook-marketing/how-to-use-facebook-edgerank/?spm=5176.100239.blogcont68813.7.0MuQOh

阿里舆情︱舆情热词分析架构简述(Demo学习)相关推荐

  1. 慧眼舆情热词分析架构简述

    慧眼舆情大家都不会陌生,这是近年来非常火热的话题,各行各业都想借助大数据为自己助力,有了这个工具,就好像在飞机上看农田一般清晰,一目了然,也也就是业内人士常说的大数据提供了一个------上帝视角 大 ...

  2. 创新实训【16】——热词分析图表展示

    主要内容 这篇主要记录了热词分析的图表展示,从数据库中获得了讨论次数最多的10个热词,使用echarts的扇形图和条形图展示了热词和数量. 展示内容 主要步骤 1.在前端用div展示图表的宽度和高度. ...

  3. 信息领域热词分析系统--python统计

    统计词语出现的频率,并且按从高到低的顺序报错在文件中 def main():file=open("F:\大数据\大作业\分词后的文件\data4_xinxi.txt",'r')wo ...

  4. 在热词中看舆论,摆脱“黑天鹅”效应

    在互联网时代,热词往往反应了一段时间内公众普遍关注的事件.因此,热词计算是舆情系统中的核心模块,针对资讯.评论.弹幕等进行热词统计,可以快速对海量资讯提取核心词汇,帮助用户快速研判舆论舆情.然而海量数 ...

  5. 2022华为机试4.6第一题舆情热词题解

    第一道AC,后来复盘了一下,简化了代码. 题目链接:​​​​​​舆情热词题目链接 思路:本题可以利用LinkedHashMap来保证输入输出顺序,那么在定义比较器时仅考虑频次即可.有个细节:最后输出的 ...

  6. 上手结巴分词文本分析,输出热词、TF-IDF权重和词频

    前言 舆情分析.文本分析,在做特征提取时,需要把一整段内容合并后,提取内容中的热词.F-IDF权重和词频,本编以python编程,分享如何通过结巴分词简易上手. 代码讲解 先给代码片段配内容讲解,篇尾 ...

  7. 2020年数维杯数学建模A题舆情监测情感倾向分析建模求解全过程文档及程序

    2020年数维杯数学建模 A题 舆情监测情感倾向分析建模 原题再现:   公共危机事件爆发时,如拍石击水,相关信息在短时间内迅速传播,引起群众的广泛关注.其中负面报道或者主观片面的一些失实评判常常在一 ...

  8. TOOM大数据舆情监控系统方案,如何做好舆情大数据监测分析?

    大数据舆情监控是指通过对大量数据的收集.分析和处理,了解舆论的发展趋势和活动,并对舆论风险进行预警和评估,以保障企业的舆论安全.TOOM大数据舆情监控系统方案,如何做好舆情大数据监测分析? 一.大数据 ...

  9. 互联网舆情数据信息挖掘分析的方法

    互联网时代,信息数据海量化,要想从浩瀚的网络舆情数据中挖掘出极具价值的信息是个难题.那么,到底舆情数据挖掘分析怎么做?怎样对网络舆情数据进行挖掘分析?接下来,蚁坊软件就针对此难题来进行解答. 关于互联 ...

最新文章

  1. 利用Procdump+Mimikatz获取Windows帐户密码
  2. 开发日记-20190502 关键词 汇编语言(一)
  3. python代码示例500行源代码-500行Python代码打造刷脸考勤系统,其实也就那么简单...
  4. php 中curd表达啥,CURD语句的基本语法和PDO中操作数据表的基本步骤实例演示增删改查命令 2019年07月24日 23时10分...
  5. Svn安装成功后的操作
  6. linux进程配置异常中断自动重启_Linux系统配置及服务管理 (四)进程管理
  7. php重定向页面位置,php - PHP重定向到基于页面版本的用户位置(IPAPI),并在会话中记住 - SO中文参考 - www.soinside.com...
  8. java源代码保存在扩展名为,看完跪了
  9. Informix IDS 11体系操持(918测验)认证指南,第 4 部门: 机能调优(1)
  10. VMware16安装CentOS7.6虚拟机
  11. codevs 1766 装果子
  12. 微信小程序——通过百度API查询天气情况
  13. string类型输入一行字符串,带空格
  14. 励磁电感公式_ANSYS Maxwell 电感矩阵计算
  15. dxp交流电源怎么找_常见dxp元件搜索方法
  16. tpu云_如何与TPU合作
  17. 给定divId,滚动条滚到相应位置
  18. vscode + prettier 专治代码洁癖
  19. eclipse快捷键使用以及一些小机灵
  20. 记录——使用坚果云引发的一次史诗级笔记灾难

热门文章

  1. java 算数运算符
  2. 固定尺寸内存块的缓冲队列类及C++实现源代码
  3. hihocoder-1014 Trie树
  4. eclipse -- git 提示
  5. iOS工程开发笔记二
  6. PowerPoint 蜜蜂跳“8”字舞实例
  7. 孤读Paper——《Deep Snake for Real-Time Instance Segmentation》
  8. WMware Workstation——时间和时区问题
  9. 【fabric实战指南二】Fabric v1.0 部署过程原理详解
  10. Java在WEB项目中获取文件路径