1.什么是热词

热词特点: 
1.某一时间段内起点低,增长迅速 
2.具有很强的延续性,和热词相关的其他词也被报道 
3.热度随着时间的流逝而改变

2.热词排名计算的两种方法

热词排名方法一:贝叶斯平均法(Bayesian average)

先来理解一下利用贝叶斯统计算法的公式: 
 
WR是每个词的加权得分,WR越大表示热度越大 
R是该词汇的平均得分(这里设定都为1) 
v是总词频 
m是排名前n的词汇的最低词频(n是自定义的阀值)

热词排名法二:牛顿冷却定律

将热词排名想象成一个即自然冷却的过程。可以利用物理学定律,建立“温度”与“时间”之间的函数关系,构建一个“指数式衰减”的过程。 
牛顿冷却定律:物体的冷却速度,与其当前温度与室温之间的温差成正比。 
若仅仅使用今天与昨天的搜索量对比,时间差为1,最终的冷却系数可以通过如下公式计算: 

为了防止除数为0,将公式改为 
 
若冷却系数越低则说明热度就越大

3.实验设计

3.1 数据获取

数据来源:搜狗搜索引擎网页查询一个月的日志。数据大小1.02G,每天搜索日志大约为50M。 
数据格式:访问时间 用户ID 查询词 改URL在返回结果中的排名 用户点击的顺序号 用户点击的URL 
字段之间用\t分割,此处只关心查询词,将其过滤出来。

3.2 热词的评价标准

(1)统计词语一周内的词频,词频在当天未峰值,并大于某一阀值 
(2)该峰值与起始值差值大于某一阀值 
(3)热度值大于某一阀值

写成公式,可如下表示: 

H(w)为热度 
Atp(w)当前词频 
all(w)表示以Ayp(w)为中心的前后三天的词频 
BeTp(w)为起始词频 
c1,c2为阀值。

3.3 实验目的

取出每天排名前五的词汇作为热词

3.4 热词排名的方法步骤

(1)提查询词,作者用了正则表达式来提取查询词,但起始字段是按\t分割的话,直接用split(“\t”)(2)取出索引为3的字段就可以了。 
(2)对查询词进行中文分词 
(3)利用贝叶斯平均或者牛顿冷却定律计算词语的热度,并对热度倒叙排序 
(4)对每天的热词进行相关搜索,核实该热词是否真实存在 
(5)利用热词评价指标,计算准确率

4.实验过程

4.1 贝叶斯平均实验

今天的词频比昨天的词频增长地越多,那么说明这个词今天越热,但是如何表示这个增长呢?首先肯定会想到减法,让今天的词频减去昨天的词频,差越大表示热度越大,但是以下两个词就戳穿了这个逻辑的BUG:

好男儿   0      441
男同志   3410   3925
  • 1
  • 2

好男儿从0到441,搜索量猛增,男同志虽然也增长了那么多,但他本来基数就大,所以好男儿更应该被选为热词。故光看增长量是有误区的

文献中作者又提到采用除法的形式,今天的词频除以昨天的词频,倍数越大则热度越大,但是同理,如果除数的基数很小,那么它的倍数就会很大,这样的逻辑也有失偏颇。

最后作者采用了归一法 
今天词频/(昨天词频+今天词频) 
如下图例子: 

现在采用贝叶斯平均法,计算词项的热度。 

比如计算“俞思远”这个词的热度,套用以上公式 

同理,我们可以求出所有词的热度,画成了一个折线图如下: 

4.2 牛顿冷却定律实验

利用以上提到的牛顿冷却定律的公式对以上词语进行计算,可以得到每个词的冷却系数。冷却系数越低则说明热度越大,如下表: 

进一步对冷却系数取反,代表词的上升趋势,如下图: 

牛顿冷却定律相比于贝叶斯平均法的有点在于其热度的变化比较清晰。但是,对于(当前词频)/(历史词频)的比值较大的词估计过高,贝叶斯平均法则没有这个问题

4.3 热词评价值的改进

作者将以上两种方法进行了结合。分别通过两个方法计算出两个热度,然后对两个值各自设置一个权值,得到综合的H(w)热度值。公式如下: 
 
Atp(w)为当前词频 
B(w)为贝叶斯平均值 
α(w)为负冷却系数 
Btp(w)为历史词频

作者通过训练与测试发现上述阀值取下列值比较合适: 
 
(关于阀值的制定,我觉得不能完全参照作者的,在具体项目中应当自己测试出最符合本项目的阀值)

改进热词评价后,以下是计算出的新热度值 

热词的识别与提取算法相关推荐

  1. 【网页正文识别及提取算法】提取网络正文的实践

    Python的newspaper 安装: pip3 install newspaper3k github: https://github.com/codelucas/newspaper 什么是网络正文 ...

  2. 用MindStudio完成基于CTC算法的语音热词唤醒

    Bilibili视频链接: 使用MindStudio完成基于CTC算法的语音热词唤醒_哔哩哔哩_bilibili 一. MindStudio 介绍与安装 相关课程:昇腾全流程开发工具链(MindStu ...

  3. 点云孔洞定位_散乱点云的孔洞识别和边界提取算法研究

    散乱点云的孔洞识别和边界提取算法研究 王春香,孟 宏,张 勇 [摘 要] 针对逆向工程中已有孔洞识别算法执行效率低.孔洞边界点提取不完 整等问题,提出一种新的基于 KD 树和 K 邻域搜索的点云孔洞识 ...

  4. 推荐系统系列 - 实例一 - 基于流行度的算法 - 搜索热词推荐

    目录 背景 基础知识 数据清洗 计算热度推荐词 查看结果 背景 在新的系统里面,早期都是没有很多数据,很难直接拿来做推荐系统,这就是有些算法存在冷启动的问题,所以在系统早期推荐都是基于热度(流行度)或 ...

  5. 热词抽取与话题发现系列(1):郝晓玲研究

    1. 背景 社区内容的数据挖掘方面主要可分为两大类:内容关联挖掘和用户关系挖掘, 热词/热点话题发现属于社区内容挖掘范畴,是指从大量的UGC文本中检测出用户广泛讨论的话题.涉及两个关键性技术:中文分词 ...

  6. “赶上热词热概念,是我们不幸的一面” | 对话小冰公司CEO李笛

    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 小冰的很多进展,往往只能借用科幻电影才能更好解释. <Her>中描绘过一个如影随形的专属AI虚拟人,跟主人公聊天聊地,从诗词歌赋 ...

  7. 语音识别热词_出门问问 TWS 耳机语音交互解决方案

    随着芯片.算法商在技术及应用方面的演进,尤其是连接.降噪方向的重大突破,越来越多的手机及耳机厂商推出了自家功能丰富.交互舒适的 TWS 耳机. 近日,出门问问新品发布会上推出的 TicPods 2 系 ...

  8. 阿里舆情︱舆情热词分析架构简述(Demo学习)

    本节来源于阿里云栖社区,同时正在开发一个舆情平台,其中他们发布了一篇他们所做的分析流程,感觉可以作为案例来学习.文章来源:觉民cloud/云栖社区 平台试用链接:https://prophet.dat ...

  9. KeyBert、TextRank等九种本文关键词提取算法(KPE)原理及代码实现

    关键词提取 (Keyphrase Extraction,KPE) 任务可以自动提取文档中能够概括核心内容的短语,有利于下游信息检索和 NLP 任务.当前,由于对文档进行标注需要耗费大量资源且缺乏大规模 ...

最新文章

  1. 个人网站第四次改版了
  2. quartz异常:Couldn't rollback jdbc connection
  3. javascript中select的常用操作
  4. .NET 网站自动登录
  5. mac下java配置填坑
  6. shell脚本自动化部署服务
  7. php如何压缩txt文件怎么打开,PHP-压缩txt文件,同时保持文件扩展名
  8. micropython中文教程.pdf_micropython中文教程
  9. KubeSphere配置集(ConfigMap)的使用
  10. vue-lazyload vue图片懒加载插件的使用记录
  11. 获得阿里巴巴编码规范技能认证
  12. C语言的数据类型→浮点型数据
  13. 在SQL Server 2005中实现异步触发器架构
  14. qtabwidget设置表头_QTableWidget添加表头菜单 并 可以通过表头菜单隐藏选中列
  15. python 把矩阵变成一维_python矩阵转换为一维数组的实例
  16. jieba中文分词组件的词性类型
  17. Java8使用jdeps —— Java类依赖性分析器
  18. 传网络安全提供商FireEye有意收购CyberArk
  19. 基于ros_arduino_bridge的智能小车----下位机篇
  20. 7.2判断是否手机端进行访问页面

热门文章

  1. 七年级上册计算机工作总结,新人教版七年级上教学工作总结
  2. 电脑问题解决与实用技巧
  3. mysql翻译插件_如何翻译 MySQL 图形工具
  4. 云计算的三种服务模式是什么?
  5. 电脑怎么截图?常见的4种截图方法分享!
  6. 我们为什么需要论坛?
  7. Win7任务计划自由预设系统定时自动关机
  8. Altium Designer 画板流程
  9. 计算机主板上的cmos芯片用途,CMOS芯片在主板上的位置(问答方式)
  10. 视频教程-Layabox3D游戏视频教程-源码-手游开发