A SURVEY OF TECHNIQUES FOR EVENT DETECTION IN TWITTER


这篇文章是在阅读笔记003的参考文献中溯源而得,文章年限比较久了,但其中的一些事件检测技术还是比较具有代表性,本文只关注其中事件检测的技术。
论文下载链接


事件检测

1.传统媒体中的事件检测

事件检测阶段{数据预处理数据表示数据组织或聚类事件检测阶段 \begin{cases} 数据预处理\\ 数据表示\\ 数据组织或聚类 \end{cases} 事件检测阶段⎩⎪⎨⎪⎧​数据预处理数据表示数据组织或聚类​

事件检测分类{回顾性事件检测(RED)——从历史记录中发现以前未识别的事件新事件检测(NED)——实时从实时数据流中发现新事件事件检测分类 \begin{cases} 回顾性事件检测(RED)——从历史记录中发现以前未识别的事件\\ 新事件检测(NED)——实时从实时数据流中发现新事件\\ \end{cases} 事件检测分类{回顾性事件检测(RED)——从历史记录中发现以前未识别的事件新事件检测(NED)——实时从实时数据流中发现新事件​

1.数据表示

使用词向量表示
问题:忽略单词时间顺序,文本语义,句法特征(如命名实体和语法)

命名实体向量:4ws——何人何事何时何地
概率表示:结合内容和时间

2.评价指标

相似性指标{欧氏距离皮尔逊相关系数余弦相似性Hellinger距离聚类指数相似性指标 \begin{cases} 欧氏距离\\ 皮尔逊相关系数\\ 余弦相似性\\ Hellinger距离\\ 聚类指数\\ \end{cases} 相似性指标⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧​欧氏距离皮尔逊相关系数余弦相似性Hellinger距离聚类指数​

3.RED检测

迭代聚类算法,需要整个文档集合
分层聚类算法(HAC)
k-means
k-median
k-means++

4.NED检测

必须在文本到达时提供决策
基于增量(贪婪)算法
使用滑动时间窗口
限制每个文档的术语数
限制保留的总术语数
采用并行处理

RED与NED都是基于文本的,旨在识别语料库中曾经重要性不高或现在迅速增长的主题

5.基于特征

无限状态自动机,概率自动机的状态对应于每个单词的频率,状态转换来表示突发事件,对应于单词频率的显著变化。
离散傅里叶变换(无法识别时间段)
高斯混合模型
n-gram

6.Twitter事件

(1)未指定事件
①朴素贝叶斯提取有效信息,基于TF-IDF及余弦相似度聚类
②使用预定义的搜索查询对推文进行采样,增加索引,基于TF-IDF,对专有名词,主题标签和用户名,权重增加
③基于文本之间的余弦相似性以及局部敏感的哈希方法
④基于阈值的增量聚类+SVM
⑤基于主题词,采用自上而下的分层划分聚类方法将主题词划分为事件,采用最大加权二部图创建事件链,跟踪事件变化
⑥基于从Twitter生成的单个单词构建的离散小波信号聚类
⑦基于哈希标签的连续小波变换,并结合使用LDA
(2)指定事件
①确定有争议的事件
②因子图模型
③CRF模型
④基于社会地理事件检测系统
⑤ETree
⑥TSCAN

7.Twitter事件的检测方法

(1)无监督检测
①Twitter数据动态变化,随着时间推移会出现新的事件,故无需先验知识,故K-means,K-median和K-medoid方法不合适
②基于阈值的在线聚类方法
③基于图的聚类方法
④考虑隐马尔可夫模型
⑤短语增强:找到包含该主题的最常用短语
⑥根据相对词频,主题标签,超链接,答复和追随者数量,帖子长度,缩写和大写来扩展查询
(2)监督检测方法
①前提:特定事件
②朴素贝叶斯
③SVM
④梯度提升决策树
⑤考虑词频,变体,相关词,特殊关键字,以及围绕关键词的上下文信息,相对位置信息,POS标记,主要实体提取

阅读笔记——2019_004 A SURVEY OF TECHNIQUES FOR EVENT DETECTION IN TWITTER相关推荐

  1. 论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...

  2. 论文阅读笔记——VulDeePecker: A Deep Learning-Based System for Vulnerability Detection

    本论文相关内容 论文下载地址--Engineering Village 论文中文翻译--VulDeePecker: A Deep Learning-Based System for Vulnerabi ...

  3. 阅读笔记:An explainable deep-learning algorithm for the detection of acute intracranial haemorrhage from

    阅读笔记: An explainable deep-learning algorithm for the detection of acute intracranial haemorrhage fro ...

  4. 【论文笔记】A Survey on Lightweight CNN-Based Object Detection Algorithms for Platforms

    A Survey on Lightweight CNN-Based Object Detection Algorithms for Platforms with Limited Computation ...

  5. [论文阅读笔记17]A Survey on Knowledge Graph-Based Recommender Systems

    一,题目 TKDE 2020 A Survey on Knowledge Graph-Based Recommender Systems 综述:基于知识图谱的推荐系统 In IEEE Transact ...

  6. 【推荐系统】【论文阅读笔记】【survey】A Survey on Session-based Recommender Systems基于会话的推荐系统综述

    论文链接:arXiv:1902.04864v1 一.为什么需要基于会话的推荐系统(SBRS) 基于内容的RS和协作过滤RS是两个具有代表性的RS. 然而,这些传统的RS仍然存在一些缺点.关键的一点是, ...

  7. 【推荐系统】【论文阅读笔记】【survey】Hybrid Recommender Systems: Survey and Experiments

    一.推荐技术简介: 论文链接:https://www.researchgate.net/publication/263377228_Hybrid_Recommender_Systems_Survey_ ...

  8. 论文阅读笔记:(2021.06, cvpr) Monocular 3D Object Detection: An Extrinsic Parameter Free Approach

    这是一篇发表在了cvpr 2021上,能够在线估计外参的单目3D目标检测算法,借鉴了visual odometry和style transfer的方法,效果好, 速度快(~30ms), 意料之外,情理 ...

  9. 论文阅读笔记: (2022 TPAMI) Ultra Fast Deep Lane Detection with Hybrid Anchor Driven Ordinal Classification

    车道线检测是自动驾驶中的基础任务之一,我们今天来看一篇来自浙大的TPAMI 2022的文章! 文章看下来,可以理解为是专门为车道线任务设计的语义分割网络 文章地址: https://arxiv.org ...

最新文章

  1. Google是如何做Code Review的?| CSDN原力计划
  2. PHP设计模式之装饰模式(Decorator)
  3. 李飞飞重回斯坦福,Andrew Moore接手谷歌云AI
  4. Docker的“谎言”
  5. python画一片树叶_python画一片绿叶给你
  6. javascript 异常基本语法
  7. 周志明:职业电竞选手的Java大神路
  8. UNIX网络编程——基本TCP套接字编程 【转贴】
  9. c语言中文本作图,C语言绘图问题
  10. Prometheus 原理和实践,含docker部署Prometheus、node Exporters、Alertmanager、Push Gateway、grafana
  11. python中scrapy框架项目_Python -- Scrapy 框架简单介绍(Scrapy 安装及项目创建)
  12. java core 之 异常处理详解
  13. 洛谷 P3496 [POI2010]GIL-Guilds 题解
  14. 忘记ISO-8859-1
  15. Windows环境下Nginx配置本地虚拟域名和Nginx代理
  16. python数据可视化创建_【Python数据可视化】创建3D可视化图表
  17. Python编程快速上手 让繁琐工作自动化 豆瓣评分[9.00]
  18. 3步! 老司机教你如何在以太坊上构建基于Token去中心化投票系统!
  19. 计蒜客:Cryptographer's Conundrum
  20. 计算机要大牛 掌握的方法【上】写的很全面,收藏

热门文章

  1. 财务报表是用来排雷的-《手把手教你读财报》
  2. MicroPos机械手视觉定位系统
  3. [PHP] 高并发 php uniqid 不重复唯一标识符生成方案
  4. 区块链隐私保护:Grin 中的交易详解
  5. vue中实现浏览器全屏放大
  6. 程序员表白,不光需要“技术”,更需要勇气!
  7. 无人机水利应用,有力支撑黄河防凌监测工作
  8. TUTK[MediaSDK][iOS]没有声音或声音异常
  9. Enterprise Architect使用
  10. gcc7 编译 linux内核提示 undefined reference to `____ilog2_NaN'