前言

新闻语料库的自动事件检测是挖掘结构化知识的关键任务,挖掘事件的粒度很多,从比较大的主题粒度到比较小的动作粒度都有相关的研究,但是这些动作通常过于细化,无法理解现实世界的事件,今天要介绍的这篇paper是提出了一项新任务:中间级别的关键事件检测,它的好处就是可以将结构化信息和对事件本身的理解进行连接。

为此作者还举了个例子:“8 月 12 日至 14 日的香港机场抗议”,即每个事件都发生在特定的时间或地点并有一主题,所以旨在从新闻语料库中检测关键事件。为了完成这一任务,面临着两大挑战首先是不同关键事件的主题和时间比较接近,其次是缺标记数据。

论文链接:https://arxiv.org/pdf/2206.04153.pdf

概念

这里首先介绍一些事件挖掘的概念。其实这项工作侧重于从新闻语料库中提取关于一个主题的关键事件,进而有助于人们了解该主题的整体情节并获取有用的知识。

关键事件(Key Even):关键事件是指关于特定主题的一组主题连贯的文档,并且对应在特定时间或地点发生的真实事件。

在日常中人们通常使用不同的方式描述同一件突发事件,尽管描述的形式可能不同,但是大家都基本会使用事件的一些关键短语,也就是说在关键短语上大家都是相同的,比如时间、地点和主题,这些其实也是关键事件的最重要信息,一但事件确实形成热点,那这些事件指示短语将在时间维度上成为可以识别关键事件的频率峰值,基于这一先验前提,作者又进行如下的一些概念定义:

高峰短语(Peak Phrase):(p, t)是短语 p 和日期 t的元组,表示 p 在 t上异常频繁出现,那这就说明当前事件很可能是来自当天发生的关键事件,同时这里之所以没有使用单个单词而是使用短语,作者是认为短语相对来说携带更丰富的语义信息。

关键事件监测(Key Event Detection):给一个关于某一主题的语料(D, T),其中

无监督从海量语料中挖掘关键事件相关推荐

  1. 低成本,大用处——极弱监督的海量文本知识挖掘 | 加州大学圣地亚哥分校商静波...

    导读:大数据时代,我们每天都沉浸在海量的自然语言数据中,比如新闻.社交网络.学术论文等等.如何根据用户需求高效地.自动地消化这些海量文本数据.将其结构化,并最终能被人理解.让机器可以运算,自然而然地成 ...

  2. 海量文本中挖掘人物关联关系核心技术介绍-桂洪冠

    在大数据时代,通过对目标人物的轨迹.通信.社交.出行.网络等多模态行为进行挖掘并建立人物画像模型,并依托人物基础特征和高层特征,实例化人物画像,支撑有关部门分析人员全方位了解目标人物的行为.活动.状态 ...

  3. DeepMind提出新型神经网络架构,用无监督方法从视频中提取关键点 | 论文

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 提取关键点此前被视为需要大量数据才能完成的工作,但DeepMind的一项最新研究可不这么认为. DeepMind的新模型Transporte ...

  4. 【论文阅读笔记】无监督行人重识别中的采样策略

    参考论文<Rethinking Sampling Strategies for Unsupervised Person Re-identification> 一.问题背景 无监督行人重识别 ...

  5. java中的关键事件是_java – 自定义关键事件

    如何发送自定义SWT键事件,以便在不进行任何转换的情况下输入该确切的文字字符? 我们正在制作一个自定义的屏幕图形键盘,允许多种可能的布局 – QWERTY是主要的布局,但其他几个计划,包括可视化模拟i ...

  6. WGCNA如何从module中挖掘关键基因

    https://blog.csdn.net/weixin_43569478/article/details/83747196 认识到与表型数据相关的modules之后,还可以在modules中进一步筛 ...

  7. android 蓝牙耳机按钮,如何利用android从蓝牙耳机中捕获关键事件_bluetooth_开发99编程知识库...

    将广播侦听器添加到 MEDIA_BUTTON: 你应该在应用程序( 不在清单文件中) 中注册你的广播接收器. 否则,谷歌音乐播放器将捕捉你的广播和船上. 你的IntentFilter 优先级应该高于其 ...

  8. 无监督学习中的无监督特征学习、聚类和密度估计

    无监督学习概述 无监督学习(Unsupervised Learning)是指从无标签的数据中学习出一些有用的模式,无监督学习一般直接从原始数据进行学习,不借助人工标签和反馈等信息.典型的无监督学习问题 ...

  9. 深圳大学梁臻博士提出EEGFuseNet高维脑电图混合无监督深度特征表征与融合模型及其在情绪识别中的应用...

    近期,深圳大学医学部生物医学工程学院梁臻博士(张治国教授团队MIND LAB核心成员)提出一种实用的基于无监督学习的卷积循环混合生成对抗网络,用以实现有效的脑电特征表征与融合,简称为EEGFuseNe ...

最新文章

  1. 大数据项目开发案例_大数据分析技术——项目案例2(房价数据分析上)
  2. 写在树莓派专栏的开篇
  3. Linux查看系统信息命令实例
  4. python数据分析可视化实例_Python数据分析及可视化实例之基于Kmean分析RFM进行用户关怀...
  5. 3D游戏开发套件指南(入门篇)
  6. bzoj千题计划153:bzoj2431: [HAOI2009]逆序对数列
  7. leetcode 12 ,13 Integer to Roman amp;amp;Roman to Integer 罗马与阿拉伯数组转换
  8. Linux下MySQL数据库常用基本操作 一
  9. 深度学习在美团配送ETA预估中的探索与实践 1
  10. 在arxiv上看到自己的投稿署了别人的名字是什么体验?
  11. SQL Server 2000企业管理器中MMC无法创建管理单元的解决方法
  12. WEBBASE篇: 第六篇, CSS知识4
  13. 第7章,广义相加模型(GAMs)
  14. 中易云嵌入式网关丨性能卓越+性价比高+应用场景丰富
  15. 串的定长顺序存储结构|C++实现
  16. UX术语详解:任务流,用户流,流程图以及其它全新术语
  17. RNA-seq 详细教程:似然比检验(13)
  18. YOLOV5使用过程中可能出现的问题及解决方法
  19. oracle表删除提示对象不存在,查询表结构报“ORA-04043: 对象XXX不存在”解决-Oracle...
  20. 思杰pvs服务器压力无法最大化,XXX学校桌面虚拟化方案剖析.docx

热门文章

  1. TCP/IP协议专栏——ND 详解——网络入门和工程维护必看
  2. bluestack模拟器测试APK,使用obb文件资源解压
  3. 【文献阅读】衰老综述:Single-cell analyses of aging, inflammation and senescence
  4. 电脑设定为插上耳机有声 拔掉耳机扬声器无声 win10 专业版
  5. 神经猫是用什么语言写的,HTML5改变世界
  6. 亚马逊Kindle正式进入中国
  7. 《2022 FISCO BCOS产业应用白皮书》共编邀请,期待您的参与
  8. 碳中和/碳金融-最新碳中和概念股成分信息-工商数据
  9. 吉比特2017年秋招编程题:字符串排序
  10. 【阅读笔记】Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation...