事件数据库Event Databse (ICEWS GDELT)
目录
- 1 综合危机预警系统 Integrated Crisis Early Warning System (ICEWS)
- 2 全球事件、语言和语气数据库 (GDELT)
- 3 冲突与调解事件观察分类法Conflict and Mediation Event Observations (CAMEO)
- 4 通过增强替换指令进行文本分析 Textual Analysis By Augmented Replacement Instructions(TABARI)
- 5 比较ICEWS和GDELT
- 5.1 概要
- 5.2 示例
- 5.3 结论
1 综合危机预警系统 Integrated Crisis Early Warning System (ICEWS)
https://www.lockheedmartin.com/en-us/capabilities/research-labs/advanced-technology-labs/icews.html
监测、评估和预测国家、地方和内部危机;适用于如何分配资源以缓解危机的决策支持(比如,冲突预测)
始于一个美国国防高级研究计划局(DARPA)在2008年启动的项目;现由洛克希德·马丁先进技术实验室负责数据库和模型的维护,由美国南方司令部和美国太平洋司令部组织测试和评估
事件由 BBN ACCENT 事件编码器进行识别和提取
事件类型编码遵循CAMEO分类系统
数据库包括:
(1)iDATA
https://dataverse.harvard.edu/dataverse/icews
周报 Weekly Event Data,包含最近一周抽取的事件 (通常延迟 1 天更新)
年报 Coded Event Data(更新时间不确定)
字典、 事件聚合、 事实数据集
其结构化事件数据包含:- 源参与者source actor,事件类型event type,目标参与者target actor, 强度intensity,位置和坐标等信息
- 地理-时间元数据 metadata
- 由于版权原因,ICEWS不提供事件对应的源文本(新闻文章)
- ICEWS不提供源文本的URL,因为文本内容是ICEWS向资料提供方直接购买的,不是通过网站获取的
(2)iTRACE:趋势可视化和分析
(3)iCAST:事件预测
(4)iSENT:基于大众媒体的情感分析
2 全球事件、语言和语气数据库 (GDELT)
- 基于超过100种语言新闻媒体,人类社会相关的近实时开放式数据库
- 由雅虎的Kalev Leetaru,乔治城大学,以及Philip Schrodt等人共同创建
- 使用 TABARI 系统对事件进行编码,采用另外的软件对位置和音调(Tone)进行编码
- 事件参与者、事件类型的编码遵循 CAMEO 分类法
数据流包括:
(1)事件数据库:编码全球范围内报道的事件活动(CAMEO)
1.0版本:文件格式,包含每日抽取的所有事件;数据每天更新
http://data.gdeltproject.org/events/index.html
2.0版本:谷歌云 (Big Query);事件记录从 2013/4/1 起,数据每 15 分钟更新一次
http://data.gdeltproject.org/events/index.html
事件记录包含以下属性:- 日期,事件参与者1(源)及其所处地理位置,事件参与者2(目标)及其所处地理位置
- 事件类型相关event action: isRootEvent, EventCode, EventBaseCode, EventRootcode, QuadClass, GoldsteinScale(强度), 事件提及次数NumMentions >= 提及事件的文章篇数NumArticles >= 事件信息的媒体源个数NumSources,AvgTone
- 源文本(新闻)URL等
(2)记录这些事件背后的人、地点、组织、主题和情感及其相互联系
(3)编纂世界新闻图像的视觉叙事
3 冲突与调解事件观察分类法Conflict and Mediation Event Observations (CAMEO)
早期工作
- WEIS和COPDAB,均为冷战期间创建的分类法
- 适用于当时主权国家常通过官方外交和军事威胁的方式做回应的情况
- 旧分类法不太适用于当前种族冲突、低强度暴力、有组织犯罪活动和多边干预等问题
CAMEO的研究最早开始于2000年,原旨在协助美国美国国家科学基金会的一个州际冲突调解项目
现广泛应用于 ICEWS 项目(鲁棒性强,可用性高)
基于目前找到最新的2012年1.1b3版本:
内容包括:事件编码方案(系统性强)、宗教和种族分类方案(新方案、系统性强)、参与者Actor分类方案(较不均衡)
仍需持续研究的:参与主体Agent分类方案,特定区域编码
展望:可考虑使用标准化的WordNet来重新定义CAMEO
- WordNet:一个英语词汇数据库 ,根据词性汇总有名词,动词,形容词,副词等同义词集
4 通过增强替换指令进行文本分析 Textual Analysis By Augmented Replacement Instructions(TABARI)
http://www.mariapinto.es/ciberabstracts/Articulos/TABARI.htm
- 基于模式识别,针对国际事件数据的机器编码系统
- 开源,Kansas Event Data System(KEDS)项目的C++版衍生系统
5 比较ICEWS和GDELT
5.1 概要
ICEWS | GDELT | |
---|---|---|
日期 | √,事件发生时间 | √,包括事件发生时间和事件记录创建时间 |
事件参与者 | √,编码参考自有字典;包括名称,所属部门、国家 | √,编码参考CAMEO;包括名称,所属国家、组别、民族、宗教、类型 |
事件类型 | √ | √ |
事件强度 | √,Intensity | √,GoldsteinScale |
提及次数* | √,NumMentions, NumArticles, NumSources | |
源文本URL | (仅提供源出处Publisher) | √ |
句子序号 | √ | |
时间相同的事件总数 | 少 | 多 |
注:* 在ICEWS中,日期、参与者、事件类型等主要属性相同,但源发布者、源文本ID、句子序号不同,可能会对应不同的事件ID(如下图);但在 GDELT 中可能会被视为同一个事件记录,因此GDELT会统计事件的提及次数。
5.2 示例
下面以2022 年 8 月 26 日发生的事件为例,分析比较两个事件数据库:
提取的事件数:
- ICEWS: 1929条(来自8/22-8/28的周数据集)+ 22条(来自8/29-9/4的周数据集)+ …
- GDELT: 98359条(来自8/26的日数据集)+ 230条(来自8/27的日数据集)+ …
ICEWS提供了事件参与者的具体名字,但GDELT仅提供了参与者较为笼统的名称
(ICEWS:参与者名字为佩罗西Nancy Pelosi,布莱客本Marsha Blackburn)
(GDELT:参与者名字为美国官员US OFFICIAL)
- 位置
GDELT:有时不能正确识别事件参与者所处位置
(GDELT:如第 13487 条,Actor2Name=美国官员,但Actor2Geo_FullName=中国 北京)
查看第 13487 条的源文本(新闻),发现仅最后一段提及窜台事件,而“北京”是在最后一句有提及:
再查找GDELT从本篇新闻提取到的所有事件,发现访问相关的参与者地理位置均有误:
(注:事件编码EventCode,071指提供经济援助,042指访问Make a visit, 043指接待访问Host a visit)
5.3 结论
来源:Arva, Bryan; Beieler, John; Fisher, Ben; Lara, Gustavo; Schrodt, Philip A.; Song, Wonjun; Sowell, Marsha; Stehle, Sam (July 3, 2013). “Improving Forecasts of International Events of Interest”. Retrieved June 21, 2014.
宾夕法尼亚州立大学教授在欧洲政治研究协会会上的发表
结论:在预测五个感兴趣的事件方面,GDELT数据表现优于ICEWS
算法:随机森林,自适应增强AdaBoost
原因:ICEWS算法过度减少误报(false negative)导致
- ICEWS致力于减少误报的同时没有同步减少漏报(false negative),造成数据集的不平衡,而漏报的处理其实会更棘手
- ICEWS处理误报的同时也消除了不少真阳性事件(true positive)
- GDELT更倾向于生成一个高误报率、极低漏报绿的事件数据库,而这个特点是有利于统计预测任务的
建议
- 每个数据集都有其自身的统计特征,建模时需要考虑所使用数据集的特征
- 可考虑之后的预测模型集成这两个数据集的数据
注:上文“Improving Forecasts of International Events of Interest”所使用的ICEWS数据来自研究阶段,并非当时的生产数据。
事件数据库Event Databse (ICEWS GDELT)相关推荐
- mysql数据库什么是事件_MySQL数据库之mysql 事件(Event) 总结
本文主要向大家介绍了MySQL数据库之mysql 事件(Event) 总结 ,通过具体的内容向大家展现,希望对大家学习MySQL数据库有所帮助. 1 事件简介 事件(event)是MySQL在相应的时 ...
- mysql数据库定点任务_MySQL数据库Event定时执行任务详解
一.背景 由于项目的业务是不断往前跑的,所以难免数据库的表的量会越来越庞大,不断的挤占硬盘空间.即使再大的空间也支撑不起业务的增长,所以定期删除不必要的数据是很有必要的.在我们项目中由于不清理数据,一 ...
- JavaScript 异步执行的学习笔记 - 什么是事件循环 Event loop?
原文 使用像 JavaScript 这样的语言进行编程时,最重要但也经常被误解的部分之一是如何表达和操作一段需要某段时间才能完成执行的程序行为. 这不仅仅是从 for 循环开始到 for 循环结束发生 ...
- ZStack OSAL的事件(event)与消息(message)——part1 part2
ZStack OSAL的事件(event)与消息(message)--part1 本文转载自:http://blog.csdn.net/ceci_zhou/article/details/978734 ...
- 记录-MySQL中的事件调度Event Scheduler
下面是自己的实例 /*查询event是否开启(查询结果Off为关闭 On为开启)*/ show variables like '%sche%'; /*开启/关闭命令(1开启--0关闭)*/ set g ...
- javaScript中的事件对象event是怎样
事件对象event,每当一个事件被触发的时候,就会随之产恒一个事件对象event,该对象中主要包含了关于该事件的基本属性,事件类型type(click.dbclick等值).目标元素target(我的 ...
- js进阶课程 12-9 jquery的事件对象event的方法有哪些?
js进阶课程 12-9 jquery的事件对象event的方法有哪些? 一.总结 一句话总结:三组六个,阻止默认事件一组,阻止冒泡一组,阻止冒泡和剩余事件一组. 1.事件的默认动作指什么? 比如点a标 ...
- C#事件(Event)的理解
文章目录 C#事件(Event)的理解 **事件的定义:** 事件的类型 C#事件(Event)的理解 事件的定义: C# 事件(Event): 基本上说是一个用户操作,如按键.点击.鼠标移动等等,或 ...
- 技术干货 | JavaScript 之事件循环(Event Loop)
导读:学过 JavaScript(下文简称 JS) 的都知道它是一门单线程的.非阻塞的脚本语言.单线程意味着,JS 代码在执行的任何时候,都只有一个主线程来处理所有的任务,这也就意味着 JS 无法进行 ...
最新文章
- 迪杰斯特拉算法c++_《算法图解》学习记录7--迪杰斯特拉算法
- Redis数据库搭建主从同步(主从概念、主从配置、主从数据操作)
- 川大锦城c语言期末考试答案,四川大学《计算机组成原理》2018期末考试B卷答案及评分标准.doc...
- P4430-小猴打架【perfer序列】
- 如何在python官网下载pip_[Python]Pip的安装以及简单的使用
- TIDB统计信息维护
- LINQ to DataSet
- Java并发编程-ReentrantLock
- C++的文件读写以及python的文件读写
- 探讨微软团队开发利器VSTS安装及部署篇
- python 干什么工作具有明显优势-Python在数据分析方面有什么独特优势
- PC读写西门子PLC寄存器的值
- 基于CNN网络的轴承故障诊断
- JS动态添加HTML元素
- ubuntu版本查看命令
- 在c语言中作为字符串结束标志是什么,字符串的结束标志是什么?
- 网站上传服务器浏览器打不开,网站发布或自己上传程序后,网站打不开的原因有哪些?...
- App Thinning Xcode9打包选择
- 基于 B/S 架构自助点餐系统的设计与实现
- MySQL存储过程中利用do while循环实现将行与行具有层级关系(联系)的行值检索出来