文章目录

  • 介绍
  • 数据库特点
  • 数据库内容
    • GDELT Event Database事件数据库
    • GDELT Global Knowledge Graph全球知识图
    • GDELT Visual Global Knowledge Graph[可视化全球知识图](https://blog.gdeltproject.org/gdelt-visual-knowledge-graph-vgkg-v1-0-available/)
    • GDELT GKG Special Collections
  • 数据规格说明
    • [GDELT 1.0 Event Database](http://data.gdeltproject.org/documentation/GDELT-Data_Format_Codebook.pdf)
  • 数据库使用
    • 下载
    • python中使用

介绍

GDELT数据库是一个全球社会数据库,在Google Jigsaw的支持下,GDELT项目用超过100种语言监控世界上几乎每一个角落的广播、印刷和新闻,并识别人物、地点、组织、主题、来源、情感、计数、引用、图像和事件,每时每刻都在推动着全球社会,为整个世界的计算创造一个免费的开放平台。
简单地说,GDELT 项目是一个通过世界新闻媒体的眼睛看到的人类社会的实时开放数据全球图,几乎实时地深入到世界上最偏远角落的本地事件、反应、话语和情感,并使所有这一切成为一个开放的数据流,使人类社会的研究成为可能。

数据库特点

全球化
GDELT 监控来自世界各国的超过100种语言的印刷、广播和网络新闻媒体,持续更新世界各地的突发事件。它的历史档案可以追溯到1979年1月1日,每15分钟更新一次。通过其影响世界集体新闻媒体的能力,GDELT 超越了西方媒体的焦点,走向了一个更加全球化的视角,关注正在发生的事情以及世界对此的感受。
新兴媒体
GDELT不仅仅会从传统媒体采集数据,也会从收集一些新兴媒体的新闻和报道,并且涵盖的媒体数量与种类在不断提高,力求能够深入了解世界各地的社交媒体使用方式。
历史广度
GDELT 是第一个真正的数十年的全球活动数据库,通过一系列的合作和伙伴关系,不断扩大 GDELT 的覆盖范围,将提供两个多世纪的编纂的全球历史。
语言翻译
GDELT 跨语言平台代表了世界上最大的实时流媒体新闻机器翻译部署,GDELT 用65种语言监控的所有全球新闻,占其每日非英语监控量的98.4% ,被实时翻译成英语并进行处理。

数据库内容

GDELT Event Database事件数据库

GDELT 事件数据库记录了世界各地超过300类的物理活动,可追溯到1979年1月1日,每15分钟更新一次。为每个事件捕获近60个属性,包括动作的大致位置和涉及的属性。这可以将新闻媒体捕获的世界事件的文本描述转换为大型“全球电子表格”中的编码条目。
举个例子,可以把一个无结构的文字“美国昨天指责俄罗斯在克里米亚部署军队,最近与其士兵发生冲突,导致10名平民受伤”转化为三个结构化的数据库条目,分别记录为:美国指责俄罗斯,俄罗斯在克里米亚部署军队,以及俄罗斯与克里米亚发生军事冲突。

GDELT Global Knowledge Graph全球知识图

GKG使用现有的一些最复杂的命名实体和地理编码算法,汇编了每个新闻报道中的人、组织、公司、地点、数百万个主题和数千种情感的列表。
由此产生的网络图构建了一个覆盖整个世界的图表,不仅记录了正在发生的事情,还记录了它的背景、参与者以及世界对此的感受,每天都在更新。

GDELT Visual Global Knowledge Graph可视化全球知识图

世界范围内的新闻报道越来越多地充斥着图像,但历史上 GDELT 一直局限于全球新闻报道的文本内容。截至2016年1月,每天从几乎每个国家的媒体上随机抽取100万张图片,并通过谷歌的 Vision API 进行处理。
每张图片上都注明了它所描绘的对象和活动,可识别文本的转录,从视觉背景推断出地理位置,可识别的标志,甚至是每个人脸的情感。

GDELT GKG Special Collections

除了基于新闻的实况全球知识图表之外,还有许多专门的数据集,侧重于特定的专门信息来源或主题。

数据规格说明

GDELT 1.0 Event Database

EVENTID和日期属性
GlobalEventID.(integer)
它是一条记录的唯一标识符,通常它是递增标识的。
Day.(integer)
记录事件发生的日期,格式为YYYYMMDD。
MonthYear.(integer)
记录事件发生的年月,格式为YYYYMM。
Year.(integer)
记录事件发生的年份,格式为YYYY。
FractionDate.(numeric)

记录事件发生的日期,格式为YYYY.FFFF,其中FFFF为到该日期为止在当前年份所占的百分比,通过公式(MONTH * 30 + DAY) / 365进行近似计算。
参与者属性
描述了事件中涉及的两个参与者的属性和特征,包括每个参与者的完整原始CAMEO代码、其正确名称和相关属性。这些属性表示地理、种族和宗教信仰以及参与者在环境中的角色(政治精英、军官、叛军等)。
Actor1Code. (character or factor)
参与者1的CAMEO码。CAMEO包含一组编码属性指示参与者的地理、阶级、民族和宗教信仰和他的角色信息(政治精英、军官、反对派等)。每个属性均为3个字母的缩写,以任何可能的顺序排列组成CAMEO码。
Actor1Name.(character)
参与者1 的真实名称。
Actor1CountryCode. (character or factor)
参与者1 的国家信息的CAMEO码,一定情况下可以为空。
Actor1KnownGroupCode.(character or factor)
如果参与者1是一个已知的组织(如联合国、世界银行、基地组织等),该字段将包含其CAMEO码。
Actor1EthnicCode. (character or factor)
如果系统能识别出参与者1的民族信息并且该民族具有CAMEO码,该字段将包含其CAMEO码。
Actor1Religion1Code. (character or factor)
如果系统能识别出参与者1的宗教信息并且该宗教具有CAMEO码,该字段将包含其CAMEO码。
Actor1Religion2Code. (character or factor)
如果参与者1包含多重宗教信息,该字段将包含其二级代码。一些宗教将自动使用两个代码,如Catholic将调用Christianity作为第一个代码,Catholicism作为第二个。
Actor1Type1Code.(character orfactor)
此处的三位CAMEO代码将指代参与者1的类型或角色信息。这可能是一个特定的角色,如警察、政府、军队、政治反对派,反对派等,或是如教育、精英、媒体、难民这样的广泛的角色类型,或是有组织的团体,例如民间运动。
Actor1Type2Code.(character or factor)
同上
Actor1Type3Code.(character or factor)

同上
参与者2将重复以上所有属性。

数据库使用

下载

下载事件数据库,按照时间排列,选择需要的数据库,下载得到的是csv文件。打开下载的csv文件,可以参考网站的CSV.header.fieldids文件,如图

python中使用

通过pandas以table方式读入数据
(以下代码需要输入自己的csv文件的绝对路径,本机存储D盘)

import pandas as pd
df=pd.read_table('D:/20210707.export.csv',engine='python')
print(df.to_string())

由于数据量庞大,一般情况下先选择查看前几行数据,了解数据类型及代表含义,输出前几行注意选择显示所有列

pd.set_option('display.max_columns',None)
print(df.head(3))

查看一行的所有列的信息

print(df.info())

GDELT数据库入门与了解(码字中...)相关推荐

  1. mysql数据库入门教程(11):视图讲解大全

    一.视图的介绍 含义:虚拟表,和普通表一样使用 mysql5.1版本出现的新特性,是通过表动态生成的数据 举例说明什么是视图:假设一个年级有10个班,上面有领导来啦,说要检查舞蹈功底,学校为了应付检查 ...

  2. mysql数据库入门教程(6):数据的增删改

    前面两篇博文介绍了数据库的查询 mysql数据库入门教程(4):查询讲解大全 mysql数据库入门教程(5):多表操作(连接查询,子查询,分页查询,联合查询) 今天介绍下数据库的增删改. 数据库基本操 ...

  3. mysql数据库入门教程(5):多表操作(连接查询,子查询,分页查询,联合查询)

    前文介绍了单表查询:mysql数据库入门教程(4):查询讲解大全 今天介绍下多表查询 一.连接查询 含义:又称多表查询,当查询的字段来自于多个表时,就会用到连接查询 先送上下面所讲用到的sql脚本 h ...

  4. linux启动mysql_【数据库】MySQL数据库入门学习

    Mysql是最流行的关系型数据库管理系统,在WEB应用方面MySQL是最好的RDBMS(Relational Database Management System:关系数据库管理系统)应用软件之一. ...

  5. 今晚直播丨国产数据库入门:openGauss数据库的基本管理和SQL语句入门

    国产数据库入门:openGauss数据库的基本管理和SQL语句入门 - 08/13 简介: 本讲座通过实验,学习管理openGauss数据库和SQL语言的使用: 通过学习基本的openGauss数据库 ...

  6. MySQL 数据库入门

    MySQL 是一个关系型数据库,使用 SQL 语言进行增删改查操作,目前属于 Oracle 旗下的产品. MySQL 数据库开源免费,能够跨平台,支持分布式,性能也不错,可以和 PHP.Java 等 ...

  7. mysql新手常见问题_MySQL数据库入门-新手常见问题答疑

    1.安装不上MySQL 8.0 大多数在Windows安装不上MySQL 8.0的同学,都是因为缺少依赖包,没有安装Visual C++ 2015 Redistributable Package(或更 ...

  8. Cache数据库入门

    Cache数据库入门 文章目录 Cache数据库入门 1. 简介 2. 数据特点 3.官网学习资料 1. 简介 Caché数据库是美国Intersystems公司产品,后关系型数据库(Post Rel ...

  9. 学计算机的怎样分析TCGA数据库,开启数据挖掘之门:TCGA数据库入门必看!

    原标题:开启数据挖掘之门:TCGA数据库入门必看! 喜欢我的都关注我了~ 在肿瘤研究领域,相信没有人不知道The Cancer Genome Atlas (TCGA). TCGA是美国国家癌症研究所( ...

  10. DM8数据库入门学习总结

    达梦数据库入门学习总结 操作环境 VMware Workstation 15.5 Pro NeoKylin Linux Advanced Server V7 达梦数据库 DM8 SecureCRT(可 ...

最新文章

  1. u盘被分区之后怎么合并linux,U盘格式化做启动盘后从16GB变成200MB的解决方法
  2. flannel 的连通与隔离 - 每天5分钟玩转 Docker 容器技术(61)
  3. OpenStack 虚拟机启动流程 UML 分析(内含 UML 源码)
  4. mysql中sql命令大小写吗_sql语句大小写有关系吗?
  5. 简易有效Api接口防攻击策略
  6. 如何打造一支有超强战斗力的技术团队?
  7. linux shell命令 复制,将bash提示符下的当前命令复制到剪贴板
  8. 关于在Ubuntu下安装配置numpy,scipy,matplotlibm,pandas 以及sklearn
  9. 将connection存放在Threadlocal里和数据库连接池的区别
  10. JavaScript创建与读写本地文件(IEFirefox)
  11. VMware 修复 vCenter 服务器中的严重 RCE 漏洞
  12. Dubbo即将毕业,晋升为Apache顶级项目?
  13. linux 系统命令总结之ubuntu 系列命令 持续更新中~
  14. linux centos8安装nginx_如何在 Fedora 30 Server 上安装 LEMP(Linux、Nginx、MariaDB、PHP)| Linux 中国...
  15. 【资源分享】分享十个历史版本的eclipse安装包
  16. [转载] 像 IDE 一样使用 vim
  17. Python爬虫程序实例
  18. Adb connection Error:远程主机强迫关闭了一个现有的连接。
  19. PC_溢出概念+判断方法+示例
  20. Android光线传感器

热门文章

  1. 解读一淘网(etao)首页响应式兼容ie6~ie8实现方法
  2. On the Efficacy of Knowledge Distillation
  3. html框架自动居中,Pandas DataFrame.to_html方法,让自动生成的html中的表格整体居中...
  4. yoga book android rom,【发帖王】YOGA BOOK Android版玩机技巧
  5. ArcGIS之定义投影
  6. oracle中字符串长度计算,根据 oracle 标准计算超长字符串的长度
  7. win 7更改计算机用户名和密码错误,Win7旗舰版开机显示用户名和密码错误的解决教程...
  8. python调用迅雷下载引擎_GitHub - cryzlasm/ThunderOpenSDK: 迅雷开放下载引擎, 收集, 使用...
  9. Arduino 红外接收码获取程序
  10. Win10用Windows照片查看程序(照片查看器)打开图片