Ontonotes Release 5.0数据集的获取与处理
前段时间做的语义角色标注任务(SRL)时需要用到ontonotes-release-5.0的数据集,前前后后花了将近半个月的时间才把数据集处理好,一个个坑踩过来很有必要记录下,希望对其他人有所帮助。
第一步:注册LDC账号并加入组织获取数据
在寻找数据源的过程中很多链接最后都会指向LDC这个神秘的组织。这个组织掌握了各行各业很多种数据集,价格从几百美元到几千美元不等,好在我们需要的ontonotes-release-5.0,免费。在这里是LDC2013T19,如下图:
点右上角register注册账号没什么难度。
注册账号的过程中需要加入一个组织,这个组织可以是你的大学或者公司或者随便一个其他的什么虚构的组织都可以,但前提是你能在LDC组织名录下面搜得到:
填好组织之后以下的信息填写没什么难度,一旦你加入的组织通过了申请你就可以进行下一步。然而,很多情况下这个组织的管理员可能并不会及时看到你的申请,所以你的申请左等右等都石沉大海都是有可能的。那怎么办呢?既然人家不通过我的申请,那我自己创建一个组织自己当管理员好了。
点击create your organization,在右边会弹出具体信息让你填:
创建好之后回到第一张截图的界面往下拉,可以看到request data:
之后就是按照提示一步步来,没什么难度。LDC那边可能需要几天来审核(可以联系ldc@ldc.upenn.edu咨询进度,对方也会及时回你邮件),审核通过之后可以在my account界面的右边download链接找到对应的数据下载:
这样就完成了数据的获取。注意,这个数据不可以随意transfer,也就是说不能随便给别人用,只能在你注册的组织机构范围内使用,否则可能会承担相应的法律责任!
第二步:处理数据
你以为下载好了就可以直接用了吗?图样图森破,有专门的网页教你怎么去处理这个数据。但是这个网页特别坑爹的是第3步的scripts已经无法下载了,就问你无语不无语。好在有其他地方可以找到下载的script。这个网页介绍的很详细怎么处理数据我就不多少了。处理完之后的数据是**conll格式的*,长这样:
处理之前的红框单词都是mask掉的:
如果你觉得这一路走下来太麻烦了而你只想要*conll数据,可以直接从这个GitHub项目获取,都是处理好的数据,一步到位。
Ontonotes Release 5.0数据集的获取与处理相关推荐
- @Zabbix6.2安装部署【 Red Hat Linux release 8.0】
文章目录 1.版本支持官方确认 2.服务器环境 3.zabbix6.2部署 4.数据库选用 5.数据库安装及初始化 6.zabbix系统架构数据导入 7.zabbix server配置DB 8.Zab ...
- 飞桨领航团AI达人创造营课程笔记Lesson_2:数据集的获取与处理(CV方向)
目录 1 数据集的获取途径 1.1 Kaggle有趣比较火热的数据集 1.2 天池 1.3 DataFountain 1.4 其他常用的数据集官网 2 数据处理与标注 2.1 官方数据处理成VOC或者 ...
- Swift3.0语言教程获取字符串编码与哈希地址
Swift3.0语言教程获取字符串编码与哈希地址 Swift3.0语言教程获取字符串编码与哈希地址,以下将讲解字符串中其它内容的获取方法. 1.获取字符串编码 在NSString中可以使用2个属性获取 ...
- Swift3.0语言教程获取C字符串
Swift3.0语言教程获取C字符串 Swift3.0语言教程获取C字符串,为了让Swift和C语言可以实现很好的交互,开发者可以使用NSString的cString(using:)方法在指定编码格式 ...
- Swift3.0语言教程获取字符
Swift3.0语言教程获取字符 Swift3.0语言教程获取字符,在字符串中获取某一下标位置(下标索引)处的字符是很常见的功能,在NSString中使用character(at:)方法实现,其语法形 ...
- Swift3.0语言教程获取字符串长度
Swift3.0语言教程获取字符串长度 Swift3.0语言教程获取字符串长度,当在一个字符串中存在很多的字符时,如果想要计算字符串的长度时相当麻烦的一件事情,在NSString中可以使用length ...
- angular路由传递参数_在angular4.0路由传递获取参数的最优方案
这次给大家带来在angular4.0路由传递获取参数的最优方案,在angular4.0路由传递获取参数的注意事项有哪些,下面就是实战案例,一起来看一下. 研究ng4的官网,终于找到了我想要的方法.我想 ...
- click js自动点击 vue_vue.js2.0点击获取自己的属性和jquery方法
如下所示: :data-index="index" :dt="index" v-on:click="onclick($event,index)&quo ...
- Red Hat Enterprise Linux Server release 7.0双系统安装
2019独角兽企业重金招聘Python工程师标准>>> Red Hat Enterprise Linux Server release 7.0双系统安装 1.RedHat 公司的企业 ...
最新文章
- unity3D打包发布Apk详细步骤
- [总结]vue开发常见知识点及问题资料整理(持续更新)
- Ceph BlueStore 和双写问题
- 电脑怎样执行编程语言的?
- 10 邮件槽_员工主动发离职邮件,提出申请又反悔,法院判决让人懵了!
- Android Studio 安装ASM插件
- 局部内部类和匿名内部类的对比
- PHP: 在类(class)中加载动态函数, 变量函数或半变量函数 variable function/method
- cbc系统是指_制动EBD,CBC是什么意思?
- python基础文件读写(十五)
- sql server从数据库导出导入教程
- 设计模式(十): 代理模式
- 【图像隐写】基于matlab GUI DCT变换图像隐写【含Matlab源码 1380期】
- Web前端开发实验(导航栏、购物页面)
- 如何在libfetion上使用ibus输入法
- 从新一期技术雷达看技术领域最新趋势
- em html字号,使用 em 来设置字体大小
- LZX 定义 - 转帖
- Golang 数组的一些自问自答
- Oracle RAC集群安装,从零开始