一.   简介

很多数据集只能在LDC(Linguistic Data Consortium, https://www.ldc.upenn.edu/)获得,LDC语料库包括阿拉伯语、汉语和英语新闻文本、布朗语料库全文、来自交换机与费舍库(Fisher Collection)数以百万计的英语电话语音以及美国英语口语词汇。这里记录一下自己获取LDC的TACRED数据集遇到的一些问题。

二.  注册

1.1 邮箱注册

想要获取LDC下的某些数据集需要先注册账号(我注册使用的是学校统一的邮箱),注意注册过程中的所隶属机构不要选择错误。注册成功后邮箱会收到提示,根据链接激活账号后登录会发现账号显示“Guest”即来宾账户。(此时无法请求或购买数据)

1.2 隶属关系确认

随后邮箱会收到邮件提示:已向你注册时所提供的信息中的组织管理者发送邮件确认你的隶属关系,等待组织管理者确认你的身份后才能向LDC请求数据。

很多学校可能管理并不是很完善,很长时间都收不到身份确认,这时候你可以选择给LDC官方发邮件反应你的情况(我就是过了十多天都没人确认我的隶属身份)。一般LDC很快会回复邮件告知你组织管理者的一些信息,比如相应管理者的邮箱和电话等,接下来你就可以自己去联系组织管理者来确认那你的身份。

当身份被确认后,登录不再是“Guest”而是显示自己和组织机构的一些信息。右侧出现"Account Options"等字样。

三.  获取数据

上述操作全部完成后,即可搜索自己想要的数据集,滑至最下方可见:

点击“Request Data”后续就按提示进行相应操作。

在申请成功后,邮箱会受到提示邮件,并可查到相应发票信息,之后就是等待LDC的审核(可以邮件联系ldc@ldc.upenn.edu咨询进度),所有审核通过之后可以在”my account“界面右侧的”download“链接页面中找到相应的数据链接。

四.提示

获取的数据集不能传送给别人,仅限机构内使用。关于申请的数据集能不能用来发论文,本人还不是很清楚,欢迎大佬补充回答!

如果关于LDC语料还有其他问题,欢迎一起讨论交流!

LDC数据集获取、下载、购买相关推荐

  1. 制作目标检测数据集入门到精通(一)常用数据集(及下载数据网站)汇总

    目录 前言 1.目标识别知名数据集 1.1 PASCAL VOC 1.2 MS COCO 1.3 ImageNet 2 人脸识别相关 2.1 FERET人脸数据库 2.2 CMU Multi-PIE人 ...

  2. 【数据集下载神器】体验1000+优质数据集极速下载

    在一个合格模型的诞生过程中,繁杂的数据收集与处理工作往往给算法工程师带来了低效的工作体验. ▲一个模型的诞...生... 好的数据,对模型训练至关重要.自己做数据,即昂贵又费时费力:但是,使用现成的数 ...

  3. 多比Web 3D展示(3D机房/3D监控)中间件多比Web 3D展示(3D机房/3D监控)中间件免费下载购买地址...

    多比3D是实现3D场景搭建的软件开发包,可以创建广泛的3D应用,适用于高端制造.能源.国防军工.教育科研.城市规划及建筑环艺.生物医学等领域的虚拟仿真,应用于虚拟展示.虚拟设计.方案评审.虚拟装配.虚 ...

  4. 不得不赞!一个国内(可能)最好的海量CV数据集获取网站

    在CV等计算机领域中,好的数据,对模型训练至关重要.自己做数据,即昂贵又费时费力:但是,使用现成的数据集,即不好找又不好下载及使用.直到最近,CV君找到一个数据集获取神器 Graviti Open D ...

  5. 【FPN车辆目标检测】数据集获取以及Windows7+TensorFlow+Faster-RCNN+FPN代码环境配置和运行过程实测

    PS 最近在学目标检测想用最新的FPN网络,刚好看到这篇博客https://blog.csdn.net/Angela_qin/article/details/80944604尝试把它复现,说的小白一点 ...

  6. Scikit-learn学习系列 | 1. sklearn的简要使用介绍与数据集获取

    如有错误,恳请指出. 以下内容整理自专栏:博主"文火冰糖的硅基工坊"的专栏--机器学习与scikit-learn,对部分的文章的简化与整理. 文章目录 1. scikit-lear ...

  7. Nuscenes 完整版数据集批量下载

    Nuscenes 完整版数据集批量下载 需求: 高速下载Nuscenes完整版数据集.之前mini版本尝鲜版,采用google浏览器自带工具下载,速度慢,且容易断. 1. 数据地址 官方地址:http ...

  8. 遥感数据集的下载记录——MODIS产品为主

    遥感数据集的下载记录--MODIS产品为主 Motivation Datasets 1.Socioeconomic Data and Applications Center (sedac) 2.Ear ...

  9. MIMIC-CXR数据集的下载

    MIMIC-CXR数据集的下载 第一步 首先你需要注册一个pyhsionet账号,并且使用这个账号获取到CITI证书,具体步骤见链接1 第二步 申请mimic的访问权限,具体步骤见链接1.发出的申请是 ...

最新文章

  1. MIT出品2017-2018深度学习最新进展汇总
  2. hive ALLOW_UNQUOTED_CONTROL_CHARS
  3. 在Amilal听杭盖乐队演唱
  4. Office 2007打开提示The setup controller has encountered
  5. 经典机器学习系列(十二)【学习排序】
  6. db.serverStatus()
  7. 【语义分割】3、用mmsegmentation训练自己的分割数据集
  8. linux mbr转gpt分区,linux将GPT分区转换为MBR、RHEL GPT报错
  9. 80004005错误代码_0x80004005,小编教你解决0x80004005错误代码的方法
  10. 2020年阴历三月初九投资理财~从牛人那里吸取能量,让自己更加强大
  11. 【读书摘抄】人类简史
  12. oracle 甩手 java ee_Eclipse正式代替Oracle接管Java EE
  13. 短视频平台还能这样赚钱?无需拍视频,每天能赚200多详细流程
  14. 实验室预约管理系统 实验设备 笔记本
  15. Windows系统中文版切换英文版教程
  16. LD3320语音识别模块+MP3-TF-16P模块实现语音交互功能
  17. Codeforces Round #715 (Div. 2) A. Average Height
  18. 听说现在赶火车刷脸就进站了!Out,跟脸有关的最新玩法是你说什么,表情包就演什么
  19. 简单的学生在线练习系统(PHP版)
  20. 旅游管理系统-JAVA【数据库设计、源码、开题报告】

热门文章

  1. 保利威Polyv云直播、点播官方uni-app插件
  2. JAVA可以编杀毒软件吗??一个菜鸟的疑问
  3. PHP新浪面试题及完整答案
  4. 怎么用电脑把mkv格式转换成mp4
  5. 实验室规划设计方案SICOLAB
  6. 计算机网路原理与应用试题,2018年10月全国自考 04741计算机网络原理历年真题试题及答案...
  7. 基于BiGRU-Attention网络的 新型冠状病毒肺炎疫情预测学习记录
  8. mac m1 python vscode 远程调试代码(debug)配置,报错:Exception has occurred: ModuleNotFoundError
  9. HTML5+CSS笔记教程(CSS教程篇)
  10. LinqC#3.0 Hands on Lab