北语发布 | 汉语学习者文本多维标注数据集YACLC V1.0 -- 文本纠错方向
我组杨尔弘教授于2021年12月30日出席北京智源人工智能研究院自然语言处理前沿技术开放日活动,并汇报了汉语学习者文本多维标注数据集建设的最新成果。智能辅助语言学习是跨自然语言理解与生成两个方面的研究任务,对学习者产生的文本进行错误识别、并修改成为符合母语习惯的语句,需要知识指导。本数据集包含2000余篇汉语学习者文本,共计30000余句,由北京语言大学BLCU-ICALL组组织开发,召集具有汉语国际教育专业背景的标注人员对文本中的错误进行标注、改正,并给出语句的流利程度,形成具有多维信息的标注数据集,可服务于汉语自动语法纠错与评判,第二语言习得等研究。
标注体系
我们结合汉语自身的特点,基于粒度为词、最小改动、忠于原意和多维度标注四项标注原则,建立了一套新的汉语学习者语料库标注体系,创新点在于:
1)设计纠正偏误和提升流利度的标注方式,由多位标注员对同一句子进行标注,提供多维度的多种标注结果;
2)简化偏误类型为成分缺失、成分冗余、词汇误用、语序错误,降低标注难度;
3)对句子进行可接受度评分,并以此限制每种评分对应的标注方式,提升标注质量;
4)基于篇章级别信息,对偏误句的上下文依赖性进行分级标注。
标注实践
我们招募了百余位汉语国际教育、语言学及应用语言学等专业的研究生,组成标注员团队,并搭建了一个可供多人在线的众包标注平台,分阶段地开展偏误标注和审核工作。
标注界面示意图
多人标注任务界面
逐句审核界面
YACLC V1.0数据获取
本次发布的汉语学习者文本多维标注数据集YACLC V1.0,其训练集规模为8000条,每条数据包括原始句子及其多种纠偏标注与流利标注;验证集和测试集规模都为1000条 ,每条数据皆包含原始句子及其全部纠偏标注与流利标注。关于数据集详细情况见:
http://cuge.baai.ac.cn/#/dataset?id=21&name=YACLC
github地址:https://github.com/blcuicall/YACLC
编辑:王莹莹 孔存良 谢晨晖 王梦焰
北语发布 | 汉语学习者文本多维标注数据集YACLC V1.0 -- 文本纠错方向相关推荐
- 二维码生成工具V1.0
二维码生成工具V1.0 (安装 Microsoft .NET Framework 4.5) 功能一.基础配置是用来完成中间带Logo图标的配置功能,生成操作中,如果是要带图标时,必需上传: 功能二.单 ...
- 网站发布网(发布号) 自媒体新闻小偷程序伪静态版 V1.0
网站发布网(发布号) 自媒体新闻小偷程序伪静态版 V1.0 演示:https://news.aikisport.com/ 下载:https://news.aikisport.com/wzfbw.rar ...
- 安全和运维工具脑图v1.0
根据自己的运维工作经验和新的安全工作经验,初步绘制了一份综合安全和运维的工具脑图,分享给大家,感谢所有的开源和分享
- 企业智能化升级之路:CSDN《2017-2018中国人工智能产业路线图V1.0》重磅发布
2017年是AI之年,人工智能领域多年的努力和积累终于勃发,从政府到民间,从国家战略到坊间热点,从学术圈到资本圈,从主流领导企业到创新独角兽,一时间全社会各个角落关注AI.走向AI.布局AI,AI正在 ...
- 物联网平台TZ-IOT发布透传云内测服务:V1.0
物联网平台TZ-IOT发布透传云内测服务:V1.0 本文博客链接:http://blog.csdn.net/jdh99,作者:jdh,转载请注明. 物联网简介: 什么是物联网?顾名思义,物联网是万物互 ...
- 公告 | CCL 2022 汉语学习者文本纠错评测结果出炉!
每天给你送来NLP技术干货! 第二十一届中国计算语言学大会(CCL 2022)开幕在即,其中的汉语学习者文本纠错(CLTC)评测任务也已进入收官阶段.本次评测共吸引了140多支队伍报名参赛,各队伍同场 ...
- CCL2022 | 汉语学习者文本纠错评测期待您的参与!
每天给你送来NLP技术干货! 汉语学习者文本纠错任务(Chinese Learner Text Correction,CLTC)旨在自动检测并修改汉语学习者文本中的标点.拼写.语法.语义等错误,从而获 ...
- 北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020
2020-08-09 01:24:03 作者 | 青暮 编辑 | 丛末 2020 年8 月7日-8月9日,在中国深圳,由中国计算机学会(CCF)主办,香港中文大学(深圳).雷锋网联合承办,鹏城实验室. ...
- 北语计算机应用基础2,北语17春《计算机应用基础》练习2
北语17春<计算机应用基础>练习2 (4页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 14.90 积分 2017秋北语17春<计算机应 ...
- 14春计算机基础作业2,北语14春《计算机基础》作业2 答案.docx
北语14春<计算机基础>作业2 答案 作业名称:14春<计算机基础>作业2??出?卷?人:SA作业总分:100??通过分数:60起止时间:2014-6-4 21:15:34 至 ...
最新文章
- jconsole jvisualvm远程监视websphere服务器JVM的配置案
- 微软奇迹之旅-----天津站
- Qt 从C ++定义QML类型(二)
- 深入理解计算机操作系统(一)
- onvif_discover虚拟摄像头
- flink ETL和ETL工具啥区别
- 解读OC中的load和initialize
- mysql中字符串拼接函数_MySQL字符串连接函数
- 用c语言写代码_教你如何用android mvp分层架构优雅写代码
- 沉淀,再出发:docker的原理浅析
- SQL那些事儿(六)--数据库三大范式
- l2高斯分布_浅谈为什么L2正则化有效
- matlab frontier,使用Matlab计算Efficient frontier
- atitit 体系搭建的方法 解决方案 attilax总结.docx
- spring实例化前的准备操作
- c#通讯西门子plc
- cad中计算机的快捷键,CAD中一些常用的快捷键用法
- ITIL 4 Foundation 思维导图笔记整理
- win10以太网dns服务器未响应,Win10系统dns服务器未响应如何修复?
- [Poi2012]Rendezvous