ChineseDiachronicCorpus项目,大规模中文历时语料库
ChineseDiachronicCorpus
ChineseDiachronicCorpus,中文历时语料库,横跨六十余年,包括腾讯历时新闻2009-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002。基于历时流通语料库,可用于历时语言变化计算、语言监测、社会文化变迁研究提供基础性的语料支持。
为什么中文开放数据集如此之难
有的时候我在想,chineseldc基本停滞了,后面除了gluedata benchmark,国内数据集开源为什么这么难?我想了一想,不当当是侵权的问题,有很多原因【不一定对】:
1)研究导向。数据集属于很底层、初级的工作,头部研究注意力放在深度学习上(近年来有好转,比如ccl近2年的best paper 都有侧重),基础数据没人做;
2)版权保护。虽然国家没有出台官方的抓取即违法的政策,但这是大趋势,这个也制约了数据的发布和公开。
3)研究保护。国内开源生态不乐观,发出去,就等着被抄,花费大量人力、物力、财力标注的语料,可能发布出去就直接被使用,形成竞争壁垒。
4)缺乏引导。近年来有意识的在搞平台,比如百度搞千言,民间搞glue benchmark,但最怕做成摆货架。 目前开放了很多的基础评测资源,大大多都是针对英文的【没办法,要国际化,要文章】。
6)缺乏统一的资源开放标准。资源开放标准的制定、推行,是一个自顶向下的行为,制定可行的标准,是今后资源管理、规范化,有效、公正 地评测资源任务的重点。
得语言者得天下,得语言资源者,分得天下。中文语言资源,不应该是这幅模样。
项目的由来
语言是人类重要的交际工具,同时也是社会的镜子,语言记录并反映了社会,对语言记录进行挖掘、计算,可以从各个层面对社会进行解读。例如,基于语料库进行词语考察,以反映单个词语在不同时间周期中的使用及变动情况。 以语料为载体,挖掘出属于某个特定时间周期的社会特点,例如年度关键词、年度人物、年度流行语;对词语进行文化计算,如颜色计算、性别计算、观点计算等,以考察整个社会对某一事物、看法的演变。 当前,开源可用的中文历时语料库较少。代表性的有北京语言大学国家语言资源监测与研究平面媒体中心DCC动态流通语料库,其对国内数十家报纸媒体进行监测,也有中国传媒大学的历时语料库可以使用。
当前,随着网络技术的发展以及采集技术的相对成熟,构建起历时语料库变得越来越容易,这就使得向外界共享历时语料库变得更为便利且必要。 本项目,旨在通过公开收集的方式,从网络媒体和平面媒体两个角度出发,形成腾讯新闻、人民日报、参考消息三大历时语料库,以供社会开放使用。
项目的用途
那么,基于这个语料库,能够做什么呢?总结了下,至少可以从词语考察、语义计算、热度计算、文化计算、媒体对比、语法研究等六个方面开展工作。
用途名称 | 技术手段 | 应用场景 |
---|---|---|
词语考察 | 分词、词频统计 | 通用词表等编写 |
语义计算 | 共现词、MI搭配、依存搭配 | 搭配等语义词典编写 |
热度计算 | 流通度计算、术语提取 | 流行语等发布 |
文化计算 | 颜色计算、性别计算 | 文化变迁 |
媒体对比 | 媒体差异计算 | 传播学研究 |
语法研究 | 语法模式检索 | 语法教材与词典编写 |
项目的获取
对于如何获取数据,下表是对数据集的介绍,需要使用的可以开放下载使用,因涉及版权问题,暂只放数据来源。免责声明:该项目由公开渠道收集而成,不可商用,仅可用于科学研究,若有侵权,可联系删除。
数据名称 | 时间跨度 | 数据大小 | 数据来源 |
---|---|---|---|
腾讯新闻 | 2009-2016 | 5GB | https://auto.qq.com/l/201104/scrollnews_15.htm |
人民日报 | 1946-2003 | 3.44GB | http://www.laoziliao.net/rmrb/ |
参考消息 | 1957-2002 | 1.1GB | http://www.laoziliao.net/ckxx/ |
关于作者
刘焕勇,中国科学院软件研究所,兼任数据地平线科技算法总监,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我: 1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn技术博客:https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com.
4、我的共享知识库项目:刘焕勇,数据地平线,http://www.openkg.cn/organization/datahorizon.
5、我的工业项目:刘焕勇,数据地平线,大规模实时事理学习系统:https://xueji.datahorizon.cn.
6、我的工业项目:刘焕勇,数据地平线,面向事件和语义的自然语言处理工具箱:https://nlp.datahorizon.cn
ChineseDiachronicCorpus项目,大规模中文历时语料库相关推荐
- 大规模中文概念图谱CN-Probase正式发布
历时多年的研发,复旦大学知识工场实验室正式推出大规模中文概念图谱--CN-Probase,用于帮助机器更好的理解人类语言.概念图谱中包含实体(比如"刘德华").概念(比如" ...
- 技术动态 | 大规模中文概念图谱CN-Probase正式发布
本文转载自公众号知识工场. 历时多年的研发,复旦大学知识工场实验室正式推出大规模中文概念图谱--CN-Probase,用于帮助机器更好的理解人类语言.概念图谱中包含实体(比如"刘德华 ...
- python 中文姓名库_中文人名语料库。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。...
中文人名语料库(Chinese-Names-Corpus) 业余项目"萌名NameMoe(一个基于语料库技术的取名工具)"的副产品. 不定期更新.只删词,不加词. 可用于中文分词. ...
- 大规模中文文本处理中的自动切词和标注技术
Internet网络通信技术和大容量存储技术的发展,加速了信息流通的速度,形成了大规模真实文本库.这些信息具有规模大.实时性强.内容分布广和格式灵活多样等特点,从而迫使人们考虑语言信息处理的新理论和新 ...
- AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库
AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库 文章来源:数据堂 网址:https://www.datatang.com/ 前言: 近年来,深度学习在语音识别领域取得了突破性进 ...
- 大规模中文多模态评测基准MUGE发布
简介:MUGE全称是Multimodal Understanding and Generation Evaluation Benchmark,是由达摩院智能计算实验室认知智能团队推出了大规模中文多模态 ...
- Flowable springboot项目自定义中文字体
Flowable springboot项目自定义中文字体 摘要:在flowable框架中,当我们想要集成springboot框架的时候,可能要设置中文字体,flowable6.4之前的版本因为没有可以 ...
- 导入项目时中文乱码的消除
导入项目时中文乱码一般是因为导入的java文件编码和Eclipse对java文件的默认编码不一致导致的,通过设置改变java文件的默认编码设置可以消除乱码. java文件默认编码设置: Window ...
- SpringMVC项目中中文字符乱码问题及解决办法总结(非专业最优解决办法) -- ajax传值乱码; request.getParameter()乱码;
SpringMVC项目中中文字符乱码问题及解决办法总结(非专业最优解决办法) -- ajax传值乱码; request.getParameter()乱码; 参考文章: (1)SpringMVC项目中中 ...
最新文章
- sql server 2005 T-SQL CAST 和 CONVERT (Transact-SQL)
- javaWeb学习总结(4)- HttpServletResponse
- 虎牙直播张波:掘金Nginx日志
- ros构建机器人运动学模型_古月私房课 | ROS机械臂开发中的主角MoveIt!
- java 3des 32位密钥_3des,java_java 中32位秘钥长度的 3des加密方法?,3des,java - phpStudy...
- Gen系列服务器,新计算、新体验 | 新华三全新HPE Gen10系列服务器响彻“云”端
- 【Servlet】getInitParameter()发生空指针导致HTTP500的解决方案
- 评论:巴菲特“天价午餐”值吗?
- Python编程的Turtle 库画出“精美碎花小清新风格树”,速取代码!
- 关于Cocos2d-x随机数的生成
- 一秒等于多少毫秒_全国首批!海宁5G正式商用!用手机的人必看!快多少?价贵吗?怎么换?...
- 基本数据类型的值传递 和引用数据类型的引用传递 Day06
- gram矩阵的性质_第十七课:正交矩阵和GramSchmidt正交化——MIT线性代数课程学习笔记...
- 怎样得到对方的电脑名_吸引力法则让他想念你,让对方主动找你
- CentOS下启动mysql出现“MySQL Daemon failed to start”解决办法
- matlab图像处理教学视频,MATLAB图像处理实例详解视频教程
- 学习笔记(1):《微电子器件》陈星弼(第四版)第1章 半导体物理基础及基本方程
- stm32低功耗解决方案-(外部时钟芯片RX8025T)
- HTML5超级链接、图片与多媒体
- 即将首发 | 业界首个零售数字化创新白皮书,解锁全链路数字化致胜秘籍
热门文章
- 嵌入式里如何给内存做压力测试?不妨试试memtester
- Mplayer后台播放没有声音
- Linux编译内核出错怎么抓log,内核编译失败
- CFileDialog
- 单链表的应用 就地逆置
- 【Pytorch神经网络理论篇】 26 基于空间域的图卷积GCNs(ConvGNNs):定点域+谱域+图卷积的操作步骤
- Uniapp学习笔记(数据展示、数据循环、条件编译、计算属性、组件的使用、组件插槽、生命周期)
- 三、数据预处理——处理分类型数据:编码与哑变量
- LeetCode 1874. 两个数组的最小乘积和
- LeetCode 1933. 判断字符串是否可分解为值均等的子串