国内语料库建设一览表
类型 语料库名称及大小 建设单位
英语学习者语料库(书面语及口语) 中国学习者语料库 CLEC(100万) 广外、上海交大
大学英语学习者口语语料库 COLSEC (5万) 上海交大
香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学
中国英语专业语料库 CEME (148万) 南京大学
中国英语学习者口语语料库 SECCL (100万) 南京大学
国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大
硕士写作语料库 MWC (12万) 华中科技大学
平行语料库 汉英平行语料库 PCCE 北外
南大-国关平行语料库 南京大学
英汉文学作品语料库; 外研社
冯友兰《中国哲学史》汉英对照语料库
李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库
计算机专业的双语语料库; 国家语言文字工作委员会语言文字应用研究所
柏拉图(Plato)哲学名著《理想国》的双语语料库
英汉双语语料库(15万对) 中科院软件所
英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对 中国科学院自动化研究所
英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学
英汉双语语料库(40-50万句子对) 哈尔滨工业大学
双语语料库(5万多对) 北京大学计算语言学研究所
对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学
平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾
特殊英语语料库 中国英语(China English)语料库 河南师范大学
军事英语语料库(Corpus of Military Texts) 解放军外语学院
新视野大学英语教材语料库 上海交通大学
汉语语料库 汉语现代文学作品语料库(1979年,527万字) 武汉大学
现代汉语语料库(1983年,2000万字) 北京航空航天大学
中学语文教材语料库(1983年,106万8000字) 北京师范大学
现代汉语词频统计语料库(1983年,182万字) 北京语言学院
国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会
《人民日报》语料库(2700万字) 北京大学计算机语言学研究所
大型中文语料库(5亿字,10分库) 北京语言文化大学
现代汉语语料库(1亿字) 清华大学
汉语新闻语料库;(1988年,250万字) 山西大学
标准语料库(2000年,70万字)
生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学
现代自然口语语料库 中国社会科学院语言所
旅游咨询口语对话语料库和旅馆预定口语对话语料库 中国科学院自动化所

常用的:

北京大学中国语言学研究中心 双语语料库 http://ccl.pku.edu.cn:8080/ccl_corpus/

搜狗实验室 文本分类、互联网语料 http://www.sogou.com/labs/dl/c.html

转载于:https://www.cnblogs.com/zhangweilong/archive/2012/10/22/2734236.html

国内语料库建设一览表相关推荐

  1. 对外汉语语料库有哪些_国内语料库建设一览表

    英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外.上海交大 大学英语学习者口语语料库 COLSEC (5万) 上海交大 香港科技大学学习者语料库 HKUST Learner ...

  2. 中医英语语料库建设理论与实践(下)

    http://www.oktranslation.com/Cms/Article.aspx?ArticleID=10646 谈谈中医英语语料库建设中的理论与实践问题 汪腊萍 上海师范大学外国语学院 从 ...

  3. 探访国内NB-IoT建设样板城市:物联网带来智慧和内涵

    物联网给城市带来智慧和内涵 探访国内NB-IoT建设样板城市--江西鹰潭 有着"中华道都""中华铜都"之称的江西鹰潭市现在又多了一张新名片--智慧新城,而实现智 ...

  4. 国内云建设普遍缺失的一环:云管理平台

    ■ 作者:刘涛 ■ 来源:InfoQ中文站(查看原文) 概述 云管理平台是云时代充分发挥云计算特性优势大幅提升生产力.应对新增混合云多云资源管理问题的平台工具.当前在国外已发展多年并非常成熟,而在国内 ...

  5. 基于文本内容理解的中医药数据基础研究——中医药文献语料库的建设

    http://journal.shouxi.net/html/qikan/zgyx/zgzyyxxzz/20079149/zyyxxx/20100108093937831_500494.html [关 ...

  6. 如何建语料库_如何建设语料?

    语料库的建设与开发 (一)总体设计 首先语料库的建设目的要明确,建库的目的决定着语料的选取. 如由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授等主持建设的中国学习者英语语料库(CLEC)建库目的 ...

  7. 工信部携码云 Gitee 入场,国内开源生态建设进入快车道

    点击上方"开源社"关注我们 | 转载自:码云Gitee | 编辑:Corrie | 设计:冯艺怡 开源社引言 大家好,我是开源中国创始人红薯,同时也是开源社理事. 开源中国运营了7 ...

  8. 自然语言处理(4)——语料库和语言知识库

    NLP学习笔记(4)--语料库和语言知识库 1. 基础知识 2.语料库技术的发展 第一个阶段:早期,20世纪五十年代中期之前 二个阶段:沉寂时期,1957-20世纪八十年代初 第三个阶段:复苏与发展时 ...

  9. 大数据时代传播研究中语料库分析方法的价值

    [摘要]:大数据时代的研究逻辑,对传播学研究形成了新的冲击,传统的文本分析方 法,已经不能满足对样本数量的宏阔和数据挖掘深度上的双重要求.语料库的研究方法 在数据新闻.舆情监测和学术研究等领域都可以得 ...

  10. NLP复习资料(2)-三~五章:形式语言、语料库、语言模型

    NLP复习资料-三~五章 1.第三章:形式语言 2.第四章:语料库 3.第五章:语言模型 国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 1.第三章:形式语言 1.语言描 ...

最新文章

  1. 程序员的求生欲有所强?用 Python 花式哄女友
  2. C 语言编程 — 编程实践
  3. 偏移量详解-源自csna 菜鸟飞人
  4. linux经典书籍--Linux系统编程
  5. vue输入框联想词功能
  6. 【计算机网络】聊一聊那些常见的网络通信的性能指标
  7. Java黑皮书课后题第4章:*4.7(顶点坐标)假设一个正五边形的中心位于(0,0),其中一个点位于0点位置。编写程序,提示用户输入正五边形外接圆的半径,显示p1到p5的5个坐标,保留两位小数
  8. 子组件是表格时向父组件传值
  9. 中文验证码 php_还在苦恼验证码怎么实现?看看这个验证码组件合集,你想要的都有...
  10. 单例模式简单示例与优化
  11. Android 四大组件学习之ContentProvider三
  12. 向量组A可以由一个向量组B表出,并且A的秩小于B的秩,那么A线性相关
  13. GEE实现夜光遥感数据分析
  14. matlab chan算法定位,求Chan算法解析
  15. 【折腾系列—All In One主机】1、 PVE虚拟机系统安装
  16. 如何通俗易懂地解释什么是SOA?什么是服务治理
  17. NASA 选择 Qt 框架开发国际空间站应用
  18. oracle修改数据文件
  19. 带领初学者学习 SQL 数据库编程视频教程(11 个视频)
  20. 数据结构作业9(清览题库)

热门文章

  1. Access denied for user ‘root‘@‘localhost‘ (using password: YES)
  2. python 求解给定字符串中的最长DNA序列长度
  3. 语言编奇数和合偶数和_Go语言基础(三)
  4. 金蝶k3安装详细步骤_ug安装教程详细步骤ug怎么免费安装教程ug软件怎样安装步骤...
  5. tbb::atomic和std::atomic的区别 废弃
  6. 英文标题大写格式化 在线网站
  7. linux编译安装rrdtool,Linux下RRDTool安装方法
  8. 基于Java的敬老院管理系统
  9. 2020-07-05
  10. wordpress插件WP Rest API接口文档说明