大数据之行,始于足下:谈谈语料库知多少

作者:白宁超

2016年7月20日13:47:51

摘要:大数据发展的基石就是数据量的指数增加,无论是数据挖掘、文本处理、自然语言处理还是机器模型的构建,大多都是基于一定量的数据,数据规模达到一定程度,采用基于规则方法或者概率统计学的方法进行模型构建,感兴趣知识的获取才更有意义。那么,是不是数据足够大就是大数据了?是不是数据足够多就构成语料库了?往往一个模型好坏跟训练数据或者检验数据的语料库息息相关。本文笔者带你走进语料库的世界,在随后模型构建过程避免一些语料注意事项,大大提升模型效率。(本文原创,转载请注明出处:大数据之行,始于足下:谈谈语料库知多少。)

1 语料库语言学


  1. 大多数学者普遍认为:语言学的研究必须基于语言事实的基础,必须详尽的大量的占有材料,才有可能在理论上得出比较可靠的结论。
  2. 语料库语言学:传统语言材料的搜集整理和加工完全以手工进行,费时费力,直到计算机出现并随之计算能力强大之后,原先手工的工作开始转向计算机去做,后来逐渐的方法完善中,提出一些初步的理论,形成了语料学这样一门语言学与计算机科学交叉的学科。
  3. 语料库语言学的研究范畴:主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言教学、语言定量分析、词汇研究、词语搭配研究、词典编制、语法研究、语言文化研究、法律语言研究、作品风格分析、自然语言理解、机器翻译等。

2  建立语料库的意义


语料库作为一个或者多个应用目标而专门收集的,有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料的集合。本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用的总体。

3 语料库研究的一些原则问题


3.1 语料库划分与种类

① 时间划分:历时语料库和共时语料库。

② 加工深度划分:标注语料库和非标注语料库

③ 结构划分:平衡结构语料库和自然随机结构语料库

④ 表达形式划分:口语语料库和文本语料库

⑤ 语种划分:单语种语料库和多语种语料库(可比语料库和平行语料库)

⑥ 动态更新程度划分:参考语料库和监控语料库

3.2 构建语料库的原则

语料库应该具有代表性、结构性、平衡性、规模需求并制定语料的元数据规范,各个原则具体介绍如下:

①   代表性:在应用领域中,不是根据量而划分是否是语料库,而是在一定的抽样框架范围内采集而来的,并且在特定的抽样框架内做到代表性和普遍性。

②   结构性:有目的的收集语料的集合,必须以电子形式存在,计算机可读的语料集合结构性体现在语料库中语料记录的代码,元数据项、数据类型、数据宽度、取值范围、完整性约束。

③   平衡性:主要体现在平缓因子:学科、年代、文体、地域、登载语料的媒体、使用者的年龄、性别、文化背景、阅历、预料用途(私信/广告等),根据实际情况选择其中一个或者几个重要的指标作为平衡因子,最常见的平衡因子有学科、年代、文体、地域等。

④   规模性:大规模的语料对语言研究特别是对自然语言研究处理很有用的,但是随着语料库的增大,垃圾语料越来越多,语料达到一定规模以后,语料库功能不能随之增长,语料库规模应根据实际情况而定。

⑤   元数据:元数据对于研究语料库有着重要的意义,我们可以通过元数据了解语料的时间、地域、作者、文本信息等;还可以构建不同的子语料库;除此外,还可以对不同的子语料对比;另外还可以记录语料知识版权、加工信息、管理信息等。

注意:汉语词与词之间没有空隙,不便于计算机处理,一般需要进行切词和词性标注。

4 语料标注的优缺点


①   优点: 研究方便。可重用、功能多样性、分析清晰。

②   缺点: 语料不客观(手工标注准确率高而一致性差,自动或者半自动标注一致性高而准确率差)、标注不一致、准确率低

总之,目前语料库语言学主要研究机器可读自然文本的采集、存储、检索、统计、自动切词、词性标注、语义标注等。

5 参考文献


【1】 数据挖掘概念与技术(364--386) 韩家炜

【2】 自然语言处理简明教程  冯志伟 著

【3】 统计自然语言处理基础 (166—169) 宛春法等译

6 自然语言相关系列文章


【自然语言处理:马尔可夫模型(一)】:初识马尔可夫和马尔可夫链

【自然语言处理:马尔可夫模型(二)】:马尔可夫模型与隐马尔可夫模型

【自然语言处理:马尔可夫模型(三)】:向前算法解决隐马尔可夫模型似然度问题

【自然语言处理:马尔可夫模型(四)】:维特比算法解决隐马尔可夫模型解码问题(中文句法标注)

【自然语言处理:马尔可夫模型(五)】:向前向后算法解决隐马尔可夫模型机器学习问题

【自然语言处理:谈谈学习模型的评估(一)】:统计角度窥视模型概念

【自然语言处理:谈谈学习模型的评估(二)】:基于Data Mining角度的模型评估与选择

【自然语言处理:谈谈学习模型的评估(三)】:基于NLP角度的模型评价方法

【自然语言处理:谈谈学习模型的评估(四)】:基于R语言的模型案例实战

7 语料库


  1. 古滕堡语料库
  2. 语料库在线
  3. 搜狗实验室新闻|互联网数据
  4. 北京大学语言研究中心
  5. 计算机语言研究所
  6. 数据堂

声明:关于此文各个篇章,本人采取梳理扼要,顺畅通明的写作手法。系统阅读相关书目和资料总结梳理而成,旨在技术分享,知识沉淀。在此感谢原著无私的将其汇聚成书,才得以引荐学习之用。其次,本人水平有限,权作知识理解积累之用,难免主观理解不当,造成读者不便,基于此类情况,望读者留言反馈,便于及时更正。本文原创,转载请注明出处:大数据之行,始于足下:谈谈语料库知多少。

转载于:https://my.oschina.net/u/3579120/blog/1539072

【NLP】大数据之行,始于足下:谈谈语料库知多少相关推荐

  1. 大数据时代传播研究中语料库分析方法的价值

    [摘要]:大数据时代的研究逻辑,对传播学研究形成了新的冲击,传统的文本分析方 法,已经不能满足对样本数量的宏阔和数据挖掘深度上的双重要求.语料库的研究方法 在数据新闻.舆情监测和学术研究等领域都可以得 ...

  2. 大数据入行的新手,推荐几本好书

    据可靠数据显示,截止到2018年,全国的大数据人才只有46万,未来3-5年人才缺口高达150万之多.市面招聘网站上都在争抢大数据人才,有3-5年工作经验的数据分析师年薪直接高达80万元,但是能找到的确 ...

  3. 阿里巴巴多事之秋来了,大数据打假行不行?

    近日,外媒报道,美国服装和鞋履协会( AAFA )呼吁再次将阿里巴巴以及阿里旗下的淘宝平台列入"恶名市场"黑名单. 2015 年 4 月, AAFA 也曾提交投诉,希望美国贸易代表 ...

  4. “2019大数据与实体经济深度融合全国行”盛大启动

    5月26日,"2019大数据与实体经济深度融合全国行"在2019中国国际大数据产业博览会上盛大启动.本次活动由国家工业信息安全发展研究中心主办,各地方大数据产业主管部门协办,中国工 ...

  5. 【成为博客专家】大数据面试题

    面试题 文章目录 My Name is YangYang Hadoop运行原理 hdfs运行原理 MapReduce运行原理 MapReduce如何优化 hadoop中combiner的作用 hado ...

  6. 大数据岗位更看重学历还是工作经验?

    回答这个问题之前还是让我们看一段真实对话: Q:请问从事大数据这行,硕士学历有必要么? A:如果有条件,最好可以上到硕士,但不是说必须如此,大数据相关职位对行业知识和项目经验也比较看重,如果家庭经济情 ...

  7. Java和Java大数据有什么区别?

    单单提起java或者大数据,很多人对此都一目了然,但对于Java大数据这样一个新鲜名词,多少有些疑惑.那java和java大数据学习的内容是一样的吗?两者有什么区别呢?今天就从java和java大数据 ...

  8. 《善数者成:大数据改变中国》读书笔记2

    第四章 教育升"温":用数据精准滴灌 4.1 教学科研:被大数据换上新颜 教育大数据有两大重要来源:一是在教学活动过程中直接产生的数据,比如学生的学习行为数据:二是在科学研究活动中 ...

  9. 一直在说的Java和Java大数据,你能搞清楚吗?

    提起Java或大数据,很多人对此都一目了然,但对于Java大数据这样一个新鲜名词,多少有些疑惑. 那Java和Java大数据学习的内容是一样的吗?两者有什么区别呢?今天就从Java和Java大数据的以 ...

最新文章

  1. 查看tcp各个连接状态的数量
  2. VMware与Hyper-V
  3. 海康威视摄像头安装插件检测不到_海康威视摄像机常见问题解答
  4. SVN -客户端URL地址修改命令
  5. 专访 | 周涛:从窄门进最终走出宽路来
  6. tp连接mysql mysql_thinkphp学习简易教程(二) thinkphp连接读取MySQL数据库
  7. java什么是网络接口_java 网络编程 -- IP地址的表示与网络接口信息的获取(InetAddress和NetworkInterface)...
  8. 看到碟摊上有D版的《阿猫阿狗2》
  9. linux定时器错误使用,linux下定时器的使用
  10. SpringCloud微服务注册调用入门-断路器
  11. vue与thymeleaf结合使用注意事项
  12. Go Web开发之Revel - 返回值
  13. mysql 支持嵌套查询吗_【转】MySql 嵌套查询
  14. “舌战群儒”的技术分析
  15. c# 两行代码合并pdf文件
  16. 参考文献格式(含文献标识码说明)
  17. 《写给大家看的设计书》——从iOS7的扁平化谈起
  18. 三重积分平均值_有关研究生考试中高等数学 分级中 “数农”是什么意思?
  19. linux 编译过程中acx_pthread.m4类错误解决办法
  20. 1047: 字符图形3-平行四边形

热门文章

  1. Java实现银行卡号校验
  2. 用老版的python和pycharm好,还是新版的python和pycharm好?
  3. 25.优化算法4:求解信赖域子问题及其收敛性
  4. 基础练习16-分解质因数
  5. 第二讲:ADS入门和Data DisPlay操作详解
  6. linux 硬盘格式化工具 的使用
  7. 计算机考证可直接考二级吗
  8. VN.PY量化框架创始人教你做量化交易
  9. JAVA潜心修炼五天——第4天
  10. 2022软件测试技能 APP自动化测试 Python+Appium+Uiautomator2 实战教程