【NLP】大数据之行,始于足下:谈谈语料库知多少
大数据之行,始于足下:谈谈语料库知多少
作者:白宁超
2016年7月20日13:47:51
摘要:大数据发展的基石就是数据量的指数增加,无论是数据挖掘、文本处理、自然语言处理还是机器模型的构建,大多都是基于一定量的数据,数据规模达到一定程度,采用基于规则方法或者概率统计学的方法进行模型构建,感兴趣知识的获取才更有意义。那么,是不是数据足够大就是大数据了?是不是数据足够多就构成语料库了?往往一个模型好坏跟训练数据或者检验数据的语料库息息相关。本文笔者带你走进语料库的世界,在随后模型构建过程避免一些语料注意事项,大大提升模型效率。(本文原创,转载请注明出处:大数据之行,始于足下:谈谈语料库知多少。)
1 语料库语言学
- 大多数学者普遍认为:语言学的研究必须基于语言事实的基础,必须详尽的大量的占有材料,才有可能在理论上得出比较可靠的结论。
- 语料库语言学:传统语言材料的搜集整理和加工完全以手工进行,费时费力,直到计算机出现并随之计算能力强大之后,原先手工的工作开始转向计算机去做,后来逐渐的方法完善中,提出一些初步的理论,形成了语料学这样一门语言学与计算机科学交叉的学科。
- 语料库语言学的研究范畴:主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言教学、语言定量分析、词汇研究、词语搭配研究、词典编制、语法研究、语言文化研究、法律语言研究、作品风格分析、自然语言理解、机器翻译等。
2 建立语料库的意义
语料库作为一个或者多个应用目标而专门收集的,有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料的集合。本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用的总体。
3 语料库研究的一些原则问题
3.1 语料库划分与种类
① 时间划分:历时语料库和共时语料库。
② 加工深度划分:标注语料库和非标注语料库
③ 结构划分:平衡结构语料库和自然随机结构语料库
④ 表达形式划分:口语语料库和文本语料库
⑤ 语种划分:单语种语料库和多语种语料库(可比语料库和平行语料库)
⑥ 动态更新程度划分:参考语料库和监控语料库
3.2 构建语料库的原则
语料库应该具有代表性、结构性、平衡性、规模需求并制定语料的元数据规范,各个原则具体介绍如下:
① 代表性:在应用领域中,不是根据量而划分是否是语料库,而是在一定的抽样框架范围内采集而来的,并且在特定的抽样框架内做到代表性和普遍性。
② 结构性:有目的的收集语料的集合,必须以电子形式存在,计算机可读的语料集合结构性体现在语料库中语料记录的代码,元数据项、数据类型、数据宽度、取值范围、完整性约束。
③ 平衡性:主要体现在平缓因子:学科、年代、文体、地域、登载语料的媒体、使用者的年龄、性别、文化背景、阅历、预料用途(私信/广告等),根据实际情况选择其中一个或者几个重要的指标作为平衡因子,最常见的平衡因子有学科、年代、文体、地域等。
④ 规模性:大规模的语料对语言研究特别是对自然语言研究处理很有用的,但是随着语料库的增大,垃圾语料越来越多,语料达到一定规模以后,语料库功能不能随之增长,语料库规模应根据实际情况而定。
⑤ 元数据:元数据对于研究语料库有着重要的意义,我们可以通过元数据了解语料的时间、地域、作者、文本信息等;还可以构建不同的子语料库;除此外,还可以对不同的子语料对比;另外还可以记录语料知识版权、加工信息、管理信息等。
注意:汉语词与词之间没有空隙,不便于计算机处理,一般需要进行切词和词性标注。
4 语料标注的优缺点
① 优点: 研究方便。可重用、功能多样性、分析清晰。
② 缺点: 语料不客观(手工标注准确率高而一致性差,自动或者半自动标注一致性高而准确率差)、标注不一致、准确率低
总之,目前语料库语言学主要研究机器可读自然文本的采集、存储、检索、统计、自动切词、词性标注、语义标注等。
5 参考文献
【1】 数据挖掘概念与技术(364--386) 韩家炜
【2】 自然语言处理简明教程 冯志伟 著
【3】 统计自然语言处理基础 (166—169) 宛春法等译
6 自然语言相关系列文章
【自然语言处理:马尔可夫模型(一)】:初识马尔可夫和马尔可夫链
【自然语言处理:马尔可夫模型(二)】:马尔可夫模型与隐马尔可夫模型
【自然语言处理:马尔可夫模型(三)】:向前算法解决隐马尔可夫模型似然度问题
【自然语言处理:马尔可夫模型(四)】:维特比算法解决隐马尔可夫模型解码问题(中文句法标注)
【自然语言处理:马尔可夫模型(五)】:向前向后算法解决隐马尔可夫模型机器学习问题
【自然语言处理:谈谈学习模型的评估(一)】:统计角度窥视模型概念
【自然语言处理:谈谈学习模型的评估(二)】:基于Data Mining角度的模型评估与选择
【自然语言处理:谈谈学习模型的评估(三)】:基于NLP角度的模型评价方法
【自然语言处理:谈谈学习模型的评估(四)】:基于R语言的模型案例实战
7 语料库
- 古滕堡语料库
- 语料库在线
- 搜狗实验室新闻|互联网数据
- 北京大学语言研究中心
- 计算机语言研究所
- 数据堂
声明:关于此文各个篇章,本人采取梳理扼要,顺畅通明的写作手法。系统阅读相关书目和资料总结梳理而成,旨在技术分享,知识沉淀。在此感谢原著无私的将其汇聚成书,才得以引荐学习之用。其次,本人水平有限,权作知识理解积累之用,难免主观理解不当,造成读者不便,基于此类情况,望读者留言反馈,便于及时更正。本文原创,转载请注明出处:大数据之行,始于足下:谈谈语料库知多少。
转载于:https://my.oschina.net/u/3579120/blog/1539072
【NLP】大数据之行,始于足下:谈谈语料库知多少相关推荐
- 大数据时代传播研究中语料库分析方法的价值
[摘要]:大数据时代的研究逻辑,对传播学研究形成了新的冲击,传统的文本分析方 法,已经不能满足对样本数量的宏阔和数据挖掘深度上的双重要求.语料库的研究方法 在数据新闻.舆情监测和学术研究等领域都可以得 ...
- 大数据入行的新手,推荐几本好书
据可靠数据显示,截止到2018年,全国的大数据人才只有46万,未来3-5年人才缺口高达150万之多.市面招聘网站上都在争抢大数据人才,有3-5年工作经验的数据分析师年薪直接高达80万元,但是能找到的确 ...
- 阿里巴巴多事之秋来了,大数据打假行不行?
近日,外媒报道,美国服装和鞋履协会( AAFA )呼吁再次将阿里巴巴以及阿里旗下的淘宝平台列入"恶名市场"黑名单. 2015 年 4 月, AAFA 也曾提交投诉,希望美国贸易代表 ...
- “2019大数据与实体经济深度融合全国行”盛大启动
5月26日,"2019大数据与实体经济深度融合全国行"在2019中国国际大数据产业博览会上盛大启动.本次活动由国家工业信息安全发展研究中心主办,各地方大数据产业主管部门协办,中国工 ...
- 【成为博客专家】大数据面试题
面试题 文章目录 My Name is YangYang Hadoop运行原理 hdfs运行原理 MapReduce运行原理 MapReduce如何优化 hadoop中combiner的作用 hado ...
- 大数据岗位更看重学历还是工作经验?
回答这个问题之前还是让我们看一段真实对话: Q:请问从事大数据这行,硕士学历有必要么? A:如果有条件,最好可以上到硕士,但不是说必须如此,大数据相关职位对行业知识和项目经验也比较看重,如果家庭经济情 ...
- Java和Java大数据有什么区别?
单单提起java或者大数据,很多人对此都一目了然,但对于Java大数据这样一个新鲜名词,多少有些疑惑.那java和java大数据学习的内容是一样的吗?两者有什么区别呢?今天就从java和java大数据 ...
- 《善数者成:大数据改变中国》读书笔记2
第四章 教育升"温":用数据精准滴灌 4.1 教学科研:被大数据换上新颜 教育大数据有两大重要来源:一是在教学活动过程中直接产生的数据,比如学生的学习行为数据:二是在科学研究活动中 ...
- 一直在说的Java和Java大数据,你能搞清楚吗?
提起Java或大数据,很多人对此都一目了然,但对于Java大数据这样一个新鲜名词,多少有些疑惑. 那Java和Java大数据学习的内容是一样的吗?两者有什么区别呢?今天就从Java和Java大数据的以 ...
最新文章
- 查看tcp各个连接状态的数量
- VMware与Hyper-V
- 海康威视摄像头安装插件检测不到_海康威视摄像机常见问题解答
- SVN -客户端URL地址修改命令
- 专访 | 周涛:从窄门进最终走出宽路来
- tp连接mysql mysql_thinkphp学习简易教程(二) thinkphp连接读取MySQL数据库
- java什么是网络接口_java 网络编程 -- IP地址的表示与网络接口信息的获取(InetAddress和NetworkInterface)...
- 看到碟摊上有D版的《阿猫阿狗2》
- linux定时器错误使用,linux下定时器的使用
- SpringCloud微服务注册调用入门-断路器
- vue与thymeleaf结合使用注意事项
- Go Web开发之Revel - 返回值
- mysql 支持嵌套查询吗_【转】MySql 嵌套查询
- “舌战群儒”的技术分析
- c# 两行代码合并pdf文件
- 参考文献格式(含文献标识码说明)
- 《写给大家看的设计书》——从iOS7的扁平化谈起
- 三重积分平均值_有关研究生考试中高等数学 分级中 “数农”是什么意思?
- linux 编译过程中acx_pthread.m4类错误解决办法
- 1047: 字符图形3-平行四边形