定量数据和定性数据

有人曾经说过:“如果您无法测量某些东西,您将无法理解它。” 这种信念的另一种说法是:“如果无法衡量,那就不存在。” 这是一种错误的思维方式-一种谬论-实际上有时被称为麦克纳马拉谬论。 这种思维方式可能对国家事务以及个人医疗产生可怕的后果(例如在癌症患者中应用“无进展生存”指标,肿瘤的减少被认为是胜利,而肿瘤治疗的质量相应降低也被认为是胜利)。生活被忽略)。

同样,在数据科学和分析领域,我们经常被这种相同的思维方式所吸引。 定量数据是我们数学模型的现成输入。 可量化的预测模型和规范模型的警号难以抗拒。 如果我们模型的输出是定量的(例如,准确性,精确度,召回率或其他某种验证指标),那么为什么不输入我们模型的输入呢? 这不是数据驱动的本质吗?

当我们说“数据驱动”时,我们实际上是在说“基于证据”。 证据不仅是定量的。 同样,数据不仅是定量的。 因此,我们急于更加定量化的是定性数据集的巨大价值。 定性数据的价值来自多种方面,包括:

  • 它提供了其他功能,可以提高分析模型的准确性,可用性和解释能力;
  • 它将定量数据置于适当的上下文中(这可以防止在错误的上下文中错误使用我们的模型);
  • 它有助于建立人类故事,叙述以及我们对模型结果的接受(并最终倡导); 和
  • 顾名思义,它有助于我们评估(甚至验证)分析结果的质量。

我们将通过回答与定性数据有关的四个基本问题来探索这些想法:

1.我们遇到定性数据有哪些方式?

定性数据可以来自调查,客户响应表,文档,甚至社交媒体。 这些是组织已经收集并利用以获取重要见解的宝贵信息来源。 从历史上看,对定性数据的分析往往是非常耗费人力的,因为我们不能仅仅针对文档提交数据库查询并获得一些可用于可视化的数字。 因此,历史定性数据分析的范围通常受到限制。 但是,这种情况现在正在Swift改变。 将定性数据转换为定量数据的方法越来越多,从而释放了定量分析对定性数据的全部功能。 一些转换方法包括评分(为特定的定性React或评论分配数字等级或分数),情感分析(为定性数据中表达的情感分配正值或负值,然后为其强度分配一个数值)情感),文本分析(以定量方式汇总文本信息的内容,例如主题模型和热图)以及自然语言和语义处理(从语言中提取含义,无论是书面还是口头的)。 因此,定性数据已经是大数据世界中的头等公民,应该给予它们平等的机会,以提供业务见解和价值。

2.在得出洞见方面,定性数据和定量数据之间有哪些异同?

由于定性数据通常是非定量数据,因此这意味着这些数据是非结构化的,通常是文本数据。 它们可能来自客户调查,回复表单,在线论坛,Web表单上的反馈评论栏,书面评论,打给呼叫中心的电话,传闻(例如,由我们的销售人员或营销团队收集的证据),新闻报道等等。 。 因此,从此类数据中提取结构和客观见解需要一个模型:我们如何为收集的单词或注释或调查反馈建模? 我们为不同的内容分配多少权重? 我们如何结合和整合多种资源? 这些问题的答案与我们处理定量数据时对这些完全相同的问题的答案并没有太大的不同。 最大的区别在于,定量数据已经以某种形式在电子表格中处理,显示在仪表板中或绘制在图形上。 在决定如何将定性数据转换为定量形式时,需要做出一些决定(可能是主观的)。 因此,这是一个挑战,但同时也是一个巨大的机会–我们可以使用更多的语言微妙和错综复杂的语言,从关于客户,员工和合作伙伴的定性数据源中提取出更深刻的理解和更好的含义。

3.对于定性数据集,数据科学的分析和统计过程有何不同?

首先,需要比定量数据更丰富的转换集(在这种转换下,以零比一的比例对数据进行标准化,以某种数学方式组合变量或将数字权重分配给不同的度量可能就足够了)在合并它们之前,或者定义不同属性之间的简单数学相似度或距离度量)。 通过这种定量分析,模型的验证往往更加直接。 相反,在定性数据分析中必须使用更复杂,更聪明的转换和验证指标,尽管逻辑回归技术可以使“正确”和“错误”的明确值(例如,“真肯定”与“假肯定”)更难定义。当存在二进制输出时(例如,该社交媒体用户是否更有可能投票给政治候选人A或B?),就足够了。 但是,当定性数据中嵌入了多种含义和理解程度(例如,许多可能的假设,即定性数据)时,执行二元测试(假设A与假设B [或零假设])的标准统计测试将不起作用。需要测试)。 链接分析是一种挖掘定性数据的可能方法:该技术可用于发现和探索复杂知识网络中多个节点之间的关联。 链接分析不需要定量数据-实际上,它取决于离散化的数据而不是连续的数字数据-在这种情况下,定性数据具有优势。

4.因此,定性数据集会消失吗,尤其是如果我们只是将其转换并定量化(可能是自动地)成定量数据时?

定性数据不会消失。 实际上,在这个大数据时代,这种数据类型的增长速度可能比我们正在收集的任何其他类型的数据快。 但是,我们一定会看到定性数据的更多量化(我们已经看到了),以便我们可以利用大量的分析算法和技术,这些算法和技术现在正以惊人的速度用于定量数据。 然而,在定性数据定性后,定性数据不再是图片的一部分是不正确的。 它们仍然是我们“数据故事”和数据资产中最重要的部分之一。 我们不能逃避它,也不应该尝试。 但是,我们应该尝试充分利用它,创建最佳模型以从中提取含义和见解,并继续寻找更聪明的算法,使我们能够量化所收集的大量定性数据。 简而言之,我们需要“大规模”收集,处理和挖掘大数据,其中包括定量和定性数据。

总而言之,当我们可以无缝地汇总,分析和挖掘定量和定性数据集合时,我们可以避免错误的思维,并为我们的数据科学活动赋予更深的上下文含义。 如果我们可以在一个共享平台上使用一组共享的分析工具,在一个聚合的“多语言”数据环境中做到这一点,则最容易实现。 现在,我们看到了这种融合在大数据生态系统中的出现,特别是在MapR的新融合数据平台中 。 使用Hadoop在分布式数据架构中存储异构数据的能力,使用Apache Drill在整个数据湖中查询数据(数据库,文档,文本,JSON数据对象等)的能力以及在以下位置挖掘这些数据的能力Apache Spark进行实时存储和实时存储,这一切使我们离认知分析的承诺又近了一步:在正确的时间,正确的上下文中,在所有定量和定性数据收集中提出正确的问题。

无论您从事何种行业或环境,只要可以从中提取数据,就可以理解。 这是定性的和定量的正确思维方式。

翻译自: https://www.javacodegeeks.com/2016/01/qualitative-data-context-gives-meaning-big-data.html

定量数据和定性数据

定量数据和定性数据_定性数据:赋予大数据意义的上下文相关推荐

  1. 社会治理大数据平台怎么建_平度市社会治理大数据平台

    单位简介 申报单位:青岛城市大数据运营有限公司 承建单位:青岛城市大数据运营有限公司,杭州数梦工场有限公司 青岛城市大数据运营有限公司是由平度市城市开发集团有限公司与杭州数梦工场科技有限公司(独角兽企 ...

  2. 大数据审计的发展_科技赋能下大数据审计的实施路径与发展趋势

    大数据审计的现状      大数据应用范围不断扩大,但审计理念仍需加强      随着大数据技术优势的凸显,无论是国家机关审计中还是企业内部审计中,越来越倾向于应用大数据技术开展审计.大数据审计的推进 ...

  3. 大数据 清华 覃征_清华大学人工智能研究院大数据智能研究中心揭牌,喊你来参与...

    2019年9月23日,清华大学人工智能研究院将在清华FIT楼举行大数据智能研究中心成立仪式暨学术前沿报告会,届时,清华大学副校长.人工智能研究院管委会主任尤政院士,清华大学人工智能研究院院长张钹院士, ...

  4. 大数据的数据采集数据处理_让我们处理大数据

    大数据的数据采集数据处理 作为开发人员,我们的重点是简单,有效的解决方案,因此,最有价值的原则之一就是"保持简单和愚蠢". 但是使用Hadoop map-reduce很难坚持这一点 ...

  5. 计算机大数据的前景方向_研究未来计算机大数据的发展方向

    龙源期刊网 http://www.qikan.com.cn 研究未来计算机大数据的发展方向 作者:贺彬 来源:<山东工业技术> 2019 年第 20 期 摘 要:随着计算机的普及,计算机在 ...

  6. 大数据产品价值主张_十年之后 大数据的价值主张

    大数据对企业成长至关重要,十年之后,情况是否依旧如此? 当你从你的企业中收集数据并把其放到大数据系统中,系统会帮助你获得那些使你具有竞争优势的有用见解--比如说,通过对数据集合的分析,可以找到新关联用 ...

  7. 大数据产品价值主张_十年之后大数据的价值主张

    原标题:十年之后大数据的价值主张 大数据对企业成长至关重要,十年之后,情况是否依旧如此? 当你从你的企业中收集数据并把其放到大数据系统中,系统会帮助你获得那些使你具有竞争优势的有用见解--比如说,通过 ...

  8. 关于大数据技术的演讲_好程序员大数据培训分享大数据的两大核心技术

    好程序员大数据培训分享大数据两大核心技术,今天小编给大家先分享一下大数据的两大核心技术,知己知彼才能百战不殆,学习大数据技术也是一样的道理,要先有一个清晰的了解,才能确保自己全身心的投入学习. Had ...

  9. 应用统计学大数据方向报名自述_应用统计学专业大数据方向人才培养办法

    学科门类:理学 二 级 类:统计学类 专业代码: 071202 英文名称: Applied Statistics ( Big data ) 一.专业培养目标 本专业培养德.智.体.美全面发展,掌握数学 ...

  10. 应用统计学大数据方向报名自述_应用统计学专业大数据方向人才培养方案

    应用统计学专业(大数据方向)人才培养方案 学科门类:理学 二 级 类:统计学类 专业代码: 071202 英文名称: Applied Statistics ( Big data ) 一.专业培养目标 ...

最新文章

  1. 谈谈实现小样本学习的两条路径
  2. gcc编译器命令使用详解
  3. 通过Java 8流使用Oracle AQ
  4. Taro+react开发(43)重新渲染置空
  5. linux-索引1909
  6. 比较字符串是否相同,比较大小
  7. ubuntu 应用程序菜单_Ubuntu智能手机,塔式无人机飞行控制应用程序等
  8. UnityGI4:混合光照
  9. C#连接mysql实例
  10. 【论文笔记】Deep Learning Face Representation from Predicting 10,000 Classes
  11. 使用TortoiseSVN将文件回退到某个版本
  12. springboot整合J2cache简单使用
  13. 【python】52周存钱法
  14. NOIP2015 口胡题解
  15. 【对比Java学Kotlin】协程-异步流
  16. 计算机桌面下方叫什么,电脑最下面一排桌面的小图标不见了
  17. (近5w字)面向小白のVue全家桶开发电商管理系统项目总结文档
  18. css定位“十字架“之水平垂直居中
  19. scp 是我小看了你---基于密钥传输!
  20. A. Arena of Greed(博弈+贪心)2020 ICPC, COMPFEST 12, Indonesia Multi-Provincial Contest

热门文章

  1. c语言flag,flag是什么意思
  2. Arduino+nRF24L01无线遥控舵机和电机
  3. css中设置字体下划线,css如何设置字体下划线
  4. 切换阿里巴巴开源镜像站镜像——Kali镜像
  5. 国内常用开源镜像站点【推荐使用阿里巴巴开源镜像站】
  6. windows操作快捷键
  7. 基于 MATLAB 的图像中汉字识别
  8. 关于PG与Linux的HUGEPAGE/HUGETLBFS
  9. postgresql注入笔记
  10. 清华大学出来的工资有多高?