2.2 数据管理 之 数据加权
简介
在市场研究、社会研究等数据过程中,都会涉及到数据加权的问题。但具体来说,什么是数据加权呢?
简单来说,就是就是在某些数据上增加或减少权重,让部分样本看起来重要或者不重要,或者让所调研的样本更符合市场现状,尤其是人口现状。这是在市场研究、社会研究、医学研究中经常遇到的事情。
由此来看,数据加权适用于以下几种情况:
情景1:在抽样调查得到的样本结构与总体人口统计结构状况不相符,在数据处理时,可以通过加权来消除/还原这种结构差异,达到纠偏的目的;
例如,在城市和农村各调查300样本,城市与农村人口比例“城市:农村=1:2”(假设),在分析时我们希望将城市和农场看作一个整体,这时候我们就可以赋予农村样本一个2倍于城市样本的权重;
情景2:除了人口统计结构,有时在调查样本的某些变量或指标上样本的代表性可能也会相对总体的实际状况过高/过低,此时,需要加权进行调整;
这类不匹配大多是“故意”而为(通过“追加”样本实现),比如在配额抽样的时候,设置配额要求某类被访者对某产品的使用者必须达到50%,但实际情况是总体市场中实际使用者仅有10%;
有时,则是“非情愿”的出现,比如设置了能反映总体的配额比例,但实际操作却出现了比例偏高/偏低;
情景3:在样本组配额实验设计中,进行不同子总体对比检验,也会通过加权来调整不同组间的样本属性不相匹配的情形(通常设有相同的配额,但执行有可能会出现差异);通常,加权对结果产生的差异很小,更多的是对结果从准确度上进行修饰。
情景4:所测试样本出现了较多的缺失值,需要加权来纠正结果;对于面向特定客户的专项研究,在调查前基本都协议有要完成的样本量,故这种情形较少。
在如此多的情况下,我们应该如何进行加权呢?实际上,也非常简单,公式如下:
设计加权 = 某个变量或指标的期望比例/该变量或指标的实际比例
SPSS实现数据加权
例:针对年龄进行加权,使男:女=1:1。
- 打开 数据,点击 分析—描述—频率,先查看年龄原始分布,具体如下:
- 男、女加权份额计算如下:
- 在SPSS数据中添加一新变量,其中男性赋值为0.703,女鞋赋值为1.730
- 建立好新变量后,我们就可以实施加权了。打开 数据—个案加权,显示如下画面:
- 选择“个案加权系数”,将 w1 选入 频率变量中。点击确定。
- 点击 分析—描述—频率,查看年龄加权后分布,结果如下:
同原始数据相比,仅仅是比例上的变化,数据总量没有变化。至此我们完成了数据的加权。我们可以看下其他变量的比例是否有变化。
从上图我们可看出,各性别上均值没有变化,但总体上却略有不同。
2.2 数据管理 之 数据加权相关推荐
- 数据管理、数据治理、数据管控的概念区别和范围是什么?
数据管理.数据治理.数据管控的概念区别和范围是什么? 1.数据管理是利用计算机硬件和软件技术对数据进行有效的收集.存储.处理和应用的过程.其目的在于充分有效地发挥数据的作用,而实现数据有效管理的关键是 ...
- 「名词」数据管理、数据治理、数据中心、数据中台、数据湖、数据资产等
以下内容仅供参考: 随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理.数据管理.数据资源管理.数据资产管理等名词的定义很多,概念容易混淆,本文对这些名词 ...
- Android4.0图库Gallery2代码分析(二) 数据管理和数据加载
Android4.0图库Gallery2代码分析(二) 数据管理和数据加载 2012-09-07 11:19 8152人阅读 评论(12) 收藏 举报 代码分析android相册优化工作 Androi ...
- 数据管理,数据治理,数据中心,数据中台,数据湖这下就分清楚了!
随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理.数据管理.数据资源管理.数据资产管理等名词的定义很多,概念容易混淆,本文对这些名词术语及内涵进行系统的 ...
- 一文讲清数据治理、数据管理、数据资产管理区别,数据专家必看
转载/谈数据 数据治理.数据管理.数据资产管理,有什么不同?这是一个我被问的最多的问题. 如果要用一张图来描述它们三者之间的关系,你跟赞成以下两幅图的哪个? 图1:数据治理包含数据管理,数据治理提出了 ...
- 孟小峰:大数据管理与数据思维
2019独角兽企业重金招聘Python工程师标准>>> 孟小峰:大数据管理与数据思维 大数据的规模效应给数据存储.管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生 ...
- 数据管理与数据治理的区别
当我们谈数据资产管理时,我们究竟在谈什么?就目前而言,我们谈论得最多的非数据管理和数据治理这两个概念莫属.但是对于这两个概念,两者的准确定义是什么,具体区别又是什么,仍是困扰着许多人的关键问题. 数据 ...
- 谈谈对数据中台,数据治理,数据管理,数据资产管理相关内涵认知
企业数字化转型与数据资产管理间存在千丝万缕的关系,解开这层关系的关键是首要厘清如下二者的逻辑: 企业数字化VS数据中台 企业进行数字化转型是否一定要建设数据中台呢? 大家可以这样理解,企业的数字化可以 ...
- 浅谈数据治理、数据管理、数据资源与数据资产管理内涵及差异点(建议收藏)...
前言 随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理.数据管理.数据资源管理.数据资产管理等名词的定义很多,概念容易混淆,本文对这些名词术语及内涵进行 ...
最新文章
- mysql 优先队列_深入浅出 MySQL 优先队列(你一定会踩到的order by limit 问题)
- 半小时训练亿级规模知识图谱,亚马逊这个 AI 框架要火
- Java进阶06 容器
- big sur无法验证macos_网易邮箱出现重大失误,忘记续期HTTPS证书导致大量用户无法使用...
- datatable DataRow
- CentOS 7 vi编辑命令
- 题目1022:游船出租(结构体使用)
- 力控批量添加变量_力控变量.ppt
- 机器学习基础(五十)—— Gini Impurity(基尼不纯度)与香浓熵(Shannon Entropy))
- 第三视角Beta答辩总结
- 无线通信原理与应用_车地通信专题(二):深圳地铁3号线车地无线通信系统...
- c语言long可以存几位数,long long 可以支持多少位的数?
- iMeta | 南农沈其荣团队发布微生物网络分析和可视化R包ggClusterNet
- 程序员培训学多久?学半年能做程序员吗?
- 解决Access数据库突然变得很大的方法
- 宇宙简史|生物学家也要了解的物理
- 快递企业设长租公寓解决住宿 降低快递员流动率
- 骨传导耳机哪个牌子好?哪些款式最值得入手?
- win10用caffe训练自己的数据
- verilog读取bmp格式图片
热门文章
- EMC防护中的滤波电容-为什么放0.1uF和0.01uF电容
- 带你玩转Spring Cloud Tencent(一)概述
- ViewModel 和 ViewModelProvider.Factory:ViewModel 的创建者
- MySQL RR隔离级别解决幻读问题?
- Linux下烧写工具DNW和USB驱动安装
- Anaconda jupyter 错误修复
- 浅析MySQL死锁检测
- ❤️解决非线性回归问题的机器学习方法总结:多项式线性模型、广义线性(GAM)模型、回归树模型、支持向量回归(SVR)模型
- 渗透测试-安全岗位面试题总结(含答案)
- 第二章-连接到WAN