数据准确性和模型准确性
一、遇到了什么问题
昨天在看文献,关于预测中国汽车保有量的。文献中提到了一个数据来源,就是国家统计局每年都会(现在已经暂停)调查不同收入等级(八个等级)收入、人口、汽车拥有量的情况。通过这些数据进行简单的计算就能得到不同收入等级群体的千人保有量情况。这个数据可以估算不同收入与千人保有量之间的函数关系(利用Gompertz funciton模拟),然后再与收入分布曲线结合,两者乘积求积分就可以得出中国的汽车保有量情况及其预测。
这个想法本来是很简单的,但是我在两个方面纠结了很久,一个是一直在思考收入分布曲线是否合理(这点在这个地方先暂且不讲),另一个就是一直在追问通过不同收入群体调查来估算全国层面的千人保有量是否合理。
我疑惑的地方主要是:这个数据是根据家庭户数进行调查的,那么也就是说人均收入情况是根据每户的情况计算出来了。那么我就开始纠结了,假如一个家庭,男的年可支配是30万,妻子是全职太太,还有一个孩子,他们拥有一辆车,那么这个家庭人均可支配收入是10万。那么就可以计算:人均可支配收入10万的群体千人汽车保有量为:1/3*1000=333辆/千人(一家三口人拥有一辆车,那么这个群体千人拥有量就是333辆。)。但是后来我又想,假如调查10万个人,他们每人的年均可支配收入就是10万元,然后逐一询问每人是否拥有汽车,然后再去计算这个群体的千人保有量,这样得出来的结果可能与以户为单位得出来的结果会不一样。
我因此在这个地方开始纠结了,就一直在想国家统计局调查的数据能否代表真实的情况,这样就浪费了很多的时间了。其实后来想明白了,这就是一个抽样方法的问题。中国每个人都可以看成是一个样本,理论上这些样本可以自由组合,然后估算全国的汽车拥有量情况。但是组合的方法肯定有合理与不合理之分,比如拿一个千万富翁跟另外九个穷光蛋进行组合,得出来的结果就是我国平均都是百万富翁。
在此,我们就不去深究国家统计局这个调查用于保有量预测是否合理性的问题了。
二、产生这个问题的原因
产生这个问题的原因就是:把数据准确性和模型准确性混为一谈,没有将他们区分。的确,结果的准确性取决于数据准确性和模型准确性,但是当数据准确性无法得到验证,并且没有其他数据源的时候,我们将时间精力放在数据准确性上是划不来的,仅仅是为了内心中那一点点的安全感根是更是不值得。
三、获得了哪些经验
1、将数据准确性和模型准确性分开思考
我在思考的时候有个倾向,容易把模型和现实情况融合起来思考,一旦在思考模型的时候,就容易想到现实情况,就会想现实情况到底能不能满足模型的情况。这样思考起来非常费脑子,并且没有意义。要记住,在思考模型的时候,不要想现实数据是怎样的,思考模型的时候就按照最理想的情况进行思考。在将现实情况抽象到理论高度的时候,就仅仅站在理论层面进行思考,有可能现实情况跟理论情况不相符合,但是没有关系。这一点一定要切记。
2、现实问题模型的思考
模型是什么?模型是我们对观测到的现实世界进行的数学抽象。请注意我用到的是“观测到的”,也就是说我们用于是基于我们观测的情况建立模型,然后通过模型去分析没有观测到的现象。
我在思考模型的时候有个不正确的倾向:总是会思考这个模型到底跟真实的世界是不是相匹配的。
这个思考有必要,但对于我来说没有必要。对于我自己来说,对于这个问题我根本就无法得到答案——我怎么去判断跟现实世界是不是匹配呢?这个问题就交给专门搞科研的人就行了,我们要做的就是找权威的期刊,看到他们的文献,然后会用就可以了。
数据准确性和模型准确性相关推荐
- 通过 Continual Learning 提高 ML.NET 模型准确性并增强性能
从事机器学习的学者大多认为持续学习(Continual Learning)是迈向人工智能的根本一步.持续学习是模型模仿人类在整个生命周期中不断从数据流中学习.微调.转移知识和技能的能力.实际上,这意味 ...
- MDL4Microbiome:通过多模态深度学习提升宏基因组数据疾病预测的准确性
来源 国家基因库大数据平台 在过去的几十年里,先进的宏基因组测序技术使得对人类微生物组的研究能够发现细菌组成与功能.疾病之间的病理关系.然而相关分析工具在诊断和治疗方面的应用仍需提高其准确性.近日,& ...
- 使用基于GAN的过采样技术提高非平衡COVID-19死亡率预测的模型准确性
作者|THILAKADIBOINA 编译|Flin 来源|analyticsvidhya 介绍 本文介绍了生成性对抗网络(Generative attersarial Networks,GAN)的使用 ...
- 最新3D GAN可生成三维几何数据了!模型速度提升7倍,英伟达斯坦福出品
明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2D图片变3D,还能给出3D几何数据? 英伟达和斯坦福大学联合推出的这个GAN,真是刷新了3D GAN的新高度. 而且生成画质也更高,视角随 ...
- 快看漫画大数据平台的模型思维与用户增长实践
本文根据快看漫画屈世超老师在DataFunTalk数据主题技术沙龙活动"大数据从底层处理到数据驱动业务"中分享的<大数据平台的模型思维与用户增长实践>编辑整理而成,在未 ...
- 数据产品经理从零到一:数据产品能力模型构建
本文为PMCAFF专栏作者田宇洲出品 笔者正在由电商产品经理转型数据产品经理,为了提升自己学习的效率,尝试以这种输出驱动输入的模式,将自己学习的思路和学习内容分享给大家,也希望可以与其他数据产品经理多 ...
- 城市大数据的生态模型及应用
邓晖 中兴软创科技股份有限公司,江苏 南京 211153 摘要:从提出一个生态模型开始,阐述了建立一个可持续的城市大数据生态所需要的关键角色以及地方政府在演进这些角色中所能发挥的作用.接着,给出了一个 ...
- 时序数据预测-Arima模型篇
ARIMA模型详解 基本概念 ARIMA(p, d, q)预测模型 ARIMA差分整合移动平均自回归模型,用于时间序列数据分析与预测,相比ARMA模型在AR和MA之间多了差分步骤,目的是把非平稳序列转 ...
- 深度学习的分布式训练--数据并行和模型并行
<div class="htmledit_views"> 在深度学习这一领域经常涉及到模型的分布式训练(包括一机多GPU的情况).我自己在刚刚接触到一机多卡,或者分布式 ...
最新文章
- 微生物组领域最高质量的资源全在这
- 阿里开源量子模拟器“太章2.0”,支持量子算法和纠错探索
- 控件安全注册方法3选
- C 创建基本图表 Chart Controls
- 通过jQuery获取Select选中的值或文本
- C++ 操作sqlite
- AR增强现实的未来展望
- cogs——2416. [HZOI 2016]公路修建
- linux 分区 LVM 挂载
- Javascript数据类型,类型转换
- Vue - Todos 案例
- 飞跃微信小程序一一新风口新模式,你所了解到的小程序有多少?
- 106572050018总是发彩信?实用办法关闭彩信提醒
- Kinect绿灯闪烁解决方法
- RabbitMQ相关图形,dljd
- windows PC/SC 常用Scard前缀函数说明
- 代写演讲稿的写作要求有哪些
- 5173游戏币监控工具 5173-Search游戏币监控工具 5173游戏币助手
- 英伟达两个最新元宇宙布局
- 传导发射(CE)测试概述