文章目录

  • 统计数据从哪里来?
  • 2.1 间接来源
    • 2.1.1 常见途径
    • 2.1.2 使用指南
  • 2.2 直接来源
    • 2.2.1 调查方法
      • 2.2.1.1 普查
      • 2.2.2.2 抽样
    • 2.2.2 实验方法
    • 2.3 思维导图总结

统计数据从哪里来?

2.1 间接来源

与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可用的数据。

2.1.1 常见途径

  • 统计部门和各级政府部门公布的有关资料,如统计公报和统计年鉴等:
    【宏观】世界数据图册
    【宏观】国家统计局
    【宏观】中央人民政府数据
    【宏观】统计公报
    【宏观】统计年鉴
    【金融】国家财政部
    【进出口】国家海关总署
    【人力资源】国家人力社保部
    【建筑】国家住建部
    【教育】 国家教育部
    【交通】国家交通运输部
    【旅游】国家文化和旅游部
    【工业/信息业】国家工信部
    【邮政】国家邮政局
    【医疗】卫生健康委员会
    【商贸】国家商务部

  • 各类经济信息中心、信息咨询机构、专业调查机构、行业协会和联合会提供的市场信息和行业发展的数据情报等:
    【互联网】艾瑞指数
    【互联网】TalkingData
    【互联网】易观千帆指数
    【互联网】CNNIC中国互联网络信息中心
    【电信/互联网】中国信通院
    【金融】巨潮资讯
    【金融】中国人民银行
    【金融】中国银监会
    【金融】中国外汇交易中心
    【金融】中国债券信息网
    【金融】上海证券交易所
    【金融】深圳证券交易所
    【电器】产业在线

  • 各类专业期刊、报纸、图书所提供的文献资料:
    谷歌学术
    百度学术
    中国知网
    万方数据
    维普网

  • 各种会议(博览会、展销会、交易会及专业性、学术性研讨会)上交流的有关资料

  • 互联网或图书馆查阅到的相关资料:
    【互联网】199IT互联网数据中心
    【短视频】卡司数据
    【金融】IT桔子
    【金融】企名片
    【文娱】CBO中国票房
    【互联网】艾媒北极星

2.1.2 使用指南

相对而言,二手资料的数据更易得更快捷,且采集数据成本低。其作用也十分广泛,有助于提供研究问题的背景,更好地定义问题,检验某些假设或回答疑问,寻找研究思路。但二手资料也有很大的局限性,因为其不是为特定的研究问题而产生的,所以会出现资料的相关性不够,数据口径不一致,数据不准确,数据无法更新到最新等问题。

使用时应注意以下几点:
【who】 资料由谁搜集?需要考察数据搜集者的实力和社会信誉度。比如,对于全国消费者价格指数而言,国家统计局公布的数据肯定比第三方咨询调研机构的数据更可信更准确。
【why】 因为什么目的而搜集?为了某个集团的利益而搜集的数据是值得怀疑的(例如某瑞的某些报告)
【how】 数据是怎样搜集的?数据的质量来源于数据的产生过程。
【when】 什么时候搜集的?过时的数据,其说服力会受到质疑。
【sum-up】 数据的定义、含义、计算口径和计算方法,并标注数据来源,尊重他人劳动成果。

2.2 直接来源

通过自己的调查或实验活动直接获得一手数据,被称为统计数据的直接来源,主要有针对社会现象的调查方法和针对自然现象的实验方法两种。

2.2.1 调查方法

2.2.1.1 普查

普查是为了某种特定的目的而专门组织的一次性的全面调查,用以搜集重要国情国力和资源状况的全面资料。

普查数据具有完整、全面的特点,规范化程度较高,因此它可以为抽样调查或其他调查提供基本依据;由于是针对总体中的所有个体单位,因此确定调查对象比较简单;可以获知总体特征,准确性高。但普查的工作量大,耗时长,成本高,调查内容会受到限制。

附:国家统计局于2019.11.20发布的第四次全国经济普查重要成果

2.2.2.2 抽样

抽样(Sampling)是一种推论统计方法,它是指从目标总体(Population,或称为母体)中抽取一部分个体作为样本(Sample),通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识。

基本过程:

  • 定义总体(Population)
  • 确定抽样框(Sampling frame)
  • 确定抽样方法
  • 决定样本量
  • 实施抽样计划
  • 抽样与数据收集
  • 回顾抽样过程

抽样框(Sampling frame)通常包括所有总体单位的信息。在抽样之前,总体应划分成抽样单位,抽样单位互不重叠且能合成总体,总体中的每个个体只属于一个单位。抽样框是一份包含所有抽样单元的名单。

抽样方法:
1. 简单随机抽样(simple random sampling):

从包括总体N个单位的抽样框中随机地、一个个地抽取n个单位作为样本,每个单位的入样概率是相等的。

每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。

2. 分层抽样(stratified sampling):

将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。

保证样本中包含有各种特征的抽样单位,且样本结构与总体结构相近,可以提高估计的精度;可能会使实施调查更为便利;即可以对总体参数进行估计,也可以对各层的目标量进行估计。

3. 整群抽样(cluster sampling):

将总体中若干单位合并为组,这样的组成为群。抽样时直接抽去群,然后对中选群中的所有单位全部实施调查。

抽取样本时只需要群的抽样框,简化了编制抽样框的工作量,也可一定程度上节省调查成本,但其估计的精度较差,误差较大。一般说来,要得到与简单随机抽样相同的精度,整群抽样需要增加基本调查单位。

4. 系统抽样(systematic sampling):

将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机抽取一个单位作为出事单位,然后按事先制定好的规则确定其他样本单位。典型的是先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k、r+2k……等单位。

系统抽样操作简便,可以有效提高估计的精度。

5. 多阶段抽样(multi-stage sampling):

首先抽取群,再进一步抽样,即在整群抽样的基础之上再抽取若干单位进行调查。将这种方法推广,使抽样的阶段数增多,就称为多阶段抽样。

每增加一个抽样阶段就会增添一份估计误差,用样本对总体进行估计也就更加复杂。

除以上五种概率抽样的方法之外,还有非概率抽样,如方便抽样,调查过程中调查员根据方便的原则,自行确定作为样本的单位;判断抽样,研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本;自愿样本,被调查者自愿参加抽样,成为样本中的一份子;滚雪球抽样,首先选择一组调查对象实施调查之后,再请他们提供下一批属于研究总体的调查对象;配额抽样,将总体中的所有单位分类,然后在每一类中采用方便抽样或判断抽样的方式选择样本单位。

具体搜集数据的基本方法可以有以下几种,如自填式,面访式,电话式,三种搜集方法的特点如下:

项目 自填式 面访式 电话式
调查时间 中等
调查费用
问卷难度 要求容易 可以复杂 要求容易
有形辅助物的利用 中等利用 充分利用 无法利用
调查过程控制 简单 复杂 容易
调查员作用的发挥 无法发挥 充分发挥 一般发挥
回答率 最低 较高 一般

2.2.2 实验方法

搜集数据的另一大类方法是通过实验,在实验中采取控制变量法,在有控制的条件下得到观测结果。例如17世纪初,英国海军曾试图通过实验法找到坏血病的起因。

2.3 思维导图总结

参考资料:
[1] 贾俊平等.,统计学(第七版)[M],北京,中国人民大学出版社,2018年1月

【Data Science · Statistics 02】统计数据从哪里来相关推荐

  1. Introducing DataFrames in Apache Spark for Large Scale Data Science(中英双语)

    文章标题 Introducing DataFrames in Apache Spark for Large Scale Data Science 一个用于大规模数据科学的API--DataFrame ...

  2. c 窗体中添加mysql控件,MYSQL 统计数据-svn服务器启动-WinFrom控件库|.net开源控件库|HZHControls官网...

    统计数据的重要性相信了解ORACLE数据库的都非常清楚,他是生成执行计划的唯一标准,所以统计数据是否准确直接影响到执行计划的正确性, 关于MYSQL虽然没有ORACLE那么多维度的统计数据(比如直方图 ...

  3. The Data Science of Gaming and Fantasy Sports 游戏与幻想体育的数据科学 Lynda课程中文字幕

    The Data Science of Gaming and Fantasy Sports 中文字幕 游戏与幻想体育的数据科学 中文字幕The Data Science of Gaming and F ...

  4. Neoj图数据科学库(The Neo4j graph data science library)使用指南

    目录 介绍 算法 图目录 版本 安装 支持的Neo4j版本 Neo4j Desktop Neo4j Server Enterprise 版本配置 Neo4j Docker Neo4j Causal C ...

  5. 香港大学数据科学(HKU Data Science) 笔试面试经验贴汇总

    2019: 笔试: 形式:总共1个小时,选择*10(5选项,4分,错了扣1分)+编程题*1(20分) 题型:高阶特殊矩阵的行列式的计算:泊松分布:贝叶斯概率公式:正态分布:概率论的实际应用题:函数的求 ...

  6. 香港中文大学深圳(CUHKSZ)数据科学硕士(MSc in Data Science)笔试面试经验(2018/9/16)

    香港中文大学深圳(CUHKSZ)数据科学硕士(MSc in Data Science)笔试面试经验(2018/9/16) 写在前面的前面(2020.5.3) 写在前面(2019.2.19) 关于申请 ...

  7. 收集优化统计数据(Optimizer Statistics)的最佳实践方法

    介绍 oracle优化器对一个sql语句检测所有可能的执行计划并选择一个成本值最小的,这里的成本代表了一个特定执行计划的资源使用情况.为了让优化器能准确的判断一个执行计划的成本它必须要关于sql语句要 ...

  8. 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics

    数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...

  9. 数据库笔记02:查询与统计数据

    /***************************  第二单元:查询与统计数据 ***************************/ /* SELECT [DISTINCT][TOP n [ ...

  10. Data Science Foundations: Data Mining 数据科学基础:数据挖掘 Lynda课程中文字幕

    Data Science Foundations: Data Mining 中文字幕 数据科学基础:数据挖掘 中文字幕Data Science Foundations: Data Mining 所有数 ...

最新文章

  1. 组合特征(四)linearsvm-tfidf(word)+lr-tfidf(article)
  2. 关于VC中的stdafx.h
  3. poj1018 Communication System (有道翻译完全拯救不了)
  4. Mongodb数据库(1.mongodb的介绍(非关系型数据库)下载与安装(Windows10))
  5. 解读Android LOG机制的实现
  6. new HashMap<String, Object>();
  7. grep参数说明及常用用法
  8. 中缀表达式转后缀表达式两位数_再见,正则表达式!
  9. java swing 知乎_java swing 界面开发
  10. 在矩池云上Hugging Face使用清华源
  11. delphi formshow 刷新_OPPO K7x部分配置和外观公布90Hz刷新率11·4发布
  12. 苹果mac轻量级思维导图软件:Xmind
  13. 你可能不知道的 Android Studio 小技巧之「多行编辑」
  14. 《波斯王子-时之砂》精美图文攻略
  15. 人生最要紧的是充实自己
  16. mybatis_07动态SQL_foreach循环
  17. python滚动条翻页爬取数据_scrapy实践之翻页爬取的实现
  18. 基于asp.net大学生助学贷款管理系统#毕业设计
  19. 王道考研操作系统同步与互斥(王道大题详解)
  20. 如何完成一款游戏? | 独立游戏制作

热门文章

  1. RF无线射频电路设计干货分享
  2. 分享一套基于HTML5的网络拓扑图组件 Qunee下载
  3. cad---菜单,工具栏,屏幕菜单,增强工具栏
  4. VS配置arduino环境
  5. 计算机二级c语言考试显示未作答,计算机二级等级考试交卷时显示我的ppt未做答,但是我做了的,是不是我ppt就没有成绩了...
  6. Google Chrome(谷歌浏览器)安装使用
  7. linux 端口关闭防火墙设置,LINUX关闭防火墙、开放特定端口等常用操作
  8. [网络安全自学篇] 六十.Cracer第八期——(2)五万字总结Linux基础知识和常用渗透命令
  9. Spark学习笔记[3]-Spark安装部署
  10. 冰点文库下载器V3.1.4