今天将各个模块中,具有代表性的分析方法的数据格式进行一个汇总说明,本文主要介绍以下内容:

一、规范格式说明

‍1、原始数据格式

我们在进行数据分析时,最常见的数据格式是原始数据格式。

下图是一份常见的原始数据,它的特点是:一行代表一个样本,一列代表一个属性(变量)

原始数据格式的特点是,调查有多少样本,就需要录入多少行数据;如果调查了500个样本,那么就需要录入500行数据。每一行代表每个样本收集的所有数据,每一列代表每个属性(变量)的所有数据。

‍2、加权数据格式

除原始数据格式外,还有一些分析方法还会使用到加权数据格式,在医学/实验研究中,很多时候只有汇总数据,即带加权项的数据,如卡方检验等。下图为卡方检验的加权数据,加权数据格式的特点是:基本只针对全部为定类数据的研究时使用,且只提供汇总数据,不提供原始数据

在进行数据分析时,单单掌握原始数据格式和加权数据格式还是不够的,因为每一种分析方法对应的数据类型与数据格式都不尽相同,只有将数据整理成分析方法要求的格式才能正常使用软件进行对应的分析,从而得到正确的分析结果。

接下来从几个方面介绍一些典型的分析方法的数据格式。

二、常用差异性分析方法数据格式

毕业论文常用的差异性分析方法有方差分析、t检验、卡方检验,一些代表性分析方法数据格式如下说明。

‍1、方差分析、t检验

方差分析和t检验都是常见研究不同组别之间差异性的方法,比如不同学历时收入的差异。那么数据中就一定要包括不同组别X(如学历)和分析项Y(如收入)。

有时候只有分析项(比如3个分析项),但是现在希望对比这3个分析项的差异,那么就需要对数据进行改造,自己加入一列‘组别’,然后把数据重叠起来得到分析项Y,类似如下图:

提示:方差分析(单因素方差)与t检验的区别在于t检验只能对比两类数据之间的差异,而方差分析可对比多组数据之间的差异,但二者数据格式类似。

2、卡方检验

卡方检验用于研究X与Y之间的差异性,并且X与Y均为定类数据。使用SPSSAU中的卡方检验进行研究时,支持常规数据格式和加权数据格式两种形式。常规数据格式适用于原始数据,加权数据格式适用于只有汇总数据的情况。

加权数据格式说明如下:比如下图中X有2种情况,Y有3个情况,一种有2*3=6种组合,数据信息只有6种组别的汇总项(即加权项),分别是40,10,20,30,20,50;相当于总共有170个样本。整理为加权格式即只需要录入6行即可。

除了卡方检验外,还有一些方法支持加权数据格式,如下:

  • 【可视化】词云
  • 【问卷研究】对应分析
  • 【实验/医学研究】卡方检验
  • 【实验/医学研究】Kappa
  • 【实验/医学研究】配对卡方
  • 【实验/医学研究】Poisson回归
  • 【实验/医学研究】Ridit分析
  • 【实验/医学研究】卡方拟合优度
  • 【实验/医学研究】Poisson检验

3、配对t检验

配对数据的格式比较特殊,例如研究实验组与对照组之间的差异,常见的配对数据研究方法比如配对样本t检验、配对卡方、配对样本Wilcoxon检验等。数据格式如下图:

配对数据一般是在实验时使用,而且配对数据的特点为:行数一定完全相等并且只有两列

如果研究数据的行数不相等,那可能不是配对数据,如果还想对比差异,可能需要使用独立t 检验。

4、重复测量方差

重复测量数据是指同一批样本(病例)在不同的时间点测量了多次数据,因此重复测量数据的特殊之处在于一定会有ID号(即样本或者病例号),以及时间点数据

如下图:同一个ID会有多个时间点的数据,比如下面有12个样本(12个ID号),并且测量5个时间点。那么就一定会有12*5=60行数据。同一个ID号会重复5次,同一个时间点会重复12次。

三、常用影响关系分析方法数据格式

1、多元线性回归

多元线性回归分析用于研究自变量X对因变量Y的影响关系情况,通常自变量个数不止一个,数据格式如下:

2、条件logit回归

条件logit(logistic)回归时,配对编号ID用于标识ID,而且是配对,因此一个ID会出现多次,比如1:1配对,那么1个ID就会出现2次(1:2配对时,1个ID就会出现3次);因变量Y一定只能包括数字0和1,类似数据格式如下图:

3、Possion回归、负二项回归

Poisson回归或负二项回归时,如果数据中带有基数,比如‘患癌症’人数是Y,而且患癌症人数是基于某个省而言,那么基数就是‘每省的人口总数’,类似数据格式如下图:

四、常用降维分析方法数据格式

因子分析&主成分分析

因子分析和主成分分析时,一列标识1个指标,一行为1个样本;如果为面板数据,比如100家公司每家公司10年,那么就会有100*10=1000个样本,可能需要单独两列分别是公司名和年份来标识面板格式而已,但因子分析与主成分分析并不区分是否面板数据,只针对指标进行分析即可,另一般分析样本量需要超出分析项(指标)的5倍,类似数据格式如下图:

五、常用综合评价方法数据格式

1、AHP层次分析法

AHP层次分析法的数据格式(即判断矩阵)最为特殊,如下图,研究人员可修改指标项名称,以及白色单元格内的数字即可。判断矩阵是 ‘ 下三角 ’ 完全对称矩阵,因此 ‘ 白色 ’ 底纹处的信息变化时, ‘ 蓝色 ’ 背景的信息会自动变化。

2、熵值法

熵值法用于指标的权重情况。1个指标占用1列数据。下图中样本编号只是个编号无实际意义,用于标识下样本的ID号,一般是比如年份一类的数据信息,分析时并不需要使用。

如果是面板数据希望进行熵值法,其数据格式如下图所示,比如有100家公司分别5年的指标数据,那么一共就有100*5=500行数据。数据格式上需要如此,但在分析时只需要放入‘指标列’数据即可。

3、模糊综合评价

模糊综合评价是对具有多种属性的事物,综合各因素作出一个总体评价。上传的数据一般包括三个部分:指标项、指标项权重、评价项,数据格式如下图:

指标项:为参与评价的考核指标,1行放1个。

指标项权重:如果说各个指标项有着自己的权重,那么就需要单独用一列表示 ‘ 指标项权重值’ ,如果没有此数据,则默认各个指标的权重完全一致。

评价项:是指类似于{优秀,良好,一般,差} 或{非常满意,满意,一般,不满意,非常不满意}这样的评价标准,1列放1个评价项。

4、灰色关联法

灰色关联法研究数据之间的关联程度,即特征序列与母序列的关联性情况。母序列单独使用一列标识,每个特征序列都使用1列标识。下图中样本编号只是个编号无实际意义,用于标识下样本的ID号,一般是比如年份一类的数据信息,分析时并不需要使用。

5、耦合协调度

耦合协调度研究不同系统之间的耦合协调情况,因此1列表示1个系统的数据,1行表示1个研究对象,其数据格式如下图所示:

6、TOPSIS法&熵权TOPSIS法

TOPSIS法和熵权TOPSIS法用于研究指标与理想解的接近度情况。1个指标占用1列数据,1个研究对象为1行,但研究对象在分析时并不需要使用,SPSSAU默认会从上到下依次编号。

六、常用预测方法数据格式

1、灰色预测模型

灰色预测GM(1,1)模型通常针对数量非常少的样本进行预测,如果数据带有时间项,其并不纳入分析项中,但自己整理数据时一般需要将数据依次按时间排序好,然后录入数据,类似数据格式如下图:

2、ARIMA模型&指数平滑法

ARIMA模型和指数平滑法是针对时间序列数据进行研究,时间序列的格式包括时间和实际分析项共两列。比如下图中年份就是时间项,“阿里双十一销售额(亿元)”就是实际分析项。

3、马尔科夫预测

如果是马尔可夫预测,通常包括两个数据,分别是‘初始概率值’和‘状态转移矩阵’。‘初始概率值’放在A列中。‘状态转移矩阵’是n*n矩阵格式,其从B列开始放入,并且B1这个单元格一定是空着的。类似如下图所示:

除以上分析方法外,还有下面这些分析方法的数据格式也需要注意:

毕业论文常见数据格式汇总相关推荐

  1. 2021年全网最详细大数据常见端口汇总❤️【建议收藏】❤️

    目录 大数据常见端口汇总 一.Hadoop 二.Zookeeper 三.Hbase 四.Hive 五.Spark 六.Kafka 七.Flink 八.Flume 九.Redis 十.CDH 十一.HU ...

  2. Linux常见命令汇总(不定期更新)

    Linux常见命令汇总 文件及目录相关命令 命令名称 释义 ls 查看目录下的内容 cd 目录跳转 pwd 打印工作目录 cp 拷贝 mv 移动文件及目录 rm 删除文件及目录 mkdir 创建目录 ...

  3. 正则表达式使用及常见表达式汇总

    最近接到一个内部搜索业务,本来是使用solr构建的分词搜索,但是在前期的数据量并没有那么大的情况下,使用者反馈使用分词反而不如精确匹配来的好用,所以运用相关正则表达式重写了一套搜索接口直接进行数据库检 ...

  4. mysql中常见错误代码汇总

    mysql中常见错误代码汇总: 我们操作mysql的时候经常会遇到一些错误并给出错误的代码,很难知道它是什么意思,下面给出常见的错误代码,方便查阅: 1005:创建表失败 1006:创建数据库失败 1 ...

  5. 全国计算机vb二级题型,全国计算机二级考VB机试常见题型汇总.doc

    全国计算机二级考VB机试常见题型汇总,计算机二级vb考试题型,计算机二级vb题型,vb二级考试题型,全国计算机二级vb题型,几何概型常见题型归类,线性规划的常见题型,解三角形常见题型,记叙文阅读常见题 ...

  6. Unity常见插件汇总

    Unity常见插件汇总 介绍 收集了相关的Unity插件,供大家学习使用,如果用于商业活动,请购买相关版权 插件列表 1. A* Pathfinding Project 一个功能强大并且易于使用的 U ...

  7. 机器学习常见术语汇总

    A 准确率(accuracy) 分类模型预测准确的比例.在多类别分类中,准确率定义如下: 在二分类中,准确率定义为: 激活函数(Activation function) 一种函数(例如 ReLU 或 ...

  8. 十几个CSS高级常见技巧汇总(虚线框、三角形、优惠券卡券、滚动条、多行溢出...)...

    大家好,我是 漫步,今天来分享一些比较高级复杂的CSS技巧,都是我们平常常用的,或许对你有所帮助. 设置input的placeholder的字体样式 单行和多行文本超出省略号 负边距使用技巧 定位同时 ...

  9. 基于python数据分析论文题目有哪些_统计学毕业论文题目(整理汇总100个)

    统计学毕业论文题目(整理汇总 100 个) 统计学作为一门综合性很强的学科,其运用范围非常广泛,不少学生在写作统计学 论文时,都困在了选题这一步,其实就统计学而言,可供作为论文题目的热词有很 多,如: ...

最新文章

  1. [导入]SQL中的临时表和表变量
  2. Javascript隐式转换
  3. pca图解读_干货!手把手一步一步解读PCA分析,逃学博士尽力了!
  4. FatMouse's Speed hdu 1160(动态规划,最长上升子序列+记录路径)
  5. Java Random nextInt()方法与示例
  6. oracle的tns错误,Oracle TNS-12514错误的解决步骤
  7. 【一文讲通】BLDC的六步法PMSM的FOC法综合
  8. 读书笔记 《TAOCP》 V1 S1.2
  9. sql语句的插入方式总结
  10. Win:在 Windows Server 中的 NIC Teaming
  11. 这些API接口,随便拿出来一个就能装逼、赚钱
  12. GGSN与SGSN简介
  13. Python在Excel单元格中写入公式
  14. [Vue][面试]谈一谈对vue的设计原则的理解
  15. 关于NullPointerException空指针异常的解决办法
  16. android11墓碑机制和addr2line使用
  17. FME如何采集肯德基中国的所有门店地址(一)
  18. CSDN日报20170515 ——《 聊聊我对 WannaCry 产生的感慨》
  19. 以太网RFC2544测试
  20. Java ~ 常用验证码实现大全。

热门文章

  1. 抖音提前批--后端开发
  2. 为了 GitHub 问题票,开发者做了一套小票打印机解决方案
  3. 动态密码 作为程序员之网络安全一定要看
  4. 【Excel】求和的几种方式
  5. Swat.io如何在两年内从MySQL迁移到PostgreSQL的
  6. 《大话数据结构》pdf
  7. 虚拟机和主机的文件交互
  8. 利用业余时间写了个微信
  9. html懒人编辑器,前端老司机分享——五个前端代码编辑器
  10. 【硬件】- 英特尔CPU命名规则