datagrid出现相同两组数据_stata 数据操作基础知识:以一篇论文数据操作为例

stata 数据操作基础知识:以一篇论文数据操作为例

上节回顾及问题

统计学学习大图景
数据描述
分位数回归

存在的问题：
1、学了就要多使用，哪怕生搬硬套也要多用
2、时间序列的方法，大家可以操作，却难以解释结果，也不知道怎么选择模型

各组主题与数据汇报

本节内容

掌握stata论文写作操作技能
stata论文写作的六张表
数据导入
样本分布的表格编制；
主要变量的描述性统计；
单变量之间的分组检验；
相关性分析；
回归分析。

一篇标准的毕业论文至少要有六个表格

1、样本分布表

2、变量定义表

以下这篇文章探讨的是Ananum是否会影响Delta_cash 、OverInv 、UnderInv这三个变量就行了。这三个变量的定义请仔细看看。

（1）关键变量是我们要着重考察的效应，一般而言，其结果要符合我们的假说。
（2）控制变量是，也会对被解释变量Y产生显著影响的变量，但并非我们假说要考察的因素。当一个变量（非关键变量）对被解释变量影响超过10%（取掉的话，R方会下降0.1及以上），就要考虑将它作为控制变量放到回归模型中。

3、描述性统计表

4、均值差异检验和中位数差异检验表（单变量差异检验表）

5、相关性分析表

6、回归分析表

练习与操作

大家打开邮箱里的数据表。
上市公司2004-2012

基本操作包括如下六个部分:

1.数据导入；

2.样本分布的表格编制；

3.主要变量的描述性统计；

4.单变量之间的分组检验；

5.相关性分析；

6.回归分析。

样本分布的表格编制

在命令窗口输入如下命令，然后回车。

tabstat anad , by(year) s(sum count)

菜单:
Statistics > Summaries, tables, and tests > Other tables > Compact table of summary statistics 或
统计>汇总，表格和假设检验>其它表>简明统计表

tabstat是Stata自带的程序命令，Stata的程序格式通常都是这样安排的，第一个“单词”或“字母组合”是其自带的程序命令。
anad是标记公司有没有分析师跟踪的变量，有就标记为1，没有分析师跟踪就标记为0（这个变量是手工标记的变量，成为逻辑变量）。对这个变量进行分年汇总求和就可以得到当年有分析师跟踪的样本公司总数。
by(year)是分年统计的意思。
s(sum count)意在输出变量anad的两个统计量，总和（sum），总观测数（count）。总观测数扣减总和就是没有分析师跟踪的公司数量。仔细想想为什么。

主要变量的描述性统计

tabstat delta_cash overinv underinv ananum cashflow fcf_p fcf_n absda size lev roa tobinq delta_std , s(count mean median sd min max)

tabstat是输出描述性统计非常好用的命令。

菜单:
Statistics > Summaries, tables, and tests > Other tables > Compact table of summary statistics 或
统计>汇总，表格和假设检验>其它表>简明统计表

delta_cash overinv underinv ananum cashflow fcf_p fcf_n absda size lev roa tobinq delta_std是文章的被解释变量、关键变量和控制变量。

s(count mean median sd min max)是说要生成的：总观测数、均值、中位数、标准差、最小值和最大值。共5项统计量。当然，如果你想生成其他统计量，可以在括号里添加，比如分位数q。

单变量分组检验

有时候我们需要知道两个班级的成绩是否存在差异，从而比较班级成绩的优劣，使用简单的均值进行比较是不全面的。两个班级平均分差不多，但是一个班级高分和低分都特别多，另一个班级则比较平均。此时需要在比较时考虑数据的波动因素。这便引出了均值差异检验和中位数差异检验。这两种检验可以告诉我们两组数据到底有没有差异。

参数检验：T检验（均值检验）

ttest delta_cash,by (pc3)

ttest菜单命令

Statistics > Summaries, tables, and tests > Classical tests of hypotheses > t test (mean-comparison test)
统计>汇总，表格和假设检验>古典假设检验>t检验（均值-比较检验）

做均值检验要一个一个变量来做。ttest 就是做均值检验的命令。

by(pc3)是说根据pc（政治关联）分组，检验有政治关系的企业和没有政治关系的企业，在现金流量（delta_cash）方面，有无显著差异。

当然有差异，你看到无政治关联企业的现金流减去有政治关联企业的现金流后，得到负数。并且统计检验的P值<0.01，三颗星***显著。

注意下面这句话，你会经常碰到。

***表示检验在1%的水平上显著， **表示检验在 5%的水平上显著， *表示检验在 10%的水平上显著。

统计表格里有些差异标了*，有些没有，只有标了才能说两组有差异，标的越多，说明差异的可能性越大。Pr(|T| > |t|) =0.0000 ，这个数就是P值。

当P值<0.01，则表示检验在 1%的水平上显著，标记***。
当0.01<P值<0.05，则表示检验在 5%的水平上显著，标记**。
当0.05<P值<0.1，则表示检验在 10%的水平上显著，标记*。

非参数检验： wilcoxons 检验

tabstat delta_cash ,by (pc3) s(median)
ranksum delta_cash,by (pc)

Statistics > Summaries, tables, and tests > 其它表> 简明统计表
统计>汇总，表格和假设检验>其它表> 简明统计表

非参数检验在

Statistics > Summaries, tables, and tests > 非参数假设检验>wilcoxons test
统计>汇总，表格和假设检验>非参数假设检验>wilcoxons test

非参数检验也是要一个一个变量来检验，主要检验有政治关系的上市公司和没有政治关系的上市公司在现金流变量方面有无差异。

这个检验分两个部分。

第一部分是比较两组数据的中位数差异。
第二部分是检验这种差异是否显著。

对差异分析结果的解释与上面的解释类似。只不过P值的计算方法出现了变化。

Prob > |z|= 0.0000，这个数就是P值。

回归分析

xi:reg delta_cash cashflow cashflow*ananum ananum absda delta_std delta_nwc expend tobinq roa lev size i.indcode i.year if pc==0

reg是stata的回归命令。

xi:配合后面的i.indcode和i.year，是为了控制年份和行业。

if pc==0，表示本次回归只输入没有政治关联的公司数据。

P>|t|下面的数据，就是针对每个回归系数进行检验的P值。你不需要理解P值的原理，但是你必须知道只有P值显著，我们才能说cashflow对delta_cash 有影响。不显著的话，则称未发现cashflow对delta_cash 有显著性影响。回归分析的任务就是发现哪些解释变量，对被解释变量有显著影响。因此，有没有*很重要，*越多越好。

xi:reg菜单

Data > Create or change data > Other variable-creation commands > Interaction expansion
数据>创建或改变数据>其它变量创建命令>虚拟变量

分别对无政治关联（pc==0）和有政治关联（pc==1）的企业进行两次回归。得到以下结果，通过对比获得一定结论。

reg是stata的回归命令。

xi:配合后面的i.indcode和i.year，是为了控制年份和行业。

if pc==0，表示本次回归只输入没有政治关联的公司数据。

整理到处合并后数据表格

数据合并

上节讲了数据描述，这里再补充数据合并stata操作。
数据合并有两种不同方式，一种是横向合并，比如年份相同或截面（序号）相同的数据合并，但变量不同，此时要使用merge命令。
另一种是纵向合并，当变量相同，但属于两个来源的样本需要合并时，采用append，命令

use x1.dta, clear<br>
sort id name<br>
save stat.dta, replace<br>use x2.dta, clear<br>
sort id name<br>
merge 1:1 id name using stat.dta<br>

然后运用

merge1:1 变量 using 数据集2
或merge1：m，或者merge m:1，或者merge m:n来进行合并。
冒号前的代表数据1，冒号后代表数据2。

如果两个数据中的某变量的数据都是唯一的，则用1:1,；

如果数据1中某变量的数据有多个，而数据2中某变量的数据是唯一的，则用merge m:1；

如果数据1中某变量的数据是唯一的，而数据2中某变量的数据有多个，则用merge 1:m；

如果数据1和2中某变量的数据均有多个，则用merge m:n

命令格式为

Data > Combine Datasets > Merge Two Datasets
或
数据>合并数据集>合并两个数据集

merge完之后结果窗口会出现下列信息，同时表格中会出现一个新的变量_merge，当_merge为1时，该数据仅在主数据集中存在；当_merge为2的时候，该数据仅在用于匹配的数据集中出现；当_merge为3的时候才表示匹配成功，数据在两个数据集中同时存在。

接着我们可以直接keep if _merge==3，则可以保留匹配成功的数据，删除匹配不成功的数据。

如果我们需要进行多次merge，不要忘记将_merge变量删除。drop _merge就可以实现。

纵向合并
如果我们想实现数据的纵向合并，可以使用append命令。

①首先导入两个数据集1和2；

②使用append命令，append using 数据2，就可以直接将数据2拼接到数据1的下面。

如果数据2中没有数据1的某些变量数值，则stata自动生成.（缺失值）。

删除变量

drop 变量
或
drop if 变量==x

删除缺失值

foreach in 变量1 变量2 .....{drop if `i`==.
}

字符串转数字

如果复制到stata 的数据呈现红色，表明需要将标红的字符串转为数字

destring 变量, replace force

日期数据的转化

gen 新日期变量t = date(数据表的日期变量“日期”, "YMD")

下一节的课程

1.数据的正态性检验；

2.Stata对单变量作图；

3.Stata对多变量作图；

4.异方差的调整；

5.多重共线性与方差膨胀因子。

课后作业

各组进一步讨论主题，并完善数据，使用本节介绍的stata论文写作6个步骤，做出一篇stata论文。提交时间：下周日之前

本节回顾

stata论文写作的六张表
数据导入
样本分布的表格编制；
主要变量的描述性统计；
单变量之间的分组检验；
相关性分析；
回归分析。

本节主要内容、数据及论文来自mosuchen的一篇知乎高赞帖子《1小时用Stata速成毕业论文》 https://zhuanlan.zhihu.com/p/54757747，感谢杨玉龙老师及其团队的无私分享。