第1章 Stata管理变量与数据

1.1创建和替代变量

数据（案例1.2）
例1.2是我国2009年各地区的就业人口以及工资总额数据。请使用Stata命令进行操作：（1）试着生成新的变量来描述各地区的平均工资情况；（2）试着生成平均工资变量来替代原有的工资总额变量；（3）对生成的平均工资变量数据均做除以10的处理；（4）对就业人口变量进行对数平滑处理，从而生成新的变量。

generate avwage = sumwage/people

本命令的含义是生成新的变量来描述各地区的平均工资情况。结果如图所示：

replace sumwage = sumwage/people

本命令的含义是生成平均工资变量来替代原有的工资变量总额。结果如图所示：可以看到我们替换的变量是与刚才生成的avwage数值相同。

replace sumwage = sumwage/10

本命令的含义是对生成的平均工资变量数据均做除以10的处理。结果如下图所示：

gen lpeople = ln(people)

本命令的含义是对就业人口变量进行对数平滑处理从而产生新的变量。结果如图所示：

1.2分类变量和定序变量的基本操作

数据（案例1.3）
在很多情况下，我们会用到分类变量（虚拟变量的）的概念，分类变量的用途是通过定义值得方式将观测样本分类。例如，根据数据的某一变量特征的不同把观测样本分为3类，就需要建立3个分类变量A/B/C，如果观测样本属于A类，其对应的分类变量A的值就为1，对应B的分类变量B和C的值就为0。顶需变量的用途是根据数据的数值大小将数据分到几个确定的区间，其在广义上也是一种分类。
例1.3是某国际知名足球裁判执法以来在各地区的执赛信息。试着使用Stata对数据进行一下操作：（1）试着生成新的分类变量来描述比赛级别；（2）试着生成新的定序变量对场数进行定序，分到3个标志区间。

tabulate type,generate(type)

本命令得含义是生成新的分类变量来描述比赛级别。结果如图所示：第一张图得Freq是值得频率，可以看到省比赛得频率是6国际得是4，后面依次是百分比和累计百分比。

generate number1 = autocode(number,3,1,25)

本含义得命令是生成心得定序变量对场数进行定序，分到3个标志区间。结果如图所示：定序变量跟场数进行对照着看你就能得到结论。

案例延伸：
以本节中得案例为基础，试生成新的分类变量按数值大小对场数进行4类定序

sort number
generate number2=group(4)

结果如图所示：

1.3 数据得基本操作

在对数据进行分析时，可能会遇到需要针对现有得数据进行预处理得情况。在本节中，我们将实例讲解常用得集中处理数据得操作，包括对数据进行长短变换、把字符串数据转换为数值数据、生成随机数等。
数据（案例1.4）
例1.4长江集团是一家国内大型连锁销售钢管得公司，该公司一直在北京、天津、河北、山西、内蒙古等地展开经营活动，2008-2010年在上述地区得开店情况如图所示。试着完成以下工作（1）将数据进行长短变换。（2）将数据变换回来，并把地区字符串变量转换成数值数据。（3）生成一个随机变量，里面包含0-1得15个随机数据

一共4个变量，地区、2008年店数、2009年店数、2010年店数。

reshape long number,i(region)j(year)
reshape wide number,i(region)j(year)

本含义得命令是将数据进行长短变换。结果如图所示

encode region ,generate(regi)

本命令得含义是将数据变换回来并把地区字符串变量转换成数值数据。结果如图所示

set obs 15
generate suiji = uniform()

本命令得含义是生成一个随机变量，里面包含0-1得15个随机数据。结果如图所示。

案例延伸：

set obs  15
generate suiji=9+9*uniform()

从【9，18】之间随机生成15个数据

set obs 15
generate suiji = 9+trunc(9*uniform)

从【9，18】之间随机生成15个数据且取整

1.4定义数据得子集

数据（案例1.5）
试着完成以下工作
（1）列出第三条数据
（2）列出第1-3条数据
（3）列出变量值“shshangjiao”最小的两条数据
（4）列出变量值“year”大于2005的数据
（5）列出变量值“year”大于2007且变量值“shangjiao”大于865的数据
（6）删除第三条数据
（7）删除变量值“year”等于2005的数据
（8）删除变量值“year”大于2005且变量值“shangjiao”大于865的数据。

命令如下：

（1）list in 3
（2）list in 1/3
（3）sort shenjiao #默认是升序排序list year shenjiao shenjiao in 1/2
（4）list if year>2005
（5）list if year >2007 & shangjiao > 865
（6）drop in 3
（7）drop if year == 2005
（8）drop if year>2005 & shangjiao > 865