stata实操|从国泰安到stata数据集以及初步的数据处理
第一次自己一个人做论文,虽然失败了。。。但是整个过程还是值得好好复盘。
希望能给以后的同学提供一些借鉴,也希望大佬们能够多多指出问题!
首先,根据自己研究的方向查阅文献,找到自己的被解释变量、解释变量、需要的控制变量。
(此处,老师的建议是先把基础的财务报表上的数据都下下来,然后再进行变量的生成,这样更加方便,也有助于后期突发的其他变量的需要,一个一个数据集的合并真的很麻烦(本人本着怀疑的态度又按照这种方法试了一遍))
国泰安的数据查找
打开国泰安数据库,点上面的数据中心即可找到各种数据集,有些数据有直接的数据,但有些数据仍然需要自己想办法生成。
一些数据所在的数据集
- 公司所在地:公司研究——首次公开发行(A股)里有公司注册地、公司拟上市地,但地区数据有些混乱,例如只写深圳市不写广东省,导致省份数据不能直接substr,需要先用excel筛选功能进行初步的处理。
- 高管数据:大部分在 公司研究——治理结构里。
- 国企、非国企:在公司研究——股权性质里。
国泰安上数据的下载
我一般选这种格式,不知道其他的有什么区别。
下载之后,解压到相应的文件夹(一定要解压!)
CSV数据到stata数据
insheet using 数据文件的所在地址
从国泰安数据库里下载下来的数据集还包括一个DES文件
这里直接给数据贴标签有更简单的方法了
直接下载Excel格式(参考连享会文章)
ssc install nrow, replace
ssc install labone, replacelabone, nrow(1)
将其复制到excel表里再善用分列功能
利用lower()等功能处理成
再将其复制到do文件,再点击执行就可以将下载的数据集里label进行重新命名
这样就拿到了一份比较基础的stata数据集,如果还需要新的变量采用merge
#在merge之前往往需要提取出year年度变量,国泰安的年份数据是以会计截止日期显示的
gen year = substr(accper,1,4)
#将年度数据从字符串转化成数值类型
destring year, replace
#正式merge
merge 1:1 stkcd year using 合并的数据集
keep if _merge==3
drop _merge
当然keep if _merge==3也不能乱用,需要进行一个大致的分析,判断是不是之前的数据有缺漏、两个数据集存在差异等问题导致不是所有的数据都能完全合并上。
在merge的过程中可能会出现存在重复值的可能,注意报错的英文
此时采用duplicates
先用 duplicates list var看看是哪些数据重复了,这些数据是否能够直接删掉。
如果可以即可采用duplicates drop var,force
对数据进行初步的统计与清理
得到数据后,往往不能直接使用,因为存在异常值
首先sum var 看看最大值最小值是否异常
也可画图观察
推荐视频腾讯视频 (qq.com)https://v.qq.com/txp/iframe/player.html?origin=https%3A%2F%2Fmp.weixin.qq.com&vid=a0650bhh02l&autoplay=false&full=true&show1080p=false
#直方图
hist var
#箱型图
graph box var
#小提琴图,需要先下载vioplot
vioplot var
分别长(出图会有点慢)
发现有异常值后
再进行缩尾截尾等处理(可见我之前写的另一篇文章关于异常值处理的)
#缩尾
winsor2 var,cut(1 99)
#截尾
winsor2 var,cut(1 99) trim
如果想直接用缩尾、结尾数据替代原有变量,则在cut前加上replace。但尽量都别动原有数据,不然不利于后续的改动。
除此之外
还有一些常见的数据处理,会随着积累慢慢增加上来
#剔除金融行业数据
drop if substr(行业名称,1,1)="I"
还有一个建议
建议大家打开数据集的时候,尽量不要重新打开,而是用clear,这样会更利于用之前用过的数据处理代码,对于每个数据集需要打开关闭的时间节点考虑得更清晰,而不是随便重新打开,关闭的时候也不知道自己处理到那个步骤了,能不能replace原有数据。
希望大家都能跑出理想的结果!(再次心疼一下自己)
stata实操|从国泰安到stata数据集以及初步的数据处理相关推荐
- Stata实操陷阱:动态面板数据模型
全文阅读:https://www.lianxh.cn/news/cc6c5ea80d70c.html 作者:李琼琼 (山东大学) 邮箱:lqqflora@163.com 目录 1. 问题背景 ...
- python读取csmar_wind数据转为国泰安数据 stata命令
. list, sepby(证券简称) +--------------------------------------------------+ | 证券简称 j 证券代码 ...
- 手把手实操|深度剖析电商贷款风控相关细节(电商贷模型)
序言: 在电商领域中,一直都有这样的场景:对于电商企业而言,资金短缺是经常出现的问题,尤其是在目前疫情状况下,经济下行,营业额逐渐降低,现金流紧张,企业这时就会考虑去借贷融资. 有需求就有供给,目前许 ...
- 事件研究法与其应用(2)---Excel实操步骤
我们借着学习事件研究法的应用,可以用Excel和Stata等软件进行操作. 今天这主要是利用EXCEL计算累积异常收益率. 在正式开展实操之前,我们先回顾一下事件研究法的步骤(尤其是我们写作论文的时候 ...
- PSM倾向得分匹配法【python实操篇】
前言 大家好,我是顾先生,PSM倾向性得分匹配法的Python代码实操终于来啦! 对于PSM原理不太熟悉的同学可以看看前一篇文章:PSM倾向得分匹配法[上篇:理论篇] 目前网上PSM实操的相关文章 ...
- 免费下载 |《数据分析从理念到实操》白皮书上线!先收藏!
今日,神策数据重磅推出<数据分析从理念到实操>白皮书. 该白皮书结合神策数据服务的 1000 多家各行业标杆企业的实践经验,总结了如何构建数据基础.看数据.分析数据.落地数据应用.构建数据 ...
- 全国Python科研应用专题实操培训班
Python是一门简单的.解释型的.交互式的.可移植的.面向对象的编程语言.由于其语法简洁清晰,支持命令式编程.函数式编程,完全支持面向对象程序设计,近来在大数据分析与处理.深度学习.科学计算可视化及 ...
- 全国Python科研应用专题实操培训班通知
Python是一门简单的.解释型的.交互式的.可移植的.面向对象的编程语言.由于其语法简洁清晰,支持命令式编程.函数式编程,完全支持面向对象程序设计,近来在大数据分析与处理.深度学习.科学计算可视化及 ...
- 工欲善其事必先利其器,TI-ONE平台“实操手册”在这里!
为帮助选手们更好地备战赛事,2021腾讯广告算法大赛官方于5月10日至5月12日每晚七点,开启了"视"界杯系列专题直播活动.在5月11日的直播中,腾讯云高级工程师谢博文.彭彪及腾讯 ...
最新文章
- 性能测试应该怎么做?
- java的static和private_static关键字什么意思?Java中是否可以覆盖一个private或者是static的方法?...
- Groovy预览--文本处理
- python正则匹配所有的中文,数字和英文
- blockly和Java交互_blockly 基础学习(一)
- Android之用adb screencap -p命令截图
- 牛客题霸 [判断回文] C++题解/答案
- 快速分类–三向和双枢轴
- 用java实现邮件发送验证码
- ubuntu16.04根目录扩容
- 管理感悟:再好的设计,不如能运行的原型
- C语言经典100例-6
- 进销存excel_简单易操作!Excel免费进销存管理系统!不花钱的进销存管理软件...
- php 批量下载网页文件,批量下载文件(以xxx网站为例)
- 视频编码解码(H264中的profile和level)
- 全国计算机演示文稿,全国计算机统考押题——演示文稿
- 计算机和人类处理信息的过程,信息处理的一般过程
- 防治脖子痛的简易保健操
- 【钉钉发送消息 上传文本 群主发送工具类】
- Python 文件加密