第一次自己一个人做论文,虽然失败了。。。但是整个过程还是值得好好复盘。

希望能给以后的同学提供一些借鉴,也希望大佬们能够多多指出问题!

首先,根据自己研究的方向查阅文献,找到自己的被解释变量、解释变量、需要的控制变量。

(此处,老师的建议是先把基础的财务报表上的数据都下下来,然后再进行变量的生成,这样更加方便,也有助于后期突发的其他变量的需要,一个一个数据集的合并真的很麻烦(本人本着怀疑的态度又按照这种方法试了一遍))

国泰安的数据查找

打开国泰安数据库,点上面的数据中心即可找到各种数据集,有些数据有直接的数据,但有些数据仍然需要自己想办法生成。

一些数据所在的数据集

  • 公司所在地:公司研究——首次公开发行(A股)里有公司注册地、公司拟上市地,但地区数据有些混乱,例如只写深圳市不写广东省,导致省份数据不能直接substr,需要先用excel筛选功能进行初步的处理。
  • 高管数据:大部分在 公司研究——治理结构里。
  • 国企、非国企:在公司研究——股权性质里。

国泰安上数据的下载

我一般选这种格式,不知道其他的有什么区别。

下载之后,解压到相应的文件夹(一定要解压!)

CSV数据到stata数据

insheet using 数据文件的所在地址

从国泰安数据库里下载下来的数据集还包括一个DES文件

 这里直接给数据贴标签有更简单的方法了

直接下载Excel格式(参考连享会文章)

ssc install nrow, replace
ssc install labone, replace

labone, nrow(1)

将其复制到excel表里再善用分列功能

利用lower()等功能处理成

再将其复制到do文件,再点击执行就可以将下载的数据集里label进行重新命名

这样就拿到了一份比较基础的stata数据集,如果还需要新的变量采用merge

#在merge之前往往需要提取出year年度变量,国泰安的年份数据是以会计截止日期显示的

gen year = substr(accper,1,4)

#将年度数据从字符串转化成数值类型

destring year, replace

#正式merge

merge 1:1 stkcd year using 合并的数据集
keep if _merge==3
drop _merge

当然keep if _merge==3也不能乱用,需要进行一个大致的分析,判断是不是之前的数据有缺漏、两个数据集存在差异等问题导致不是所有的数据都能完全合并上。

在merge的过程中可能会出现存在重复值的可能,注意报错的英文

此时采用duplicates

先用 duplicates list var看看是哪些数据重复了,这些数据是否能够直接删掉。

如果可以即可采用duplicates drop var,force

对数据进行初步的统计与清理

得到数据后,往往不能直接使用,因为存在异常值

首先sum var 看看最大值最小值是否异常

也可画图观察

推荐视频腾讯视频 (qq.com)https://v.qq.com/txp/iframe/player.html?origin=https%3A%2F%2Fmp.weixin.qq.com&vid=a0650bhh02l&autoplay=false&full=true&show1080p=false

#直方图

hist var

#箱型图

graph box var

#小提琴图,需要先下载vioplot

vioplot var

分别长(出图会有点慢)

发现有异常值后

再进行缩尾截尾等处理(可见我之前写的另一篇文章关于异常值处理的)

#缩尾

winsor2 var,cut(1 99)

#截尾

winsor2 var,cut(1 99) trim

如果想直接用缩尾、结尾数据替代原有变量,则在cut前加上replace。但尽量都别动原有数据,不然不利于后续的改动。

除此之外

还有一些常见的数据处理,会随着积累慢慢增加上来

#剔除金融行业数据

drop if substr(行业名称,1,1)="I"

还有一个建议

建议大家打开数据集的时候,尽量不要重新打开,而是用clear,这样会更利于用之前用过的数据处理代码,对于每个数据集需要打开关闭的时间节点考虑得更清晰,而不是随便重新打开,关闭的时候也不知道自己处理到那个步骤了,能不能replace原有数据。

希望大家都能跑出理想的结果!(再次心疼一下自己)

stata实操|从国泰安到stata数据集以及初步的数据处理相关推荐

  1. Stata实操陷阱:动态面板数据模型

    全文阅读:https://www.lianxh.cn/news/cc6c5ea80d70c.html 作者:李琼琼 (山东大学) 邮箱:lqqflora@163.com     目录 1. 问题背景 ...

  2. python读取csmar_wind数据转为国泰安数据 stata命令

    . list, sepby(证券简称) +--------------------------------------------------+ | 证券简称      j    证券代码       ...

  3. 手把手实操|深度剖析电商贷款风控相关细节(电商贷模型)

    序言: 在电商领域中,一直都有这样的场景:对于电商企业而言,资金短缺是经常出现的问题,尤其是在目前疫情状况下,经济下行,营业额逐渐降低,现金流紧张,企业这时就会考虑去借贷融资. 有需求就有供给,目前许 ...

  4. 事件研究法与其应用(2)---Excel实操步骤

    我们借着学习事件研究法的应用,可以用Excel和Stata等软件进行操作. 今天这主要是利用EXCEL计算累积异常收益率. 在正式开展实操之前,我们先回顾一下事件研究法的步骤(尤其是我们写作论文的时候 ...

  5. PSM倾向得分匹配法【python实操篇】

    前言 大家好,我是顾先生,PSM倾向性得分匹配法的Python代码实操终于来啦! ​ 对于PSM原理不太熟悉的同学可以看看前一篇文章:PSM倾向得分匹配法[上篇:理论篇] 目前网上PSM实操的相关文章 ...

  6. 免费下载 |《数据分析从理念到实操》白皮书上线!先收藏!

    今日,神策数据重磅推出<数据分析从理念到实操>白皮书. 该白皮书结合神策数据服务的 1000 多家各行业标杆企业的实践经验,总结了如何构建数据基础.看数据.分析数据.落地数据应用.构建数据 ...

  7. 全国Python科研应用专题实操培训班

    Python是一门简单的.解释型的.交互式的.可移植的.面向对象的编程语言.由于其语法简洁清晰,支持命令式编程.函数式编程,完全支持面向对象程序设计,近来在大数据分析与处理.深度学习.科学计算可视化及 ...

  8. 全国Python科研应用专题实操培训班通知

    Python是一门简单的.解释型的.交互式的.可移植的.面向对象的编程语言.由于其语法简洁清晰,支持命令式编程.函数式编程,完全支持面向对象程序设计,近来在大数据分析与处理.深度学习.科学计算可视化及 ...

  9. 工欲善其事必先利其器,TI-ONE平台“实操手册”在这里!

    为帮助选手们更好地备战赛事,2021腾讯广告算法大赛官方于5月10日至5月12日每晚七点,开启了"视"界杯系列专题直播活动.在5月11日的直播中,腾讯云高级工程师谢博文.彭彪及腾讯 ...

最新文章

  1. 性能测试应该怎么做?
  2. java的static和private_static关键字什么意思?Java中是否可以覆盖一个private或者是static的方法?...
  3. Groovy预览--文本处理
  4. python正则匹配所有的中文,数字和英文
  5. blockly和Java交互_blockly 基础学习(一)
  6. Android之用adb screencap -p命令截图
  7. 牛客题霸 [判断回文] C++题解/答案
  8. 快速分类–三向和双枢轴
  9. 用java实现邮件发送验证码
  10. ubuntu16.04根目录扩容
  11. 管理感悟:再好的设计,不如能运行的原型
  12. C语言经典100例-6
  13. 进销存excel_简单易操作!Excel免费进销存管理系统!不花钱的进销存管理软件...
  14. php 批量下载网页文件,批量下载文件(以xxx网站为例)
  15. 视频编码解码(H264中的profile和level)
  16. 全国计算机演示文稿,全国计算机统考押题——演示文稿
  17. 计算机和人类处理信息的过程,信息处理的一般过程
  18. 防治脖子痛的简易保健操
  19. 【钉钉发送消息 上传文本 群主发送工具类】
  20. Python 文件加密

热门文章

  1. 快速了解helmet的使用
  2. 爬虫:b站(bilibili)电影《鹰猎长空》短评
  3. 三层别墅还有地下室,如何做到网络和Wi-Fi全覆盖?
  4. Java读取txt文件、excel文件的方法
  5. 【转载】用外部程序启动AutoCAD方法的研究(启动闪屏制作与CreateProcess启动操控AutoCAD探索)
  6. SVN 常见4种 无法弹出登录窗
  7. vue中怎么重置data和data中某个属性的初始状态?
  8. 台式计算机显卡维修视频,台式机集成显卡的维修方法
  9. MSP430F149——中断及案例
  10. 使用傅立叶变换清理时间序列数据噪声